Translational Psychiatry:基于机器学习和深度学习方法对抑郁症相关血液DNA甲基化的全面多队列探索
2024-07-28 xiongjy MedSci原创 发表于上海
本研究发现1987个与抑郁症相关的CpG位点,随机森林模型在批次处理的数据中表现最佳,AUC达0.76,而在特征预选的模型中,AUC最高达到0.91,显示了机器学习在抑郁症DNA甲基化分析中的潜力。
抑郁症是一种复杂的精神疾病,受多种因素的影响,包括生活经历、人际关系以及生物学决定因素如遗传学和表观遗传学。目前,抑郁症的诊断主要依赖于精神病学评估,临床上尚无实验室生物标志物用于验证。这种缺乏可靠的实验室诊断方法使得区分重度抑郁症(MDD)患者与暂时性低落情绪或其他类似精神疾病患者变得困难。
本研究利用八个不同的队列(包括六个公共队列和两个国内队列,共1942个样本)进行血液DNA甲基化的mega分析和meta分析,以评估抑郁症的甲基化标志物。通过使用12种机器学习和深度学习方法,对数据进行跨验证(CV)和持出测试,构建了包含有偏和无偏特征选择的模型。研究中采用的机器学习方法包括随机森林、支持向量机(SVM)和深度神经网络(DNN),而深度学习方法则包括多层感知器(MLP)和自编码器。
数据处理分为两个阶段:首先是数据的预处理,包括批次效应的校正和数据标准化;其次是特征选择,主要采用limma作为特征选择策略。此外,还探讨了不同特征选择方法对模型性能的影响。所有模型的训练和优化过程均在不同的交叉验证折中进行,以评估其泛化性能。
图1.本研究的工作流程概述
在mega分析和meta分析中,发现了1987个与抑郁症相关的CpG位点,这些位点在基因富集分析和eQTM数据中与轴突导向和免疫通路相关。随机森林分类器在批次处理的数据中表现最佳,在CV和持出测试中分别达到了0.73和0.76的AUC。然而,当使用标准化数据时,所有分类器在CV中的AUC均低于0.57,在持出测试中没有预测能力。
在特征预选的模型中,所有模型的性能显著提升(AUC增加超过14%),某些模型(如联合自编码器分类器)在最终测试中AUC达到了0.91,不受数据处理方法的影响。不同算法的特征选择方法(如L1惩罚逻辑回归)在某些情况下也优于limma。结果表明,随机森林模型在所有数据处理策略中均表现出色,适用于DNA甲基化评分。
图2.深度学习模型的配置
本研究概述了未来可能用于抑郁症的生物标志物,并强调了DNA甲基化抑郁症分析中的许多重要方法学问题,包括机器学习策略的使用。研究结果显示,随机森林分类器在不同数据处理策略下均表现良好,而复杂的深度学习模型在小数据集上的表现不如树模型。这些发现为未来的抑郁症生物标志物研究提供了有价值的见解,并指出了数据处理和特征选择对模型性能的关键影响。
本网站所有内容来源注明为“williamhill asia 医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于williamhill asia 医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“williamhill asia 医学”。其它来源的文章系转载文章,或“williamhill asia 号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与williamhill asia 联系,williamhill asia 将立即进行删除处理。
在此留言
#抑郁症# #DNA甲基化# #深度学习#
12