Nat Commun:结合机器学习与血浆蛋白质组质谱分析可提前7年预测帕金森病,准确率达79%

时间:2024-07-28 17:01:42   热度:37.1℃   作者:网络

导读

帕金森病(PD)是第二大最常见的中枢神经系统(CNS)退行性疾病,仅次于阿尔茨海默病(AD);其临床特征包括进行性运动和非运动症状,主要由多巴胺能细胞中的α-突触核蛋白聚集引起。在运动症状出现之前,PD患者通常会经历一段时间的非运动症状,如快速眼动(REM)睡眠行为障碍等,这些问题常被认为是帕金森病的早期指标之一。由于具有多种临床异质性表型以及缺乏客观生物标志物,神经保护策略不能有效阻止该疾病进展。因此,目前亟需找到PD早期/运动症状前期的客观生物标志物,以便能够干预和减缓潜在的神经退行性过程。

近日,英国伦敦大学学院大奥蒙德街儿童健康研究所和哥廷根大学医学中心的科研人员在Nature Communications发表了题为“Plasma proteomics identify biomarkers predicting Parkinson’s disease up to 7 years before symptom onset”的文章。研究团队对最近确诊的运动型PD患者、患有孤立性快速眼动睡眠行为障碍(iRBD)的运动前个体和健康对照(HC)组的血液样本进行靶向多重质谱分析,发现了8种与PD相关的血液生物标志物;随后,通过机器学习模型分析8种蛋白质的表达,准确识别了所有PD患者,并在运动发作前7年对79%的运动前个体进行分类预测,其中许多生物标志物与症状严重程度相关。该研究表明,血浆蛋白质组检测或有助于在运动症状出现前7年预测PD的发生。

图片

文章发表在Nature Communications

图片

图1.总研究流程

该研究包括三个阶段第0阶段,通过非靶向质谱法推断蛋白质组学组成,识别潜在的生物标志物;第I阶段,将来自发现阶段的候选蛋白通过靶向质谱多反应监测(MRM)方法,应用于更大的样本队列中;第II阶段,对靶向MRM方法进行改进并分析更多样本,以评估靶向蛋白质panel的临床可行性。

蛋白质组学发现阶段(第0阶段)

研究团队随机挑选了10名初治PD患者和10名HC个体,使用二维在线液相色谱分馏和QTOFMS无标记质谱分析对其血液样本进行蛋白质组学分析(图2),共发现1238种蛋白质,经筛选后最终鉴定出895种蛋白质。其中,有47种蛋白质在PD组和HC组之间差异表达;GO通路分析表明,这些蛋白质在几种炎症通路中富集。

图片

图2.PD组和HC组之间的差异蛋白(0阶段)

夏日防中暑靶向蛋白质组学验证阶段(第I阶段)

研究团队开发了一种高通量、多重质谱靶向蛋白质组学检测方法,对发现阶段确定的潜在生物标志物及其他几种蛋白质进行分析,最终构建了一个包含121种蛋白质的靶向蛋白质组学panel,旨在验证生物标志物并探究在发现阶段受到干扰的途径。

对于靶向蛋白质组学分析,研究团队纳入99名新发PD患者、36名HC个体、18名iRBD患者以及41名患有其他神经系统疾病(OND)的患者,采集其的血液样本进行分析验证。

图片

图3.靶向蛋白质组学分析流程及结果

鉴定新发PD患者和HC之间显著差异表达的生物标志物

研究团队对上述121种蛋白质进行靶向蛋白质组学分析(图4),发现有32种可通过血浆检测到,其中23种被证实在PD和HC之间显著差异表达。此外,在iRBD患者与HC、OND患者与HC的比较中,鉴定出6种差异表达的蛋白质。新发PD组和iRBD组均显示丝氨酸蛋白酶抑制剂SERPINA3、SERPINF2和SERPING1以及中枢补体蛋白C3的表达上调;与HC组相比,颗粒蛋白前体蛋白在三个患者组(PD、iRBD和OND)中表达下调。OND和PD组中,PTGDS、CST3、VCAM1和PLD3蛋白的表达相同且上调。

图片

图4. HC组和不同疾病组的显著差异表达蛋白质

差异表达蛋白的生物学意义

通过通路分析,研究团队评估了PD和HC之间差异表达蛋白质参与及影响的生物过程(图5)。结果显示,共确定了三个主要通路簇,包括1)丝氨酸蛋白酶抑制剂或丝氨酸蛋白酶以及补体和凝血成分的表达;2)内质网(ER)应激/热休克相关蛋白;3)VCAM1、SELE和PPP3CB的表达。参与炎症反应的通路富集分数最高,如急性期反应信号通路、凝血系统和补体系统等。

炎症相关通路、蛋白质折叠调节和ER应激途径表现出最高显著性;蛋白质和通路网络显示由炎症/凝血/脂质代谢、热休克蛋白/蛋白质错误折叠和Wnt信号传导等异质性通路簇组成。根据上述蛋白质表达,研究团队推测PD的发病机制是神经元路易体包涵体中α-突触核蛋白寡聚化和积累,最终导致多巴胺能神经元细胞丢失

主成分分析显示,HC组和PD组在第一和第二主成分上形成两个分离的簇,iRBD组位于HC和PD中间,OND组无明显聚集性。PD患者中PPP3CB、DKK3、SELE和GRN水平较低,大多数其他蛋白质水平较高。

图片

图5. 差异表达蛋白参与神经元突触核蛋白疾病

使用蛋白质生物标志物的多重蛋白质panel预测新发PD

研究团队应用机器学习方法,使用验证阶段PD和HC样本构建了判别式OPLS-DA模型(图6)。结果显示,该模型模型显著性极高,其能够准确区分PD和HC样本,并预测了72%的iRBD样本为PD。OPLS-DA模型的预测结果揭示,OND的个体异质性与PD和HC组不共享相同的蛋白组学特征,iRDB组则与新诊断PD患者具有共同的蛋白质组学特征。

进一步,研究团队确定了一组以100%准确率区分PD和HC的蛋白质,包括GRN、MASP2、HSPA5、PTGDS、ICAM1、C3、DKK3和SERPING1,并基于这些蛋白质构建了线性支持向量(SVM)分类模型。性能评估显示,该模型能够准确分类所有样本,并具有高度鲁棒性。

研究团队还构建了受试者操作特征曲线(ROC)和精确度-召回曲线(PR)曲线,以探究每种蛋白质区分PD和HC的能力,并将其与多重蛋白质组合panel进行比较。结果显示,组合panel在ROC和PR曲线上均实现了1.0的AUC。ROC曲线中单个预测因子的AUC范围为0.53至0.92,PR曲线中的AUC范围为0.79至0.96

图片

图6. PD和对照受试者的SVM分类

开发快速和精细的LC-MS/MS方法,评估独立和纵向iRBD队列(验证第II阶段)

为评估针对高危受试者的初始预测模型结果,研究团队开发并改进了靶向和多重蛋白质组学测试,仅定量从初始靶向蛋白质组学测定中易于可靠检测到的蛋白质(32种);纳入了包含54名iRBD患者的独立队列的146个纵向样本,并将其应用于OPLS-DA和SVM两个机器学习模型中。

结果显示,OPLS-DA模型基于32种检测到的蛋白质,将70%的iRBD样本鉴定为PD,而基于8种蛋白质的SVM模型将79%的样本鉴定为PD。纵向iRBD验证队列中有16名患有PD/DLB,最早的正确分类是诊断前7.3年,最晚的分类是诊断前0.9年

图片

图7. 一组新获得的iRBD样本(II 期)的预测结果

此外,研究团队分析了PD和HC中蛋白质表达与临床评分(MMSE、H&Y和UPDRS)的关系(图8),发现GRN、DKK3、PPP3CB和SELE与H&Y和UPDRS II、III和Total score呈负相关,可能表明更严重的临床损伤与Wnt信号通路中标志物的低表达有关

结 语

综上所述,该研究采用无偏倚的质谱法,通过比较PD和HC样本,发现PD患者血浆中存在早期炎症特征;并通过机器学习方法确定了8种血液生物标志物,能以100%的特异性区分PD和HC,可在发展为DLB或运动型PD前7年识别出79%的iRBD受试者。该研究结果对于寻找有效的PD预防和治疗策略具有重要意义,这些标志物可以用于筛选和识别临床试验中的参与者,为PD的管理提供更早的干预机会,并可推动NSD研究。

论文原文:

Hällqvist J, Bartl M, Dakna M, et al. Plasma proteomics identify biomarkers predicting Parkinson's disease up to 7 years before symptom onset. Nat Commun. 2024;15(1):4759. Published 2024 Jun 18. doi:10.1038/s41467-024-48961-3

https://www.nature.com/articles/s41467-024-48961-3

上一篇: 《自然-医学》:接种常见疫苗,或可预防痴...

下一篇: 类风湿关节炎患者的日常生活注意事项


 本站广告