Bioinformatics:深圳市人民医院程立新团队发表多篇应用大数据和人工智能算法进行疾病诊断和预后的研究成果

时间:2023-05-18 15:55:52   热度:37.1℃   作者:网络

近日,深圳市人民医院程立新团队联合上海交通大学和香港中文大学,在生物信息权威期刊Bioinformatics上连续发表3篇应用生物组学大数据和人工智能算法进行疾病诊断和预后评估的研究论文。研究团队前期开发的个体化基因配对分析(Individualized Pairwise Analysis of Gene Expression,iPAGE)算法具有较好的跨平台、跨实验室的稳健性质,可以有效整合大规模组学数据并识别稳定的分子特征。基于iPAGE算法,通过对各类生物组学数据的整合、映射和嫁接,研究团队已开发了多个有效的疾病诊断及预后模型。该系列研究为未来多维组学数据的整合和特征降维提供了一个新框架,也为疾病诊断和预后模型的构建提供了新思路。

01 应用iPAGE算法整合宿主反应转录组数据识别不同感染类别

细菌感染和病毒感染的准确识别可以指导抗生素的使用。该研究整合了多套感染相关的宿主反应转录组数据,筛选出不同感染类型特异的配对基因标志;然后对配对基因集进行深度学习训练构建抗生素决策模型。在基因筛选方面,研究团队使用iPAGE方法初步筛选出不同感染类别样本中表达显著反转的配对基因,并使用LASSO进一步过滤,得到感染类型特异配对基因标志集(Gene Pair Signature,GPS),包括细菌感染、病毒感染及非感染。

基于上述特征集,研究团队应用深度神经网络模型构建了“细菌-病毒-非感染”检验模型(bacterial-viral-noninfected GPS, bvnGPS),训练过程中利用了细菌感染、病毒感染、非感染三个子任务预训练模型的中间特征来进一步提高模型的判别能力(图1)。iPAGE消除了不同感染数据集间的批次效应,便于数据整合和提取公共信息;基于预训练的神经网络模型所生成的抗生素决策模型在测试集和外部独立验证集上均取得了较好的分类效果。此项研究结果说明了通过大规模转录组数据整合构建感染类别识别模型的可行性。

相关研究成果“bvnGPS: a generalizable diagnostic model for acute bacterial and viral infection using integrative host transcriptomics and pretrained neural networks”发表于Bioinformatics . 2023 Mar 1;39(3):btad109. 上海交通大学李奇之、谢济泽,香港中文大学郑旭彬博士为文章共同第一作者。

图1. bvnGPS的神经网络模型结构。

02 通过iPAGE实现不同组学数据间的映射

除了数据整合,iPAGE也适用于不同类型组学数据之间的映射,如基因组变异和转录组的表达变化。已有多项研究明确表明,IDH突变和1p/19q共缺失均可作为胶质瘤的预后特征。虽然这些遗传变异能影响多个基因的表达,但其与IDH和1p/19q联合状态相关的基因转录组层面的预后价值尚不清楚。

基于对IDH和1p/19q编码状态的先验知识,该研究构建了一个用于评估胶质瘤患者风险和预测胶质瘤患者生存期的配对基因模型(GPGPS)。研究团队首先应用iPAGE算法把基因组变异映射到转录组配对基因上(图2),分别构建了IDH-GPS和1p/19q-GPS两个子模型,然后集成这两个子模型,进一步升级模型的预后评估能力。GPGPS模型在预测胶质瘤1年、3年和5年生存期的AUC高达0.92、0.88和0.80。并且,配对基因特征的C-index高于单个基因特征,GPGPS的性能优于单个GPSs和其它现有的预后算法。这项研究揭示了胶质瘤基因组变异与转录组基因表达之间的映射关系,对评估患者预后提供了数据映射和多组学方向的新思路。

相关成果“GPGPS: a robust prognostic gene pair signature of glioma ensembling IDH mutation and 1p/19q co-deletion”发表于Bioinformatics. 2023 Jan 1;39(1):btac850.。深圳市人民医院大数据中心程立新教授和吴浩楠为文章共同第一作者。

图2. iPAGE算法映射基因组变异到转录组数据。

03 应用机器学习算法识别感染性疾病的微生物诊断标志

炎症性肠病(IBD)是一种由多种因素(如肠道菌群与免疫系统平衡改变)引起的胃肠道慢性炎症状态,包括溃疡性结肠炎(UC)和克罗恩病(CD)。诸多研究表明,相对于健康人群,IBD患者的肠道菌群组成发生显著改变,且肠道菌群产生的代谢物通过信号传导、免疫调节及抗生素活性等影响肠道微环境,但特征菌群在IBD的发生发展、炎症缓解或预测中的具体作用机制则尚不明确。

基于连续多周检测的多个患者的IBD肠道菌群三维数据,研究团队通过张量分解(Tensor factorization)的方法挖掘数据的隐性特征(Latent feature),识别IBD患者的特征菌群并构建了IBD预测模型(图3)。结果发现,多个IBD特异的特征菌群,相对于单个细菌,识别的特征菌群具有更稳定的分类效果。

相关成果“Deciphering associations between gut microbiota and clinical factors using microbial modules”发表于Bioinformatics . 2023 Apr 21;btad213.。香港中文大学王然博士为文章第一作者。

图3. Tensor factorization方法识别特征菌群流程图。

参考文献:

1. Lixin Cheng#*, Haonan Wu#, Xubin Zheng, Ning Zhang, Pengfei Zhao, Ran Wang, Qiong Wu, Tao Liu, Xiaojun Yang, Qingshan Geng*. GPGPS: a robust prognostic gene pair signature of glioma ensembling IDH mutation and 1p/19q co-deletion. Bioinformatics, 2023

2. Qizhi Li#, Xubin Zheng#, Jize Xie#, Ran Wang, Mengyao Li, Man-Hon Wong, Kwong-Sak Leung, Shuai Li, Qingshan Geng*, Lixin Cheng*. bvnGPS: a generalizable diagnostic model for acute bacterial and viral infection using integrative host transcriptomics and pretrained neural networks. Bioinformatics, 2023

3. Ran Wang, Xubin Zheng, Fangda Song, Man Hon Wong, Kwong Sak Leung, and Lixin Cheng*. Deciphering associations between gut microbiota and clinical factors using microbial modules. Bioinformatics, 2023 (in press)

4. Ran Wang, Xubin Zheng, Jun Wang, Shibiao Wan, Fangda Song, Man-Hon Wong, Kwong-Sak Leung, and Lixin Cheng*. Improving bulk RNA-seq classification by transferring gene signature from single cells in acute myeloid leukemia. Briefings in Bioinformatics, 2022.

5. Qiong Wu#, Xubin Zheng#, Kwong-Sak Leung, Man-Hon Wong, Stephen Kwok-Wing Tsui*, and Lixin Cheng*. meGPS: a multi-omics signature for hepatocellular carcinoma detection integrating methylome and transcriptome data. Bioinformatics, 2022

6. Haili Li#, Xubin Zheng#, Jing Gao, Kwong-Sak Leung, Man-Hon Wong, Shu Yang, Yakun Liu, Ming Dong, Huimin Bai, Xiufeng Ye*, and Lixin Cheng*. Whole transcriptome analysis reveals non-coding RNA’s competing endogenous gene pairs as novel form of motifs in serous ovarian cancer. Computers in Biology and Medicine, 2022

7. Xubin Zheng, Kwong-Sak Leung, Man-Hon Wong, and Lixin Cheng*. Long non-coding RNA Pairs to Assist in Diagnosing Sepsis. BMC Genomics, 2021

上一篇: 重症社区获得性肺炎管理指南

下一篇: 风湿病最容易走错科室,这些风湿病的特殊症...


 本站广告