Cell子刊|曾湘祥团队发布单细胞测序数据工具箱——autoCell
时间:2023-01-11 12:01:29 热度:37.1℃ 作者:网络
简介
人类基因组计划的完成, 开启了生物组学研究的大门,但复杂生物系统的细胞异质性阻碍了该领域的深入发展。单细胞技术为生物组学研究开辟了新的方向——单细胞组学。
单细胞技术通过分离单细胞进行测序,可以分析组织中存在的细胞类型,鉴定细胞的状态,研究细胞间的异质性,通过单细胞水平的基因表达变化揭示分化发育、疾病发生发展、肿瘤耐药等分子机制。单细胞技术是一项革命性的突破,使我们能够研究组织中每个细胞、每个状态下的基因组、转录组和多组学系统。结合荧光标记和显微解剖等技术,其还可以确定空间属性和细胞间通讯。这些技术得到了广泛应用,引发了基础医学和转化医学的一场革命。
sc/snRNA-seq对于从异质细胞中识别生物学和疾病相关的细胞类型和亚群非常重要。不同细胞状态下表达的低维分析也可以非常有效地重建细胞发育轨迹。但单个细胞中的mRNA量很小,需要将其放大近百万倍。尽管测量技术有了很大的改进,但技术因素仍然会在scRNA-seq实验中产生相当大的数据噪声,包括扩增偏差、文库大小差异和极低的捕获率。特别是,极低的RNA捕获率导致无法检测到尽管表达的基因,即“dropout”事件。由“dropout”事件引起的“假”零计数与真零计数之间存在本质区别。鉴于稀疏的表达指标,传统的分析工具无法达到科学的严谨性,并且缺乏高纬数据可重复性。
基于此,湖南大学曾湘祥教授团队提出了一种用于scRNA-seq的“dropout”插补和特征提取的深度学习框架autoCell。autoCell是一种变分自动编码网络,其结合了图嵌入和概率深度高斯混合模型来推断高维稀疏scRNA-seq数据的分布。autoCell提供了一个深度学习工具箱,用于对大规模sc/snRNA-seq数据进行端到端分析,包括可视化、聚类、插补和疾病特异性基因网络识别。该成果以”Graph Embedding and Gaussian Mixture Variational Autoencoder Network for End-to-End Analysis of Single-Cell RNA-Sequencing Data”为题发表在国际顶级期刊Cell Reports Methods。
autoCell模型框架
autoCell的概述如图1所示,其是一种结合图嵌入和GMM对高维稀疏scRNA-seq数据的分布进行建模的变分自动编码网络。autoCell架构可以使用细胞和基因的生物表征来执行不同的scRNA-seq数据分析任务。通过集成GMM,autoCell可以更好地估计数据分布。研究团队应用图嵌入来处理sc/snRNA-seq数据,从而捕获局部数据结构的图形信息是对深度GMM的一个很好的补充,使网络学习成为具有局部结构约束的全局模型。最近的研究表明,用于建模的ZINB分布是解决scRNA-seq数据“dropout”事件的合适工具。为了减少“dropout”事件对高度稀疏和过度分散的计数数据的影响,研究团队引入了ZINB分布模型,从而对scRNA-seq数据进行去噪。
图1. autoCell模型框架
模型评估
autoCell有效估算scRNA-Seq数据
研究团队首先将autoCell应用于模拟的scRNA-Seq数据以评估其插补性能。对于两个数据集的模拟,分别将60%和71%的数据值设置为零,以模拟真实数据中的“dropout”事件。研究团队将模拟原始表达式数据的条目分为零空间和非零空间。从估计值和真实值的密度图来看,DCA和autoCell的恢复值更接近真实表达值,scGNN处于中等水平。MAGIC、SAVER和SAUCIE总是倾向于低估原始值。研究团队还计算了真实表达值和恢复表达值之间的中值L1距离、均方根误差(RMSE)分数和余弦相似度分数,以衡量估计准确性。如图2所示,autoCell的整体性能优于其他方法。特别是,autoCell在两个模拟数据集上的基因表达恢复的中值L1距离中排名第二,在合成丢失率为71%模拟数据集上的余弦相似度得分中排名第二。
在评估autoCell在估算缺失值方面的性能时,研究团队还选择了两个真实世界的 sc/snRNA-seq数据集作为基准,这些数据集具有良好注释的细胞类型。研究团队通过将10%的非零条目随机翻转到零矩阵来模拟丢失效应。与几种最先进的算法(图2)相比,autoCell在10%的合成丢失率下实现了由中值L1距离、余弦相似度和RMSE评估的最佳性能。此外,根据估计值和真实值的密度图,autoCell插补更接近真实表达值(图2)。总而言之,autoCell在sc/snRNA-seq数据插补分析中优于最先进的方法。
图2. autoCell与其他最先进方法在缺失值补全方面的性能比较
autoCell显著提高了用于捕获细胞发育轨迹的现有工具的性能
除了识别细胞类型外,scRNA-seq还有助于按时间进程或发育阶段(即细胞轨迹)组织细胞。细胞从一种功能状态转变为另一种功能状态是发育过程中的关键事件。尽管目前存在一些模型可以根据scRNA-seq数据推断细胞发育轨迹,但大多数推断方法都没有解决“dropout”事件。
研究团队测试了通过autoCell插值后推断scRNA-seq数据的细胞轨迹的准确性。使用了一个包含1,529个单细胞的基准数据集,这些单细胞具有从胚胎发生E3到E7的人类植入前胚胎发育的五个阶段的良好注释。在各种插值过程后使用slingshot重建了细胞发育轨迹。autoCell的插值在推断的伪时间和实时细胞发育之间产生了最高的对应关系(图 3)。因此,autoCell在不同发育阶段捕获更准确的转录组动力学和细胞发育轨迹。
图3. autoCell提高了人类植入前胚胎发育数据集中的伪时间分析
autoCell在潜在空间中捕获细胞病理学
研究团队还评估了autoCell推断的潜在空间能力,这在很大程度上反映了细胞之间的生物变异性,这些变异是基于先前通过无监督聚类将细胞分层为生物学上重要的亚群,然后进行人工检查和注释。研究团队将autoCell应用于两个模拟数据集和四个生物学相关的scRNA-seq数据集中,这六个数据集的零比例在60%到90%之间。默认情况下,autoCell从输入数据中提取10个特征,为了公平比较,研究团队进一步应用了常见的scRNA-seq数据降维方法,包括scVI、DESC、scVAE、DCA 和SAUCIE,将输入数据降维到10维,并使用UMAP可视化从这些工具和原始数据中提取的特征。对于Klein数据集,scVI、scVAE和autoCell表现出更好的性能;DCA导致细胞类型d0和d2紧密相连;SAUCIE和DESC只分离了细胞类型为d0的细胞,并错误地将细胞类型d7分为两种细胞类型(图4A)。对于Zeisel数据集,研究团队发现autoCell、scVI和scVAE仍然优于其他模型,autoCell和scVAE实现了更近的组内距离(图4B)。
研究团队将K-means聚类应用于autoCell提取的潜在特征,并通过与scVI、DESC、scVAE、DCA和SAUCIE进行比较来评估聚类精度。实验表明,autoCell在所有测试的scRNA-seq数据集上显示出最佳性能(图4)。在Klein数据集中,使用autoCell(图4C)的聚类输出与预定义的单位类型注释(NMI=0.882,ARI=0.907)比排名第二的模型scVI(NMI=0.832,ARI=0.784)更为一致。在Zeisel数据集中,autoCell的聚类性能明显优于其他现有工具。总体而言,autoCell在捕获细胞病理生物学方面的准确度高于模拟和真实世界生物相关scRNA-seq数据集的现有最先进方法。
图4. UMAP可视化使用不同方法提取的特征
通过autoCell发现细胞类型特异性分子网络
在测试autoCell推断的细胞类型能够捕获人类疾病的特定病理生物学时,研究团队使用阿尔茨海默病(AD)作为原型,分析了星形胶质细胞、小胶质细胞、神经元和少突胶质细胞祖细胞(OPC)。研究团队重新分析了从AD大脑和健康对照的内嗅皮层产生的13214个高质量细胞核。使用autoCell,研究团队确定了四个小胶质细胞簇、九个星形胶质细胞簇和五个OPC簇(图5A)。最近使用人类死后脑组织的研究确定了疾病相关星形胶质细胞(DAA)在AD发病机制和疾病进展中的关键作用。使用11个经实验验证的DAA标记基因(4个上调的标记基因[GFAP、CD44、HSPB1和TNS]和7个下调的标记基因[SLC1A2、SLC1A3、GLUL、NRXN1、CADM2、PTN和GPC5]),研究团队通过autoCell将星形胶质细胞亚群4鉴定为DAA。
接下来,研究团队在人类蛋白质-蛋白质相互作用(PPI)网络模型下,使用最先进的基于网络的算法GPSnet构建了DAA特异性分子网络。DAA特异性模块网络包括由44种蛋白质连接的50个PPI,如APOE、MAPT、CD44、FOS和STAT3(图5B和表S2),APOE和MAPT(微管相关蛋白Tau)是AD的两个最著名的风险基因。CD44是一种炎症相关蛋白,对CD44的抑制可能是AD治疗的潜在策略。在一项小鼠模型研究中,Stat3缺陷和Stat3缺失的星形胶质细胞表现出β-淀粉样蛋白和促炎细胞因子活性水平下降。DAA特异性分子网络中的蛋白质由多种AD相关途径富集,如细胞因子信号传导、脊髓损伤和脑源性神经营养因子信号传导途径(图5B和表S3)。例如,DAA特异性网络中的几种蛋白质(STAT3、MAPT、HSPB8、HSPB1、JUNB和LINGO1)富含多种细胞因子信号通路,包括IL-5、IL-2、IL-18、IL-3和IL-4,这与小胶质细胞介导的神经炎症在AD中的重要作用一致。因此,使用autoCell,研究团队可以识别与疾病相关的、细胞类型特异性的分子网络,这些分子网络参与了AD的关键病理生物学。
研究团队还发现了AD中参与细胞-细胞通信的重要配体-受体相互作用。首先使用autoCell推断了细胞亚群,并使用CellChat预测了配体-受体的相互作用。如图5C所示,与其他三种细胞类型(神经元、小胶质细胞和内皮细胞)相比,研究团队发现星形胶质细胞、OPC和少突胶质细胞之间存在强烈的配体-受体相互作用;两个配体-受体对(NRG3-ERBB4和NRG1-ERBB4)显示了跨多个细胞-细胞对的强相互作用(图5D和表S4);NRG3基因中的多个单核苷酸多态性与AD 的发病有关。此外,研究团队发现神经元中ERBB4的过度表达与AD神经病理学相关。最近的一项AD小鼠模型研究表明,NRG1和ERBB4的免疫反应性与海马区的斑块有关。使用AD作为典型例子,研究团队证明了autoCell识别的疾病相关细胞亚型可以识别参与AD发病机制的分子靶点和网络(即配体-受体相互作用),如果广泛应用,还可以为AD或其他人类疾病提供潜在的药物靶点。
图5. 使用autoCell发现阿尔茨海默病(AD)中细胞类型特异性分子网络和重要配体受体相互作用
总结
01
综上所述,该研究提出了一种用于scRNA-seq数据特征提取和缺失插补的深度模型autoCell。autoCell的关键创新是使用GMM来估计数据的潜在特征分布。与VAE在scRNA-Seq数据分析中的先前应用相比,autoCell通过引入图嵌入来捕获数据局部结构的图形信息。这是对深度GMM的极好补充,其允许网络学习遵循具有局部结构约束的全局模型。为了减少“dropout”事件的影响,研究团队引入了ZINB分布,该分布可以对高度稀疏和过度分散的计数数据进行建模,从而对单细胞RNA数据进行去噪。通过模拟数据集和真实数据集的系统比较,autoCell实现了更好的插值性能和特征提取。此外,该研究还表明,与其他插补算法不同,autoCell可以在处理大型数据集时提供更大的灵活性。
论文链接:https://doi.org/10.1016/j.crmeth.2022.100382
·END ·
: , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看