GENOME BIOLOGY:scIBD用于增强单细胞染色质可及性测序中异型双联体的检测
时间:2023-10-11 11:33:02 热度:37.1℃ 作者:网络
单细胞测序技术的最新创新使得能够在细胞水平上以前所未有的分辨率询问基因组、表观基因组、转录组和蛋白质组异质性。液滴微流控允许以大规模并行策略以最小的试剂成本捕获和处理大量单个细胞,是最广泛使用的高通量单细胞测序技术之一。
基本上,测序时一个液滴只能捕获一个细胞/细胞核。然而,由于液滴微流控的技术限制,两个或多个细胞/细胞核经常被捕获在一个液滴中并与相同的寡核苷酸条形码序列结合,创建一个伪装成一个单细胞的所谓双峰/多重峰。双联体的存在可能会混淆下游分析,例如,构成虚假细胞簇、干扰差异模式的分析以及模糊功能富集分析。因此,从单细胞测序数据中检测和去除双联体是提高下游分析准确性并揭示生物学意义的重要步骤。
单细胞 RNA 测序 (scRNA-seq) 可以根据基因表达水平提高对单个细胞功能状态的理解,但长期受到双联体问题的困扰。最初提出体外方法来检测 scRNA-seq 数据中的双联体。例如,Stoeckius 等人。引入了细胞散列,其中可以唯一标记样品的寡聚标记抗体与细胞一起进行测序,并且可以通过根据此类寡聚衍生的标签的测序结果将细胞分配到其原始样品来识别跨样品双联体。然而,除了测序时的额外成本之外,细胞哈希只能识别样品交叉的双联体,当样品太小或脆弱而无法拆分和重组时,无法识别来自不同细胞类型的样品内双联体。
随后提出了计算机模拟方法来提高 scRNA-seq 数据中双联体的检测效率。Demuxlet 利用已知的自然遗传变异来识别双联体。然而,高液滴异质性通常需要额外的批量测序来提供准确的单核苷酸多态性 (SNP) 信息作为双联体检测的参考,这使得 Demuxlet 非常耗时且成本高昂。因此,已经提出了许多无需额外生物工具的计算方法。大多数现有方法都是基于模拟的,通过使用原始液滴作为“单峰”和模拟的人工双峰作为“双峰”来训练二元分类器来解决双峰检测任务。
与 scRNA-seq 数据类似,单细胞染色质可及性测序 (scCAS) 数据能够研究单个细胞的表观基因组景观,但也受到双联体的干扰,特别是对于液滴微流体的普遍应用。然而,scCAS 数据中的双峰检测比 scRNA-seq 数据更具挑战性,因为 scCAS 数据的检测特定挑战,包括其低捕获率、接近二元性质、极度稀疏性以及比 scRNA-seq 高数十倍的维度。scRNA - seq数据。专门针对 scCAS 数据开发了几种双峰检测方法。这些方法可分为两大类:(1)基于仿真的方法,例如 SnapATAC 和ArchR,它们与针对scRNA-seq数据定制的主要方法类似,以及(2)基于读的方法,例如AMULET,其基于的原则是,期望的唯一数量对于二倍体,覆盖基因组中任何区域的对齐读数不会超过两个。
研究人员注意到,SnapATAC和ArchR都是广泛用于scCAS数据分析的管道,并且SnapATAC直接集成Scrublet(一种scRNA-seq数据的方法)来检测双联体,而ArchR以一定的分辨率构建逐个单元的矩阵500 bp,执行潜在语义索引,并训练经典的K最近邻 (KNN) 分类器来检测双峰。
2023年10月9日发表在GENOME BIOLOGY的文章,研究人员重点关注 scCAS 数据中更具挑战性的双峰检测任务。此外,本文专注于检测由不同类型、谱系或状态的细胞形成的异型双联体,而不是由转录相似的细胞形成的同型双联体,因为同型双联体的基因表达谱与同一细胞的单联体的基因表达谱相似类型和同型双峰的存在对细胞聚类影响不大。研究人员还证明,异型双联体可能比同型双联体更严重地混淆下游分析。
尽管已经提出了几种方法,但仍然存在不可忽视的局限性需要解决。首先,Xi 和 Li 系统地对 scRNA-seq 数据的双峰检测方法的性能进行了基准测试,并得出结论,这些方法在性能上表现出很大的差异,表明即使对于 scRNA-seq 数据,方法仍然有改进的空间。其次,基于模拟的方法忽略了并非所有原始液滴都是单态的。否则,我们就不需要双峰检测。因此,现有的方法忽略了原始液滴和单峰之间的差异,并且没有为其分类算法提供高质量的训练数据,导致分类器出现偏差。
SCIBD
第三,基于读取的方法,即AMULET,虽然在检测同型双联体方面显示出其优势,但忽略了细胞分裂周期的影响,并且倾向于将处于间期的细胞检测为假同型双联体。此外,它通常无法检测异型双联体,其重叠区域很少来自不同的可访问剖面。第四,异型双峰检测性能尚未使用不同协议、大小、尺寸、质量和双峰率的合成和真实 scCAS 数据集进行系统的基准测试。
为了填补这些空白,本文提出了 scIBD,一种sc CAS 特定的自监督迭代优化方法,以促进异型d的检测小品。作为一种基于模拟的方法,scIBD 放弃了可能在模拟过程中产生过多同型双峰的常规随机选择策略。相反,它使用自适应策略来模拟高置信度异型双联体,从而自我监督双联体检测。此外,scIBD采用迭代优化策略迭代检测异型双联体,并最终基于集成策略输出双联体分数。
对 16 个数据集(包括全合成、半合成和真实 scCAS 数据)进行的广泛而全面的实验结果表明,scIBD 可以显着优于当前三种最先进的方法,包括 SnapATAC、ArchR 和 AMULET,并且提供最强劲的性能。此外,下游生物学分析,包括细胞聚类,差异可及区域检测和功能富集分析显示了 scIBD 对于 scCAS 数据分析的现实有效性。此外,scIBD在scRNA-seq数据上的扩展应用证明了scIBD的稳健性和多功能性。
本文提出了 scIBD,一种自监督迭代优化模型,用于增强 scCAS 数据中的异型双峰检测。scIBD 引入了一种自适应策略来模拟高置信度异型双联体,并以迭代优化的方式自我监督双联体检测。对各种模拟和真实数据集的全面基准测试证明了 scIBD 的卓越性能和稳健性。此外,下游生物学分析表明 scIBD 去除双联体的功效。
下游生物学分析
综上所述,对多个数据集(包括全合成、半合成和真实 scCAS 数据)的广泛而全面的评估结果表明,scIBD 显着优于基线方法,包括 SnapATAC、ArchR 和 AMULET。此外,对不同场景的更全面的评估表明,scIBD对细胞异质性、样本量、测序深度和双联体率具有优异的鲁棒性。专门设计的 PCoA KNN 绘图策略在具有更复杂的细胞异质性的数据集上显示出更好的性能。此外,下游生物学分析,包括细胞聚类、差异可及区域发现和KEGG富集分析,进一步显示了scIBD去除双联体的实际功效。
最后是scIBD在scRNA-seq数据上的扩展应用,展示了 scIBD 对于双峰检测的稳健性和多功能性。我们坚信,scIBD 将能够更好地控制去除双联体的质量,并通过产生更好的下游分析结果来扩展 scCAS 的适用性,从而能够更深入地了解细胞水平的表观基因组异质性和功能。scIBD 是一种易于使用的开源工具,可从多个来源获取,并且可以无缝集成到现有的 scCAS 分析工作流程中。
原始出处
Zhang, W., Jiang, R., Chen, S. et al. scIBD: a self-supervised iterative-optimizing model for boosting the detection of heterotypic doublets in single-cell chromatin accessibility data. Genome Biol 24, 225 (2023). https://doi.org/10.1186/s13059-023-03072-y