Nature:36个中国人口的泛基因组参考

时间:2023-07-18 23:18:53   热度:37.1℃   作者:网络

在过去的二十年里,参考人类基因组序列一直是遗传和生物医学研究和应用的基础;然而,人们普遍认为,没有一个单一的参考序列可以代表全球人口的基因组多样性。一方面,高质量的种群特异性和单倍型解决的基因组参考是遗传和医学分析所必需的。另一方面,显然需要从单一参考转向更好地代表人类群体内部和跨人类基因组多样性或等位基因变异的泛基因组形式。

随着长读测序技术和计算方法的进步,现在使泛基因组构建能够捕获大量不同基因组中遗漏的变异是可行的。人类泛基因组参考联盟(HPRC)最近根据全球人口的47个样本构建了一份人类泛基因组参考草案,但东亚人口样本代表性不足(= 4)。特别是,只有三个南汉(CHS)样本包含在HPRC参考文献中,无法代表中国等地区种族群体的基因组多样性。

之前的研究表明,亚洲的遗传多样性没有被1000基因组项目等大规模国际合作项目很好地覆盖。尽管在基因组研究中需要改善不同祖先背景的代表性是众所周知的,但与欧洲血统人群相比,在亚洲血统人群中进行的基因组研究要少得多。中国拥有巨大的遗传多样性,除了汉族多数外,还有55个官方承认的少数民族和相当数量的未被承认的民族。尽管测序技术的进步导致了端粒到端粒单倍体组装T2T-CHM13的实现,但只有数量有限的中国基因组使用长读DNA测序技术重新组装成高质量的单倍型序列。

目前唯一发表的关于中国泛基因组的两项研究仅限于汉族样本的短读测序数据。迫切需要建立一个高质量的泛基因组参考,以更好地代表中国人口的巨大基因组多样性。本文预计会做出这样的努力,以拓宽参考范围,以代表基因组多样性,解决等位基因和位点异质性,支持对种群内部和种群之间结构变异的无偏见和全面检测,并提高富含复杂序列变异的基因组区域(如人类白细胞抗原基因)的基因分型准确性,并最终促进进化和医学研究的基因组分析。

2023年6月14日发表在Nature上的文章,介绍了中国泛基因组联盟第一阶段的数据,包括基于代表36个中国少数民族的58个核心样本的116个高质量和单倍型相位de novo组件的集合。并重新测序至少500人,以便使用第三代测序技术更好地检测和编目中国人口的序列变体。在这里,我们根据中国第一次测序工作(第一阶段)提出了中国大基因组参考草案,报告了来自代表36个中国少数民族和6个汉族多数群体的58个核心样本的116个高质量de novo大会。

带有58个核心样品的二倍体组件的CPC面板

与HPRC组件相比,CPC泛基因组图和CPC特定变体

在这项研究中,研究人员使用PacBio HiFi长读测序对58个CPC核心样本进行了测序,平均深度为30.65×。116个高质量和单倍型相排式de novo组件的平均连续性N50>35.63 Mb,平均总尺寸为3.01 Gb,具有良好的Telomere-to-Telomere Consortium单倍体组件T2T-CHM13的覆盖范围。我们的分析表明,CPC组件在很大程度上匹配或超过了当前参考人类基因组序列(GRCh38)的连续性和碱基级准确性。

CPC核心组件平均具有30.65×高保真长读序列覆盖率,平均连续N50超过35.63兆碱基,平均总大小为3.01千兆碱基,为GRCh38增加了1.89亿个真色度多态性碱基对和1367个蛋白质编码基因复制。CPC核心组件还具有良好的GRCh38覆盖率,并在GRCh38中增加了1.89亿个碱基对的真色多态序列和1,367个蛋白质编码基因复制。因此,CPC第一阶段数据是中国种群的综合泛基因组参考,预计将更好地捕捉亚洲血统种群的基因组多样性。

研究人员确定了1590万个小变体和78,072个结构变体,其中590万个小变体和34,223个结构变体在最近发布的泛基因组中没有报告。中国大基因组联盟的数据表明,当个人来自代表性不足的少数民族群体时,发现新颖和缺失序列的显著增加。缺失的参考序列富含古老的遗传等位基因和基因,赋予与角化、紫外线辐射反应、DNA修复、免疫反应和寿命相关的基本功能,这意味着在复杂的疾病测绘中揭示人类进化和恢复缺失的遗传性的巨大潜力。

研究人员进一步分析证实了高质量特定人群组装用于遗传和医疗应用的必要性。事实上,目前的研究确定了不同种族群体之间表现出巨大差异的变化,这些差异可能来自不同的祖先背景。研究结果还表明,在序列对齐中使用特定于人群的参考资料提高了对齐质量。与HPRC图参考相比,使用CPC图参考提高了东亚样本中短读数的完美对齐率。

总而言之,CPC第一阶段数据已经证明了对人类进化的新启示和恢复复杂性状和疾病测绘中缺失的遗传性的巨大潜力。期望CPC作为人类基因组学全球力量的重要组成部分,为建立高质量的泛基因组参考资料并将其应用于各种基础和临床研究项目做出相当大的贡献。

 

原文出处

Gao, Y., Yang, X., Chen, H. et al. A pangenome reference of 36 Chinese populations.Nature 619, 112–121 (2023). https://doi.org/10.1038/s41586-023-06173-7.

上一篇: 一天22台手术,为何那么累?站着睡着,摔...

下一篇: Nature子刊 | 全酶、无损的甲基化...


 本站广告