《科学》封面重磅!迄今最完整的人类基因组测序结果公布
时间:2022-04-01 11:12:39 热度:37.1℃ 作者:网络
人类的基因组常被比作是一本书写生命的“天书”,只有A、T、C、G四种“字母”——代表构成DNA的四种碱基,但字数多达60亿个,分布在23对染色体中,无穷的组合蕴含着人类进化、生老病死的无数奥秘。
21世纪之初,人类基因组序列的第一版草图问世,尽管并不完整,却已经在生物医学领域产生了深远的影响,为临床研究、药物开发和医疗实践的发展提供指引。
时隔二十一年,人类基因组测序领域迎来了新的里程碑:一份更完整的、无间隙的人类参考基因组。
本周,《科学》杂志同时上线的6篇论文中,一个名为“端粒到端粒”联盟(T2T)的国际科研团队宣布完成了最新的人类参考基因组(被命名为T2T-CHM13),包括所有22条常染色体和X染色体的无缝组装。其序列包含30.55亿对碱基,不仅在过去的基础上增加了近 2亿碱基的遗传信息——相当于一条人类染色体包含的信息,还纠正了过往基因组序列上的许多错误,并解锁了人类基因组中结构最为复杂的一些区域。
▲《科学》杂志以封面报道和专题的形式介绍了人类基因组测序新成果(图片来源:《科学》杂志官网)
填补最后8%的空白
由于当时的测序技术所限,第一版人类基因组测序草图中留有许多空白。2013年完成的新版本并经过2019年的更新后,人类基因组测序结果中仍有数百万个碱基由字母“N”表示,代表着该位置的实际碱基未知。更重要的是,占人类基因组大约8%的生物学重要区域处于未探明的状态。
为了填补最后的空白,来自几十个研究机构的近100名科学家组成了大型团队“T2T联盟”,也就是对每条染色体从一端的端粒到另一端的端粒进行测序。
▲相比先前的人类参考基因组(GRCh38),此次的新版本T2T-CHM13填补了所有原先的空白,在过去未解决的基因组区域内,每个样本中发现了数十万个变异,为理解进化和生物医学新发现提供机会(图片来源:参考资料[2])
读取基因组时,科学家首先将所有DNA切成数百到数千个字母长的片段,由测序机器读取每个片段中的字母,然后科学家们试图以正确的顺序组装片段,就像玩一个超级复杂的拼图。
这个过程中的一大挑战是,基因组中的某些区域由大段重复字母组成,就像拼图中有些板块由看起来一样的碎片组成,而这些区域往往具有重要的生物学特征,某些情况下还与人类疾病有关。另一个难点是,绝大多数细胞内包含两套基因组,分别来自父亲和母亲。当研究人员试图组装DNA片段时,两套基因组的序列混合在一起,就掩盖了两者本身具有的差异。
研究团队找到了一种只含单个基因组的细胞系来消除上述等位基因多样性的问题。这种特殊的细胞系来自所谓的葡萄胎,是一种异常胚胎,受精后仅保留一个亲本的基因组副本。
攻克难关的关键进展还离不开测序技术的重大飞跃。基于具有革命性突破的长读长测序技术,研究者可以解码更长的序列,甚至一次准确读取多达百万级的碱基对也不成问题。
解锁最复杂的区域
此次解锁的新序列大约90%来自染色体的着丝粒。在形成精子或卵子的减数分裂过程中,着丝粒是成对染色体分离时附着的地方。这个区域结构独特,包含长段重复序列,而且DNA和蛋白质似乎在这一区域缠绕得格外紧凑。
在T2T提供完整序列后,人类第一次有机会对着丝粒及其周围序列的作用一探究竟。
根据他们的分析,着丝粒以及附近区域有各种序列堆叠现象,通常是一段新序列覆盖在旧序列上。这一过程可以保证着丝粒与关键的动粒结构紧紧结合。动粒是着丝粒两侧的特化结构,参与染色体的移动过程。
▲着丝粒是一个包含高度重复 DNA 序列的区域,比较这些序列揭示了突变在数百万年中积累的位置,反映了每个重复序列的相对年龄(图片来源:参考资料[4];Credit:Nicolas Altemose, UC Berkeley)
旧序列会存在一些随机突变和缺失,说明这一段区域已经被弃用;新序列中突变和甲基化都更少,说明正在被使用。而着丝粒中含有大量重复长度的DNA序列,大约为171个碱基,这些重复单元会共同形成更大的重复结构并串联多次,构成了着丝粒中的重复序列区域。
着丝粒的重复序列在不同人之间同样会存在差异。其中一篇论文比较了全世界1600人的着丝粒序列后发现,非洲大陆以外的人,着丝粒(尤其是X染色体上的着丝粒)倾向于分成两大簇,还有一些有意思的突变会出现在有非洲人血统的人身上。未来,科学家或许能通过解析着丝粒序列来追溯人类的谱系,对人类的演化史探索有重要意义。
▲新研究揭示了人类着丝粒基因组序列的演化机制(图片来源:参考资料[4])
最后得到完整测序的区域
在此次发表的一系列成果中,研究人员着重分析了基因组中的重复片段在人类演化、遗传多样性的形成以及疾病中的重要作用。
重复片段(segmental duplication)是基因组中反复出现的、序列相似性超过90%以上的大段序列。无论是物种内还是物种之间的演化过程中,大多数的遗传变异都出现在重复片段区域,这里是产生新基因和新基因功能发生适应性变化的关键。但由于结构的复杂性,这里也是人类基因组中最后得到完整测序的区域。
▲更完整的人类基因组测序结果加深我们对重复片段的理解(图片来源:参考资料[3])
现在,基于最新的完整人类基因组测序结果,科学家终于能够以更综合的视角审视人类的重复片段。在这类区域,科学家找到了182个全新的蛋白质编码基因,并且帮助我们理解一系列重要的演化与医学难题。
例如,比较人类与其他灵长类动物的测序结果,研究发现了与人类前额叶皮层扩张相关的基因TBC1D3,这将有助于重现古人类演化的历史。而在不同人类个体间,在重复片段区域编码脂蛋白的LPA基因,其数量与心血管疾病风险高度相关……
基于这项研究,我们能够全面理解重复片段的组织、表达与调控,并提升基因注释与基因分型。
▲详细描绘了人类基因组中重复序列的转录和甲基化状态,为功能研究奠定基础(图片来源:参考资料[6])
在另一项研究中,康涅狄格大学Rachel O'Neill教授领导的团队揭示了重复序列的转录与表观遗传状态。重复序列包含移动遗传元件,它们可以移动至基因组的其他区域。研究指出,一些多次重复的片段所包含的基因,能在很大程度上解释人类的遗传多样性。
除了从基因组的角度揭示特定重复序列对人类的影响,这项研究还从局部(例如着丝粒中)分析了重复序列的转录图景、描绘了甲基化的情形。这些结果将帮助我们理解转录在基因组稳定性以及染色体分离机制中的作用。
参考资料:
[1] Sergey Nurk et al., (2022) The complete sequence of a human genome. Science. Doi: 10.1126/science.abj6987
[2] Sergey Aganezov et al., (2022) A complete reference genome improves analysis of human genetic variation. Science DOI: 10.1126/science.abl3533
[3] Mitchell R. Vollger et al., (2022) Segmental duplications and their variation in a complete human genome. Science https://doi.org/10.1126/science.abj6965
[4] Complete genomic and epigenetic maps of human centromeres. Science(2022), DOI: 0.1126/science.abl4178
[5] A. Gershman et al., Epigenetic patterns in a complete human genome. Science 376, eabj5089 (2022). DOI: 10.1126/science.abj5089
[6] S. J. Hoyt et al., (2022) From telomere to telomere: The transcriptional and epigenetic state of human repeat elements Science DOI: 10.1126/science.abk3112
[7] Complete human genome deciphered for the first time. Retrieved Apr. 1, from https://www.eurekalert.org/news-releases/946948