Nat Chem Biol:北京大学王初/苏晓东/刘源合作开发系统预测蛋白质组中金属结合位点的工具
时间:2023-01-05 12:03:20 热度:37.1℃ 作者:网络
金属离子在蛋白质中具有多种重要的生物学作用,包括结构维护、分子识别和催化。以前预测蛋白质组中金属结合位点的方法是基于序列或结构基序。
2023年1月2日,北京大学王初、苏晓东与刘源合作在Nature Chemical Biology 杂志在线发表题为“Co-evolution-based prediction of metal-binding sites in proteomes by machine learning”的研究论文,该研究开发了一个名为“MetalNet”的基于共同进化的管线,系统地预测蛋白质组中的金属结合位点。通过将MetalNet应用于四个具有代表性的原核生物物种的蛋白质组,预测了4849个潜在的金属蛋白,极大地扩展了目前已注释的金属蛋白组。
此外,还从生物化学和结构上验证了几种蛋白质中先前未注释的金属结合位点,包括柠檬酸载脂蛋白裂解酶磷酸核糖-脱磷酸辅酶A转移酶citX,一种与任何已知金属蛋白缺乏结构或序列同源性的大肠杆菌酶(蛋白质数据库(PDB)代码:7DCM和7DCN)。MetalNet还成功地概括了人类剪接体复合体中所有已知的锌结合位点。总之,MetalNet的管线为查询隐藏的金属蛋白质组和研究金属生物学提供了一个独特和有利的工具。
金属离子在许多生物过程中起着不可或缺的作用。由于其独特的物理和化学性质,金属离子经常被用来稳定蛋白质结构,并作为辅助因子在蛋白质中协助催化生化反应和转导。据估计,整个蛋白质组中超过三分之一是金属结合蛋白;然而,由于通常只有少数氨基酸残基参与金属结合,因此一般预测金属结合蛋白并非易事。因此,蛋白质组中新的金属结合蛋白的发现和功能表征对于后基因组时代的基础生物学和工业应用都具有极大的兴趣。
为了以稳定和能量有利的方式保持特定的金属离子,所有物种的金属蛋白在其结构中进化出了拓扑上相似的金属结合位点,以满足化学和几何结合的要求。几十年来,结构观察和理论计算都积累了详细的知识,可以准确地描述不同金属离子的结合几何和价态规则。最近,研究人员利用其他实验方法,包括电感耦合等离子体质谱(ICP-MS)、基于活性的蛋白质谱分析和凝胶电泳中的金属同位素原生无线电自写法,直接探索了蛋白质组中的金属结合蛋白。
随着基因组数据库的爆炸式增长,各种生物信息学方法也被开发出来,根据序列或结构信息预测金属结合位点。例如,人类蛋白质组中的锌结合蛋白已经通过与已知金属蛋白的序列和结构同源性的组合被系统地预测。支持向量机和神经网络等更复杂的算法被用于从蛋白质初级序列中识别过渡金属结合位点上的半胱氨酸和组氨酸。此外,关于典型螯合几何结构的知识也可用于从载脂蛋白结构中预测金属结合位点。最后,MIB和COFACTOR等网络服务器已经开发出来,能够自动注释蛋白质中的金属结合位点或配体结合位点。然而,计算发现蛋白质组中没有序列或结构同源的新金属蛋白仍然具有挑战性。
得益于高通量测序技术,我们现在可以获得快速增长的物种列表的基因组信息。对来自多个物种的特定感兴趣蛋白(protein of interest,POI)的序列进行比对,可以构建其全面的进化历史,不仅包含高度保守的残基,还包含具有强协方差的残基对。这种共同进化信息通常表示在所谓的“接触图”中,已被提取用于精确检测序列中的长期相互作用。最近,利用共同进化信号,在球状蛋白、蛋白质复合物和无序区域的结构状态的结构预测方面取得了里程碑式的成功。协同进化分析也被应用于多种方法来定义蛋白质中的功能位点。然而,它用于金属结合位点的系统预测还没有被探索。
这项研究开发了一种名为“MetalNet”的机器学习(machine-learning,ML)方法,利用协同进化以位点特异性分辨率预测蛋白质组中的金属结合蛋白。研究人员将MetalNet应用于几个具有代表性的原核蛋白质组,并预测了近5000个潜在的金属蛋白。
通过从生物化学和结构上验证了几个以前没有注释的MetalNet预测,包括一个来自apo柠檬酸裂解酶磷酸核糖脱磷酸辅酶A转移酶citX的锌结合位点。此外,MetalNet还成功预测了人类剪接体复合体中所有已知的锌结合位点。
研究概述(图源自Nature Chemical Biology )
综上所述,这种独特的计算管线将为探索未知金属蛋白质组和研究金属生物学提供有用的工具。MetalNet专注于共同进化的残基,并利用这些信息来预测金属结合。MetalNet使用ML模型学习基于共同进化信息的特征,并在应用图过滤器后进行预测。这些数据表明,MetalNet预测可以作为一个很好的补充,指导金属蛋白的蛋白质结构确定的实验和计算方法。
原文链接:
https://www.nature.com/articles/s41589-022-01223-z