NAR:哈工大/腾讯AI实验室合作构建迄今最大规模的单细胞蛋白质组数据库SPDB

时间:2023-12-01 16:35:55   热度:37.1℃   作者:网络

单细胞蛋白质组学能够在单细胞分辨率下直接定量蛋白质丰度,为细胞表型提供有价值的见解。2018年,单细胞蛋白质组学技术被《自然方法》评为“值得关注的方法”。2021年9月,《自然》发表了题为“single-cell proteomics takes centre stage”的技术专题文章,预计单细胞蛋白质组学技术的新浪潮将对生物学和临床研究产生深远的影响。但是,目前可用的单细胞蛋白质组学数据库仍存在不足,例如仅提供存储、提交和下载功能,缺乏用户友好的数据处理统一格式,缺乏直观的界面来可视化数据集,数据集覆盖不全面。大规模集成数据库的不足阻碍了研究人员获取和探索单细胞蛋白质组学,阻碍了该领域的发展。

为弥补上述不足,哈尔滨工业大学研究团队联合腾讯人工智能实验室团队构建了一个全面的单细胞蛋白质组学数据库SPDB,可用于一般单细胞蛋白质组学数据,包括基于抗体或基于质谱的单细胞蛋白质组学,提供了从单细胞角度研究蛋白质组学的强大工具。SPDB具有标准化的数据处理流程和友好的web界面,提供统一的数据格式,方便与下游分析交互,并提供数据集级和蛋白质级的数据搜索和探索能力。SPDB还提供了一个模块,用于从细胞元数据或蛋白质特征的角度对数据进行可视化。迄今为止,SPDB集成了来自12种基于抗体和质谱技术的143个单细胞蛋白质组学数据集,涵盖了4个不同物种的3亿个细胞和8000多种不同的蛋白质。该研究结果已发表在Nucleic Acids Research上,文章题为“SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution”。

图片

据文章介绍,存储在SPDB中的所有数据集都经过标准化管道的处理,组装成统一的数据格式。SPDB的当前版本涵盖了4个不同物种(人类、小鼠、猕猴和猪)的30种组织样本,包含133个基于抗体的单细胞蛋白质组学数据集,涉及超过3亿个细胞和800多种标记/表面蛋白质,以及10个基于质谱的单细胞蛋白质组学数据集,涉及超过4000个细胞和7000多种蛋白质。值得注意的是,其中90个数据集涉及42种不同的疾病类型,如COVID-19 、HIV和乳腺癌,这将有助于从单细胞蛋白质组学的角度进行疾病研究和药物发现。

作为一个用户友好的网络服务器,SPDB提供了广泛的功能,包括单细胞蛋白质组数据部署,数据集搜索和挖掘模块、蛋白质搜索和挖掘模块、数据统计模块,以及详细的用户手册。

数据搜索和挖掘模块

为方便用户方便地搜索目标数据集,SPDB提供了三种数据查询选项:(i)在数据库主页上设置了多个按物种或技术类型分类的快速搜索按钮,方便用户对特定数据集进行筛选;(ii)存储在SPDB中的所有数据集都在数据页面上进行了编目,并配有与原始论文相对应的标题;(iii)数据页面上有8个组件,即发布时间、样本物种、组织、疾病、技术和技术类型以及细胞/蛋白质的数量,为用户提供了通过指定一个或多个标准来过滤数据集的各种选项(图1)。

SPDB可从不同的角度全面挖掘先进的单细胞蛋白质组学数据集。应用数据过滤器后,用户可以选择一个目标数据集,并通过点击相应的“More Details”按钮进入模块的二级页面。随后,用户可以从不同角度(即关键信息、数据可视化、蛋白质比较)有效地探索该数据集。同时,通过点击“rds file”按钮,可以下载统一格式的处理数据。

图片

图1.SPDB中的数据搜索和探索演示。(A) SPDB中所有采集数据集的浏览界面和过滤组件。(B) SPDB的数据信息面板。(C) SPDB的UMAP可视化面板。(D) SPDB蛋白对比图。(E) SPDB分析结果面板。

蛋白质搜索和挖掘模块

除了数据集搜索功能,SPDB还提供蛋白质搜索功能。有三种途径可以搜索目标蛋白质(图2)。用户可以输入蛋白质名称/UniProt登录号/一种蛋白质的相应官方基因符号,然后点击“Show Candidates”按钮检索目标蛋白质,相关数据集在SPDB中可用。然后,用户可以点击蛋白质的条目名称进入该模块的二级页面,进入“Protein Summary”标签页,检索蛋白质的摘要信息,包括蛋白质名称、家族、相关基因名称、蛋白质组长度和序列、功能等关键细节。此外,用户还可以导航到“Datasets”选项卡来访问检测相应蛋白质的数据集信息。对于目标数据集,单击“Scan Expression”按钮后,将出现一个新窗口,直接显示所查询蛋白质在UMAP图中的表达水平。此外,通过点击“More Details”按钮,用户将被重定向到数据探索页面,可以详细探索数据集。

图片

图2.SPDB中蛋白质搜索和探索演示。(A) SPDB蛋白检索页面。(B)一个由模糊搜索得到的可用蛋白质列表的例子。(C)在至少一个数据集中检测到的候选蛋白表。(D) SPDB蛋白汇总图。(E)相关数据集的浏览界面和一个选定数据集的新弹出窗口。

数据比较模块

在“Protein”页面上搜索特定蛋白质后,用户将能够从“Datasets”选项卡中选择两个相关的数据集,并执行数据比较功能,以研究不同条件下的蛋白质表达模式(图3)。点击“Compare Expression”按钮,将显示一个新窗口,显示两个UMAP图,说明特定蛋白在不同条件下的表达。此外,在选择“Compare Correlation”按钮后,用户将被重定向到一个专门的网页,该网页可在两种不同条件下对蛋白质相关模式进行比较分析。

图片

图3.SPDB中数据比较的演示。(A)相关数据集的浏览界面。(B)两个特定数据集中蛋白表达的比较。(C)两个特定数据集中蛋白质相关模式的比较。

总体而言,SPDB提供了几个创新功能:

SPDB的当前版本精心规划了数百个单细胞蛋白质组学数据集,用户能够有效地定位和访问特定数据集;

SPDB按照标准化的工作流程对数据集进行预处理,并将数据与必要的元数据以统一的数据格式存储,节省了用户收集数据的时间,简化了下游分析;

SPDB提供全面的数据探索模块,使数据集能够通过交互式或静态图表可视化,以直观和翔实的方式表示复杂的信息;

SPDB还提供了蛋白质搜索模块,使研究人员能够访问简明的蛋白质信息并定位检测到目标蛋白质的数据集;

SPDB集成了数据比较模块,使用户能够在数据集中探索目标蛋白质的不同表达模式。

图片

研究概述

SPDB是为单细胞蛋白质组学数据量身定制的最大规模的综合数据库,将为促进单细胞蛋白质组学在癌症研究和药物发现领域的广泛应用奠定坚实的基础。未来,利用SPDB中存储的大量单细胞蛋白质组学数据,该研究团队计划开发针对单细胞蛋白质组学的专门计算工具,例如细胞类型注释、数据集成和drop-out imputation方法,并将新开发的工具集成到SPDB平台中。同时,研究团队将努力获取类似组织或细胞条件下蛋白质的相关基因表达数据,使用户能够在单细胞水平上进行蛋白质和基因表达的比较分析。此外,研究团队将通过纳入新的相关研究和技术来不断维护和更新SPDB,同时增强其功能和工具集成。

SPDB免费访问,无需注册 https://scproteomicsdb.com/ 

原文链接:

https://doi.org/10.1093/nar/gkad1018

上一篇: JAMA Cardiology:脉搏场期...

下一篇: 微晶瓷+Belotero Volume,...


 本站广告