Nat Methods:1亿个参数,2万个基因!张学工/马剑竹/宋乐开发单细胞转录组学大规模预训练模型

2024-06-09 测序中国 测序中国 发表于上海

研究团队报道了一个大型的预训练模型scFoundation,其具有1亿个参数,覆盖约20,000个基因,在超过5,000万个人类单细胞转录组谱上进行了预训练。

随着人工智能技术的不断进步,大规模的pre-training(预训练)模型已经在自然语言处理及相关领域的研究带来革命性的变化,并且其应用范围正不断扩展。在生命科学中,生物体有其潜在的“语言”,细胞是人体的基本结构和功能单位,是由DNA、RNA、蛋白质、基因表达值等无数“词语”组成的“句子”。那么是否能够基于大量“句子”开发研究细胞的基础模型呢?

近年来,单细胞转录组测序(scRNA-seq)数据提供了对细胞系统的高通量观察,为建立细胞的基础模型提供了重要参考信息。在转录组学数据中,基因表达谱描述了细胞内基因-基因共表达和相互作用的复杂系统。随着研究的深入,单细胞转录组数据规模呈指数级增长,这与用于训练大型语言模型(LLM)的自然语言文本的数量相当,为训练用于细胞研究的大规模模型提供了基础。

2024年6月6日,来自清华大学张学工马剑竹团队联合百图生科公司宋乐团Nature Methods发表了题为“Large-scale foundation model on single-cell transcriptomics”的文章。在该文章中,研究团队报道了一个大型的预训练模型scFoundation,其具有1亿个参数,覆盖约20,000个基因,在超过5,000万个人类单细胞转录组谱上进行了预训练。分析显示,scFoundation在可训练参数大小、基因维数和训练数据量方面是一个大规模的模型,能够有效地捕获各种细胞类型和状态下基因之间的复杂关系。此外,为了验证scFoundation学习细胞和基因特征的能力,研究人员还进行了多项下游任务的实验。结果表明,scFoundation可以在多种单细胞分析任务中实现最先进的性能,例如基因表达增强、药物反应分类等。因此,该研究揭示了转录组学数据的大规模预训练模型的有效性和价值,并证明了其在促进生物学和医学研究方面的巨大应用价值。该论文第一作者是清华大学自动化系博士生 郝敏升

图片

文章发表在Nature Methods

主要研究内容

scFoundation预训练模型架构

首先,研究团队开发了xTrimoGene,其具有算法效率和工程加速策略,它包括一个嵌入模块和一个非对称编解码器结构。嵌入模块将连续的基因表达量转化为可学习的高维向量,作为编码器和解码器的输入。该模块完全保留来自原始表达式值的信息,与之前模型中使用的离散值相比有显著改进。非对称编解码器结构是专门为适应单细胞基因表达数据的高稀疏特性而设计的,这一架构对零和非零值给予了不同的关注和计算资源,从而实现了所有基因关系的高效学习,而不需要进行任何选择。

考虑到单细胞基因表达数据在读取深度上存在较大差异,研究团队还设计了一种新的预训练任务,称为读取深度感知(RDA)建模。在RDA中,研究团队训练模型根据其它基因的表达量来预测细胞被掩盖基因的表达。这种预训练过程使预训练模型不仅能够捕获细胞内的基因-基因关系,而且能够协调不同读取深度的细胞。

随后,研究团队收集了所有公开的单细胞数据资源,构建了一个完整的单细胞基因表达数据集,涵盖了不同疾病、肿瘤和正常状态下的100多种组织类型,几乎包含了所有已知的人类细胞类型和细胞状态。经过测试,scFoundation可以在不依赖数据集训练过程的情况下获得最佳性能。

图片

图1. 预训练模型的概括图

scFoundation改善癌症药物反应预测

肿瘤药物反应(CDRs),即研究肿瘤细胞对药物干预的反应。预测CDR对于指导抗癌药物设计和理解癌症生物学至关重要。因此,研究团队将scFoundation与CDR预测方法DeepCDR结合,在多个细胞系数据中预测药物的半最大抑制浓度IC50值,使用scFoundation提取转录组特征并将其输入到后续的预测模块中。

结果发现,大多数药物和所有癌症类型通过使用scFoundation的嵌入实现了更高的皮尔森相关系数(PCC)。研究团队还进一步可视化了药物和癌症类型的最佳预测案例,表明无论lC50高或低,基于scFoundation嵌入的DeepCDR模型都可以预测准确,并实现了0.93以上的PCC

接下来,研究团队进一步将药物分为不同的治疗类型,以检验IC50预测性能是否与它们的内在机制有关。研究团队观察到,根据scFoundation预测的结果,化疗药物(如抗肿瘤抗生素和拓扑异构酶抑制剂)比靶向治疗药物(如ATM和PARP抑制剂)具有更高的PCC,这可能是由于特定的基因突变往往对靶向治疗有重要影响,但突变信息很难从基因表达数据中被揭示。总之,以上发现说明了scFoundation在扩展对癌症生物学中药物反应方面的潜力,并可指导设计更有效的抗癌治疗。此外,scFoundation还可将药物敏感性预测模型转移到单细胞数据中,有效地促进了药物基因组学信息从细胞系到单细胞数据的转移。

图片

图2. 基于scFoundation嵌入的药物反应预测

scFoundation预测更准确的扰动反应

细胞对扰动的反应对于生物医学应用和药物设计至关重要,因为其有助于识别不同细胞类型和潜在药物靶点之间的相互作用。研究团队将scFoundation与一个先进的模型GEARS结合起来进行扰动预测任务。在原始的GEARS模型中,基因共表达图与扰动信息相结合,预测扰动后的基因表达,共表达图中的每个节点代表一个基因,初始嵌入是随机的,边缘连接共表达基因。研究人员从scFoundation解码器中获得每个细胞的基因上下游嵌入信息,并将其设置为图中的节点。

随后,研究团队在三个扰动数据集上训练和测试了模型,并计算了前20个差异表达基因与扰动后基因表达谱之间的均方误差,以评估模型的性能。与原始的GEARS基线模型相比,该联合模型在所有基因扰动数据集上获得了更低的均方误差值。此外,研究团队进一步分析了预测值落在基因真实平均表达值百分之五以内的比例,发现基于scFoundation模型的百分比更高,说明其提供了更合理的扰动后基因表达值分布,对基因扰动的分析还强调了该模型准确分类不同类型遗传相互作用的能力

图片

图3. 基于scFoundation嵌入的基因扰动预测

结语

该研究报道了最新开发的大规模预训练模型—scFoundation,该模型具有惊人的1亿参数规模,并经过对超过5000万个人类单细胞转录组数据的训练。scFoundation不仅具备前所未有的规模和基因维度,还为单细胞转录组学提供了丰富的分子特征观测数据。基于多个层面的应用,scFoundation在多种生物医学任务中均具有卓越性能,包括组织药物反应预测、扰动反应预测等。因此,未来scFoundation不仅可以协助研究人员深入研究不同细胞类型及其在不同条件下的基因表达模式,还可能在众多生物医学任务中取得显著的突破。

论文原文

Hao M, Gong J, Zeng X, Liu C, Guo Y, Cheng X, Wang T, Ma J, Zhang X, Song L. Large-scale foundation model on single-cell transcriptomics. Nat Methods. 2024 Jun 6. doi: 10.1038/s41592-024-02305-7.

https://doi.org/10.1038/s41592-024-02305-7

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2209077, encodeId=3d7a22090e72b, content=<a href='/topic/show?id=a1a03630954' target=_blank style='color:#2F92EE;'>#单细胞转录组#</a> <a href='/topic/show?id=bda29129823' target=_blank style='color:#2F92EE;'>#训练模型#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=69, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=36309, encryptionId=a1a03630954, topicName=单细胞转录组), TopicDto(id=91298, encryptionId=bda29129823, topicName=训练模型)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Jun 09 12:28:45 CST 2024, time=2024-06-09, status=1, ipAttribution=上海)]
    2024-06-09 梅斯管理员 来自上海

相关资讯

单细胞转录组研究进展

   单细胞转录组分析以单个细胞为特定研究对象,提取mRNA进行逆转录、放大和高通量测序分析,能揭示该细 胞内整体水平的基因表达状态和基因结构信息,准确反映细胞间的异质性,深入理解其基因型和表型之间的相互关系,在发育生物学、基础医学、临床诊断和药物开 发等领域都发挥重要作用.本文主要介绍了单细胞转录组分析的特点和技术发展历史以及常用研究策略和不同技术的优缺点,并就其面临挑战

Nature子刊:单细胞转录组揭示横纹肌肉瘤免疫抑制和临床预后特征

 通过比较融合基因阳性横纹肌肉瘤和融合基因阴性横纹肌肉瘤的转录组图谱,揭示了两种横纹肌肉瘤分子亚型之间和分子亚型内的细胞成分和分化状态的差异,这种差异与临床预后相关,也是潜在免疫治疗靶点。

Cardiovasc Res:肺动脉高压内皮细胞的单细胞测序分析

内皮细胞功能障碍推动了肺动脉高压 (PAH) 的发生和发病机制。 我们旨在以单细胞分辨率表征 PAH 中的内皮细胞 (EC) 动力学。

A&R:单细胞转录组和表面蛋白表达分析确定强直性脊柱炎中OX40+GITR+致病性Th17细胞

通过单细胞转录组和表面蛋白表达分析,揭示强直性脊柱炎(AS)患者血液和滑膜细胞的免疫图谱,揭示致病Th17细胞(pTh17)的分子特征。

单细胞转录组测序技术在非小细胞肺癌免疫微环境分析中应用的研究进展

根据2020年的数据[1],肺癌是世界上第二常见的癌症,同时也是癌症死亡的最重要原因。与小细胞肺癌相比,非小细胞肺癌(non-small cell lung cancer,NSCLC)更为常见[2]。

Nat Genet:马丁院士团队揭示宫颈鳞状细胞癌的细胞生态系统

该研究成果为临床个体化治疗和预后评估提供了新思路和潜在的治疗靶点,将有助于更精准地进行宫颈癌免疫治疗。

ARD:单细胞转录组分析可识别系统性硬化症中的皮肤特异性T细胞反应

尽管T细胞与系统性硬化症(SSc)的发病机制有关,但缺乏对进行性SSc患者受影响皮肤中T细胞介导的免疫反应的综合研究。该研究对SSc皮肤活检进行基于液滴的单细胞转录组分析。

Cell Discovery:头发为什么会变白?单细胞转录组测序揭示原因并找到干预靶点

人的头发变白通常是一个从中年开始的渐进过程。衰老相关的头发变白与黑色素细胞和黑色素细胞干细胞(MeSC)的耗竭有关,这可能受到头皮微环境中氧化应激和神经内分泌信号等因素的影响。