爱奇飞网

网站首页健康养生 >正文

语言模型可以读取基因组吗这个解码 mRNA 来制造更好的疫苗

开心的月饼 2024-04-07 08:43:35 健康养生

与编码软件成为头条新闻并通过律师资格考试的同类人工智能已经学会了阅读不同类型的文本——遗传密码。

语言模型可以读取基因组吗这个解码 mRNA 来制造更好的疫苗

该代码包含所有生命功能的指令,并遵循与管理人类语言的规则不同的规则。基因组中的每个序列都遵循复杂的语法和句法,这些结构产生了意义。正如改变几个单词可以从根本上改变句子的影响一样,生物序列的微小变化也可以使序列编码的形式产生巨大差异。

现在,由机器学习专家王梦迪领导的普林斯顿大学研究人员正在使用语言模型来追踪部分基因组序列并优化这些序列,以研究生物学和改进医学。他们已经在进行中。

在 4 月 5 日发表在《自然机器智能》杂志上的一篇论文中,作者详细介绍了一种语言模型,该模型利用其语义表示的能力来设计更有效的 mRNA 疫苗,例如用于预防 COVID-19 的疫苗。

在翻译中找到

科学家有一种简单的方法来总结遗传信息的流动。他们称之为生物学的中心法则。信息从DNA转移到RNA再到蛋白质。蛋白质创造活细胞的结构和功能。

信使 RNA(或 mRNA)在最后一步(称为翻译)将信息转化为蛋白质。但 mRNA 很有趣。它只有一部分包含蛋白质的代码。其余部分不进行翻译,但控制翻译过程的重要方面。

控制蛋白质生产的效率是 mRNA 疫苗发挥作用的关键机制。研究人员将他们的语言模型集中在未翻译的区域,看看如何优化效率并改进疫苗。

在对少数物种进行模型训练后,研究人员生成了数百个新的优化序列,并通过实验室实验验证了这些结果。最佳序列的性能优于疫苗开发的多个领先基准,其中蛋白质生产的整体效率提高了 33%。

研究人员表示,即使是少量提高蛋白质生产效率,也会对新兴疗法产生重大推动作用。除了 COVID-19 之外,mRNA 疫苗有望预防许多传染病和癌症。

电气和计算机工程教授兼这项研究的首席研究员王表示,该模型的成功也指出了一种更根本的可能性。经过对来自少数物种的 mRNA 的训练,它能够解码核苷酸序列并揭示有关基因调控的新知识。科学家认为,基因调控是生命最基本的功能之一,是解开疾病和紊乱根源的关键。像这样的语言模型可以提供一种新的探索方式。

Wang 的合作者包括来自生物技术公司 RVAC Medicines 以及斯坦福大学医学院的研究人员。

疾病的语言

新模型与当今人工智能聊天机器人所使用的大型语言模型的不同之处在于程度,而不是种类。他们的模型没有接受来自互联网的数十亿页文本的训练,而是接受了数十万个序列的训练。该模型还经过训练,纳入了有关蛋白质生产的其他知识,包括结构和能量相关信息。

研究团队使用经过训练的模型创建了包含 211 个新序列的库。每个都针对所需功能进行了优化,主要是提高翻译效率。这些蛋白质,如 COVID-19 疫苗靶向的刺突蛋白,可驱动针对传染病的免疫反应。

之前的研究已经创建了语言模型来解码各种生物序列,包括蛋白质和 DNA,但这是第一个专注于 mRNA 非翻译区域的语言模型。除了提高整体效率之外,它还能够预测序列在各种相关任务中的执行情况。

王表示,创建这种语言模型的真正挑战是理解可用数据的完整上下文。训练模型不仅需要原始数据及其所有特征,还需要这些特征的下游结果。如果一个程序旨在过滤电子邮件中的垃圾邮件,那么它训练的每封电子邮件都将被标记为“垃圾邮件”或“非垃圾邮件”。在此过程中,该模型开发了语义表示,使其能够确定哪些单词序列表示“垃圾邮件”标签。其意义就在于此。

王说,研究一个狭窄的数据集并围绕它开发一个模型不足以对生命科学家有用。她需要做一些新的事情。由于该模型处于生物学理解的前沿,因此她发现的数据无处不在。

“我的数据集的一部分来自一项研究,其中有提高效率的措施,”王说。 “我的数据集的另一部分来自另一项测量表达水平的研究。我们还从多个资源收集了未注释的数据。”将这些部分组织成一个连贯且强大的整体——一个多方面的数据集,她可以用它来训练复杂的语言模型——是一项巨大的挑战。

“训练模型不仅是将所有这些序列放在一起,还要将序列与迄今为止收集到的标签放在一起。这是以前从未做过的。”

论文“A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions”发表在Nature Machine Intelligence上。其他作者包括来自 RVAC Medicines 的 Dan Yu、Yupeng Li、Yue Shen 和 Jason Zhang; Le Cong,来自斯坦福大学;以及来自普林斯顿大学的 Yanyi Chu 和 Kaixuan Huang。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行