爱奇飞网

网站首页生活常识 >正文

破译基因组语言新的人工智能系统解锁生物学的源代码

开心的月饼 2024-04-08 08:55:22 生活常识

像ChatGPT这样的人工智能(AI)系统已经风靡全球。从推荐下一部值得一看的电视节目到帮助疏通交通,他们几乎无所不包。但人工智能系统能否学习生命的语言并帮助生物学家揭示令人兴奋的科学突破?

破译基因组语言新的人工智能系统解锁生物学的源代码

在《自然通讯》上发表的一项新研究中,由YunhaHwang博士领导的跨学科研究小组。哈佛大学有机与进化生物学系(OEB)的候选人开创了一种能够破译复杂的基因组学语言的人工智能(AI)系统。

基因组语言是生物学的源代码。它描述了基因组中编码的生物功能和调控语法。研究人员问道:“我们能否开发一个人工智能引擎来‘阅读’基因组语言并流利地使用这种语言,理解基因的含义、功能和规则?”该团队将微生物宏基因组数据集(现有的最大且最多样化的基因组数据集)输入机器以创建基因组语言模型(gLM)。

“在生物学中,我们有一本已知单词的字典,研究人员在这些已知单词的范围内进行工作。问题是,这部分已知单词只占生物序列的不到百分之一,”黄说。“基因组数据的数量和多样性正在爆炸式增长,但人类无法处理如此大量的复杂数据。”

大型语言模型(LLM),例如GPT4,通过处理大量不同的文本数据来学习单词的含义,从而能够理解单词之间的关系。基因组语言模型(gLM)从高度多样化的宏基因组数据中学习,这些数据来源于栖息在海洋、土壤和人类肠道等各种环境中的微生物。

有了这些数据,gLM通过学习基因与其基因组背景之间的关系来了解每个基因的功能“语义”和调控“语法”。gLM与LLM一样,是一种自我监督模型,这意味着它仅从数据中学习有意义的基因表示,不需要人类分配的标签。

研究人员对一些最常研究的生物体(如人类、大肠杆菌和果蝇)进行了测序。然而,即使对于研究最多的基因组来说,大多数基因的特征仍然很差。

“在这个‘组学’革命性时代,我们学到了很多东西,包括我们不知道的东西,”资深作者、哈佛大学OEB教授彼得·吉尔吉斯(PeterGirguis)说。“我们问,如何在不依赖谚语词典的情况下从某物中收集含义?我们如何更好地理解基因组的内容和背景?”

该研究表明,gLM可以学习酶功能和共同调控的基因模块(称为操纵子),并提供可以预测基因功能的基因组背景。该模型还学习分类信息和基因功能的上下文依赖性。

引人注目的是,gLM不知道它看到的是哪种酶,也不知道该序列来自哪种细菌。然而,由于它在训练过程中见过许多序列并了解序列之间的进化关系,因此能够推导出序列之间的功能和进化关系。

“就像单词一样,基因可以根据其所处的上下文而具有不同的‘含义’。相反,高度分化的基因在功能上可以是‘同义’。gLM允许提供一个更细致的框架来理解基因功能。这与现有的从序列到注释的一对一映射方法,这不能代表基因组语言的动态和上下文依赖性质,”Hwang说。

Hwang与合著者AndreCornman(机器学习和生物学独立研究员)、SergeyOvchinnikov(前约翰·哈佛杰出研究员、现任麻省理工学院助理教授)和ElizabethKellogg(圣裘德儿童研究医院副教授)合作,组建一支在微生物学、基因组、生物信息学、蛋白质科学和机器学习方面具有深厚背景的跨学科团队。

“在实验室里,我们陷入了寻找基因、制造蛋白质、纯化它、表征它等的一步一步的过程,所以我们只能发现我们已经知道的东西,”吉尔吉斯说。然而,gLM允许生物学家研究未知基因的背景及其在类似基因组中经常发现的情况下的作用。该模型可以告诉研究人员,这些基因组协同工作来实现某些目标,并且它可以提供“字典”中没有出现的答案。

“基因组背景包含了解不同蛋白质和基因的进化历史和进化轨迹的关键信息,”黄说。“最终,gLM学习这些上下文信息,以帮助研究人员了解以前未注释的基因的功能。”

MartinSteinegger表示:“传统的功能注释方法通常一次只关注一种蛋白质,而忽略了蛋白质之间的相互作用。gLM将基因邻域的概念与语言模型相结合,从而提供了更全面的蛋白质相互作用视图,代表了一项重大进步。”(首尔国立大学助理教授),生物信息学和机器学习专家,未参与这项研究。

通过基因组语言模型,生物学家可以发现新的基因组模式并揭示新的生物学。gLM是推动生命科学进步的跨学科合作的一个重要里程碑。

“通过gLM,我们可以获得对注释不良的基因组的新见解,”Hwang说。“gLM还可以指导功能的实验验证,并促进新功能和生物机制的发现。我们希望gLM能够加速发现针对气候变化和生物经济的新型生物技术解决方案。”


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行