爱奇飞网

网站首页健康养生 >正文

生成式人工智能如何帮助加速生物医学研究

开心的月饼 2023-11-04 09:15:31 健康养生

最近生成式人工智能工具的爆炸式增长引发了几乎所有领域关于这些技术的好处和风险的许多讨论。这些工具,包括ChatGPT、Bard等,已经接受过大量内容的训练,可以生成看起来与人类生成的内容极其相似的文本和图像。

生成式人工智能如何帮助加速生物医学研究

在麻省理工学院和哈佛大学的博德研究所,一群研究人员、软件工程师、管理员和沟通者(是的,就是我们)一直在探索这些聊天机器人和类似工具的使用,调查社区并提出建议。

为了更深入地探讨这个主题,我们采访了MehrtashBabadi,他是Broad数据科学平台的研究所科学家、计算方法总监以及机器学习和人工智能专家。他谈到了生成式人工智能技术不仅可以用于分析人类语言,还可以用于分析基因和细胞的语言(原始生物数据),以揭示细胞和组织在健康和疾病中的运作方式。

他还分享了他对ChatGPT、Bard和GitHubCopilot等基于语言的生成模型在编写计算机代码、提出假设和其他任务方面的好处的看法。

巴巴迪说:“我认为这些系统不仅对软件工程师和程序员来说会变得越来越有用,而且对每个职业中的其他人来说也会变得越来越有用,就像搜索引擎已经成为我们生活中获取信息不可或缺的一部分一样。”他经常使用ChatGPT搜索互联网并撰写电子邮件和研究摘要。

为了长度和清晰度,以下对话经过(人工)编辑。

您如何看待生物学中的生成人工智能?

生成式人工智能是机器学习社区中酝酿已久的东西,可以追溯到贝叶斯统计的基本原则。我们已经使用它们很长一段时间了,用于对生物学的各个方面进行建模,例如基因组变异、实验制品、单细胞生物学和其他领域。

现在随着这些模型的进步,它们与深度神经网络、大量的训练数据和计算能力的结合,特别是这些模型在生成图像和自然语言方面的进步,它们真的爆炸了,突然之间每个人都为他们感到兴奋。

我们现在正在思考如何使用在自然语言和图像建模方面非常成功的相同方法来学习细胞和组织等生物系统的内在语言,并在计算机中预测它们的命运和对各种刺激的反应。这是我们积极研究的一个领域,我们已经取得了一些进展,但还有很多工作需要完成。

您能否详细解释一下如何使用生成式人工智能来分析生物数据?

现在,人们对ChatGPT和类似的对话式人工智能系统感到非常兴奋,这是有充分理由的,因为这些都是真正有能力且强大的系统,而且该领域还有很多新兴工作表明这些模型也有很好的把握生物学的。你可以问他们诸如“这个基因的功能是什么?”之类的问题。他们会告诉你,因为他们读过教科书和论文。所以这些模型已经了解了我们对生物学的了解。

这正是问题所在,因为我们对生物学的许多方面知之甚少!我们对生物学的理解仍在不断发展,并且存在很大的偏见,有些文献甚至无法重现。自然语言模型是在该基础上进行训练的,因此它们会受到与我们相同的偏见和对生物学的不完整理解的影响。

因此,我们试图从原始生物测量和数据中直接学习生物系统的语言,而无需任何人类解释。

研究人员将如何使用根据原始生物数据训练的生成模型?

例如,您可以设想一个生成模型,该模型经过描述某些组织或细胞如何工作的生物数据的训练,然后使用该模型生成描述新细胞状态或新组织的数据。例如,您甚至可以制作模型,并用“这是组织中的一个细胞,在附近生成另一个细胞”之类的提示来预测不同的细胞如何共同形成组织。

这些模型还可以根据干预数据(例如遗传或药理学筛选)进行微调,以学习预测未来的筛选。简而言之,生成模型具有计算细胞和组织生物学以及微扰筛选的许多方面的潜力。

现在变得非常有趣的是将这些细胞和组织模型与自然语言模型连接起来。因此,我们可以采用自然语言模型和更公正、更全面的细胞模型,然后将它们融合在一起形成一个比单独使用它们更强大的系统。这是人工智能研究的一个活跃领域,称为多模式生成人工智能,基本上将不同模式的生成模型结合起来,或者将它们连接在一起,并允许它们相互对话。

这样做的优点是,使用基于生物学先天语言的模型,您可以避免生物学自然语言模型中固有的偏见。但是您可以使用自然语言模型让人类科学家输入正确的提示。

生物学多模态生成人工智能取得了哪些进展?

我们现在确实拥有自然语言和文本、自然语言和图像的多模态生成人工智能,但生物系统的生成人工智能模型仍处于起步阶段。我们还没有看到将自然语言与生物系统语言相结合的多模式人工智能系统。

生成式人工智能对于假设生成有用吗?

我能想到的一个潜在的例子是一个典型的药物开发项目,我们想要了解疾病的潜在机制,然后确定治疗靶点。目前,这通常是通过结合主题专家的见解和非常聪明的实验设计来完成的,这些实验使用创新技术来操纵细胞等来测试聪明的假设。

但随着我们进行越来越多的此类实验,每一个实验都是生成人工智能系统的一种教训,它说“这是一个细胞,这是我们如何干预的,这就是发生的事情。”我们编录的课程越多,我们就越能教授生成式人工智能系统来预测未来的实验,而无需我们在实验室中完成所有这些实验。这是重用我们迄今为止收集的所有实验数据的巨大机会。

但其中一些预测会不会是错误的?

即使这些生成模型有时是错误的,但它们也并非完全错误。这意味着,例如,如果您使用它们来识别某个治疗目标,如果系统经过适当的训练,那么很可能至少其中一些目标实际上有意义。

这可能是这些系统的最佳应用之一:将它们的输出作为潜在的假设,然后对它们进行实验验证。根据结果​​的性质,后续实验产生的数据将加强模型的信念或纠正它,最终使其对于未来的查询稍微更准确。

我们来谈谈像ChatGPT这样的自然语言模型。这些工具对于编码和软件开发有多有用?

我们中的一些人使用GitHubCopilot,这是一个帮助编码员和程序员编写一些更标准的样板代码部分的系统,而不是最具创新性和挑战性的部分。这些系统非常擅长帮助您编写每个人都知道如何编写的部分代码,但无论如何您仍然需要这样做。

这些系统也非常擅长帮助您记录代码并对代码进行评论。因此,我们现在正在将这些系统用于这些目的,并将其作为传统代码完成系统的智能版本。

您对这些语言模型是否有任何担忧,例如不准确或潜在的误用?

挑战在于,众所周知,这些模型偶尔会“产生幻觉”,或者只是非常自信地撒谎。所以你必须自己进行事实核查。至于滥用,我不太担心科学和工程界,因为科学家和工程师经过训练,是怀疑论者,他们往往不相信事物的表面价值。因此,即使他们使用生成式人工智能系统来帮助他们解决问题,他们也会测试这些系统的输出。

我认为我更担心的是这些系统如何在其他领域被利用,例如产生错误信息以及人们不太愿意自己进行事实核查的其他话语。这就是我担心的地方,特别是因为这些系统生成内容的速度比我们快得多。因此,可以说,很容易充斥大量人工智能生成的故意虚假内容。

但作为生物研究和软件开发的工具,我认为在帮助提高某些研究效率方面有很大的希望。我们生成数据的速度呈指数级增长,远远超出了我们理解这些数据的专家能力。这就是生成式人工智能以及一般的机器学习和其他人工智能方法可能变得非常有用的地方,可以帮助我们以比人类更少偏见、更高效、更快的方式发现所有这些数据的规律性、共性和差异。可以做。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行