爱奇飞网

网站首页生活常识 >正文

新的人工智能平台BioAutoMATED适合生物学家

开心的月饼 2023-08-21 08:58:44 生活常识

尽管机器学习(ML)和其他人工智能工具可用于分析测序技术生成的大量数据,但大多数ML工具对于非专家来说很难访问和使用。最近,自动化机器学习(AutoML)方法已经被开发出来,可以自动化ML工具的设计和部署,但它们仍然需要一定的专业知识。

新的人工智能平台BioAutoMATED适合生物学家

现在,哈佛大学和麻省理工学院Wyss生物启发工程研究所的一组科学家构建了一个新的AutoML平台,专为几乎没有ML经验的生物学家设计。该平台BioAutoMATED可以使用核酸、肽或聚糖序列作为输入数据,其性能与其他AutoML平台相当,同时需要最少的用户输入。

该平台在CellSystems的文章“BioAutoMATED:用于解释和设计生物序列的端到端自动化机器学习工具”中进行了描述。”

“我们的工具是为那些没有能力构建自己的自定义ML模型的人提供的,他们发现自己会问这样的问题:‘我有这个很酷的数据集,ML是否适用于它?如何将其放入机器学习模型中?机器学习的复杂性阻碍了我进一步处理这个数据集,那么我该如何克服这个问题呢?”Wyss核心教员JimCollins博士实验室的研究生JackieValeri说道。“我们希望让生物学家和其他领域的专家能够轻松地利用ML和AutoML的力量来回答基本问题,并帮助揭示有意义的生物学知识。”

为了构建适用于生物学的一体化AutoML,该团队修改了三个现有的AutoML工具,每个工具都使用不同的方法来生成模型:AutoKeras,用于搜索最佳神经网络;DeepSwarm,使用基于群的算法来搜索卷积神经网络;TPOT,它使用包括遗传编程和自学习在内的多种方法来搜索非神经网络。BioAutoMATED为所有三种工具生成标准化输出结果,以便用户可以轻松比较它们并确定哪种类型可以从其数据中产生最有用的见解。

该团队构建的BioAutoMATED能够将任何长度、类型或生物功能的DNA、RNA、氨基酸和聚糖序列作为输入。BioAutoMATED自动预处理输入数据,然后生成可以仅根据序列信息预测生物功能的模型。

人工智能与生物学

BioAutoMATED是一种集成的AutoML工具,允许生物学家分析生物序列并从大型数据集中提取见解,这些数据可用于为未来的实验提供信息,同时只需要极少量的用户输入。【哈佛大学维斯研究所】

为了测试他们的新框架,该团队首先用它来探索改变核糖体结合位点的序列如何影响大肠杆菌中的核糖体结合效率。他们将序列数据输入BioAutoMATED,后者识别出由DeepSwarm算法生成的模型,可以准确预测翻译效率。该模型的性能与专业ML专家创建的模型相同,但生成时间仅为26.5分钟,并且只需要用户输入10行代码(其他模型可能需要超过750行)。他们还使用BioAutoMATED来识别序列的哪些区域对于确定翻译效率似乎最重要,并设计可以进行实验测试的新序列。

然后,他们继续尝试将肽和聚糖序列数据输入BioAutoMATED,并使用结果来回答有关这些序列的具体问题。该系统生成了关于肽序列中哪些氨基酸对于确定抗体与药物雷珠单抗(Lucentis)结合的能力最重要的高度准确的信息,并且还根据其序列将不同类型的聚糖分为免疫原性和非免疫原性组。

“最终,我们能够证明BioAutoMATED可以帮助人们1)识别生物数据中的模式,2)就该数据提出更好的问题,3)快速回答这些问题,所有这些都在一个框架内完成,而无需成为ML专家剑桥大学研究生凯蒂·柯林斯(KatieCollins)说,她在麻省理工学院读本科时就参与了该项目。

与任何其他机器学习工具一样,借助BioAutoMATED预测的任何模型都需要尽可能在实验室中进行实验验证。但该团队希望它可以进一步集成到不断增长的AutoML工具集中,有一天将其功能从生物序列扩展到任何类似序列的对象,例如指纹。

“机器学习和人工智能工具已经存在了一段时间,但直到最近用户友好界面的发展,它们才开始流行起来,就像ChatGPT的情况一样,”柯林斯说。“我们希望BioAutoMATED能够帮助下一代生物学家更快、更轻松地发现生命的基础。”


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行