爱奇飞网

网站首页生活常识 >正文

新蛋白质设计的深度学习

开心的月饼 2023-08-04 08:45:29 生活常识

了解蛋白质的关键非常简单:识别它们的化学结构并找到哪些其他蛋白质可以与其结合。但有一个问题。“蛋白质的搜索空间是巨大的,”华盛顿大学蛋白质设计研究所和霍华德休斯医学研究所的研究科学家布莱恩考文垂说。

新蛋白质设计的深度学习

他的实验室研究的蛋白质通常由65个氨基酸组成,每个位置有20种不同的氨基酸选择,有65的20次方结合组合,这个数字比宇宙中估计的原子数还要大。

考文垂是2023年5月发表在《自然通讯》杂志上的一项研究的合著者。

在其中,他的团队使用深度学习方法来增强“从头”(从头开始)计算蛋白质设计中现有的基于能量的物理模型,从而使实验室验证的将设计的蛋白质与其目标蛋白。

该研究的合著者、该研究所的博士后学者纳撒尼尔·贝内特(NathanielBennett)表示:“我们表明,通过结合深度学习方法来评估形成氢键或疏水相互作用的界面的质量,可以显着改善管道。”蛋白质设计,华盛顿大学。

他补充说:“这与试图准确地列举所有这些能量相反。”

读者可能熟悉深度学习应用程序的流行示例,例如语言模型ChatGPT或图像生成器DALL-E。

深度学习使用计算机算法来分析数据模式并进行推断,对算法进行分层以逐步从原始输入中提取更高级别的特征。在这项研究中,深度学习方法被用来学习蛋白质序列表示和可能结构的迭代转换,这些迭代转换非常快速地收敛到非常准确的模型上。

作者开发的深度学习增强从头蛋白质结合剂设计方案包括机器学习软件工具AlphaFold2和由蛋白质设计研究所开发的RoseTTAFold。

该研究问题非常适合Frontera上的并行化,因为蛋白质设计轨迹都是相互独立的,这意味着在计算作业运行时信息不需要在设计轨迹之间传递。

“我们只是将这个问题进行拆分,其中包含2到600万个设计,并在Frontera的海量计算资源上并行运行所有这些设计。它上面有大量的CPU节点。我们为每个设计分配了CPUS来完成这些设计轨迹之一,这让我们在可行的时间内完成了极其大量的设计轨迹,”Bennett说道。

作者使用RifDock对接程序生成了600万个蛋白质“码头”,或者潜在结合的蛋白质结构之间的相互作用,将它们分成大约100,000个块,并使用Linux实用程序将每个块分配给Frontera的8000多个计算节点之一。

这100,000个码头中的每一个都将被分为100个工作,每个工作有1000个蛋白质。一千种蛋白质被输入计算设计软件Rosetta,其中1000种蛋白质首先以秒级的十分之一进行筛选,而存活下来的蛋白质则以几分钟的尺度进行筛选。

更重要的是,作者使用蛋白质设计研究所开发的软件工具ProteinMPNN,进一步提高了生成蛋白质序列神经网络的计算效率,比之前最好的软件快了200倍以上。

他们的建模中使用的数据是酵母表面展示结合数据,所有数据均公开可用并由蛋白质设计研究所收集。其中,数以万计的不同DNA链被排序来编码科学家设计的不同蛋白质。

然后将DNA与酵母结合,使每个酵母细胞在其表面表达一种设计的蛋白质。然后将酵母细胞分为结合的细胞和不结合的细胞。反过来,他们使用人类基因组测序项目的工具来找出哪些DNA有效,哪些DNA无效。

考文垂表示,尽管研究结果显示设计的结构与目标蛋白结合的成功率提高了10倍,但仍有很长的路要走。

“我们提高了一个数量级,但我们还有三个数量级要做。这项研究的未来是进一步提高成功率,并转向新一类更难的目标,”他说。病毒和癌症T细胞受体就是最好的例子。

改进计算设计的蛋白质的方法是使软件工具更加优化,或者采样更多。

考文垂说:“我们能找到的计算机越大,我们就能制造出更好的蛋白质。我们正在构建制造未来抗癌药物的工具。我们制造的许多单独的粘合剂可以继续成为药物拯救人们的生命。我们正在改进这些药物的工艺,以使其变得更好。”


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行