爱奇飞网

网站首页健康养生 >正文

专为人工智能打造的处理器可加速基因组组装

开心的月饼 2023-11-02 08:53:50 健康养生

最初为人工智能操作开发的硬件加速器成功加速了蛋白质和DNA分子的对齐,使该过程比最先进的方法快10倍。这种方法可以更有效地比对蛋白质序列和DNA以进行基因组组装,这是计算生物学中的一个基本问题。

专为人工智能打造的处理器可加速基因组组装

康奈尔大学AnnS.Bowers计算与信息科学学院计算机科学助理教授GiuliaGuidi领导了一项研究,利用现有的DNA和蛋白质序列数据来测试加速器(称为智能处理单元(IPU))的性能。IPU通过提供更多内存来加速数据移动(这是一种常见的阻碍),从而加速对齐过程。

“序列比对基本上是所有计算生物学工作负载中极其重要且计算密集的部分,”Guidi说。“这非常常见,通常是计算的瓶颈之一。”

这项名为“基于SRAM的计算的空间高效序列对齐:GraphcoreIPU上的X-Drop”的研究将由共同第一作者、前康奈尔大学访问学者、Simula研究实验室博士生LukBurchard发表。Supercomputing2023会议,11月14日。赵晓航,前康奈尔大学访问学者,现就职于查理特大学医学中心,也是共同第一作者。

在她的研究中,Guidi希望帮助科学家解决他们尚未尝试过的问题,因为这些问题需要大量的计算能力。这些复杂的问题需要大规模计算——可以处理大型计算任务的处理器、内存、网络和数据存储的组合。

DNA或蛋白质序列的比对就是这些复杂问题之一。在对基因组进行测序时,生物学家最终会得到数千或数百万条短DNA序列,必须像拼图一样将它们拼凑在一起。他们使用一种算法来识别重叠的序列对,然后将这些序列对连接起来。

在过去的十年中,科学家们转向图形处理单元(GPU)——最初是为了加速视频游戏中的图形渲染而开发的——通过并行运行计算来加速序列对齐。随着用于人工智能应用的IPU的开发,Guidi和她的同事想知道他们是否可以利用新的加速器来解决这个问题。

吉迪说:“许多领域科学对大规模计算的需求正在增长,因为我们现在比以往任何时候都更擅长生成数据。”“并行计算已经从一种奢侈变成了一种不容妥协的东西。”

IPU吸引Guidi的原因是它们具有大量的设备上带宽用于传输数据,并且可以处理不均匀和不可预测的工作负载。X-Drop是一种流行的序列对齐算法,其计算模式非常不规则。当两个序列匹配时,算法需要大量计算来确定正确的对齐方式,但当它们不匹配时,算法就会停止。GPU很难应对这种不规则计算,但IPU却表现出色。

当Guidi的团队在IPU的帮助下组装来自模型生物体大肠杆菌和线虫的序列时,与GPU相比,它们的性能提高了10倍,GPU花费了太多时间传输不必要的数据,性能提高了4.65倍比超级计算机上的中央处理单元(CPU)更重要。

目前,限制科学家可以处理的基因组大小的是可用的IPU和GPU设备的数量,以及主机CPU和硬件加速器之间的数据传输带宽。IPU上有大量内存,但从主机传输数据会造成主要瓶颈。

该团队通过将X-Drop算法的内存占用量缩小55倍来帮助解决这个问题。这使其能够在IPU上运行并减少从CPU传输的数据量。因此,系统可以运行更大规模的比较,并在IPU上执行更多的序列比较,这有助于平衡不均匀的工作量。

Guidi表示:“您可以利用IPU高内存带宽,从而加快整个处理速度。”

如果供应商能够升级CPU和IPU之间的数据传输过程,并改善软件生态系统,Guidi预计她可以在相同的IPU上处理更大的基因组。

“IPU可能会成为下一个GPU,”她说。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行