爱奇飞网

网站首页生活常识 >正文

人工智能清理单细胞基因组数据

开心的月饼 2023-07-10 14:16:06 生活常识

北卡罗来纳大学 (UNC) 夏洛特分校的科学家在 Weijun Luo 博士和 Cory Brouwer 博士的带领下,报告了一种人工智能算法的开发,该算法可“清理”嘈杂的单细胞 RNA 测序 (scRNA-Seq) 数据。该团队的研究(“用于深度清理单细胞 RNA-Seq 数据的通用深度神经网络”)发表在《自然通讯》上。

人工智能清理单细胞基因组数据

从识别与镰状细胞性贫血和乳腺癌相关的特定基因,到在当前的COVID-19大流行中创建 mRNA 疫苗,自 20 世纪 90 年代的人类基因组计划以来,研究人员一直在深入研究基因组。技术已经从早期将数千个细胞分批在一起以解密构成遗传信息的数百万个碱基对开始发展。2009 年,研究人员创建了 scRNA-Seq,目前广泛应用于生物医学研究,它仅对活体单个细胞中的转录组或基因组表达部分进行测序。

不幸的是,scRNA-Seq 数据“嘈杂”,并且存在大量错误和质量问题。对单个细胞而不是许多细胞进行测序会导致频繁的丢失(数据中缺失基因)。单个细胞,就像单个人一样,可能有自己的健康问题,或者处于生命周期中的尴尬阶段——它可能刚刚分裂,或者正在走向细胞死亡,这可能会在技术上产生更多错误或技术变化。 scRNA 测序数据。

除了单细胞特定问题外,基因组分析通常还伴随着“正常”的测序错误问题。所有这些错误都需要从数据中清除,然后才能使用或解释,这就是新的人工智能算法的用武之地。

该算法称为 AutoClass,看起来像是现有统计方法的一个进步。大多数现有方法假设误差(或噪声)遵循某种预定义的分布,或者误差发生的可能性有多大以及误差有多大。现有方法往往无法完全清理数据以揭示生物信号,甚至可能由于对数据分布的不正确假设而增加新的错误。

相反,研究团队表示,AutoClass 不做任何分布假设,因此可以有效地纠正各种噪音或技术变化。

“scRNA-Seq 正在广泛应用于生物医学研究,并产生了大量且多样化的数据。原始数据包含多种类型的噪声和技术伪影,需要彻底清理。现有的去噪和插补方法主要关注单一类型的噪声(即丢失),并且具有很强的分布假设,这极大地限制了它们的性能和应用,”研究人员写道。

“在这里,我们设计和开发了 AutoClass 模型,集成了两个深度神经网络组件、一个自动编码器和一个分类器,以最大限度地消除噪声和保留信号。AutoClass 与分布无关,因为它不对特定数据分布做出假设,因此可以有效地清除各种噪声和伪影。AutoClass 在多种类型的 scRNA-Seq 数据分析中优于最先进的方法,包括数据恢复、差异表达分析、聚类分析和批量效应消除。”

“AutoClass 是一种基于特殊深度神经网络的人工智能算法,旨在最大限度地消除噪声和保留信号,”目前在 Novant Health 担任数据科学和人工智能高级总监的罗说。“人工智能通过查看足够的数据,教会自己区分数据中的信号与噪声。通常它看到的数据越多,它的性能就越好。”

罗教授在研究中指出,他和他的团队证明了AutoClass可以重建高质量的scRNA-Seq数据,并在多个方面增强下游分析。此外,他补充说,AutoClass 非常强大,在各种 scRNA-Seq 数据类型和条件下都表现良好。

科学家们表示,AutoClass 非常高效且可扩展,可以很好地处理各种样本大小和特征大小的数据,甚至可以在普通 PC 或笔记本电脑上流畅运行。AutoClass 是在线开源的。

Brouwer 是北卡罗来纳大学夏洛特分校的生物信息学和基因组学教授兼生物信息学服务总监。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行