爱奇飞网

网站首页生活常识 >正文

新的机器学习模型为预测作物产量提供了简单的解决方案

开心的月饼 2024-09-04 08:44:00 生活常识

一种利用环境数据和遗传信息预测作物产量的新型机器学习模型可用于开发新的、性能更高的作物品种。

新的机器学习模型为预测作物产量提供了简单的解决方案

阿肯色大学统计与分析硕士生伊戈尔·费尔南德斯 (Igor Fernandes) 凭借数据科学背景和一些农学经验进入农业研究领域,当时他是巴西农业研究公司 Embrapa 的本科助理。凭借局外人的视角以及通过一位前顾问处理环境数据的经历,他开发了一种预测作物品种在田间表现的新方法。

他对这一主题的兴趣促成了一项最近发表的研究,该研究由他的导师 Sam Fernandes 共同撰写。Sam Fernandes 是阿肯色农业实验站的农业统计学和数量遗传学助理教授,该站是阿肯色大学系统农业部的研究机构。

该研究发表在《理论与应用遗传学》杂志上,题为“利用机器学习结合遗传和环境数据在多环境试验中预测玉米产量”。

“伊戈尔是统计学出身,没有遗传学背景,”萨姆·费尔南德斯说。“所以,他的想法与我们在遗传学中用到的完全不一样,但令人惊讶的是,这个想法竟然行之有效。”

伊戈尔·费尔南德斯的模型侧重于环境数据,这使他在今年的国际“从基因组到田野”竞赛中获得了第二名。该竞赛参赛作品的研究合著者包括实验站大豆育种助理教授 Caio Vieira 和巴西维索萨联邦大学普通生物学系助理教授 Kaio Dias。

环境和遗传

虽然竞赛作品显示,单凭环境数据预测作物产量的效果比预期要好,但研究人员看到了建立一项全面研究的机会,将新方法与基因组育种中使用的既定预测模型进行比较。

基因组育种是仅根据 DNA 筛选数千个候选植物进行田间试验的过程,它可以节省开发新植物品种所需的时间和资源,例如在干旱条件下生长得更好。基因组育种的一个重要部分是基因组预测,利用植物的 DNA 来估计植物的产量。

“假设你有数千个候选品种,你从它们身上获取了 DNA,”Sam Fernandes 解释道。“根据 DNA 以及之前田间试验的信息,你无需在田间种植就能判断出哪一个品种的产量最高。这样你就节省了资源。这就是基因组预测。”

向模型中添加有关植物如何与环境条件相互作用的信息可以提高基因组预测的准确性,随着检测中心提供的环境数据越来越多,这种方法也变得越来越普遍。这种做法被称为“环境组学”。不过,对于结合环境和遗传数据的最佳机器学习方法,目前还没有达成共识。

“将环境信息纳入模型的一个好处是,你可以解决我们所说的基因型与环境的相互作用,”Sam Fernandes 说。“由于环境不会以同样的方式影响所有个体,我们试图考虑所有这些因素,这样我们就能选出最好的个体。而最好的个体可能会因地点和季节的不同而不同。”

这项研究使用了与竞赛中相同的“基因组到田地计划”玉米地块数据,但研究人员以“加法”和“乘法”的方式调整了遗传、环境或两者结合的输入。当以更直接的“加法”方式包含环境和遗传数据时,预测准确度优于更复杂的“乘法”方式。

模型越简单,计算机处理时间越短,平均预测准确率比已建立的模型提高7% 。实验在植物育种中常见的三种情况下进行了验证。

“伊戈尔的独特之处就在于他处理环境数据的方式,”萨姆·费尔南德斯说。“人们可以添加各种信息,建立更复杂的模型。但伊戈尔采用的是一种简单而有效的方法,即利用特征工程将遗传数据和环境数据结合起来,处理信息,并得到更具参考价值的变量摘要。”

总的来说,研究人员表示,这些结果很有希望,尤其是随着人们对结合环境特征和遗传数据进行预测的兴趣日益浓厚。他们的近期目标是将其应用于提高田间试验基因型筛选能力。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行