编辑|智种网(智种网NOVOSEED)
来源|生物信息与育种
分享一篇近期来自华中农大王旭彤老师(即SoyDNGP作者)的综述,以SoyDNGP为例。建议参考之前的推文:基于深度学习框架的基因组预测新模型SoyDNGP。
摘要
人工智能(AI)与作物育种的结合代表了向数据驱动型农业实践的范式转变,旨在提高作物改良的效率和精度。本文对大豆深度神经网络等基因组预测模型对作物育种的影响进行了批判性评价,讨论了它们目前的应用、挑战和未来潜力。通过解决现有障碍,如优化亲本选择、准确预测多个性状和基因的组合效应、推进可解释的深度学习以及纳入环境因素,提出了克服这些挑战的实际方法。我们的见解旨在释放基因组预测中AI的全部潜力,为全面理解AI在农业中的作用做出贡献,并倡导利用人工智能来培育可持续和公平的食物体系。
简介
AI 的发展催生了生命科学的新阶段。AlphaFold 是一个很好的例子,它能够成功预测蛋白质的结构。使用AI技术有潜力显著加速农作物育种过程。通过利用AI模型在播种前预测作物性状,育种家可以将数年的工作量减少到一个季节。“人工智能育种家”结合了先进的计算能力和对生物学的理解,提高了育种家的技能,使他们能够根据AI对未来育种结果的可能性进行预报,从而提高育种过程的速度和准确性。
人工智能是作物改良发展的关键参与者,使研究人员能够为克服对可持续农业实践的关键需求开辟道路。通过使用预测模型利用遗传数据的广泛潜力,AI Breeders 可以突破传统选择性育种的极限,引领我们进入一个由科学和数据驱动的作物改良时代。在根据基因型预测表型的初步基础上,我们的重点已转移到基因组预测上,分享观点和可能性,表达观点和前景,旨在促进基因组预测在育种中的应用,从而加速精准设计的育种。
基因组预测的演变
基因组预测,也称为基因组选择(GS),是现代作物改良策略的基础。它是根据候选育种个体的遗传组成预测其表现的科学。GS 的发展是现代植物育种的关键一步。最初由 Meuwissen 等人(2001)在动物育种中发现,GS 已成为使用全基因组标记确定植物和农作物多基因性状表型的中心策略。这种方法已在多种作物中得到证实,包括小麦、玉米和水稻,强调了它在实际育种计划中的实用性。然而,挑战仍然存在,特别是在基因型标记数量超过群体规模的高维标记空间内进行准确预测时。传统的 GS 模型依赖于基于 BLUP(例如rrBLUP 和GBLUP)和基于贝叶斯等统计算法,通常难以应对标记数据的高维性以及基因型和表型内部和之间关系的复杂性。
深度学习技术开创了基因组选择的新时代。如用于从基因型预测表型的R包 DeepGS 和用于基因组预测的深度神经网络DNNGP,利用深度神经网络和策略,包括卷积、抽样、丢弃和集成学习来处理高维基因型数据的复杂性。例如,DeepGS通过提供更准确的表型值选择补充了传统方法(如rrBLUP)。DNNGP通过使用具有多层分层结构的深度神经网络进行动态特征学习,在植物中结合多种组学数据而区别于其他方法。该模型可以在各种尺度上管理育种数据,比典型方法提供更好的预测精度和更快的计算速度,使其成为遗传评估平台有价值的工具。
SoyDNGP模型是深度学习在作物育种中进行基因组预测的另一个重要示例。SoyDNGP模型的一个关键进展是其处理遗传变异信息的新方法。传统模型通常将 DNA 序列转换为“独热编码(one-hot)”的二进制数据,从而导致大型稀疏矩阵,这些矩阵缺乏对核苷酸序列的完整生物学意义的信息。相比之下,SoyDNGP 将遗传变异转化为类似图像的数据格式,使卷积神经网络 (CNN) 能够像图像识别任务一样处理这些信息。这种独特的表示方式使得 SoyDNGP 能够在基因组数据中表征复杂的模式和特征,利用多个卷积和池化层来确定不同遗传区域之间的复杂关系和相互作用。
基于基因组预测模型的亲本选择
SoyDNGP 模型结构中,每个样本的基因型被转换为一个类似于图像的三通道格式,以捕获来自纯合子和杂合子突变位点的信息(图1 A)。这种结构改进了预测模型的功能,使其能够识别最佳的亲本混合物,这一特征对于受益于杂交育种方法的作物很有用(图1 B)。通过数字合并潜在亲本植物的基因型来模拟杂交育种过程,以模拟其后代中的纯合和杂合遗传位点。虽然我们主要在 F1 世代示例中证明这一点,但该方法同样适用于 F2、F3 和 F4 世代,允许用户在这些环境中探索遗传组合。通过将这些虚拟基因型输入到模型中,我们能够预测一系列可能的表型。例如,使用 100 个潜在的亲本系,我们的模型可以快速生成 4,950 组预测表型。然后,可以对这些预测的性状进行排名,以确定最有前途的亲本组合(图1 B)。这种方法为育种者提供了一种更有效、成本更低的方法,使他们能够在传统上困难和不确定的杂交育种任务中做出明智的决定。
图1. SoyDNGP模型架构和功能应用概述。
(A) SoyDNGP模型框架示意图。以 VCF 格式显示的基因型文件被转换为每个样本的三个通道图像输入。核心体系结构由十二个卷积层组成,随后是一个全连接层,专门用于对数量性状进行回归分析和对质量性状进行分类。
(B) 在选择亲本系中的应用。通过数字模拟来自亲本系的变量位点组合,例如代表 P1 和 P2 之间虚拟杂交的 haplotype C12。通过组合方法,我们可以评估所有可能的亲本系组合。然后使用SoyDNGP 模型来预测特定性状(如 T1、T2 和 T3)的表型。对于每个性状,都会编制一个排名指数以与预期值对齐。排名“1”、“2”和“3”表示给定性状的首选项。
(C) 多性状综合育种中的应用。为了实现所希望的性状整合,为每个性状分配了初始权重,从而产生了总体复合性状的期望指数 (EI)。例如,样本 C12 的得分为 1.4,这是根据其性状分数加权计算得出的(1×0.6+3×0.2+2×0.1)。相比之下,样品 C23 和 C13 分别获得了 2.8 和 2.3 的分数。最终,该 EI 将复合性状按优先顺序排列为“1”、“3”和“2”,以便于选择,并且 P1 和 P2 成为理想复合性状的最佳配对。
(D) 关于多基因综合育种的前景。通过随机地将每个遗传位点从参考(Ref) 突变为备选(Alt),并考虑三种可能状态:纯合子 Ref、纯合子 Alt 或杂合子,我们可以开发出 3n 种潜在的模拟 haplotype。预测单个或多个性状的结果。这种方法使我们能够评估最有利的基因组合,适用于特定性状。
(E) 应用于阐明性状变异效应的应用。要研究个体位点对性状的影响,我们可以在两个形式(纯合子 Alt 和杂合子)中模拟每个位点上的突变,并将其影响与原始性状影响(H0)进行比较。这一过程可以构建效果图,以确定显著贡献到特定性状的大位点,类似于 GWAS 中的曼哈顿图。
使用多性状综合育种进行基因组预测
对改良作物品种的追求通常需要同时提高多个表型性状,这一过程被称为多性状聚合育种。多性状聚合育种依赖于这样一种理解:某些性状可以遗传相关联,一个性状的改善可能会导致其他性状的变化,无论是积极的还是消极的。为了在这个错综复杂的景观中正确工作,育种家必须预测多个基因如何相互作用并调节各种表型。这项复杂的任务需要仔细平衡和选择几个性状以实现后代所需的组合。传统的育种方法虽然有效,但在处理低遗传力的多基因性状时通常是缓慢和复杂的。
通过利用大量数据集来学习复杂的基因相互作用模式,基于人工智能的模型在这一领域表现出色。它们能够对性状进行排序,并检查导致多种表型的共同遗传贡献,从而可以更精确地预测育种结果。我们可以根据重要性对性状进行排序,并为预测结果分配权重(图1 C)。这种加权方法使我们能够综合并排名多个目标性状的结果,实现统一评估。无论单个种质资源还是虚拟组合亲本基因型,具有最高分数的基因型都可以被选为首选育种材料(图1 C)。这样,模型可以分析多变量数据,以确定各种性状之间最佳的等位基因组合,告知选择最有可能产生最优育种效果的亲本基因型。这种方法简化了选择过程,并为育种人员探索可能难以考虑的性状组合提供了新的可能性。因此,人工智能作为加速器,有助于培育新品种,满足作物更高产量、改善质量和增强抗性的日益增长的需求,确保粮食安全和可持续农业实践。
为了优化育种结果,我们的目标是对父母组合进行表型描述,使其具有各种期望性状的理想基因组混合。通过利用我们的性状预测模型,可以对虚拟基因型进行全面交换,特别是那些在遗传图谱或功能基因组中被发现具有高重要性的特定基因位点。通过分析该模型产生的表型数据,我们可以优先选择最有希望的等位基因组合(见图1D)。这种方法依赖于现有的基因型或假定的亲本配对,并且优于传统的GWAS和关联研究,特别是在低遗传力的复杂性状如作物产量方面。通过关注多个关键基因的累加效应,我们提高了在植物育种计划中产生有意义改进的能力。
使用可解释的人工智能模型进行基因组预测
在农业基因组学预测中,被称为可解释人工智能(XAI)的人工智能模型的可解释性不仅仅是学术性的;它具有实际意义。能够解释预测结果可以快速开发育种用的遗传标记,并且可能导致更健壮、更具适应性的作物品种。它还培养了育种者对基于人工智能的决策的信心,这对于他们在育种计划中的采用至关重要。XAI 的最新方法有很多,例如模型无关的方法,通过使用更可解释的方法来近似复杂模型的预测,或者基于扰动的方法,评估输入变化对预测的影响。例如,为了朝着可解释的深度学习发展,我们可以使用序列扰动来检查我们的改进模型中特定位点突变的效果。与通过序列扰动预测染色质可及性或转录因子结合的其他基因组预测模型相比,这种方法具有独特性;我们关注的是特定位点的突变和表型影响。这使我们能够评估每个位点对表型的影响,并提取关键变异位点信息。虽然这种技术与全基因组关联研究 (GWAS) 有相似之处,但它仍然是独特的(图 1E)。然而,这些方法通常只能提供部分见解,并且可能在处理大规模基因组数据时代价高昂或不切实际。
在SoyDNGP模型架构中,我们实现了一个注意力机制,指导神经元在整个提取过程中优先考虑关键特征,并为更关键的位置属性分配更高的权重。这样可以允许从基因型中提取重要位置数据,就像GWAS量化每个遗传关联的相关性一样。通过关注注意力权重,我们可以定位最具影响力的位点。为了解释遗传变异对特定性状的影响,我们构建了一个解码器,该解码器模仿了训练好的全卷积神经网络(FCNN)模型的结构(图2A)。解码器中的每个转置卷积块都经过调整和加权,以与FCNN中的对应块对齐,从而保证当输入充满1且形状像FCNN输出的张量时,生成的权重分布矩阵与特征图尺寸对齐(图2 A)。这个矩阵的权重分布使我们能够近似估计模型对不同位点的权重分配,衡量变异位点对性状的影响。试验表明,注意力机制能够准确地表征与大豆FC和POD等单个基因性状相关的相关位点(图2B)。然而,对于复杂的数量性状,它不太成功。这可能是由于高度准确的表型模型的要求以及模型激活函数对权重分配的影响。移除这些功能会损害预测精度,导致来自不精确模型的不可靠信息。
SoyDNGP的解码器结构和大豆的初步应用
图2. SoyDNGP的解码器结构和大豆的初步应用。
(A) 在 SoyDNGP 中编码器-解码器框架的说明。解码器中的转置卷积块被构建并加权,以匹配全卷积神经网络(FCNN)中相应的元素。这保证了当一个张量被输入到系统中时,它的形状与 FCNN 的输出相似,但充满张量的张量被输入系统这时,构建的权重分布矩阵准确地反映了特征图的维度。这个矩阵中权重的分布使得可以估计模型对不同位点的优先级,并评估遗传变异对性状表达的影响。
(B) 对于描述大豆性状(如花和豆荚颜色)的权重映射的分析。对于 SoyDNGP-baseline 版本,我们在关联的解码器上进行了权重反转,使用 Z 分数标准化得到的结果,并使用曼哈顿平铺可视化来去除异常值。在正态分布下,在 (u-3σ,u+3σ) 范围内的值有 0.9974 的可能性。我们通过应用 3σ、5σ 和 7σ 的阈值来评估位点权重的重要性。
如何利用网络来有意义地解释位置数据仍然是一个悬而未决的问题,也是我们未来决心要解决的挑战。因此,推动基因组学中的可解释人工智能不仅仅是揭示人工智能,而是与提高我们对复杂遗传特征的基本理解的愿望密切相关。这一追求需要跨学科的合作,并整合计算建模、生物信息学和实验生物学。只有通过这样的共同努力,我们才有希望以有意义的方式推进可解释的人工智能,满足基因组预测的需求,并帮助确保农业的未来。
整合环境因素的基因组预测
环境因素对作物生长发育的影响尤为显著。在大豆中,开花期明显受环境条件影响。多环境试验在育种中的整体作用凸显了环境因素纳入基因组预测模型的必要性。研究表明,考虑环境与遗传互作关系的模型可以显著提高预测能力。这些环境因素多种多样,可分为两类:容易观察的因素,包括作物生长地点、温度、光照和湿度,以及更难测量的因素,包括植物细胞内环境。
这种方法的困难在于考虑多方面的环境影响及其与遗传因素的交集。然而,深度学习在各个领域的成功应用表明了通过整合环境因素来改进基因组预测模型的有希望的方法。我们以前的基因组预测模型主要侧重于遗传数据,已经证明了深度学习技术的有效性。在此基础上,我们建议通过添加环境因素来增强这些模型,以实现更全面和现实的方法。例如,增强模型可以由两个子模块组成:一个用于基因,另一个用于环境因素。基因子模型将遵循 SoyDNGP 模型的预处理结构,而环境子模型将设计为处理 N 维环境特征矩阵,与基因模型输入的维度一致(图 3)。遗传和环境这两组特征可以使用包括点乘法或直接加法在内的方法进行整合(图3)。这种融合的特征图将被整合到基因-环境相互作用模型中进行训练,最终产生更准确的表型预测。这种方法旨在利用深度学习的优势来获得作物育种中遗传学和环境之间的复杂相互作用。
图3. 构建结合基因型和环境特征的基因组预测模型。该图显示了整合基因型(G)和环境因素(E)的基因组预测模型架构。为了预测作物对环境影响的表型,该模型包括三个部分:基因模型、环境模型和基因与环境交互模型。基因模型采用类似于 SoyDNGP 的预处理结构,而环境模型使用一个维度与基因模型输入相匹配的矩阵,以适应N维环境特征(N为环境特征维度数)。这些输入特征通过深度学习模型进行调整,以使基因模型的功能映射保持一致。然后,来自两个模型的特征被合并(通过点积或直接相加),并纳入基因与环境交互模型中进行训练。该模型的最终输出是对给定环境条件下作物表型的预测。
结论
作物育种中的人工智能代表了一种变革性的转变,并伴随着重大影响。它有望加快育种周期,提高选择精度,并充分处理复杂的基因组数据。包括SoyDNGP在内的人工智能模型体现了这些优势,可能快速跟踪作物育种过程。然而,由于我们提出的育种亲本选择、多性状/基因聚集效应预测以及环境因素整合的方法,深度学习模型的解释需要可行性,它们也需要跨学科研究小组的进一步验证和开发。随着我们完善这些技术,人工智能育种者可以从预测工具演变成一个能够在整个育种过程中做出明智决策的自主系统。这种演变将彻底改变育种决策的方式,并可能为全球粮食安全和可持续农业做出重大贡献。