文献解读|高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异
英文标题:High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights into the role of structural variation
发表时间:2024.09.09
发表期刊:Nature Genetics
影响因子:31.7
2024年9月《Nature Genetics》杂志在线发表了题为High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights into the role of structural variation的研究成果,河北农业大学生命科学学院为第一单位,张彩英、邵振启、孔佑宾、杜汇、李文龙、杨占武和李祥孔为论文共同第一作者,张彩英教授、李喜焕教授、马峙英教授和田仕林研究员为论文共同通讯作者。本研究组装了高产优质抗病现代品种“农大豆2号”高质量基因组,在构建图形化泛基因组的基础上,挖掘鉴定现代育成品种大豆的特有结构变异,并揭示影响产量和品质等重要性状的结构变异与基因,为大豆遗传改良提供新的理论依据和基因组资源。
研究背景
大豆(Glycine max)是一种重要的豆科作物,提供全球逾一半的油籽产量和四分之一的蛋白质,以及许多供人类需求的药用相关化合物。为了解大豆产量、品质和其他重要特征的遗传基础,高质量的参考基因组至关重要,然而现代品种大豆仍然缺乏高质量的参考基因组。结构变异(SVs)在植物演化、驯化和育种中扮演着重要作用,泛基因组的构建和对种群的深度重测序可以为大豆改良提供重要的SVs基因资源。
主要研究结果
1. 现代大豆品种基因组组装结果
本研究通过整合5种测序技术对现代大豆品种“农大豆2号”(NDD2)进行了全面的基因组图谱构建,使用的测序数据包括138.51 Gb的HiFi数据(N50为26.74 Kb),121.85 Gb的Nanopore数据(N50为26.64 Kb),473.35 Gb的Bionano光学图谱数据,102.57 Gb的Illumina短读长测序数据以及108.85 Gb Hi-C数据。最终组装的染色体水平“农大豆2号”基因组大小为1013.66 Mb,contig N50为27.16 Mb,组装的QV值为41.83,并且成功在所有染色体中组装了在大豆中特异的Cent91/92着丝粒重复序列。本研究组装的基因组在29个已发表的大豆基因组中组装质量最好。
通过对NDD2基因组的结构注释,发现转座元件(TE)在基因组中占比达55.34%,其中长末端重复(LTRs)占比最高(44.39%),主要为Gypsy(42.85%)和Copia(20.20%)。研究团队预测了58,899个蛋白编码基因,96.70%的蛋白编码基因具有功能注释,其中8,503个存在Gypsy和Copia插入,同时发现了现代品种中的1,404个新基因。
图 1 现代大豆品种“农大豆2号”(NDD2)基因组特征
2. 现代大豆品种基因组中的SV
本研究利用NDD2基因组和29个已发表的大豆基因组构建了图形化泛基因组,鉴定出47,058个非冗余SVs,其中包括37,304个插入/缺失(INS/DEL; ≥50 bp),3,071个倒置(INV; 1.01–29.14kb)和6,683个易位(TRANS; 1.01–19,040.53kb),并根据NDD2参考基因组鉴定了25,814个SV-基因对,包括23,119个INS/DEL-基因对,719个INV-基因对和1,976个TRANS-基因对,这些基因对可能通过调控基因表达来影响相关性状。
在现代大豆品种中一共鉴定了13个特有的INS/DEL,其中7个与产量相关性状(百粒重,株高和每株果荚数)以及种子质量性状(蛋白质、油脂、异黄酮和生育酚)相关。11号染色体一段1,815bp的缺失(DEL1815)与百粒重性状相关,推断DEL1815可能通过ABA途径中的GmLANCL影响大豆种子的形成和发育。6号染色体上检测到一个影响种子蛋白质含量的238bp缺失(DEL238),并且发现这个SV可以同时增加蛋白含量和百粒重。
图 2 现代大豆品种特有的DEL238影响蛋白含量和百粒重
5号染色体上鉴定了一个新倒位(INV05,3.06kb),通过重测序数据发现,INV05在改良品种(69.75%)中出现的频率比自然品种(37.70%)高得多。一个干旱应答元件结合蛋白(DREB)转录因子基因在这段SV中,推断INV05参与了大豆对种植区域中的干旱和温度的适应,不同地理位置的种群INV05的频率沿秦岭淮河线呈现规律性变化,与降水量和温度的变化保持一致。
图 3 现代大豆INV05与环境适应性
此外,基于参与泛基因组构建的品种之间的染色体共线性分析,研究团队发现在野生大豆W05和现代大豆NDD2的11号染色体和13号染色体之间发生了两次染色体间易位事件,以及W05与野生大豆PI483463之间的染色体间易位事件,并提出了野生大豆的二型分歧模型。NDD2与Ⅰ型野生祖先相比,其13号染色体和11号染色体上分别有261个和76个NDD2独有基因,这些基因可能与栽培大豆的特征有关。
图 4 推测的大豆11号和13号染色体进化模型
3. 通过重测序鉴定的与大豆重要农艺性状相关的SV
研究团队对574个大豆代表性品种进行平均深度为18.05X的重测序,并对31个性状(6个产量相关性状,16个种子品质性状和9个植物学特征性状)开展了全基因组关联研究(GWAS)。NDD2基因组作为参考,研究团队鉴定了749,714个插入/缺失SVs,并通过SV的全基因组关联分析,鉴定到14,237个非冗余SVs与这些性状显著相关。
6号染色体15.25-15.35Mb的区域有21个SVs与果荚数相关联,发现这些SVs可能通过影响基因Glyma.NDD2.06G174200(阳离子/H+反向转运蛋白)表达,导致不同大豆种群的果荚数产生变化。5号染色体上存在一个与6种种子质量性状相关的基因组区域(181 Kb),该区域包含137个SVs,其中Glyma.NDD2.05G269100基因(GmMQT,多效性基因)和其调控区中存在12个SV,GmMQT在种子和果荚中优势表达。通过毛状根转化在低异黄酮大豆Ji11B9中过表达GmMQT可以提高总异黄酮含量,与CRISPR-Cas9基因敲除实验相互验证。此外,在11号染色体上有一段包含了363个SVs,大小为1.04 Mb的区域。此区域中鉴定到一个与黄豆黄甙含量相关的新基因GmSGI,在Ji11B9中过表达GmSGI可以显著提高黄豆黄甙的含量。
图 5 种子质量相关的多效基因GmMQT的鉴定
总结
本研究采用多种测序技术,组装了现代培育品种“农大豆2号”NDD2的高质量参考基因组,在目前已发表的大豆基因组中有着最高的准确性、完整性和连续性。通过SV-GWAS鉴定了大豆产量以及种子质量性状相关的结构变异,为大豆重要性状遗传改良提供了新的理论依据和资源。
参考文献:
Zhang, Caiying, et al. "High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights into the role of structural variation." Nature Genetics (2024): 1-12.