NG高分文献解读|狗尾草属泛基因组的详细解析
文章题目:A graph-based genome and pan-genome variation of the model plant Setaria
发表期刊:Nature genetics(IF=30.8)
发表时间:2023.06
文章思维导图:
2023年6月,题为“A graph-based genome and pan-genome variation of the model plant Setaria”的研究论文在《Nature Genetics》在线发表。中国农业科学院作物科学研究所刁现民研究员、纽约大学基因组学和系统生物学研究中心Michael Purugganan教授和作科所贾冠清研究员为论文共同通讯作者。作科所博士后贺强、副研究员汤沙,研究员智慧,以及中科院动物所陈金锋研究员为论文共同一作。本研究收集并组装了大规模的狗尾草属物种基因组,构建了狗尾草属的泛基因组,分析了其结构变异(SVs)对关键农艺性状的影响,为谷子的研究和育种奠定基础。
研究背景
谷子(Setaria italica),俗称为“小米”,是狗尾草属中唯一的现代作物品种,作为C4光合作用的模式植物,具有良好的耐旱性和低土壤养分耐受,以及较高的光合效率和环境适应性,在全球农业粮食和生物燃料生产中保持着重要的地位。目前,已有的水稻、小麦、大麦、番茄等的泛基因组研究表明,结构变异(SVs)在作物驯化、性状决定和遗传改良中起着关键作用。然而谷子的基因组多样性和遗传改良潜力的研究相对较少,与狗尾草属的驯化及适应性相关的遗传变异目前尚未报道。
主要研究结果
1.狗尾草属植物的变异和进化
作者收集了630个野生种、829个地方种和385个栽培种的狗尾草属植物重测序数据与Yugu1品种的参考基因组比对,共发现了约6000万SNPs,筛选高质量的SNPs进行群体结构分析,分析结果将野生种划分为四个亚群W1-W4,其中W1是所有栽培谷子的野生祖先(图1a,b)。栽培谷子被划分为三个亚群(C1-C3)(图1),其中,C1分布广泛,C3可能比其他两个亚群具有更好的环境适应能力(图1c)。
图1 狗尾草属植物群体结构分析
2.De novo组装 110个野生和栽培狗尾草属代表性品种
基于系统发育关系、地理分布、繁殖、研究用途和亚群分布,选择能代表狗尾草属的遗传多样性的35个野生种、40个地方种和35个栽培种样本,进行De novo组装(图2)。
其中,使用110× PacBio ,~65× Illumina对Me34V(野生种)、Ci846(地方种)和Yugu18(栽培种)进行测序,并组装成高质量的参考基因组。平均 contig N50长度超过20 MB,LAI>20,BUSCO评估为97%。其余107个品种使用~91.1×PacBio 和~48×Illumina测序,基因组BUSCO值平均94.5%。所有基因组都达到了“参考”水平(LAI > 10),其中17个达到了“金标准”水平(LAI > 20)。
图2 110份有代表性的狗尾草属材料的分布及表型多样性
3.狗尾草属植物的泛基因组变异分析
利用80个栽培种和28个W1亚群种的基因组,以及已发布的三个基因组(Yugu1,xiaomi和A10),构建了谷子的泛基因组。该泛基因组由核心基因23.8%,软核心基因42.9%,非必需基因29.4%,私有基因3.9%组成(图3a)。
利用Yugu1基因组进行成对基因组比对,112个基因组中鉴定出202,884个非冗余SVs,包括107,151个插入,76,915个缺失,18,455个易位和363个倒位,存在和缺失变异(PAVs;大插入和大缺失)是最丰富的SV(图3)
图3 狗尾草属植物的泛基因组与结构变异
4.SV在谷子驯化和改良中的作用
将野生和地方种间频率显著不同的PAV定义为驯化选择的SVs (domPAVs),地方种和栽培种间频率显著不同的PAV定义为改良选择的SVs (impPAVs)。本研究鉴定到4582个domPAVs和152个impPAVs,表明谷子驯化过程中的选择压力比改良大。此外,还发现了几个与谷类作物相关的domPAV基因,如玉米形态驯化基因tb1、水稻开花基因Hd3等,PAVs可能在谷子的驯化和改良过程中发挥重要作用。
5.PAV基因在种子不落粒和籽粒产量驯化中的应用
为了确定种子脱粒相关位点,利用QTL分析和BSA混池测序,鉴定出三个控制种子脱粒的QTL (qSH5.1,qSH5.2和qSH9.1)。qSH5.1位点是脱粒相关基因SvLes1中6.7 kb的domPAV;qSH9.1位点附近区域包含水稻脱粒基因OsSh1的同源基因sh1(图4a),该基因功能已在水稻中有转基因研究独立证实。
粒宽(GW),粒长(GL)和千粒重(TGW)是籽粒产量的决定因素(图4b)。对籽粒产量性状基于SV做了GWAS(SV-GWAS)。在3号染色体上发现一个366 bp的缺失与TGW和GW显著相关(图4c,d),鉴定了A10和Yugu1中10个组织的基因表达模式,发现该缺失周围200 kb的区域中有8个基因在籽粒灌浆期存在差异表达(图4f)。其中,SiGW3与调节水稻籽粒大小相关的GW5/GSE5基因有73%的序列相似性。之后,在谷子中过表达该基因,与野生型植物相比,转基因植株SiGW3表达量增加,TGW和GW降低,GL升高(图4g)。
图4 PAV基因在谷子驯化和改良过程中调控农艺性状
6.基于图谱的基因组促进了谷子的育种
将鉴定的107,151个插入、76,915个缺失和363个倒位整合到Yugu1的参考基因组中,构建基于图谱的狗尾草属参考基因组。利用illumina数据对1844份狗尾草属的材料基因分型,收集了226组表型数据(68个性状),包括产量、植株结构、生长时间、籽粒品质和抗病等性状,该次收集跨越11年,对13个跨经纬度地区的材料性状进行采集(图5a,b)。
对226个表型进行GWAS(SV-GWAS,SNP-GWAS)分析,共鉴定出1084个信号与60个性状存在显著相关性,其中60个信号/QTL仅被SV-GWAS检测到(图5c,d)。此外,连锁不平衡分析显示,约36.9%的SVs与SNPs不相关(图5e),这表明与SVs相关的大量遗传信息未被SNP捕获,如在GBSSI基因下游1.6 kb处发现了与表观直链淀粉含量相关的主效SV,而主效SNP在距GBSSI基因398 kb处才发现;Seita.9G020100仅通过SV-GWAS检测到,其是水稻中Ghd7基因的同源基因,Ghd7在水稻生产和适应中起着至关重要的作用。
最后,作者评估了不同环境下68个农艺和品质性状的GS预测准确性,显示97%的表型预准确性在0.7以上,最高的在0.95以上(幼苗颜色),167个性状同时使用SNP和SV标记相较于只使用SNP标记时准确性增加了0.04% ~ 12.67%(图5f)。
图5 SV-GWAS和SNP-GWAS结果和基因组预测
总结
该研究从头组装了110个谷子和狗尾草高质量基因组,绘制了首个狗尾草属的泛基因组以及首个杂粮作物高质量的图泛基因组,鉴定出多个与谷子驯化、育种改良相关的位点及关键基因,系统解析了结构变异(SVs)对谷子驯化和改良,种子不脱粒性状和籽粒产量性状的重要影响,为作物优良农艺性状的选择育种提供了重要参考。
参考文献:He Q, et al. A graph-based genome and pan-genome variation of the model plant Setaria. Nat Genet 55, 1232–1242 (2023).