NG项目文章|豆科泛基因组图谱,破译进化-育种关键基因
豆科植物对可持续农业和全球粮食安全至关重要,尽管其进化历史已得到广泛研究,但适应性进化的保守机制及农艺性状改良的遗传基础仍有待阐明。
2025年7月30日,南京农业大学作物遗传与种质创新国家重点实验室宋庆鑫教授团队在国际顶级期刊《Nature Genetics》在线发表了题为“Pangenome analysis provides insights into legume evolution and breeding”的研究论文。该研究完成了9种豆科植物的基因组测序与组装,并基于泛基因组分析,揭示了豆科植物环境适应与驯化的分子机制,以及转座元件在基因组扩张中的调控作用,为豆科植物的进化研究与遗传改良提供了重要理论支持。
贝纳基因参与了本研究中的ONT长读长测序工作。

1、谷物豆类的基因组从头组装
本研究选取9种主要豆科植物(菜豆,鹰嘴豆,豌豆,小扁豆,蚕豆,木豆,豇豆,绿豆,藊豆),采用PacBio HiFi测序技术进行基因组测序,总测序数据量为732.7Gb。其中,鹰嘴豆额外利用ONT测序技术获得42.8Gb超长测序数据。结合Hi-C测序技术,成功组装得到9个豆科植物染色体水平的高质量基因组。基因组大小范围为463.3Mb到13Gb,转座元件(TEs)含量在51-92%之间,基因数量为26180至55519个,BUSCO评估完整性均高于99%。
基于上述9种豆科植物及栽培大豆、野生大豆和白羽扇豆基因组,本研究通过泛基因组分析共鉴定到35389个基因家族,包含12436个核心基因家族。与核心基因相比,可变基因具有功能保守性较低、外群中直系同源物较少、 TEs含量更高(更多在异染色质区域富集)、DNA甲基化水平更高,基因表达水平较低等特征。

图1 豆科植物的泛基因组分析
2、 根瘤相关的基因进化
本研究基于已发表的大豆RNA测序数据,共鉴定出1305个根瘤偏好表达基因,其中,54%为核心基因,主要富集于嘌呤生物合成等功能通路,剩余可变基因则主要在细胞响应等功能通路富集。根据系统发育分析,这些基因可分为8个等级(0级为某物种特有,7级为最多种物种共有),超过70%的基因存在于非固氮类群(Nitrogen-fixing Clade, NFC)物种中。通过豆科植物和11个外群的比较基因组分析,共鉴定到358个豆科特异基因,其中26个基因可能是在NFC、豆目(Fabales)和豆科植物的进化过程中新起源,有5个基因在根瘤组织中高表达。NFC类群根瘤形成能力的丧失,与其关键结瘤基因MIN的多次丢失或序列片段化相关。值得注意的是,MIN基因在冷季豆类与暖季豆类中的分布差异,可能反映了其与环境适应性有关。

图2 豆科植物根瘤相关基因的进化
3、豆科植物进化过程中的基因扩张和丢失
冷季豆类和暖季豆类约在5500万年前分化,与分化前相比,冷季豆类有40个基因家族显著扩张,主要富集在碳固定、光合作用等功能通路,暖季豆类有37个基因家族显著扩张,主要富集在防御反应、激素响应等功能通路,仅有1个基因家族在冷季豆类和暖季豆类均显著扩张。这表明,冷季和暖季物种利用不同的基因组进化策略,来适应不同的环境生态位。
多倍体进化通常都始于全基因组复制(WGD),随后经历二倍化过程中的基因组重组与基因丢失。在古多倍体物种中,基因可分为WGD基因、小尺度重复(SSD)基因和单拷贝基因。在大豆属物种中,检测到31900-33700个WGD基因,其它暖季豆类中仅检测到2800-3500个WGD基因,可变基因在二者中的占比均低于30%,但在大豆单拷贝基因中占比约70%,表明可变基因在二倍化的过程中更容易丢失。
值得注意的是,在约6500万年前经历WGD事件的暖季豆类中,可变基因在SSD基因中比例高于WGD基因和单拷贝基因,这可能补偿了可变基因的丢失,从而增强植物对恶劣环境的适应能力。在冷季豆类中,基因数量的增加主要由SSD基因扩张驱动,新形成的SSD基因,其来源于WGD事件的比例显著高于其他基因。

图3 豆科植物进化中的基因扩张和丢失
4、豆科植物进化过程中的趋同选择
本研究基于大豆、木豆、鹰嘴豆和豌豆的野生和地方/栽培种质的大量重测序数据,定位了在3000到5500万年独立进化过程中经历趋同选择的基因组区域,结果显示,四个物种中均有大量的基因组区域以及基因表现出显著降低的遗传多样性。值得注意的是,226个在大豆中受选择的基因,在另外三个物种中也呈现遗传多样性下降。这些基因主要和种子休眠、种子增大以及能量平衡通路相关,例如GmYUC4a基因。该基因有3个单倍型(Hap1,Hap2,Hap3),携带Hap1的大豆种质种子重量低,且在野生大豆中比例高,在地方种质和栽培种质中比例逐渐降低;携带Hap2的种质GmYUC4a表达水平更高。染色体片段代换系(CSSLs)的实验结果表明,导入Hap1的种子大小和重量均小于携带Hap2的轮回亲本。这些结果证明,YUC4a基因可能在四种豆科植物中经历了趋同选择,共同驱动种子重量的增加。

图4 豆科植物进化过程中的趋同选择
5、 TEs局部扩张促进基因组的扩张
暖季豆科植物表现出适度的TEs扩张,而冷季豆科植物则表现出显著的TEs扩张,其中Gypsy超家族的长末端重复(LTR)逆转座子的扩张最为显著。对冷季豆类进行共线性分析,结果发现F01 TEs家族在冷季豆类中的拷贝数最高。F01 TEs在鹰嘴豆中占Gypsy TEs的16%,在豌豆中占比增加到88%。该元件占比的提升伴随着基因间区长度的增加,值得注意的是,鹰嘴豆中76.7%不含F01 TEs的共线性区域,在豌豆中出现了此元件插入,表明鹰嘴豆到豌豆基因组的扩张源于F01 TEs的从头插入。
在小扁豆和蚕豆的共线性区域种也观察到类似趋势,F01 TEs在小扁豆中占Gypsy TEs的85%,在蚕豆中占比增加到96%,同时基因间区变长。然而,小扁豆中仅36%不含F01 TEs的共线性区域在蚕豆中出现了此元件,且超过50%的共线性区域在两个物种中均含有该元件,这表明小扁豆到蚕豆的基因组扩张主要是源于已有的F01 TEs的扩张。
本研究进一步发现,TEs的扩张避开了基因区域及其上下游250bp的调控区,并通过数据分析证实了TEs在豆类植物中的插入具有位点偏好性,且TEs在冷季豆类的非基因区域呈现串联扩张的趋势。

图5 豆科植物进化过程中的TEs扩张
6、调控元件的进化
本研究对冷季豆类进行了ATAC-seq分析,将检测到的开放染色质区域(OCRs)分为三类:与TEs完全重叠的OCRs(cTE-OCRs),与TEs部分重叠的OCRs(pTE-OCRs)和与TEs不重叠的OCRs(nTE-OCRs)。cTE-OCRs在冷季豆类的占比从0.8%到10%不等,主要富集在基因的远端区域。cTE-OCRs在豌豆、小扁豆和蚕豆中高甲基化,在鹰嘴豆中则低甲基化,值得注意的是,豌豆、小扁豆和蚕豆中OCRs的形成未伴随DNA甲基化水平下降。
在鹰嘴豆中,超过92%的OCRs位于非甲基化区域(UMR),而豌豆、小扁豆和蚕豆中仅有不到一半OCRs的位于UMR,且这三种豆类中UMR外存在许多高CG甲基化的OCRs(CG-OCRs),这些CG-OCRs中28-45%位于基因组远端区域,主要富集于DNA转座子,尤其是Mutator元件,且远端CG-OCRs表现出显著升高的转录活性和染色质可及性。这些高甲基化OCRs的出现,可能与豆科植物中染色质相关因子的差异表达模式密切相关。

图6 调控元件的进化
小结
本研究通过构建9种豆科植物的泛基因组图谱,系统解析了豆科植物进化过程中基因组的演化以及调控元件的进化历程,不仅探究了冷季豆类与暖季豆类在基因扩张、TE扩张和根瘤形成调控机制上的显著差异,还首次在全基因组层面鉴定到多个趋同选择基因,为豆科植物的研究提供了重要的遗传资源与理论基础,也为未来豆科作物的分子设计育种提供了关键科学依据。
参考文献:
Wang L, Jiang X, Jiao W, et al. Pangenome analysis provides insights into legume evolution and breeding. Nature Genetics, 2025.
027-62435310 |
service@benagen.com |
