NC详解|生菜超级泛基因组研究:解码进化与驯化的基因组图谱
生菜作为全球广受欢迎的蔬菜,其基因组中蕴藏着丰富的进化秘密和驯化痕迹。
2025年7月24日,淡马锡生命科学实验室,新加坡国立大学理学院生物科学系的曹帅教授团队,在国际顶级期刊《Nature Communications》在线发表了题为“Lactuca super-pangenome provides insights into lettuce genome evolution and domestication”的研究论文。该研究通过构建高质量的Lactuca属超级泛基因组,揭开了生菜基因组进化与驯化的神秘面纱。团队整合了12个染色体级别的基因组,涵盖了代表性的栽培生菜品种、地方品种及野生近缘种,为深入解析生菜的遗传多样性、结构变异及驯化历程提供了前所未有的视角。

1:高质量基因组组装揭示生菜的全球分布与遗传多样性
本研究对10个代表性的生菜材料进行了从头基因组组装,包括5个栽培生菜变种(黄油头、散叶、罗马、拉丁、油用生菜)、1个地方品种以及4个野生近缘种(L.serriola、L.saligna、L.virosa、L.indica)。同时,结合已发表的脆叶和茎用生菜基因组,构建了覆盖12个材料的超级泛基因组。
基因组组装结果显示(表1),栽培生菜及野生祖先种L.serriola的基因组大小约为2.6Gb,而野生近缘种的基因组大小差异显著:L.saligna最小(2.1Gb),L.indica最大(5.5Gb)。本研究组装质量极高,contigN50平均值达到20Mb,其中L.saligna和L.virosa的contigN50分别高达56.7Mb和47.5Mb,显著优于此前的已发表版本。
染色体共线性分析揭示,野生近缘种之间的基因组共线性普遍较低,尤其是在染色体1、3和9上存在明显倒位(图1d)。黄油头生菜与其他栽培变种的共线性较高,但与野生近缘种(特别是L.indica)的共线性较低(图1e),这一结果与已知的进化模式一致,暗示栽培生菜在驯化过程中与野生种之间发生了显著的遗传分化。
表1 生菜基因组组装与注释分析


图1 栽培生菜形态类型及其野生近缘种的高质量基因组组装
2:超级泛基因组解析基因家族动态与驯化选择
基于12个基因组的基因家族分析,本研究共鉴定出37,456个泛基因家族,这些家族可分为核心基因家族(42.0%,存在于所有12个基因组中)、软核心基因家族(12.9%,存在于10-11个材料中)、可变基因家族(43.4%,存在于2-9个材料中)和材料特异性基因家族(3%)(图2c)。
基因家族收缩与扩张分析显示(图2a),除茎用生菜外,Lactuca属的基因家族得失数量相对稳定(约2000个),但基因家族丢失数量显著高于保留数量。与野生祖先种L.serriola相比,栽培生菜中有158个特异性保留的基因家族和491个特异性丢失的基因家族。
GO富集分析揭示了这些驯化相关基因家族的功能(图2d、e):驯化保留的核心基因富集于DNA复制、生物刺激响应等过程,可能与栽培环境适应相关;而驯化丢失的核心基因则参与蛋白质定位、温度刺激响应等过程,推测与野生环境适应性特征的退化有关。
泛基因组和核心基因组的动态变化(图2b)表明,随着更多基因组的加入,基因家族数量持续快速增长,进一步证明单一参考基因组无法捕捉生菜的全部遗传多样性,凸显了超级泛基因组的重要性。

图2 12份生菜超级泛基因组
3:三倍化事件与二倍体化进程的基因保留特征
Lactuca属经历了一次全基因组三倍化(WGT)事件,随后发生了二倍体化过程。基因保留类型分析显示(图3a、b),在所有Lactuca基因组中,平均34.8%的基因为单拷贝基因,14.8%为WGT基因,50.4%为小规模重复基因(包括串联、邻近和分散重复)。
在核心基因中,WGT基因的比例显著高于总基因中的比例(图3c),提示核心WGT基因在生菜二倍体化过程中可能发挥了关键作用。GO富集分析显示(图3d),这些核心WGT基因参与根部系统发育、RNA生物合成等重要生物学过程。
表达水平分析进一步显示(图3e),核心WGT基因的表达水平显著高于小规模重复基因和单拷贝基因,暗示其功能重要性。此外,WGT基因在基因区域周围的CG甲基化水平较低(图3f),推测低甲基化状态可能有助于WGT基因在二倍体化过程中被保留。

图3 WGT基因的保留特征
4:转座子扩张与DNA甲基化对基因组大小的影响
Lactuca基因组中84.5-89.1%为重复序列,其中长末端重复反转录转座子(LTR)占主导(平均82.6%)(图4a)。基因组大小的变异主要源于转座子的扩张,尤其是L.indica中Copia元件的显著增加,使其基因组达到5.5Gb。
完整LTR分析显示(图4b、c),L.indica的完整LTR比例最高(28.2%),且长度集中在6.3kb左右,短于其他物种。插入时间分析表明(图4d),L.indica中的Copia和Gypsy型LTR插入时间较近,存在多轮Copia扩张,证实了近期转座子活动是其基因组庞大的主要原因。
DNA甲基化分析揭示(图4e、f),L.indica的CHH甲基化水平显著降低,尤其在LTR区域。CMT2基因的系统发育树显示(图4g),Lactuca属存在至少两个CMT2同源基因,且L.indica中CMT2的表达水平显著低于黄油头生菜(图4h)。瞬时过表达实验证实(图4f、g),CMT2A可显著提高L.indica的CHH甲基化水平,尤其是在Copia和Gypsy型LTR中,表明CMT2表达下调可能导致转座子失控扩张,进而使L.indica基因组增大。

图4 转座子扩增对基因组大小的影响
5:转座子驱动的结构变异及其功能影响
以高质量的黄油头生菜基因组为参考,本研究在不同生菜材料中鉴定出大量结构变异(SVs)(图5a)。在栽培变种中,油用和茎用生菜的SV数量较高(分别为123,841和192,230个);在野生近缘种中,L.saligna的SV数量最多(294,989个)。92.3%的SVs为存在/缺失变异(PAVs),包括插入(42.0%)和缺失(50.3%)。
PAVs的分布显示(图5b、c),它们在全基因组均有分布,尤其在LTR富集的异染色质区域显著集中,且在重复序列的边界处密度较高,暗示转座子活动可能是产生PAVs的重要原因。
功能分析表明(图5d),与PAVs相关的基因表达水平显著低于无PAVs的基因,说明PAVs可能影响基因转录。例如,L.indica中CMT2A基因区域存在多个PAVs(图5e),与其低表达水平一致,进而导致CHH甲基化降低。瞬时过表达CMT2A可恢复L.indica的CHH甲基化水平(图5f、g),验证了PAVs对基因功能的影响。
此外,RLL2A基因的PAV与生菜叶片花青素含量密切相关,该变异仅存在于红叶型的罗马生菜和拉丁生菜,过表达可增加花青素积累,展示了PAVs在表型变异中的重要作用。

图5 转座子驱动的SV
6:驯化相关结构变异与开花时间调控
通过比较栽培生菜与野生祖先L.serriola,研究鉴定出506,004个驯化相关的PAV簇(图6b),其中20.5%为核心PAVs(存在于所有栽培材料中),52.8%为可变PAVs,26.7%为私有PAVs。这表明,不同栽培变种共享一组核心驯化PAVs,为其单一起源假说提供了支持。
PAVs的基因组分布显示(图6a),6.8%位于基因区域(外显子、内含子及上下游),其余位于基因间区。GO富集分析(图6d)发现,与核心驯化PAVs相关的3232个基因富集于春化响应、细胞应激等过程。
其中,开花抑制基因FLC的拷贝数变异尤为引人注目(图6e、f)。栽培叶用生菜含有5-8个FLC拷贝,而野生生菜仅有3个,且栽培生菜中特有的FLC拷贝在野生种中存在插入/缺失。这与栽培生菜开花时间延迟的表型一致,推测FLC拷贝数增加是驯化中为延长收获期而选择的结果。油用生菜虽有5个FLC拷贝但开花早,暗示其存在特异性的开花调控机制。

图6 生菜驯化相关PAV的鉴定
总结
该研究通过整合12个高质量基因组构建了Lactuca属超级泛基因组,系统解析了Lactuca属的基因组多样性、进化历程及驯化机制。从基因组大小变异到转座子活动,从结构变异到基因表达调控,研究揭示了DNA甲基化、三倍化事件、结构变异等在生菜进化与驯化中的关键作用。
这些发现不仅为理解植物基因组进化提供了新见解,更为生菜的功能基因组学研究和分子育种奠定了坚实基础。未来,基于超级泛基因组的遗传资源挖掘将加速优质、抗逆生菜新品种的培育,推动这一全球重要作物的可持续发展。
参考文献:
Cao S, et al. Lactuca super-pangenome provides insights into lettuce genome evolution and domestication. Nat Commun. 2025.
027-62435310 |
service@benagen.com |
