NC详解 | 枣树泛基因组解析:揭示驯化过程中的遗传变异与关键基因
英文标题:Analyzes of pan-genome and resequencing atlas unveil the genetic basis of jujube domestication
发表时间:2024.10.21
发表期刊:Nature Communications
影响因子:14.7
2024年10月,洛阳师范学院赵旭升教授/郭明欣副教授课题组联合中国农科院深圳农业基因组研究所闫建斌课题组在Nature Communications杂志在线发表了题为“Analyzes of pan-genome and resequencing atlas unveil the genetic basis of jujube domestication”的研究成果。该研究构建了红枣首个泛基因组,利用重测序数据鉴定到大量的遗传变异,成功识别了关键驯化性状的关键候选基因,为理解枣树的驯化性状和未来育种提供了宝贵的基因组资源。
研究背景
枣(Ziziphus jujuba),又称中国枣或红枣,以其独特风味、丰富营养和高经济价值闻名。作为中国特有的果树,枣起源于黄河流域中下游,拥有超过7000年的栽培历史,并已传播至全球五大洲的近50个国家。栽培枣由野生酸枣(Ziziphus acidojujuba)经人工选择逐步驯化而来,其关键园艺性状如果实成熟期、坐果率、叶片大小等在此过程中发生显著改变。
尽管枣树具有独特的园艺特性,但传统的单一参考基因组难以全面解析其丰富的遗传多样性。本研究新组装了四个枣的参考基因组,并结合已发表的四个枣参考基因组,构建了首个枣泛基因组。同时,基于泛基因组及大规模群体重测序数据,揭示了枣树开花结果期、坐果率、结果枝长度及叶片大小等驯化性状的遗传基础,为深入理解枣树驯化机制及遗传育种提供了重要的基因组资源。
主要研究成果
1. 枣树优良品种“灰枣”基因组测序及组装
本研究采用Illumina测序、PacBio HiFi(42×)和 Hi-C 技术(89×)对‘Huizao’(Z95)进行基因组组装,使用 hifiasm 构建了395.06 Mb的基因组,contig N50 为20.05Mb。组装结果共锚定至12条染色体,挂载率达96.3%。基因组评估显示,LAI为15.39,二代数据比对率达99.7%,BUSCO 完整度为99.1%。此外,共注释到34,061个蛋白编码基因,其BUSCO评分达到 91.6%。其余三个样本的组装结果详见下表:
表1 四个组装完成的枣基因组的汇总统计数据
2. 枣树的群体结构与遗传多样性
本研究对1059份枣种质资源进行群体遗传分析,其中包括429份野生酸枣(Ziziphus acidojujuba)和630份栽培枣(Ziziphus jujuba)。重测序数据平均测序深度达15.69×,比对至参考基因组Z95后,共鉴定到13,091,616个SNPs和1,439,798个InDels。
系统发育分析结果显示,所有样本可分为两个主要群体:野生群和栽培群。其中,栽培群体可进一步细分为五个亚群,且这些亚群与地理分布一致(图 1a)。进一步采用ADMIXTURE进行祖源成分分析,并基于6,185,881个SNPs进行主成分分析(PCA)。结果与系统发育分析一致,均揭示了六个明显的遗传簇,包括一个野生群体和五个栽培群体(图 1b, c)。
图1 群体结构分析及用于 de novo 基因组组装的 4 个代表性枣品种的选择
遗传多样性分析显示,野生群体的核苷酸多样性(π)显著高于栽培群体(4.60 × 10⁻³ vs. 3.55 × 10⁻³,平均值)。此外,野生群体的连锁不平衡(LD)衰减速率较快(0.25 kb),而栽培群体的衰减范围介于0.62kb至1.74kb(图 1d),反映了驯化过程中遗传多样性下降等变化。
3. 枣的泛基因组特征解析
为拓展枣的基因库并探索其遗传多样性,本研究基于系统发育关系、表型多样性、栽培区域及地理分布等因素,筛选了3份额外的枣种质资源进行 de novo 基因组组装,最终选定了1份野生资源(S21)和2份栽培品种(Z94 和Z203)进行深入分析(图 1a, e 和 表 1)。
该研究整合了新组装的4份 de novo基因组数据以及4份已发布的基因组数据(‘Dongzao’、‘Junzao’ 及2份野生资源S2021和S2024),进行枣泛基因组构建。分析发现,随着基因组数量的增加,基因家族数量显著上升(图 2a)。在 8 份枣基因组中,共鉴定出32,567个基因家族。其中,35.05%基因家族存在于所有 8 个基因组中,被定义为核心基因;63.58%基因家族存在于2–7份基因组中,归类为可变基因;而1.37%基因家族仅存在于单个基因组中,被定义为特有基因(图 2b, c, d)。值得注意的是,枣泛基因组包含7,801个在Z95参考基因组中缺失的基因家族,这表明单一参考基因组难以全面代表枣的全部遗传信息。

图2 枣树泛基因组特征分析
作者进一步计算核心基因与可变基因的非同义/同义替换比率(Ka/Ks)后发现,相较于核心基因,可变基因的 Ka/Ks 值更高(图 2e),表明核心基因进化速率较慢,功能更加保守。此外,基于 4 份组装基因组的 RNA-seq 数据进行了基因表达分析表明,核心基因的表达水平远高于可变基因(图 2f),这表明核心基因可能在生物功能上起着更为关键的作用。
4、枣泛基因组中的广泛基因组变异
为探索这8份枣基因组中的变异信息,作者将其余7份基因组比对至参考基因组 Z95 ,发现均与Z95具有较高的共线性,并通过Syri软件鉴定出26,559–47,606个SVs。GO和KEGG富集分析表明,受SVs影响的基因主要集中在肽生物合成、蛋白质代谢、细胞代谢和光合作用等生物过程中。该研究提供的基因组变异数据为枣的性状研究和育种实践提供了宝贵的遗传资源。
5、枣驯化过程中人工选择的变异
为了了解基因组变异在枣驯化中的作用,研究者将所有栽培亚群体与野生群体的核苷酸多样性(π)进行比较,识别出126个潜在的选择性清除区域。其中,一些区域与已知的驯化性状相关基因重合,如与生殖系统发育相关的ZjPOD1基因。
此外,为探讨结构变异(SVs)在驯化中的作用,研究者将这些选择性清除区与S21(野生品种)和Z95(栽培品种)之间的SVs进行重叠分析,发现4364个SV影响了666个基因。其中,在Z95_Ju00G026290基因的第三外显子中发现了1.7 kb的插入,导致外显子数和氨基酸长度的变化,可能影响表型。
在选择性清除区域内,作者还鉴定到59,253个InDels,其中745个影响了356个注释基因的蛋白质编码序列。特别是Z95_Ju00G026420基因(编码AGL28蛋白)在第六外显子中具有12 bp的插入(图3b),且该变异在野生品种中替代等位基因的比例较高(73.1%),而栽培品种中以参考等位基因为主,尤其在栽培亚群体V中,所有样本均表现为参考等位基因(图3c),显示出人工选择对该变异的偏好。
为了进一步研究ZjAGL28的功能,研究者在拟南芥中进行异位过表达实验,发现过表达系在生殖生长阶段表现出较早的开花(图3d, e)和果实成熟(图3f, g),提示ZjAGL28可能调节开花时间和果实成熟。

图3 驯化基因ZjAGL28负责早期开花和成熟
6、枣泛基因组支持基于SV的GWAS研究
该研究基于1056个枣样本的重测序数据,使用Syri软件共鉴定出的19,749个PAVs,开展SV-GWAS分析,共鉴定出103个与园艺性状显著关联的SVs。其中,01号染色体上的276bp插入与果核宽度相关(图4a),10号染色体上的52bp缺失影响果重(图4b),04号染色体上的162bp插入与花芽枝长显著相关(图4c)。携带替代等位基因的样本在上述性状上均表现出下降(图4a–c)。这些与园艺性状显著关联的SVs为进一步探索潜在致因基因提供了基础。
枣的无性繁殖是驯化过程中的关键变化。与野生枣相比,大多数栽培枣种子减少甚至缺失(图4d)。SV-GWAS分析发现,ZjMED12(Z95_Ju00G334220)的上游2.3kb的PAV插入与种子结实率显著相关(图4e,f),携带参考等位基因的样本结实率更高。
由于枣转化难度较高,为了全面揭示ZjMED12的功能,作者选择在水稻中采用CRISPR/Cas9系统敲除ZjMED12的同源基因OsMED12,获得两种突变体,它们在第六外显子中分别具有2bp和3bp的缺失(图4g)。这导致Osmed12-2发生框移和Osmed12-3缺失了一个天冬氨酸残基,但并未影响水稻中OsMED12的表达水平。表型评估显示,与野生型水稻(WT)相比,这两种CRI突变体的种子结实率显著下降(图4h,i)。这一发现表明,MED12在单子叶植物和双子叶植物的胚胎发育中具有保守的功能。

图4 SV-GWAS用于鉴定与结实率相关的候选基因ZjMED12
7、ZjCDKI5负调控枣的结果母枝长度和叶片大小
除SV-GWAS外,该研究还对16种园艺性状进行了SNP-GWAS分析,发现结果母枝长度(BSL)、叶宽、叶长和叶面积在枣驯化过程中显著增加(图 5a),且四者呈正相关。在SNP-GWAS结果中,08号染色体上检测到一个显著信号,同时关联这四种性状(图 5b),表明该区域可能存在一个对多个驯化性状具有多效性的候选基因。
进一步分析发现,该区域包含192个基因,其中28个在结果母枝和叶片中高表达(FPKM > 20)。结合基因功能注释,作者锁定了编码细胞周期蛋白依赖性激酶抑制因子(CDKI)的 Z95_Ju00G226220(命名为ZjCDKI5)。ZjCDKI5在启动子区域存在一个SNP,在第三内含子存在10bp缺失(图 5c),将群体分为四种基因型。携带基因型3和4的材料BSL和叶片性状显著高于基因型1和2(图 5d),且ZjCDKI5 在基因型3和4中的表达水平明显低于基因型1和2(补充图 23a)。这些结果表明,ZjCDKI5 可能是BSL和叶片大小的负调控因子。
由于枣的结果母枝在春季萌发,并在冬季落叶,与一年生作物的株高特征类似,作者进一步在水稻中异源表达ZjCDKI5,以探究其功能。结果显示,过表达株系(OE)相比野生型(WT)水稻,株高在苗期和抽穗期均显著降低(图 5f),同时旗叶长度和叶宽也明显缩短(图 5g, h)。这些结果表明,ZjCDKI5可能在枣驯化过程中负调控BSL和叶片大小。

图5 针对四种驯化性状的GWAS分析及候选基因ZjCDKI5的鉴定
总 结
本研究对优良枣树品种进行基因组测序,构建高质量参考基因组,并结合1059份枣种质资源的重测序数据,解析其群体结构和遗传多样性。通过构建首个枣树泛基因组,鉴定核心与可变基因,揭示驯化过程中基因组变异及人工选择的关键基因。SV-GWAS和SNP-GWAS分析识别出多个与果实性状、种子结实率及植株生长相关的关键基因,如ZjMED12和ZjCDKI5,并通过功能验证揭示其调控机制,为枣树改良与育种提供重要的遗传资源。
参考文献:
Guo M, et al. Analyzes of pan-genome and resequencing atlas unveil the genetic basis of jujube domestication. Nat Commun. 2024.