文章解读|异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史
近日,新加坡南洋理工大学生物科学学院助理教授Jarkko Salojärvi,在国际权威期刊Nature Genetics(影响因子30.8,Q1)发表了题为“The genome and population genomics of allopolyploid Coffea arabica reveal the diversification history of modern coffee cultivars”的研究论文。
本研究通过对阿拉比卡咖啡豆(Coffea arabica)和其两个祖先物种中粒咖啡(Coffea eugenioides)和欧基尼奥伊德斯咖啡(Coffea canephora)进行染色体水平的组装,揭示了这三个物种的基因组结构,基于咖啡基因组上的多倍体化时间,探讨了多倍体化对基因组的影响以及多倍体物种如何适应新的倍性水平。本研究使用多个咖啡品种的基因组重测序数据分析了阿拉比卡咖啡的历史和传播途径,并鉴定了与病原体抗性相关的候选基因组区域。

研究背景
目前,世界上产量最高的咖啡物种为阿拉比卡咖啡(Coffea arabica),这是一种异源四倍体物种(2n=4x=44),由两个祖先物种欧基尼奥伊德斯种咖啡(Coffea eugenioides)(2n=2x=22)和中粒咖啡(Coffea canephora)(2n=2x=22)自然杂交产生。由于多倍体化事件在时间上较为新近,且演化历史上遭遇了严重的瓶颈,因此阿拉比卡咖啡栽培品种的遗传多样性较低。这意味着阿拉比卡咖啡的栽培品种在基因组水平上缺乏多样性,这对其适应环境和抵抗病虫害造成了挑战。在抗逆性状层面看,阿拉比卡咖啡容易受到咖啡叶锈病等许多植物病虫害的影响。
因此,了解阿拉比卡咖啡的起源、繁育历史和遗传多样性,以及理解引入抗性基因对品质和其他特性的影响,对于进一步改良阿拉比卡咖啡栽培品种,提高其抗性和品质非常重要。
研究内容
研究团队利用了PacBio HiFi数据结合Hi-C技术进行基因组组装,得到了大小为1,198 Mb的阿拉比卡咖啡基因组,其中的1,192 Mb(占预测基因组大小的93.1%)锚定在推定染色体上。中粒咖啡和欧基尼奥伊德斯咖啡基因组大小分别为661 Mb和 672 Mb,基因组的完整性在所有组装中都大于96%,BUSCO评估显示93.2%的BUSCO基因在HiFi组装中是重复的,这表明异源多倍体事件中的大部分重复基因被保留了下来。

咖啡基因组组装数据统计
基于基因组中转座子(TE)的分析结果表明,中粒咖啡和欧基尼奥伊德斯咖啡基因组中TE含量分别为67.5%和59.7%,Gypsy长末端重复(LTR)反转座子占了两个物种之间差异的大部分。而转座子的差异在阿拉比卡的亚基因组subCC和subEE(分别源于中粒咖啡和欧基尼奥伊德斯咖啡祖先)中得到了缩小,分别为63.1%和63.8%,这一结果表明转座子可能通过异源多倍化事件中的同源重组(HE)转移的。

阿拉比卡咖啡及其祖先物种中的同系、分化和基因丢失模式
为了研究阿拉比卡咖啡的演化历史,研究团队对46份样本进行了基因组重测序,包括3份中粒咖啡、2份欧基尼奥伊德斯和41份阿拉比卡样本。基于重测序数据,研究团队对阿拉比卡咖啡品种间的亚基因组交换程度以及其对基因组进化的可能贡献进行了分析。本研究中所有品种在7号染色体的一端都表现出了固定的等位基因subEE偏倚,该区域富集了与叶绿体功能相关的基因。由于阿拉比卡咖啡的质体基因组来自欧基尼奥伊德斯咖啡基因组,这种等位基因交换很可能是经过选择的,因为编码叶绿体定位蛋白的核基因和叶绿体基因可能存在相容性问题。
在等位基因方面,大部分品种都显示出明显的3:1等位基因subCC偏倚,野生和栽培阿拉比卡咖啡都展示了高度一致的HE交换模式,这表明:(1)等位基因偏倚是一种适应性特征,与育种无关;(2)等位基因偏倚起源于所有采样品种的共同祖先,可能紧随最初的全基因组多倍体事件之后。在一些栽培品种中,还发现了较新的HE交换事件,同样表现出subCC偏倚的趋势,但BMJM品种除外,该品种由于1号染色体上的单个大规模杂交而表现出subEE偏倚的趋势。
因此,研究团队提出假设:在像阿拉比卡咖啡这样低遗传多样性的多倍体物种中,HE可能是导致近缘种间表型变异的主要原因。

阿拉比卡咖啡的种群历史
此外,使用重测序数据对阿拉比卡咖啡的地理起源进行分析。大裂谷东侧的野生个体存在一定程度的杂交和密切相关性,而在西侧,杂交相关的个体主要集中在Gesha地区。与栽培品种最接近的杂交样本是E016/136,与几个野生样本存在一级亲缘关系。Ar35-06和Eth28.2是野生种群的纯种代表,与假设的阿拉比卡咖啡真正野生亲本最为接近。这些数据表明Gesha地区是适合驯化的野生样本的热点地区。

基于subCC亚基因组的SNP推断出的亲缘关系评估
阿拉比卡普遍存在的自交现象,再加上其在野生环境中经历的多重遗传瓶颈,可能有选择性清除了有害等位基因。而阿拉比卡咖啡的高度保守性使得其与其二倍体祖先能够发生自发的种间杂交,其中一个例子是Timor杂交品种,它是中粒咖啡与阿拉比卡的自发杂交产生的品种,对咖啡叶锈病具有抗性。
研究人员使用原始Timor杂交品种与阿拉比卡的回交的五个后代作为样本进行测序分析。基因组变化如预期,杂交对subCC产生了更大的影响,核苷酸差异明显增加(FST = 0.185),而subEE的差异较小(FST = 0.0897)。
所有Timor杂交种的4号染色体上都有一个共同渐渗区域,研究团队确定了所有杂交种共有的一组233个基因,包含4号染色体subCC上抗性相关基因的三个共定位串联重复区块的成员。其中,五个基因是与拟南芥的RPP8同源的基因,RPP8是一个NOD-like受体抗性基因座位,能够影响多种病原体的抗性。在拟南芥中,RPP8表现出极高的变异性,其中染色体内基因转换结合平衡选择促进了其特殊的多样性。同一区域还包括了十个与PR基因的负调节因子CPR1同源的基因。最后,研究团队还发现了三个编码叶锈10病抗性受体样蛋白激酶(LRK10L)的重复基因。LRK10L是一类在植物中广泛存在的基因家族,最早在小麦中发现,与叶锈抗性有关,并在各种生物和非生物胁迫中上调表达,被确认为小麦对条锈菌和白粉病的过敏性抗性反应的正调节因子。
高FST值表明栽培品种和转移系之间存在显著差异,但与野生个体之间差异不大,这表明野生种群不可能是等位基因不对称性的来源。核苷酸多样性进一步证明了这一观点,某些基因在野生个体中表现出较低的核苷酸多样性,暗示这些基因经历了选择清除。

中粒咖啡品系向抗咖啡叶锈病的阿拉比卡品系基因组的渗入
原文链接:https://www.nature.com/articles/s41588-024-01695-w