泛基因组
泛基因组即某一群体全部基因的总称,包括核心、非必需基因(部分样品中存在的基因),以及特有基因(仅在某一个样品中存在的基因)。核心基因是所有样品中都存在的基因,反映物种稳定性,通常与物种生物学功能和主要表型相关;非必需基因和特有基因,一般反映物种特有的生物学特征以及对特定环境的适应性。
应用三代测序和生物信息分析技术,对不同但又相互关联的个体材料进行较高深度测序和组装,构建泛基因组图谱,解码该物种完整的遗传信息。
2020年发表在Trend in Plant Science期刊上的 "Super-Pangenome by Integrating the Wild Side of a Speciesfor Accelerated Crop lmprovement”一文中提出了超级泛基因组的概念,并提出早起的泛基因组局限于单个物种,缺乏了在属水平的基因组多样性。近年来,越来越多的研究团队发表属水平超级泛基因组,为性状定位和分子育种提供重要基础。
研究内容

贝纳基因泛基因组研究推荐研究策略
样本选择:构建泛基因组的物种既要能代表该物种或某类物种的所有遗传信息,同时又能为解释生物学问题提供基础。建议样本量为:10-50个,含代表性的野生种、栽培种等。
测序策略:选取1个代表性物种进行T2T基因组构建;其余物种选用HiFi/ONT进行基因组组装,完成高质量染色体水平基因组构建。

案例一 Nature野生和栽培大麦泛基因组的结构变异(IF=50.5)
文章题目:Structural variation in the pangenome of wild and domesticated barley
主要研究结果:
研究团队使用76个高质量大麦基因组(包含野生和栽培种)以及1,315个大麦二代重测序数据的基因型数据,构建了大麦高质量泛基因组。为了量化泛基因组PAV程度,以泛基因组为基础构建了一个以基因为中心的同源框架,共鉴定得到95237个分层直系同源群(hierarchical orthologous groups,hOGs),其中16672个被包含于泛基因组的核心基因中。
基于泛基因组,研究团队发现白粉病抗性基因座a(Mla)在品种RGT Planet中存在一段长度为40K、包含两个Mla基因家族成员的区域,并且被头对尾地重复了四次。然而在泛基因组中的62份材料中,这段区域即使是一个完整的Mla拷贝也不存在,但其中存在149个与Mla核苷酸相似度达到98%的高度相似的同源基因。研究团队提出,这种结构复杂、包含多个同源抗性基因的基因座如何改变种序列的多样性导致基因拷贝数的改变与白粉病或其他疾病的抗性变化。
α-淀粉酶基因amy1 1基因座是目前大麦研究中最具有经济价值的基因位点,它编码的淀粉酶将多糖淀粉裂解成短链形式,影响野生大麦的长势和生存能力以及栽培品种的淀粉分解(酿酒)能力。研究团队用PGGB构建局部泛基因组图谱,通过聚类分析,发现基于结构特征进行的聚类结果与amy11拷贝数存在显著的相关性。这结果为针对amy1 1位点的选择性育种以及amy11单倍型的培育提供了基础。
综上,研究团队使用76个高质量大麦基因组(包含野生和栽培种)以及1,315个大麦二代重测序数据的基因型数据,构建了大麦高质量泛基因组。为了展示大麦泛基因组在育种与基因研究方面的研究意义,研究团队使用了抗病性、生存能力、淀粉分解和毛状体颖毛长度相关的基因座作为案例,展示了大麦泛基因组在挖掘农艺性状调控机制方面的重要作用。

案例二 Nature Genetics高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异(IF=31.7)
文章题目: High-quality genome of a moder soybean cultivar and resequencing of 547 accessions provide insights into the roleof structural variation
主要研究结果:
本研究通过整合5种测序技术对现代大豆品种“农大豆2号”(NDD2)进行了全面的基因组图谱构建,使用的测序数据包括138.51 Gb的HiFi数据(N50为26.74 Kb),121.85 Gb的Nanopore数据(N50为26.64 Kb),473.35 Gb的Bionano光学图谱数据,102.57 Gb的lumina短读长测序数据以及108.85 Gb Hi-C数据。最终组装的染色体水平“农大豆2号”基因组大小为1013.66Mb,contig N50为27.16 Mb,组装的QV值为41.83,并且成功在所有染色体中组装了在大豆中特异的Cent91/92着丝粒重复序列。本研究组装的基因组在29个已发表的大豆基因组中组装质量最好。
本研究利用NDD2基因组和29个已发表的大豆基因组构建了图形化泛基因组,鉴定出47,058个非冗余SVs,其中包括37,304个插入/缺失(INS/DEL;>50bp),3,071个倒置(INV;1.01-29.14kb)和6,683个易位(TRANS;1.01-19,040.53kb),并根据NDD2参考基因组鉴定了25,814个SV-基因对包括23,119个INS/DEL-基因对,719个INV-基因对和1,976个TRANS-基因对,这些基因对可能通过调控基因表达来影响相关性状。
研究团队对574个大豆代表性品种进行平均深度为18.05X的重测序,并对31个性状(6个产量相关性状,16个种子品质性状和9个植物学特征性状)开展了全基因组关联研究(GWAS)。NDD2基因组作为参考,研究团队鉴定了749,714个插入/缺失SVs,并通过SV的全基因组关联分析,鉴定到14,237个非冗余SVs与这些性状显著相关。

参考文献
Jayakodi, M. et al., Structural variation in the pangenome of wild and domesticated barley. Nature, 2024;
Zhang, C.Y. et al., High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights intothe role of structural variation. Nature Genetics, 2024.