泛基因组
泛基因组即某一群体全部基因的总称,包括核心、非必需基因(部分样品中存在的基因),以及特有基因(仅在某一个样品中存在的基因)。核心基因是所有样品中都存在的基因,反映物种稳定性,通常与物种生物学功能和主要表型相关;非必需基因和特有基因,一般反映物种特有的生物学特征以及对特定环境的适应性。
应用三代测序和生物信息分析技术,对不同但又相互关联的个体材料进行较高深度测序和组装,构建泛基因组图谱,解码该物种完整的遗传信息。
2020年发表在Trend in Plant Science期刊上的 "Super-Pangenome by Integrating the Wild Side of a Speciesfor Accelerated Crop lmprovement”一文中提出了超级泛基因组的概念,并提出早起的泛基因组局限于单个物种,缺乏了在属水平的基因组多样性。近年来,越来越多的研究团队发表属水平超级泛基因组,为性状定位和分子育种提供重要基础。
研究内容

贝纳基因泛基因组研究推荐研究策略
样本选择:构建泛基因组的物种既要能代表该物种或某类物种的所有遗传信息,同时又能为解释生物学问题提供基础。建议样本量为:10-50个,含代表性的野生种、栽培种等。
测序策略:选取1个代表性物种进行T2T基因组构建;其余物种选用HiFi/ONT进行基因组组装,完成高质量染色体水平基因组构建。
| 基因组类型 | 组装策略 |
| ONT only T2T基因组 | ONT 20-30k(60X)+ ONT 100K (20X)+ Pore-c(20X)+ DNBSEQ (50X) |
| ONT only 单倍型T2T基因组 | ONT 20-30k(80-120X)+ONT 100K (30X)+ Pore-c(30X)+ DNBSEQ (50X) |
Q1:什么是泛基因组?
泛基因组(Pangenome)指一个物种中全部基因组信息的综合体,包含所有个体的“核心基因组”(所有个体共有)和“可变基因组”(仅部分个体拥有)。泛基因组的构建揭示了物种内部的遗传多样性,为深入理解基因功能、变异与适应性提供了更完整的参考框架。
Q2:为什么需要构建动植物的泛基因组?
动植物群体中存在丰富的基因组结构变异(如大片段缺失、倒位、基因拷贝数变化等),这些变异往往与性状、适应性或进化相关。单一参考基因组难以代表整个物种的多样性,构建泛基因组能更真实地反映种内遗传多样性,支持作物改良、物种进化及生态适应性研究。
Q3:动植物泛基因组通常采用哪些组装策略?
目前主流策略包括基于参考基因组的泛基因组构建(reference-based pangenome)与完全无需参考的de novo构建(reference-free pangenome)。随着长读长测序(如PacBio HiFi与ONT)的发展,de novo组装成为趋势,能更好地保留结构变异与复杂区域的真实信息。
Q4:泛基因组研究中如何表示和比较不同个体的基因组?
通常通过“图泛基因组”(graph-based pangenome)形式,将多个个体的序列以图结构呈现,节点代表保守区域,分支代表变异位点。这种表示方式能更直观地展示基因变异和结构差异,且便于后续变异检测与注释。
Q5:泛基因组数据如何助力动植物育种和进化研究?
泛基因组提供了完整的基因变异谱系,可用于挖掘与抗逆性、产量、品质相关的基因变异;在进化研究中,它揭示了基因家族的扩张、基因流动与生态适应的遗传基础,是理解复杂性状演化的重要资源。
Q6:为什么未来的动植物泛基因组应向“单倍型T2T泛基因组”发展?
传统泛基因组通常基于混合组装或未完全解析的序列,可能忽略单倍型差异或结构变异。单倍型解析(haplotype-resolved)与T2T(telomere-to-telomere)级别的泛基因组能够在染色体水平精确区分等位基因、完整解析复杂重复区与结构变异。这类数据不仅提高了基因功能注释的准确性,还能更好地揭示显性/隐性性状、杂合优势及物种适应性差异,是下一代动植物基因组研究的重要方向。
案例一 Nature野生和栽培大麦泛基因组的结构变异(IF=50.5)
文章题目:Structural variation in the pangenome of wild and domesticated barley
主要研究结果:
研究团队使用76个高质量大麦基因组(包含野生和栽培种)以及1,315个大麦二代重测序数据的基因型数据,构建了大麦高质量泛基因组。为了量化泛基因组PAV程度,以泛基因组为基础构建了一个以基因为中心的同源框架,共鉴定得到95237个分层直系同源群(hierarchical orthologous groups,hOGs),其中16672个被包含于泛基因组的核心基因中。
基于泛基因组,研究团队发现白粉病抗性基因座a(Mla)在品种RGT Planet中存在一段长度为40K、包含两个Mla基因家族成员的区域,并且被头对尾地重复了四次。然而在泛基因组中的62份材料中,这段区域即使是一个完整的Mla拷贝也不存在,但其中存在149个与Mla核苷酸相似度达到98%的高度相似的同源基因。研究团队提出,这种结构复杂、包含多个同源抗性基因的基因座如何改变种序列的多样性导致基因拷贝数的改变与白粉病或其他疾病的抗性变化。
α-淀粉酶基因amy1 1基因座是目前大麦研究中最具有经济价值的基因位点,它编码的淀粉酶将多糖淀粉裂解成短链形式,影响野生大麦的长势和生存能力以及栽培品种的淀粉分解(酿酒)能力。研究团队用PGGB构建局部泛基因组图谱,通过聚类分析,发现基于结构特征进行的聚类结果与amy11拷贝数存在显著的相关性。这结果为针对amy1 1位点的选择性育种以及amy11单倍型的培育提供了基础。
综上,研究团队使用76个高质量大麦基因组(包含野生和栽培种)以及1,315个大麦二代重测序数据的基因型数据,构建了大麦高质量泛基因组。为了展示大麦泛基因组在育种与基因研究方面的研究意义,研究团队使用了抗病性、生存能力、淀粉分解和毛状体颖毛长度相关的基因座作为案例,展示了大麦泛基因组在挖掘农艺性状调控机制方面的重要作用。

案例二 Nature Genetics高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异(IF=31.7)
文章题目: High-quality genome of a moder soybean cultivar and resequencing of 547 accessions provide insights into the roleof structural variation
主要研究结果:
本研究通过整合5种测序技术对现代大豆品种“农大豆2号”(NDD2)进行了全面的基因组图谱构建,使用的测序数据包括138.51 Gb的HiFi数据(N50为26.74 Kb),121.85 Gb的Nanopore数据(N50为26.64 Kb),473.35 Gb的Bionano光学图谱数据,102.57 Gb的lumina短读长测序数据以及108.85 Gb Hi-C数据。最终组装的染色体水平“农大豆2号”基因组大小为1013.66Mb,contig N50为27.16 Mb,组装的QV值为41.83,并且成功在所有染色体中组装了在大豆中特异的Cent91/92着丝粒重复序列。本研究组装的基因组在29个已发表的大豆基因组中组装质量最好。
本研究利用NDD2基因组和29个已发表的大豆基因组构建了图形化泛基因组,鉴定出47,058个非冗余SVs,其中包括37,304个插入/缺失(INS/DEL;>50bp),3,071个倒置(INV;1.01-29.14kb)和6,683个易位(TRANS;1.01-19,040.53kb),并根据NDD2参考基因组鉴定了25,814个SV-基因对包括23,119个INS/DEL-基因对,719个INV-基因对和1,976个TRANS-基因对,这些基因对可能通过调控基因表达来影响相关性状。
研究团队对574个大豆代表性品种进行平均深度为18.05X的重测序,并对31个性状(6个产量相关性状,16个种子品质性状和9个植物学特征性状)开展了全基因组关联研究(GWAS)。NDD2基因组作为参考,研究团队鉴定了749,714个插入/缺失SVs,并通过SV的全基因组关联分析,鉴定到14,237个非冗余SVs与这些性状显著相关。

参考文献
Jayakodi, M. et al., Structural variation in the pangenome of wild and domesticated barley. Nature, 2024;
Zhang, C.Y. et al., High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights intothe role of structural variation. Nature Genetics, 2024.