Q1:什么是单倍型基因组组装(haplotype-resolved genome assembly)?
单倍型组装是指在组装过程中区分来自同一个个体的两套染色体(父源与母源)序列,从而获得分别对应的完整单倍型序列。与传统“共识组装(consensus assembly)”不同,它不再将异源等位序列混合为单一参考,而是保留每套单倍型的差异信息,从而更真实地反映个体的遗传多样性。
Q2:为什么需要进行单倍型组装?
许多物种(包括人类、植物和无脊椎动物)具有高度杂合或结构复杂的基因组。传统共识组装往往会掩盖等位变异、错配或导致伪装配,而单倍型分辨组装能够:
· 精确揭示单倍型之间的 等位变异(allelic variation) 和 结构变异(structural variation);
· 支撑群体基因组学、进化和疾病关联研究;
· 提供更可靠的注释与基因表达分析基础。
Q3:常用的单倍型组装策略有哪些?
目前常见的策略主要包括:
· rio binning(家系分群)法:利用父母样本信息将子代读段分配至各单倍型;
· HiFi-based phasing:利用 PacBio HiFi 高保真长读段本身的杂合信息实现分型;
不同策略可根据样本类型、杂合水平与数据类型灵活选择。
Q4:单倍型组装结果与传统组装相比有何不同?
单倍型分辨组装通常会生成两套等价的基因组序列(haplotype A / haplotype B),每套都具有完整的染色体级连续性。
这种结果可以:
· 显示染色体间的异源差异;
· 提高杂合区域的解析度;
· 避免由于共识组装所造成的组装断裂或融合。
在数据质量充足的条件下,其 N50、BUSCO 完整度与结构一致性通常均优于传统共识组装。
Q5:单倍型组装有哪些典型的应用领域?
单倍型级基因组为多领域研究提供了新的解析深度,包括:
· 进化基因组学:揭示染色体重排与等位多样性的演化过程;
· 农业育种研究:解析优势等位基因与杂合优势形成机制;
· 医学与人类遗传学:精确识别致病变异、结构重排及等位表达偏向;
Q6:单倍型组装能否与T2T基因组或泛基因组研究结合?
可以。单倍型组装与T2T基因组以及泛基因组分析是互补的:
· T2T 强调染色体的完全性;
· 单倍型组装强调等位分辨性;
· 泛基因组研究强调群体层面的变异多样性。
三者结合可从个体到群体、从结构到功能全面刻画基因组多样性。
项目案例
文章题目:Two haplotype-resolved T2T reference genomes for Ziziphus jujuba and Z. jujuba var. spinosa provide new insights into the domestication of jujube
发表期刊:Horticulture Research
发表时间:2024.03
2024年3月7日,Horticulture Research在线发表了题为“Two haplotype-resolved T2Treference genomes for Ziziphus jujuba and Z.jujuba var. spinosa provide newinsights into the domestication of jujube”的研究成果。西北农林科技大学黄建研究员和新疆农业科学院郝庆研究员为本文联合通讯作者,西北农林科技大学国家林业局黄土高原林木培育重点开放实验室为本文第一单位。本研究报道了枣和酸枣高质量分型T2T基因组组装,并基于672份重测序数据,对种群结构和驯化机制进行了分析。贝纳基因参与了本项目高质量分型T2T基因组的测序与组装工作。
主要研究成果:
本研究结合Illumina、PacBio HiFi、ONT和Hi-C等技术,对枣(JZ)和酸枣(SZ)进行了高质量的基因组De Novo组装。通过将组装的contig与假染色体进行挂载,成功获得了两个物种的完整基因组,枣基因组大小为385.80 Mb,酸枣基因组为375.15 Mb。特别地,枣的单倍型基因组(HapA和HapB)在基因组完整性上达到了99%和98.9%的高水平,体现了在T2T组装方面的显著成果。
在组装过程中,枣和酸枣的单倍型基因组展现了显著的染色体结构差异,特别是在染色体融合和断裂事件的识别上。枣的HapA基因组揭示了5号和12号染色体的融合及断裂,而酸枣基因组则在多个染色体上展现了类似的结构变异。通过对比分析,这些变异不仅影响了基因功能,还涉及多糖合成、脂质代谢等重要生物过程。
基于单倍型的RNA测序数据分析,枣和酸枣的等位基因表达模式也呈现出显著的差异,揭示了在果实成熟过程中的基因表达调控。这些研究成果不仅进一步完善了枣和酸枣基因组的功能注释,也为物种改良和育种研究提供了宝贵的基因组学数据支持。
