NC文献解读 | 长读长测序助力在945名汉族人基因组中发现与表型多样性和疾病易感性相关的结构变异

英文标题:Long-read sequencing of 945 Han individuals identifies structural variants associated with phenotypic diversity and disease susceptibility
发表时间:2025.02.10
发表期刊:Nature Communications
影响因子:14.7
2025年2月《Nature Communications》杂志发表了题为Long-read sequencing of 945 Han individuals identifies structural variants associated with phenotypic diversity and disease susceptibility的研究成果,复旦大学进化生物学中心樊少华研究员、华东师范大学关玉婷研究员、复旦大学金力院士、美国贝勒医学院Fritz J Sedlazeck副教授为该论文的共同通讯作者,复旦大学博士毕业生龚娇、博士研究生孙蕙茹、华东师范大学硕士研究生汪开元为本论文的共同第一作者。本研究基于ONT长读长测序数据,构建了945名汉族人的结构变异图谱,并对结构变异的来源及特征进行了全面表征。结合人类表型、多组学数据和小鼠敲除模型,确定了GSDMD 和WWP2 基因座的结构变异对人类表型多样性和疾病易感性的重要影响。
研究背景
结构变异(Structural variant, SV)是指长度≥50 bp的基因组序列变异类型,包括重复、缺失、插入、倒位和易位。基因组的结构变异可以追溯到核型分析技术的应用,随着细胞遗传学和分子技术的发展,使得人们能够在更精细的尺度上研究SV。相较于单核苷酸变异(Single nucleotide variant, SNV),SV影响的基因组序列规模更大(约 20 Mb),远超SNV(约 5 Mb),因此对人类表型多样性和疾病易感性的影响更为显著。近年来,以千人基因组计划、gnomAD 和人类基因组结构变异联盟等为代表的研究,利用短读长(SRS)和长读长测序(LRS)技术,在全球人群SV研究方面取得重大进展,增强了我们对SV多样性及其与人类表型变异、局部适应和疾病易感性潜在关联的理解,但这些研究仍然缺乏对SV功能的实验验证。
主要研究结果
1. 基于ONT长读长测序的汉族人群SV鉴定和特征分析
研究团队使用ONT的PromethION平台,对945例汉族个体进行全基因组重测序,平均测序深度为17X。经数据过滤和质控后,共检测到111,288个SV(包括42,300个插入,49,518个缺失,13,503个重复,5595个倒位和372个易位),平均每个样本有23,729个SV,其中插入/缺失影响的基因序列占SV影响的基因序列的82.68%(图1)。通过PCR、Sanger测序和高频率SV(AF > 0.5)对比,验证了SV数据集可以代表汉族人群的遗传多样性。另外,研究团队发现24.56%的SV在先前的研究中未被报道,这些SV主要位于基因外显子、转录因子结合位点、增强子以及绝缘子区域。通过分析这些SV在基因组上的特征,发现SV在亚端粒区域(端粒的5Mb以内)的密度高于其他区域至少4倍,79.72%的SV断裂点与重复元件重叠,表明重复元件在SV的形成过程中可能起着关键作用。

图 1 汉族人群的SV鉴定
2. SV的基因特征鉴定和分布
研究团队结合千人基因组计划数据、4个古人类基因组、2个黑猩猩基因组以及多个全球现代人类基因组数据对SV进行基因分型,发现有2%(2233个SV,828个基因)的SV在人和黑猩猩基因组中共享,表明这些SV起源可以追溯到人和黑猩猩分化前;5%(5124个SV,1692个基因)的SV在现代人类、尼安德特人和丹尼索瓦人基因组中共享,表明这些SV起源于三者的共同祖先;32%的SVs是现代人类特有的,可能在现代人的解剖和生理特征演化中起到重要作用。另外,在现代人类群体中,SV的地理分布也存在差异,0.6%的SV由欧洲人、美洲人和亚洲人共享,以及大约20%的SV是汉族人特有的。

图 2 黑猩猩、古代人和现代人中的SV分布
3. 现代人与古代人共享的GSDMD基因缺失变异
为了探究SV对蛋白功能的潜在影响,研究团队对SV进行了全面的注释,其中51.24%的SV在基因间区,44.13%在内含子区,4.63%位于基因的外显子区域。在免疫相关的基因中,发现一个长度为2175 bp的GSDMD最长转录本的第一个外显子(NM_001166237.1)缺失。这段区域在GSDMD的不同转录本中起到增强子的作用,其缺失导致了GSDMD表达下调。研究团队利用CRISPR/Cas9技术在小鼠体内做了敲除验证,结合敲除小鼠的基因型-表型关联分析数据,证实该SV影响骨密度和顺铂诱导的急性肾损伤表型。进一步分析表明,这一SV可作为快速且经济有效的生物标志物,用于评估顺铂诱导的急性肾损伤风险。此外,基于千人基因组的表型数据和黑猩猩基因组数据,研究团队推测该SV可能起源于现代人类、尼安德特人和丹尼索瓦人的共同祖先。

图 3 GSDMD基因缺失突变与小鼠和人类的骨密度(BMD)和急性肾损伤(AKI)相关
4. 现代人类特有的WWP2基因复杂结构变异
研究团队在WWP2基因的第四个内含子(NM_001270454.2)中鉴定了一个复杂的SV,由一个229 bp插入(由两个SINE元件的融合引起),以及一个354 bp缺失组成。基于小鼠模型的基因敲除实验,验证该变异与多种表型(如体重、体型以及颅面特征)和免疫学特征相关。研究团队首先用Sanger测序验证了这段复杂结构变异,并通过注释发现该变异与基因WWP2的1127 bp处的增强子区域重叠,破坏增强子活性,进而在多种骨相关细胞和组织以及乳腺、脑、脊髓中影响WWP2基因表达。RT-qPCR结果表明,该变异的携带者血液中WWP2的表达量显著低于非携带者。此外,研究团队采用与GSDMD基因SV相似的功能研究策略,证实该变异携带者的个体身高较矮,体脂率和内脏脂肪面积增加,并且在受到刺激时先天免疫反应增强。

图 4 WWP2基因座的复杂变异与体重、体脂率、颅面特征以及免疫反应相关
总结
综上所述,研究人员基于ONT长读长测序数据,构建了945名汉族人的高分辨率SV图谱,报道了大量先前未报道的变异,并证实了GSDMD 和WWP2基因座的SV对人类表型多样性和疾病易感性的重要影响。对这两个SV的表型效应和进化起源的认识,帮助我们更深入地理解人类在全球迁徙过程中的基因组多样性和局部适应性。重建这一复杂的历史不仅对理解疾病的地理差异至关重要,同时为肾损伤相关的个性化医疗提供了潜在靶点和理论依据。
参考文献:
Gong, Jiao, et al. "Long-read sequencing of 945 Han individuals identifies structural variants associated with phenotypic diversity and disease susceptibility." Nature Communications 16.1 (2025): 1494.
027-62435310 |
service@benagen.com |
