NG详解| Nanopore测序揭示序列变异驱动CpG甲基化与基因表达的相关性
英文标题:The correlation between CpG methylation and gene expression is driven by sequence variants
发表期刊:Nature Genetics(IF:31.7)
发表日期:2024年7月24日
通讯作者:Kari Stefansson,冰岛大学
研究背景
在人类和其他脊椎动物中,DNA的CpG二核苷酸通过DNA甲基转移酶(DNMTs)催化,添加甲基基团形成5-mCpG。DNA调控序列(如启动子和增强子)通常被转录因子(TFs)结合,这些区域通常缺乏CpG甲基化。TF结合可以反过来影响这些区域的甲基化状态,从而调控基因表达。然而,CpG甲基化与基因表达之间的相关性是否由序列变异直接驱动尚未明确。
本研究使用纳米孔测序技术对7179名个体的全血样本进行了全基因组测序,鉴定了1530万个单倍型特异性的CpG甲基化,其中鉴定了189178个甲基化缺失序列(MDSs),其中77789个与80503个顺式作用序列变异(ASM-QTLs)相关。同时通过对896个样本进行RNA测序分析,发现ASM-QTLs是基因表达与CpG甲基化之间相关联的主要驱动因素,并在血液性状相关的序列变异中表现出显著富集。
主要研究结果
1. 纳米孔测序检测CpG甲基化
使用纳米孔技术对7179名个体的全血样本进行了全基因组测序,平均覆盖度为20.6×。通过Nanopolish软件检测了1530万个CpG,结果显示CpG呈双峰分布,这与之前的研究一致。进一步确认了CpG甲基化在功能区域(如启动子和增强子)中显著减少,并且这些区域通常与转录组因子结合相关。
图1 纳米孔测序检测CpG甲基化
2. 序列变异与CpG甲基化的相关性
基于63460名冰岛人的全基因组测序数据对7179名通过纳米孔测序的个体进行了基因型推断,并鉴定了数千万个高质量的序列变异。通过回归分析,发现1625423个CpG与1023970个序列变异相关,其中704474个为单核苷酸多态性(SNPs),205026个为插入/缺失(indels),106743个为微卫星,6727个为结构变异(SVs)。同时263403个(25.7%)序列变异与不止一个CpG相关联,且在外部队列中发现的大多数(73.4%)与CpG甲基化相关的序列变异在本研究中得到了验证。
3. CpG甲基化缺失序列(MDSs)的鉴定
鉴定了84924个未甲基化和104254个低甲基化的单倍型,统称为甲基化缺失序列(MDSs)。这些MDSs覆盖了约83Mb的基因组大小,平均长度为440bp。同时发现77789个MDSs与80503个顺式作用序列变异相关,这些变异也被称为等位基因特异性甲基化数量性状位点(ASM-QTLs)。大多数ASM-QTLs是常见的(76154个MAF > 1%),并且与个体CpG相关的序列变异呈现极强的连锁不平衡(r²>0.80)。
4. CpG甲基化与mRNA表达的相关性
通过对896个全血样本进行RNA测序,分析CpG甲基化对基因表达的影响,发现1103个mRNA与957个MDSs相关,共形成了1513个关联。大多数MDSs(921个)不包含相关mRNA异构体的转录起始位点(TSS),而仅有36个MDSs包含TSS。
5. ASM-QTLs与TF结合位点的对应关系
ASM-QTLs与转录因子(TF)结合位点之间存在显著的对应关系。ASM-QTLs在影响等位特异性结合(ASB)的序列变异中出现的频率比预期高了3.3倍。这些序列变异主要与六种蛋白质的结合相关,尤其是在CTCF、STAG1、SPI1和EBF1等转录因子的结合位点中ASM-QTLs的出现频率显著更高。
6. ASM-QTLs在MDSs与mRNA相关性中的主导作用
所有与mRNA表达相关的957个MDSs都与ASM-QTL相关联,而与mRNA表达无关的MDSs中只有40.8%与ASM-QTL相关。ASM-QTLs解释的mRNA表达变异比例显著高于MDSs的CpG甲基化,而在考虑了ASM-QTLs的影响后,CpG甲基化对mRNA表达变异的解释力几乎可以忽略。例如,VAMP5基因的CpG岛启动子序列中的MDSs的CpG甲基化解释了VAMP5-201 mRNA表达23.7%的变异,但与MDSs相关的ASM-QTL解释了VAMP5-201 mRNA表达35.9%的变异。
图2 ASM-QTLs在MDSs与mRNA表达之间的相关性中占主导地位
7. ASM-QTLs对甲基化和表达影响的模型研究
通过四种不同的模型分析ASM-QTLs对CpG甲基化和基因表达的影响机制,发现孟德尔随机化结果支持CpG甲基化更可能影响mRNA表达,反对ASM-QTLs通过影响mRNA表达来影响CpG甲基化。此外,还发现序列变异通过影响转录因子结合来影响CpG甲基化,进而影响基因表达。
图3 DNA序列变异影响CpG甲基化和基因表达
8. ASM-QTLs在性状相关序列变异中的富集
先前研究表明ASM-QTLs在人群中的结构变异中显著富集,富集程度高于其他非编码相关基因,仅次于蛋白质编码基因。特别是在血液学性状相关的结构变异中,ASM-QTLs的富集程度高达40.2倍,显著高于非血液学性状(6.6倍),表明其对血液学性状的影响更大。与顺式表达QTLs存在连锁不平衡的ASM-QTLs在结构变异中富集程度更高(69.8倍)。与MDSs的CpG甲基化相关的序列变异比与单个CpG相关的序列变异具有更大的功能相关性。这些结果表明,ASM-QTLs在调控人类表型多样性中具有重要作用。
图4 ASM-QTLs在GWAS信号中富集
9. ASM-QTLs与疾病相关序列变异的对应关系
研究发现,964个ASM-QTLs与152种疾病相关的序列变异存在强连锁不平衡,4391个ASM-QTLs与431种其他性状相关的序列变异存在强连锁不平衡。例如,与2型糖尿病相关的rs34329895与PLEKHM5基因启动子甲基化的ASM-QTL rs35735821存在强连锁不平衡;rs12722502与IL2RA基因内含子中一个增强子内的ASM-QTL rs12722547几乎完全连锁不平衡。
研究结论
本研究通过大规模的全基因组和RNA测序分析,揭示了ASM-QTLs是CpG甲基化与基因表达相关性中的主要驱动因素。ASM-QTLs通过影响TF结合或直接调控CpG甲基化,进而影响基因表达,并在人类表型多样性和疾病风险中发挥关键作用,特别是在血液学性状和疾病相关序列变异中高度富集。研究结果表明,ASM-QTLs在非编码基因组中具有重要的功能意义,为理解基因调控机制和疾病发生提供了新的视角,并为未来的疾病研究和治疗提供了潜在靶点。
参考文献:
Stefansson, O.A., Sigurpalsdottir, B.D., Rognvaldsson, S. et al. The correlation between CpG methylation and gene expression is driven by sequence variants. Nat Genet 56, 1624–1631 (2024).