NC解读|首个免疫细胞亚群全长转录组研究揭示了疾病相关的异构体
英文标题:Long-read sequencing for 29 immune cell subsets reveals disease-linked isoforms
发表期刊:Nature Communications(IF:14.7)
发表时间:2024.5.28
通讯作者:东京医科齿科大学Yuta Kochi教授
研究背景
大多数人类基因(超90%)经历可变剪接,形成数万种转录异构体。可变剪接可通过外显子跳过、选择性排斥、剪接位点变动和内含子保留改变基因读码框和蛋白质功能。不同的末端非编码区能调控细胞功能,从而引发某些疾病。
该研究运用ONT全长转录组技术对29种免疫细胞亚群进行深度的转录本注释,构建了一个全长异构体注释数据库,将其命名为“基于长读长测序的免疫细胞转录组资源”(Transcriptomic Resource of Immune Cells using Long-read Sequencing,简称TRAILS)。通过TRAILS,揭示了大量新的转录异构体,为疾病分子机制探索提供了新视角。结合多维度数据分析,本研究鉴定出与疾病相关的异构体,极大拓展了我们对可变剪接在复杂疾病调控机制中的理解,为开发疾病治疗策略奠定了坚实的理论基础,标志着向解析复杂疾病机制的前沿探索迈出了关键性的一步。
技术路线
研究结果
1. TRAILS 概述
本研究对外周血细胞中分离出29种免疫细胞亚群进行了ONT全长转录组测序,共鉴定了源自17,496个基因的159,369个异构体,为进一步验证这些异构体,作者利用PromethION平台对另一PBMC样品进行了转录组测序,验证了TRAILS数据库中85.0%(n=6399)的PBMC异构体及总体30.6%(n=48,757)的异构体。TRAILS中有29.6%的异构体与GENCODE v38 剪接相匹配,33.4%为已知剪接位点的新异构体(NIC),28.2%为具有新剪接位点的异构体(NNC)。研究发现TRAILS中有3006个基因未被GENCODE注释,并预测129,708个新异构体具有编码潜能。TRAILS数据库中每个基因的异构体数均高于GENCODE,44%基因座产生超10种异构体,在与GENCODE匹配的异构体中大部分属于GENCODE最可靠的类别,验证了长读长测序鉴定异构体的可靠性。
图1 TRAILS 概述。
2. 在TRAILS中预测的编码转录本
研究团队首先预测并鉴定了145,523个具有编码功能的转录异构体,通过比对蛋白组数据(LCL与THP-1细胞系),筛选并验证了276个新肽段,其中139个为Swiss-Prot数据库中未曾记录的蛋白质产物,进一步确证了这些新发现的蛋白质产物。继续研究了与GENCODE中的编码序列(CDS)有所差异的部分,发现了存在一类称为“读通异构体”的转录本,它们能够跨越常规的多聚腺苷化终止信号继续延伸至相邻的基因区域进行转录,此外,一些被GENCODE分类为长非编码RNA(lncRNA)的转录本可能具有编码蛋白质的能力。
还发现了529个潜在编码基因的新位点,这些基因的开放阅读框展示出高度保守性,在多种细胞类型中均有表达,并且大多具有多外显子结构,比如一个11号染色体转录本,仅在特定免疫细胞中表达,并且其ORF和3′-UTR区域富含转座元件序列,分析免疫细胞的ATAC-seq数据发现从启动子到内含子区域存在开放染色质区域,与TRAILS的表达模式相符。总之,这项研究不仅扩展了我们对转录组复杂性的理解,也为蛋白质编码潜能的重新评估提供了重要资源。
图2 TRAILS 中发现的新编码基因。
3. 转座元件以异构体形式插入
通过与已知基因来源的转录本进行比较,发现来源新基因座的转录本中插入了更多的重复元件,这表明TRAILS包含了许多因重复元件插入而被短读段测序遗漏的转录本。进一步分析了TRAILS中基因剪接多样性与转座元件(TEs)的关系,发现TEs在基因中的分布并不随机,3′-UTR中的插入数量最多,而在TSS处最少。不同TE类型在基因不同位置有特异性富集,如编码性LTRs富集于TSS和ORF,而SINEs则在5′-UTR和3′-UTR。插入TEs的区域显示出较低的序列保守性,暗示它们是人类特异的插入事件,并对异构体多样性有贡献。通过Kimura差异分析,确认TRAILS转录本中的TEs相对更新,经历更少的碱基替换,强调了TEs在人类基因组近期进化和剪接多样性形成中的动态作用。
图3 插入异构体的重复元件。
4. 异构体以细胞类型特异性的方式表达
研究通过分析免疫细胞亚群中基因异构体的表达模式,揭示了异构体比率在区分具有相似谱系的细胞类型中的重要作用。层次聚类分析显示,同一谱系的B细胞亚群等紧密聚集,说明异构体丰度能反映细胞特异性功能。研究鉴定了2575个细胞类型特异性的异构体,这些异构体的3′-UTR更长,末尾外显子独特序列的比例更高,暗示3′-UTR和poly(A)位点的可变剪接在细胞特异性表达中尤为重要。细胞类型特异性异构体还与转座元件在剪接位点和转录终止位点的插入频率增加有关,提示这些元件在调控细胞特异性剪接过程中发挥着重要作用。最后,研究对比细胞间与个体间的可变剪接差异,发现细胞间的差异远大于个体间的差异,进一步强调细胞类型是影响基因异构体表达模式的关键决定因素。
图4 细胞类型特异性异构体及其特征。
5. 异构体序列对翻译效率的调节
为了深入了解TRAILS中每个转录本的翻译效率,将来自淋巴母细胞系(LCL)的Ribo-seq数据映射到TRAILS上,并在异构体水平上计算了翻译效率得分。本研究发现翻译效率与5′-UTR长度呈负相关、与3′-UTR长度呈正相关,其中3′-UTR长度较长的转录本在其3′-UTR区域内具有更高的AU-enrich元件占有率,这有助于增强mRNA稳定性,从而促进翻译效率的提升。
研究还分析了RNA局部结构与翻译效率的关系,指出5′端的局部折叠结构会抑制翻译过程,而首个密码子后的折叠结构则促进翻译起始。此外,特定转录特征如独特TSS、编码非常规ORF的转录本与较高的翻译效率相关联。通过蛋白质组学分析,进一步证实了非常规ORF的翻译活性,强调了这一发现在免疫学和癌症领域的重要性。整体而言,该研究深入解析了影响基因异构体翻译效率的多种复杂因素,特别是RNA结构特征和转录起始位点的独特性,为理解基因表达调控提供了新的视角。
图5 异构体水平的翻译效率。
6. TRAILS 在疾病中的应用
研究探索了TRAILS中鉴定到的异构体在疾病中的作用,以系统性红斑狼疮(SLE)为模型,通过分析SLE患者和健康对照的全血细胞RNA-seq数据,发现84个基因的异构体比例在两组间有显著差异。特别关注IRAK1基因,其功能性异构体在SLE患者中上调,可能导致I型干扰素途径异常激活,与SLE的病理机制相关。在类风湿性关节炎(RA)的研究中,研究重点放在了CD8+ T细胞亚群,发现SIGLEC10基因出现新异构体的表达变化,尤其是在RA患者中,那些可能被无义介导的mRNA降解(NMD)靶向的异构体表达量增多,尽管基因总体表达增高,但暗示了细胞抗炎功能的相对减弱。这些发现不仅揭示了特定异构体在自身免疫疾病中的潜在作用机制,也为理解疾病的分子生物学基础和开发针对性治疗提供了新视角。
图6 在免疫疾病中存在异构体转化。
研究结论
本研究运用ONT长读长测序技术,构建了一个包含29种免疫细胞类型中表达异构体的数据库,通过分析异构体的特性,包括插入的TEs和细胞类型特异性表达模式,本研究旨在探索人类基因组功能及免疫系统的进化起源。将现有和未来的短读长RNA-seq数据集与TRAILS相结合进行分析,有望加速未知疾病发病机制的理解,并促进新治疗靶点的发现。
参考文献:
Inamo J, et al. Long-read sequencing for 29 immune cell subsets reveals disease-linked isoforms. Nature Communications. 2024.