Genome Res文献详解|单细胞全长转录组测序技术揭示小鼠视网膜的转录组特征
英文标题:Integrating short-read and long-read single-cell RNA sequencing for comprehensive transcriptome profiling in mouse retina
发表时间:2025.03.06
发表期刊:Genome Research
研究背景
人类基因组中的大多数蛋白质编码基因通过可变剪接产生多种mRNA异构体,显著增加了转录组和蛋白质组的复杂性。为了建立一种有效的方法来表征组织样本中的转录异构体,本研究对单细胞长读长和传统的短读长RNA测序技术进行了系统比较。
通过对约30,000个小鼠视网膜细胞进行单细胞全长转录组测序,生成了15.4亿条Illumina短读长和14亿条Oxford Nanopore Technologies(ONT)长读长数据。鉴定出44,325个转录异构体,其中38%是先前未表征的,17%仅在特定的细胞亚类中表达。长读长测序不仅在基因表达和细胞类型注释方面与短读长测序相当,还在精确识别转录异构体方面表现出色。尽管转录异构体通常在不同细胞类型之间共享,但其相对丰度在不同细胞类型中表现出显著的差异。本研究生成的数据显著增强了现有转录异构体的库,为未来研究视网膜生物学中的可变剪接机制及其与相关疾病的联系提供了资源。
主要研究成果
1. 单细胞转录组测序与长读长技术结合
为了全面评估短读长和长读长单细胞转录组测序技术的性能,研究对来自四个小鼠视网膜样本的超过30,000个细胞进行了转录组测序,生成了15.4亿条Illumina短读长和14亿条ONT长读长数据,ONT的中位读长约1000 bp。通过短读长数据集的细胞聚类和注释,识别出六个主要的视网膜细胞类别,包括13,525个视杆细胞、8,863个双极细胞(BC)、4,571个无长突细胞(AC)、1218个视锥细胞、869个Muller胶质细胞(MG)和145个视网膜神经节细胞(RGC)。长读长数据集的细胞聚类和注释结果与短读长数据集高度一致,细胞类型注释的一致性达到98.0%,其中双极细胞(BCs)的一致性达到了99.8%。此外,长读长数据识别出一个额外的BC类型BC4,这在短读长数据中被遗漏。

图1 实验设计流程和Illumina短读长(SR)与ONT长读长(LR)数据统计结果
两种数据集的基因表达呈强正相关性,Pearson相关性系数为0.87,在相似深度测序时,短读长和长读长数据集在细胞识别、聚类和注释方面表现出相当的敏感性和高度一致性。
2. 小鼠视网膜异构体分类及细胞类型特异性剪接谱
长读长测序的一个关键优势是能够更好地检测转录异构体。通过对长读长数据进行异构体分析,鉴定出44,325个转录异构体,其中60%与已知异构体匹配,40%为新的异构体。有趣的是,新异构体往往表达水平较低。通过bulk ONT全长转录组测序验证,发现单细胞数据集中检测到的44,325个转录异构体中有13,030个(30%)也在bulk数据中鉴定出来,表明单细胞全长转录组测序在检测转录异构体方面的可靠性。

图2 小鼠视网膜单细胞异构体分类
不同细胞类型中鉴定的新异构体数量差异显著,视杆细胞中发现了超过13,000个新异构体,其次是BC和AC。尽管原始异构体数量存在差异,但不同异构体在细胞类型中的总体分布相似,已知异构体约占65%。相比之下,不同异构体的比例根据其表达模式显著变化。值得注意的是,尽管绝大多数异构体在至少三种细胞类型中表达,但16.7%的异构体仅在一种细胞类型中表达。
与先前的研究一致,大多数基因(68%)平均有4个异构体,范围从2到28个。所有细胞类型中观察到相似的分布。分析发现约34%的基因表达量最高的前两个异构体中,有一个是新异构体。此外,视网膜中有一半的基因,其主要异构体占总基因表达的90%以上,这表明这些基因具有主导异构体。

图3 已知与新异构体在不同细胞类型中的比较
3. 大多数基因在不同细胞类型/亚类中表现出不同的异构体使用
由于大多数基因表达多个异构体,本研究检查了基因是否在不同细胞类型、亚类中表现出差异转录使用(DTU)。结果显示,给定基因的大多数异构体往往在所有细胞类型中表达,但不同异构体的比例在不同细胞类别之间差异显著。例如,基因Pcbp4的所有异构体在所有细胞类别中表达,但在不同细胞类型中观察到不同的使用。主要在ACs中表达的转录本在视杆细胞中表达较低,表现出显著差异,相反,一个转录本在视杆细胞中比在BCs中更普遍。基因Prkcz的两个异构体在ACs、BCs和RGCs中主要表达包含15个外显子的异构体,而在视锥细胞、MGs和视杆细胞中主要表达包含18个外显子的异构体。

图4 不同细胞类型/亚类的转录异构体差异使用统计
研究还鉴定了几个Impdh1的新异构体,其中一个包含17 bp的新外显子,导致阅读框移位和ORF延长。包含此外显子的转录本在BCs、视锥细胞、MGs和视杆细胞中表现出显著表达。此外,我们在内部RP患者队列中鉴定了几个位于新外显子上游或下游10 bp内的单核苷酸变异,这些变异在一般人群中不存在。
4. 基因融合异构体
研究还发现了1055个潜在的基因融合转录本,其中114个通过bulk 测序验证。这些融合转录本主要发生在同一染色体上,且涉及的基因位于同一链上。大多数融合发生在编码区域,831个融合发生在TADs内,114个部分与TADs重叠,110个位于TAD区域外。某些融合在特定细胞类型中特异性表达,包括视杆细胞中的164个、ACs中的107个和BCs中的27个。

图5 小鼠视网膜中的基因融合
5. 下采样分析和测序饱和度
为了评估测序深度对异构体检测的敏感性,通过随机采样1%、10%和50%的数据集进行了模拟分析。结果显示,检测到的异构体数量与使用的测序reads数量呈正相关。FSM的检测数量在从10%到50%的数据集中增加了41.3%,而在从50%到完整数据集中仅增加了10.2%,表明数据接近饱和。相比之下,新异构体(如NIC)的数量持续增加,表明即使在完整数据集中也未达到饱和。

图6 下采样分析
总 结
单细胞全长转录组测序方法在识别已知和新异构体方面表现出色。本研究首次对小鼠视网膜单细胞中的转录异构体进行了无偏表征。该研究分析方法为单细胞水平的转录组分析和异构体发现提供了新的见解,可应用于人类样本,推动与衰老和疾病相关的异构体研究。
参考文献:
Wang M, et al. Integrating short-read and long-read single-cell RNA sequencing for comprehensive transcriptome profiling in mouse retina. Genome Research, 2025