您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
科技服务 TECHNOLOGY SERVICES
  • 产品简介
  • 常见问题
  • 经典案例
  • 结果展示

基因组Survey分析(也称为基因组调研图分析)是基因组学研究的基础步骤,通过对基因组的初步测序与分析,研究人员能够获得关于基因组大小、杂合度、重复序列比例等关键信息。这一过程不仅为全基因组组装研究奠定基础,还为项目规划、数据质量评估提供了关键参考。




一、 基因组Survey分析的技术原理

基因组Survey分析的核心是k-mer分析,通过对测序数据中的短片段进行分布统计,预测基因组特征。不同频率的k-mer分布揭示了基因组的杂合度和重复序列的比例,k-mer分析的结果帮助研究者了解基因组的大致情况。

简单而言,k-mer是一段长度为k的序列,而后面的mer即为monomeric unit(单体单元),即把测序reads分成长度为k的单元,步长为1。因k-mer包含k个碱基,若一段核酸序列长度为L,以一个碱基为步长进行滑动,那么根据这个核酸序列就可以得到L-k+1个mer。下图以长度为11nt的DNA序列为例,选取k=4,则会得到(11-4+1=8)个4-mer。




图片


图1 以ACGAGGTACGA序列中的4-mer为例

(图源:https://medium.com/swlh/bioinformatics-1-k-mer-counting-8c1283a07e29)


将测序得到的序列切为k-mer后,可以通过分析k-mer的频率分布来推测基因组的大小、杂合度和重复序列比例等关键信息(见图2)。不同k-mer的频次反映了基因组中重复序列和杂合序列的分布情况。通常,k-mer频率较高的区域代表重复序列,而低频的k-mer则可能代表杂合区域或特异序列。通过构建k-mer频率分布图,可以观察到主峰及次峰的位置,从而推测出基因组的总体特征。正常的二倍体呈现1:2:4,即杂合峰、主峰、重复序列峰三个峰的分布情况。




图片

图2 k-mer频率分布示意图

(图源:http://www.zhangzhiyuan.site/archives/kmer-ping-gu-ji-yin-zu-da-xiao)



二、 Survey分析的关键指标及研究建议

在基因组Survey分析中,几个关键指标直接影响后续的基因组组装与分析策略。这些指标通过k-mer分布图来评估,包括基因组大小(Genome Size)、杂合度(Heterozygosity)以及重复序列比例(Repeat Content)。它们不仅有助于理解基因组结构的复杂性,还能为选择合适的测序深度提供科学依据。


1.测序深度建议

在进行基因组Survey分析时,推荐使用Illumina/DNBSEQ二代测序平台,推荐的测序深度为30X-50X,这通常适用于大部分基因组,能确保分析结果的准确性和完整性。


2.研究物种基因组大小未知,该如何确定测序量

当物种的基因组大小未知时,估算合适的测序量可能变得十分棘手。为了有效进行Survey分析并推测基因组大小,可以采用以下几种方法来帮助确定测序需求:


(1)查找近缘物种数据

可通过常用数据库查找近缘或同属物种的基因组大小,为本物种研究提供参考。常用的数据库包括:NCBI Genome Database、Ensembl、Plant DNA C-values Database(https://cvalues.science.kew.org/)及Animal Genome Size Database (https://www.genomesize.com/search.php)。


(2)实验手段辅助预估

建议结合流式细胞术等实验方法进行补充分析。这些方法能从不同角度评估基因组大小,确保测序工作的顺利进行并为后续的基因组组装提供可靠支持。



Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. 鄂ICP备2021008976号-2