ONT200K超长 项目文章|黄瓜近完整参考基因组及多组学综合数据库
近日,中国农业科学院蔬菜花卉研究所张圣平团队在国际著名期刊《Molecular Plant》(影响因子17.1)在线发表题为A near-complete cucumber reference genome assembly and Cucumber-DB, a multi-omics database的文章。
本研究通过混合组装策略,组装得到黄瓜近完整参考基因组(CLv4.0),并通过转录组测序,得到参考转录本数据集(CsRTD1)。并且本研究整合泛基因组、群体变异组、转录组以及核心种质材料信息,建立了第一个黄瓜多组学综合数据库Cucumber-DB(http://www.cucumberdb.com/),将泛基因组、转录组数据和不同的数据挖掘工具结合起来,为黄瓜研究提供了一个综合性的平台。
贝纳基因参与了本研究Oxford Nanopore 200K超长测序工作。

研究背景
黄瓜(Cucumis sativus L.)是葫芦科(Cucurbitaceae)的重要经济蔬菜作物,同时也是葫芦科植物遗传学和基因组学研究的重要模式植物。黄瓜基因组是早期被测序的植物基因组之一,为我们深入认识植物基因组结构和功能提供了宝贵资源,然而黄瓜基因组结构复杂,45s rDNA和异染色质卫星序列等重复序列占黄瓜基因组的约30%,相较于其他物种(如拟南芥、水稻、玉米和西瓜)低于5%的比例,黄瓜的基因组的准确组装更加困难。具有高重复序列目前广泛使用的华北密刺型黄瓜自交系‘9930’参考基因组(CLv3.0)由于黄瓜基因组的高复杂性以及受到当时测序与组装技术的限制,基因组上仍存在约130 Mb的未组装序列以及72个gap。
研究内容
研究团队通过混合组装方法,将PacBioHiFi(70.85×)、ONT超长(N50>200K)(94.97×)与Hi-C(128.46×)数据结合起来,在三个现有的遗传图谱的支持下,成功构建了黄瓜参考基因组近完成图(CLv4.0)。CLv4.0基因组大小为321.53 Mb,比CLv3.0版本多组装出95.32 Mb序列,这些新组装的序列大部分位于DNA卫星序列(I/II/III/IV型)、45S rDNA序列和转座因子(TE)序列区域。同时,CLv4.0基因组还填补了71个基因组上的gap,确定了7个完整着丝粒区域。

CLv4.0和CLv3.0基因组组装的共线性和基因组特征的比较分析
在对CLv3.0基因组进行注释时,使用的基因模型主要基于短读长的RNA测序数据,导致基因集质量不佳,BUSCO得分相对较低(95.42%),而且缺乏可变剪接和转录本信息。
因此,研究团队使用了29种不同组织和各个发育阶段的168个样品,以及受到七种生物和非生物胁迫处理的叶片进行PacBio Iso-Seq测序。通过转录组数据,研究团队构建了包含27,360个蛋白编码基因和177,571个转录本的黄瓜参考转录数据集(CsRTD1)(BUSCO得分99.19%)。与CLv3.0注释相比,CsRTD1注释识别了5,070个新的蛋白编码基因,并纠正了503个错误分割基因和163个错误合并基因。

CsRTD1注释与CLv3.0注释精准度比较
研究团队为了帮助研究人员更好的利用目前的数据资源,开发了名为Cucumber-DB的公开多组学数据库,其中整合了黄瓜参考基因组图谱、注释数据集、黄瓜基因组变异信息、黄瓜转录组基因表达图谱和可变剪接信息。
研究人员可以通过Cucumber-DB数据库,进行自定义的查询和显示,进行黄瓜的基因组序列、转录组、变异位点的可视化操作。数据库包含多种功能分析辅助模块,可以辅助研究人员开展多种研究。例如用于展示空间和应激响应的基因表达模式的eFP查看器、用于序列检索的GetSequence模块、用于序列比对的BLAST模块、用于基因模型转换的ID转换模块、用于PCR的引物设计模块、用于功能分析的GO/KEGG富集模块和用于基因编辑的CRISPR设计模块等等。

Cucumber-DB数据库的数据资源和工具包概述
中国农业科学院蔬菜花卉研究所官健涛助理研究员、苗晗副研究员、青岛农业大学张忠华教授、中国农业科学院蔬菜花卉研究所董邵云副研究员为该文的共同第一作者;中国农业科学院蔬菜花卉研究所张圣平研究员为该文通讯作者,中国农业科学院蔬菜花卉研究所为通讯单位。中国热带农业科学院黄三文院士对该研究提供了重要指导。该研究得到了蔬菜生物育种全国重点实验室、国家重点研发计划(2023YFD1201500)、中国农业科学院科技创新工程项目(CAAS-ASTIP-2021-IVF)以及国家现代农业产业技术体系(CARS-23)项目的资助。