蝙蝠源和鼠源病毒病原数据库
摘要&关键词
编辑摘要:野生动物源性病毒的跨种感染是引起人类新发病毒性传染病的主要原因之一,因而系统收集整理野生动物样本以及病毒病原数据,建设野生动物携带病毒病原数据库显得尤为必要。本数据库通过建立的标准元数据描述规范,收集整理加工的蝙蝠和鼠来源的动物样本和病毒数据达2万多条,数据覆盖多个国家以及中国多个省市地区,可以为从事相关野生动物病毒病原相关研究的国内外研究机构、高等学校提供服务。用户可根据自己的需求对蝙蝠和鼠的物种、样品类型、物种分布等进行检索,或对物种携带的特定病毒相关信息的检索查询。本数据库的建设将有利于深入系统研究蝙蝠和鼠等野生动物携带的病毒,评估病毒传播到家畜和人的风险,预测新发传染病热点,为疾病预防和控制提供理论基础和技术支撑。
关键词:蝙蝠;鼠;病毒;数据库
数据库(集)基本信息简介
编辑数据库(集)名称 | 蝙蝠源和鼠源病毒病原数据库 |
数据作者 | 汤怡洁,李贝,周子健,朱燕,赵锴,马丽丽,吴跃伟,石正丽 |
数据通信作者 | 石正丽(zlshi@wh.iov.cn) |
数据量 | 61.5 MB |
数据格式 | MYSQL |
数据服务系统网址 | http://batvirus.whiov.ac.cn/ |
基金项目 | 中国科学院信息化专项(XXH13505-03-210),国家重大科研仪器研制项目(31727901)。 |
数据库(集)组成 | 本数据库由蝙蝠采集样本数据,蝙蝠病毒病原数据,鼠采集样本数据和鼠病毒病原数据4个部分数据组成。数据库涵盖课题组长期积累的样本和病毒病原数据,以及国外权威机构公开发布的相关数据,共计22257条。 |
引 言
编辑据统计,引起全球各地病毒性新发传染病疫情的病原体70%以上来自野生动物源性病毒的跨种感染。当新发传染病暴发时,由于我们对野生动物病毒的背景缺乏系统性的研究,因此严重制约了对所引发疾病病原的诊断、溯源、防治及采取有效的防控措施。基于武汉病毒研究所及项目负责人团队在前期科研过程中获取和积累的大量以蝙蝠和鼠为主的野生动物样本以及病毒病原数据,按照科学大数据工程的标准规范、服务体系进行系统的加工和整理,建设野生动物携带病毒病原特色数据库;通过服务网站实现生物资源和信息的综合管理及信息共享,建成稳定的技术支撑和服务队伍,以发挥该科学数据资源的科学和应用价值。
在此前,虽然国内外已有多个病毒病原相关的数据库,如The Database of Bat-associated Viruses(http://www.mgc.ac.cn/DBatVir/ ),以及病毒资源数据库(http://www.viruses.nsdc.cn/vri.jsp )等,但这些数据库/集却是以病毒为主体,只关注某个特定的病原或者特定物种携带的病毒种类,并不涉及病毒在野生动物群体间的分布与流行,也与时间上的跨度与季节性流行分布的特性无关。本项目的野生动物病毒病原数据库在这些病毒病原数据库的基础上,有效融入了病毒流行性分布与调查的相关信息,可对项目负责人关注的野生动物样品采集区的病毒和病原的溯源、分布以及流行情况提供有利的信息支撑。
目前,本项目整体收集整理加工的蝙蝠和鼠源样本数据达2万多条,数据覆盖多个国家以及中国的多个省市地区。通过建设野生动物病毒病原数据库服务平台,实现了后台数据管理和前台数据服务各项功能,已经初步具备对外提供数据服务的能力。项目组制定了相关的数据加工审核流程和规范的病毒病原元数据描述规范,并依托中国科技网武汉分中心实现了数据库和平台持续有效服务的目标。
1 数据采集和处理方法
编辑本数据集的数据一部分来源于项目负责人在科研过程中获取和积累的大量蝙蝠和鼠样本以及病毒病原数据,另一部分来源于国外权威机构公开发布的病毒数据库/数据集(http://www.mgc.ac.cn/DBatVir/ ,http://www.mgc.ac.cn/DRodVir/ )。针对前一部分数据,按照以下1.1和1.2中的内容处理。后面来源的一部分数据,依据设计的数据元格式整合到本库中,最终建立由蝙蝠样品病毒病原库和鼠样品病毒病原库共同组成的野生动物携带病毒病原特色数据库(以下简称BatVirus系统)。
1.1 野生动物病毒样品采集和处理
编辑1.1.1 样品采集
编辑蝙蝠动物样品均由专业实验人员采集,样品类型具体包括:粪便样品,肛、咽拭子,以及对蝙蝠进行解剖所采集的心、肝、脾、肺、肾、肠、脑等组织样品。其中粪便样品通过隔夜拾取的方法采集,样品采集后立即置于液氮保存[1]。以上采集的样品都置于实验室−80℃冰箱长期保存。同时采集样品地理信息及物种形态学信息。
1.1.2 RNA提取
编辑对野生动物样品进行解冻涡旋离心处理,对野生动物的组织进行低温研磨离心处理取上清,用Qiagen公司购买的病毒核酸提取试剂盒,并根据试剂盒中提供的方法对样本中的病毒核酸进行提取。
1.1.3 病毒数据获取
编辑按照ICTV(The International Committee on Taxonomy of Viruses)分类,依据文献中报道的各个病毒科的Pan-PCR(Pan-Polymerase Chain Reaction)方法[2][3]来对蝙蝠和鼠源样品的病毒核酸进行检测,对目的条带进行一代测序,在NCBI(https://www.ncbi.nlm.nih.gov/ )中使用blast(Basic Local Alignment Search Tool)工具进行在线比对,从而确定样品携带的病毒种类。
1.2 数据加工与入库
编辑BatVirus系统根据蝙蝠和鼠源样品采集、检测及保藏过程中产生的数据,建立了标准的元数据描述规范,样品信息和检测病毒信息依据元数据描述规范进行组织并通过系统进行标准化的摄入。在数据加工过程中,对数据采样获取的数据依据制定的元数据描述规范设计了样品和病毒数据模板,通过对数据的整理加工,形成最终的样品和病毒数据表,利用BatVirus系统中的数据摄入功能存储到数据库中。在数据管理过程中,BatVirus系统分别建立了蝙蝠和鼠源样品数据管理模块和病毒病原数据管理模块,同时,在两类数据间建立了数据关联。每个模块的数据录入、校验、存储均由系统统一控制,规范数据的格式和内容,确保数据录入的准确性。
2 数据样本描述
编辑数据样本以已发表的蝙蝠样品病毒数据为例。其记录的信息包括样品ID,样品组织类型,动物类型,来源物种,物种分子鉴定,收集日期,国家,省份,城市,GPS信息,是否高通量测序,是否病毒分离,出版,备注,检测方法,病毒名称,检测结果,blast结果,病毒分类,病毒序列,相似度,序列长度,序列编码的基因(表1)。
表1 蝙蝠样品病毒数据展示
数据元名称 | 示例 |
---|---|
样品ID | 162387A |
样品组织类型 | Anal |
动物类型 | 蝙蝠 |
来源物种 | Rousettus leschenaultii |
物种分子鉴定 | Rousettus sp. |
收集日期 | 2016-08-21 |
国家 | China |
省份 | Yunnan |
城市 | Miaoxin village, Mengna county, Sipsongpanna |
GPS信息 | 101.51944,21.78127 |
是否高通量测序 | No |
是否病毒分离 | No |
出版 | Luo Y, Li B, Jiang RD, et al. Virol Sin. 2018;33(1):87–95. doi:10.1007/s12250-018-0017-2 |
备注 | |
检测方法 | PCR-based |
病毒名称 | Coronaviridae |
检测结果 | Positive |
blast结果 | btcov HKU9 |
病毒分类 | HKU9 |
病毒序列 | 详见参考文献 |
相似度 | 94% |
序列长度 | 398bp |
序列编码的基因 | Partial RdRp |
3 数据质量控制和评估
编辑本数据库的蝙蝠源和鼠源样品数据主要来源于实验室样本采集保藏工作的各个环节。首先制定了针对蝙蝠和鼠源样本采集保藏的标准规范,如由专业实验员制定的样本采集方案,明确规定了采集过程中产生的各个数据元,如样品ID编写、收集地点、GPS信息等。
其次在样品处理过程中,提取的核酸的浓度可以通过NanoDrop ND-1000分光光度计进行测定,260/280的比率应该在1.8–2.1范围内。对于PAN-PCR扩增得到的病毒阳性条带进行Sanger法测序,通过ABI文件对峰值图质量进行控制,对于不可信的序列,进一步克隆测序,以得到可信度高的序列,其中部分病毒相关序列已上传至NCBI(美国国立生物技术信息中心)中。
在BatVirus系统数据库设计阶段,利用数据字典对元数据描述信息进行规范化管理,有效把控录入数据的质量。数据字典是系统数据模型中各类数据描述的集合,例如在病毒名称字典中,我们规范整理出各种标准的病毒名称字典数据。在实际应用中,用户在通过数据模板录入数据或者在平台上直接录入数据时,通过选择标准的病毒名称,以达到标准病毒名称规范输入的目的。
BatVirus系统存储的蝙蝠和鼠源动物样品和病毒病原数据均经过严格审核,每个模块的数据均通过人工审定确认,确保将错误率控制在1%以下。通过一系列数据质量控制手段,实现了数据的有效管理,数据质量得到较大的提升,有效支持了蝙蝠和鼠来源的病毒病原的相关研究工作。
4 数据价值
编辑本数据库的建立基于项目负责人长期科研过程中积累的大量蝙蝠和鼠来源样本和病毒数据,来源可靠,结果真实可信。结合专业的数据获取和管理的技术手段,对国内外相关数据集进行整合,实现蝙蝠和鼠来源的病毒病原大数据的集合。给病毒在野生动物间的流行、跨种传播的研究提供了可靠的平台。
5 数据使用方法和建议
编辑本数据库主要通过http://batvirus.whiov.ac.cn/ (或http://www.sciencedb.cn/dataSet/handle/768 )提供web数据服务。用户可以在平台上,通过物种样品库和病毒病原库直接浏览所有可供开放获取的样品信息和病毒病原信息。同时,用户可以在检索框中输入物种名称、样品名称、物种分布国家等进行检索,或者输入病毒名称进行物种携带病毒相关信息的检索查询。数据管理员可以通过账号密码登录数据库后台管理模块,基于规范的数据模版,利用数据上传功能,将最新的病毒数据信息上传并导入到数据库中。由于部分数据(指含有未公开发表的病毒序列,病毒序列未上传至NCBI,以及不能公布样品采集地的野生动物样本信息)的使用权限问题,如果用户需要对这部分数据进行访问和使用,可以通过联系本数据库相关管理人员,通过身份审核认证获取平台的登录账号密码,登录平台使用相关数据。数据的保密时限以数据全部发表为限。
参考文献
编辑- ↑ GE X , LI Y, YANG X, et al. Metagenomic analysis of viruses from bat fecal samples reveals many novel viruses in insectivorous bats in China[J]. Journal of Virology, 2012, 86(8): 4620-4630.
- ↑ POON L L M , CHU D K W , CHAN K H , et al. Identification of a novel coronavirus in bats[J].Journal of Virology,2005, 79(4): 2001-2009.
- ↑ TONG S X, WANG CHERN S W, LI Y, et al. Sensitive and Broadly Reactive Reverse Transcription-PCR Assays To Detect Novel Paramyxoviruses[J]. Journal of Clinical Microbiology, 2008, 46(8): 2652–2658.