北京基因組所(國家生物信息中心)開發上線基因序列數據庫GenBase
中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心(NGDC)最新開發的基因序列數據庫GenBase正式上線,為科研用戶提供基因序列數據匯交共享和查詢下載服務。
基因的序列和注釋信息(包括DNA、RNA和蛋白序列信息)是支撐基因功能研究的核心基礎數據之一。伴隨生物學的迅猛發展,在過去幾十年中,我國生命科學領域科學家產出了海量的基因序列數據。為保障我國基因序列數據的主權和安全,滿足我國科研人員在基因序列數據匯交、管理和共享過程中的現實需求,對標美國國家生物信息中心NCBI的GenBank數據庫,NGDC建立了基因序列數據庫GenBase。
GenBase的核心功能是存儲、管理、共享所有物種基因序列、注釋信息及其編碼蛋白質序列,可為基因序列數據的匯交、存儲、發布和共享提供一系列Web服務。基于GenBase的提交系統,用戶可根據詳細的操作提示,按步驟提交包括提交者信息、參考文獻、核苷酸序列、數據來源、數據特征等在內的重要的實體和元數據信息。GenBase嚴格把控數據質量,保障基因序列數據的準確性、完整性和可用性。GenBase系統的建設遵循國際核酸序列共享聯盟(International Nucleotide Sequence Database Collaboration,INSDC)的相關標準,立足中國,服務全球,可接收來自全球科研人員的數據提交,并且通過數據交換機制實現與GenBank的無縫共享。同時,為保障全球基因序列數據的本地化管理,GenBase整合了INSDC發布的基因序列數據,提高國內科研人員查詢和獲取數據的效率。目前,GenBase可支持用戶查詢或下載GenBank已公開的4.2億多條核酸及其編碼蛋白質序列。
中國科學院北京基因組所(國家生物信息中心)針對我國基因組數據“存管用”的實際需求,除了GenBase外,已建立65個服務于生物醫學研究的公共數據庫資源,涵蓋原始數據、基因組和變異、基因表達、非編碼RNA、表觀基因組、單細胞組學、生物多樣性和生物合成、健康和疾病、文獻和教育以及工具等10個大類,初步形成了我國生命組學數據安全匯交、管理、共享和應用的數據資源體系框架,服務于生物和醫學領域的基礎和轉化研究。