北京基因組研究所(國家生物信息中心)發布基因組序列變異數據庫2.0版
基因組序列變異是基因組DNA上發生的可遺傳變異,是物種群體遺傳進化、表型差異人類疾病研究、動植物分子育種等最為寶貴的遺傳數據資源。近年來,隨著測序技術的發展,越來越多物種的基因組被精細解析,來自不同物種不同群體的全基因組序列變異數據呈爆發式增長。
為實現不同生物遺傳資源變異組學科學數據的開放共享與安全管理,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心開發了國內規模最大的多物種基因組序列變異庫GVM(Genome Variation Map),并于2020年9月份完成了數據庫2.0版的數據更新與功能升級,研究成果以“Genome Variation Map: a worldwide collection of genome variations across multiple species”為題于11月10日在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。
該數據庫系統收集了以二代測序和芯片技術為主要檢測手段的全基因組序列變異檢測的原始數據,通過標準化的變異位點鑒定與注釋流程,整合了包括人、畜牧動物、主要農作物和其他資源物種在內的41個物種共計約9.6億條變異數據信息,64,819個個體的基因型數據,并通過人工審編收錄了約26萬條高質量的基因型與表型關聯知識信息,為深入解析物種遺傳變異的功能、研究物種的群體遺傳多樣性、解讀表型/性狀的遺傳機制等提供了重要數據資源。
GVM數據庫通過對變異相關的原數據、變異信息與知識數據分別進行結構化整理,開發了界面友好的數據檢索、瀏覽、匯交、下載、統計等模塊,用戶可以方便、快捷地瀏覽入庫物種、項目、樣本、變異、關聯知識和用戶遞交數據的詳細信息。通過頁面檢索,還可便捷的獲取一個物種群體內的所有變異數據及功能知識信息、變異注釋基因及功能、群體頻率等信息,并可通過ftp服務下載VCF和FASTA格式的全基因組序列變異數據。
GVM數據庫積極響應基因組科學數據管理與共享工作要求,建立了基因組序列變異數據的在線匯交模塊,提供在線批量數據遞交服務,為數據遞交者提供賬號管理,并為每一個遞交數據分配唯一可識別的標識符,根據遞交用戶設定的數據公開時間進行可控管理。依托中心高性能存儲和異地容災的備份機制,定期進行數據更新與異地備份,以全面保證數據的完整性與安全性。
北京基因組所(國家生物信息中心)章張研究員和宋述慧副研究員為本文共同通訊作者,李翠萍、田東梅、唐碧霞、劉曉楠、滕徐菲為共同第一作者。該研究得到了中科院戰略性先導科技專項、中科院國際大科學計劃、國家科技攻關計劃、中科院青年創新促進會等的資助。
GVM數據庫(A)六大數據模塊及數據量(B)各物種變異數據量及密度統計圖