國家生物信息中心組學原始數據歸檔庫數據匯交量突破10PB
9月28日,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心(CNCB-NGDC)組學原始數據歸檔庫(Genome Sequence Archive,簡稱GSA)的用戶匯交數據量突破10 PB(1 PB=1024 TB)。
為存好、管好、用好我國生命組學大數據,解決國內重要數據資源流失和生命組學數據孤島等問題,提高數據共享率和利用率,北京基因組所于2015年10月建立了國內首個組學原始數據匯交、存儲、管理與共享系統GSA,為國家重點研發計劃、國家自然科學基金、中科院戰略先導專項等國家重大、重點研究計劃及任務的科學數據安全管理和歸檔共享提供了重要支撐。
GSA自上線以來,持續為全球生命科學研究人員提供數據匯交和共享服務,尤其為我國科研人員提供了極大便利。截止2021年9月28日,GSA數據庫體系已接收國內外437家研究機構1829名用戶的數據遞交,支撐科研人員在250種期刊發表研究論文760余篇,為全球110多個國家/地區的用戶提供數據服務,平均每天數據下載量達到4 TB。目前 GSA已成為Springer Nature、Elsevier、Wiley、Taylor & Francis及Cell 等國際著名出版集團指定/認可的核酸數據歸檔庫。
隨著組學數據的爆炸性增長和數據類型的多樣化,面向國家人類遺傳資源數據管理的特殊需求,GSA不斷豐富完善系統功能,形成了GSA數據庫體系,包括GSA,GSA-Human和OMIX。
GSA-Human制定人類遺傳資源組學數據安全管理機制,實現人類遺傳資源數據的分級管理和受控訪問,有效保障了國家人類遺傳資源數據的安全管理和合理利用,為用戶提供人類遺傳資源數據受控訪問服務;OMIX數據庫存儲非原始測序數據,如環境組、表型組、代謝組等,它作為上述兩種數據資源庫的重要補充,有效解決了用戶提交除原始測序數據外的其它類型數據的需求。
GSA數據庫的建設得到了科技部、中科院以及國家重點研發計劃、中科院戰略先導專項、信息化專項、國際伙伴計劃等項目的大力支持,GSA歸檔數據使用的大規模計算機硬件設施得到國家財政部改善科研條件專項的長期支持。
GSA數據量持續增長