北京基因組所(國家生物信息中心)多組學數據資源體系建設持續取得重要進展
近日,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心(CNCB-NGDC)的多組學數據資源體系年度成果在國際生物數據庫頂級期刊《核酸研究》(Nucleic Acids Research)在線發表。至此,CNCB-NGDC共有10篇論文入選將于2023年1月正式出版的《核酸研究》2023年度數據庫專刊,在生物數據庫領域繼續位于國際第一方陣。
2022年,CNCB-NGDC與共建單位以及30多家合作單位密切合作,持續更新和完善核心數據庫資源(GSA、GWH、GVM、GEN、MethBank、LncRNA、RCoV19等),并開發了多個全新數據庫(基因序列數據庫GenBase,猴痘病毒基因組信息庫MpoxVR,新冠病毒知識圖譜數據庫KGCoV,原核生物泛基因組數據庫ProPan,人類癌癥可變剪接知識庫ASCancer Atlas,全轉錄組關聯研究知識庫TWAS Atlas,腦數據資源庫Brain Catalog,個體癌癥基因組數據庫CCAS,同源基因數據庫HGD,熱帶作物組學數據庫TCOD等),進一步拓展了涵蓋基礎組學、國家人類遺傳、重要戰略生物、病毒等資源信息庫以及生物信息在線分析工具等在內的多組學數據資源體系,為國家基因組科學數據的匯交共享、安全管理和挖掘利用提供了重要支撐。
CNCB-NGDC匯聚全球數據,免費為國內外用戶提供一站式多組學數據匯交和存儲服務,發布的數據編號被Springer Nature、Elsevier、Wiley、Taylor & Francis、Cell等全球主要出版集團認可。截至2022年12月20日,組學原始數據管理體系(GSA Family)已支持各類科技項目10900多個,匯交數據量近19PB,來自754家單位3500名用戶,相關數據已發表在457種國內外期刊的近2000篇文章。2022年7月起CNCB-NGDC承擔國家人類遺傳資源信息管理備份平臺運行維護任務,實現國家人類遺傳資源信息一體化管理、備份、發布與共享。新冠病毒信息庫(RCoV19)不斷更新,目前已收錄新冠病毒序列超1400萬條,為全球181個國家/地區240多萬名訪客提供數據服務,累計數據下載達100多億條,在新冠病毒演化分析、監測、溯源等方面發揮了重要作用,入選2022年世界互聯網領先科技成果手冊。
CNCB-NGDC的建設得到科技部、財政部、中國科學院、國家自然科學基金委、一帶一路國際科學組織聯盟、國際生物科學聯合會等的資助。
CNCB-NGDC在《核酸研究》2023年數據庫專刊發表的論文:
1.CNCB-NGDC數據庫資源(整體介紹文章)
8.動植物基因組變異與表型關聯知識庫GWAS Atlas v2.0
CNCB-NGDC多組學數據資源體系(Nucleic Acids Res 2023)
GSA數據增長圖