北京基因組所（國家生物信息中心）組學原始數據歸檔庫GSA實現與NCBI SRA數據庫的數據整合----中國科學院北京基因組研究所（國家生物信息中心）

網站地圖 / 聯系我們 / ENGLISH / 中國科學院

北京基因組所（國家生物信息中心）組學原始數據歸檔庫GSA實現與NCBI SRA數據庫的數據整合

作者：

發布時間：2022-05-29

發布時間：2022-05-29 | 【大中小】 | 【打印】【關閉】

作者：發布時間：2022-05-29 | 【大中小】 | 【打印】【關閉】

　　近日，在國際核酸序列數據庫合作聯盟（INSDC）的支持和美國國家生物信息技術中心（NCBI）的技術協助下，中國科學院北京基因組研究所（國家生物信息中心）國家基因組科學數據中心（CNCB-NGDC）完成NCBI生物項目管理數據庫（BioProject）、生物樣本管理數據庫(BioSample)全部數據及序列片段歸檔庫（Sequence Read Archive, SRA）全部元數據與自主開發數據庫的整合，實現了上述數據在NGDC網站的一站式檢索與訪問，極大提升了國內科研人員查詢和獲取數據的效率。

　　CNCB-NGDC 2015年開發的組學原始數據歸檔庫（Genome Sequence Archive, GSA）是中國首個測序數據歸檔系統，已完成NCBI SRA全部元數據及2022年4月20日起SRA日更新全量數據（元數據和原始序列數據）的整合。截至5月28日，GSA收錄460萬測序數據集，涵蓋近2000萬實驗數據和2074多萬測序反應，測序序列數據量超過13PB。特別指出的是，GSA目前提供NCBI SRA數據庫全部數據的檢索服務，也提供這些數據在INSDC相關數據庫的下載地址以及最新數據的本地化下載地址。研究人員可以通過NGDC的跨庫搜索引擎BIG Search系統，快速查找并選擇最優的下載路徑獲取數據。

　　GSA正在逐步下載整合NCBI SRA中的歷史數據，實現全球生命組學測序數據的本地化管理，為國內科研人員提供數據獲取便利的同時，也為全球生命組學數據共享貢獻力量。

BIG-Search檢索系統中可實現國際來源數據檢索

GSA頁面整合國際來源數據下載地址　　

附件下載：