北京基因組所(國家生物信息中心)發布全球生物數據庫目錄Database Commons
近日,由中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心研發的全球生物數據庫目錄Database Commons正式發布。該研究內容以“Database Commons: A Catalog of Worldwide Biological Databases”為題在國際學術期刊Genomics Proteomics & Bioinformatics 在線發表。
生物數據庫是生命科學及相關學科研究的重要基礎,為科學研究提供基礎數據資源,變革生命科學研究模式,促進大數據驅動的科學發現和創新突破。隨著生命科學數據的激增,世界各國不斷加大生物數據庫資源的建設投入,生物數據庫數量、規模和重要性持續增加。然而,全球范圍內長期缺乏生物數據庫的全面調研,無法縱覽全球生物數據庫發展趨勢,缺少全球生物數據庫的標準化信息整合和評估平臺。為此,研究團隊建立全球生物數據庫目錄Database Commons,構建了生物數據庫分類標準和結構化信息審編模型,研發多種評估方法,開發可實時更新的后臺審編系統,聯合國內外多家科研機構持續開展全球生物數據庫信息審編。
截至2022年9月20日,北京基因組所聯合歐洲生物信息學研究所(EBI)、巴基斯坦真納大學等科研機構,基于8931篇科研文獻,審編獲取了由1975個機構開發的5825個生物數據庫,分布于72個國家/地區,歸屬于13個分類。針對每個數據庫,系統收集了基本信息、分類標簽、聯系信息、文章信息四個模塊的31條信息,創新性地發展數據庫評價新指標z-index,結合引用次數、用戶打分等多方位評估數據庫質量和影響力。同時,根據數據庫文章引用和z-index對所有生物數據庫及其隸屬機構和國家進行排名。基于此,Database Commons提供了全球生物數據庫的一系列統計數據和發展趨勢,為更好地了解數據庫發展態勢及其對生命健康科學的影響提供全球視角。最新的全球生物數據庫目錄,以及審編的元信息和相關統計數據,均可在該網站公開獲取。
Database Commons于2015年建成,北京基因組所聯合國內外多家科研機構,持續開展全球生物數據庫的信息審編整合,其評估結果獲得了科研人員的普遍認可。同時,作為數據庫信息檢索引擎,深受用戶歡迎。截至2023年1月19日,已為全球193個國家/地區的66萬余名用戶提供服務,訪問量超155萬次(自2018年04月23日統計)。目前,Database Commons作為數據庫信息歸檔系統,已被國際生物數據庫領域最具影響力期刊Nucleic Acids Research 數據庫專刊推薦,并獲得了Cell Press出版集團和Bioinformatics Advances期刊的認可。
北京基因組所(國家生物信息中心)副研究員馬利娜、高級工程師鄒東、特別研究助理劉琳為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了中科院戰略性先導科技專項、國家自然科學基金、“一帶一路”國際科學組織聯盟、中科院青促會、中國科學院國際伙伴計劃項目資助。
全球生物數據庫概況(截至2022年9月20日)