北京基因組所(國家生物信息中心)發布同源基因數據庫HGD
同源基因是指來源于共同祖先的基因,常用于研究基因進化過程以及推斷基因的潛在功能,在進化基因組研究以及系統生物學的功能研究中具有重要價值。
近日,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心正式發布同源基因數據庫(Homologous Gene Database,簡稱HGD),以“HGD: an integrated homologous gene database across multiple species”為題在國際學術期刊Nucleic Acids Research 在線發表。
HGD整合了國際上多個同源資源數據集,解決了當前同源資源庫在同源關系和同源基因標識方面存在差異、同源推斷方法多樣以及部分數據庫同源基因鑒定結果不一致帶來的困擾,為用戶提供了一個綜合、全面、簡單、直觀的同源基因數據集,方便用戶使用。HGD提供物種間比較的同源基因功能注釋圖譜,包括基因功能數據(GO)以及性狀、變異、表達相關的多組學注釋數據,為跨物種同源基因功能比較研究提供統一面板。目前,HGD共收集了人、常見動植物以及微生物共37個物種,其中包括10種重要模式生物。數據庫共收錄112,383,644個同源對,其中16,909個同源基因關聯表型數據,276,670個同源基因關聯變異數據,398,573個同源基因關聯表達數據,536,852個同源基因關聯GO數據,用戶可以通過物種名、基因ID、基因功能、蛋白ID、蛋白名以及相關注釋等多種條件進行數據檢索和篩選。
HGD實現了國家基因組科學數據中心(NGDC)Genome Variation Map (GVM)、Gene Expression Nebulas (GEN)和GWAS Atlas多個數據資源庫的信息關聯與集成,切實發揮并體現了NGDC資源聚集的效果和優勢,同時也彌補了我國在重要生物信息資源建設方面的空缺。
中國科學院北京基因組研究所(國家生物信息中心)博士研究生段光亞及碩士研究生吳港澳為本文共同第一作者,唐碧霞工程師和趙文明正高級工程師為共同通訊作者。本工作得到中國科學院戰略性先導科技專項、國家自然科學基金、國家重點研發計劃等項目資助。
HGD數據庫瀏覽、檢索及數據展示