北京基因組所(國家生物信息中心)開發分子序列組分動態圖譜數據庫CompoDynamics
生物體的核酸與蛋白質分子的序列組分及相關特征(如GC/AG含量、密碼子使用偏好、蛋白質物理化學性質等)對于研究基因功能和物種演化具有重要意義,是理解不同物種、不同基因家族以及不同功能基因之間差異的數據基礎。
近日,由中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心開發的分子序列組分動態圖譜數據庫CompoDynamics正式上線,旨在對序列組分的動態變化提供綜合、全面的展示,以多物種的系統性比較分析為基礎,為深入的分子演化研究提供重要的參考和啟示。該研究成果以 “CompoDynamics: a comprehensive database for characterizing sequence composition dynamics”為題在國際學術期刊Nucleic Acids Research 在線發表。
CompoDynamics針對RefSeq數據庫的基因組注釋信息,分別計算分析了基因和基因組層面的3類序列組分特征(堿基組成、密碼子使用偏好、氨基酸組成)和3類相關序列特征(編碼潛能、蛋白物理化學性質、相分離特性)。目前,CompoDynamics共包含24,995個物種、34,562個基因組、1,692,647個基因,以及118,689,747條開放讀碼框序列。每條序列或每個基因組均有專門頁面對各項特征進行詳盡展示,并在主頁以組分/特征分類展示。用戶可通過物種分類、物種名、裝配號、基因序列號、蛋白名稱等進行檢索。此外,CompoDynamics還提供了SpeciesComparator、FamilyComparator、GOComparator和CompoAnalyzer 4個在線比較分析工具,分別用于物種間、基因家族間、基因功能層面的各項組分/特征比較分析,支持對用戶提供序列的計算分析,促進多組分特征和多維度的分子演化研究。
北京基因組所(國家生物信息中心)助理研究員降帥、碩士研究生杜強和馮昶瑞為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了科技部、中科院戰略性先導科技專項、國家自然科學基金委、中科院青促會項目資助。
CompoDynamics數據庫內容與結構