北京基因組所(國家生物信息中心)構建多物種轉錄圖譜綜合數據庫
隨著高通量測序技術的不斷發展,轉錄組測序(RNA-seq)已成為系統研究基因轉錄及轉錄后水平調控狀態的常規方法,并在多個物種中得到廣泛應用。海量轉錄組數據以前所未有的速度產生,以數據驅動為導向的大規模數據整合、挖掘與解析面臨巨大挑戰。為更充分展現轉錄組數據蘊含的豐富信息,服務生物醫學基礎研究領域需求,構建標準化數據分析流程和結構化元信息審編模型,建立面向多物種基因轉錄特征的數據集成與管理資源十分必要。
近日,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心在Nucleic Acids Research 期刊發表題為“Gene Expression Nebulas (GEN): a comprehensive data portal integrating transcriptomic profiles across multiple species at both bulk and single-cell levels”的論文,建立了基于常規轉錄組測序(Bulk RNA-seq)和單細胞轉錄組測序(scRNA-seq)數據挖掘解析的多物種轉錄圖譜整合型數據庫Gene Expression Nebulas (GEN)。GEN應用結構化審編模型和標準化數據處理流程,對組織和細胞水平轉錄組測序數據集進行統一分析,實現了多物種多層面轉錄調控水平信息的系統整合。目前,GEN共整合了323個高質量轉錄組數據集,涵蓋 30個物種的50,500個樣本和15,540,169個細胞,提供基準參考、遺傳、表型、環境、時間、空間六類生物學場景下的轉錄圖譜,為生物醫學領域科研人員深入理解基因遺傳調控結構和功能機制提供基礎資源。
基于嚴格的數據質控標準,GEN審編來自GSA、GEO、ENA和DRA數據庫的高質量原始轉錄組測序數據和詳細元數據信息,并利用自主搭建的標準化流程分析處理相應數據,為用戶提供包括基因/轉錄本表達、環形RNA表達、RNA選擇性剪接和RNA編輯四個層面的轉錄圖譜。同時,GEN為30個物種的1,191,846個基因提供豐富的注釋信息,包括基本注釋(例如基因組位置、生物類型、功能描述),以及基于基因表達數據的定量(不同實驗條件下的表達水平)和定性(差異表達所處的生物學場景)的增值注釋。此外,為方便下游個性化分析,GEN還為用戶提供表達譜數據分析及可視化的在線及離線工具,包括基于Bulk RNA-seq表達譜的差異表達分析、加權基因共表達網絡分析、功能富集分析和基因調控網絡推斷,以及基于scRNA-seq表達譜的質量控制、數據標準化、縮放和回歸、降維、基于圖的聚類、細胞簇標記基因識別、細胞標記、細胞軌跡推斷和細胞類型注釋等多項分析功能。
GEN對用戶免費開放,具備友好的瀏覽、檢索與可視化功能,可方便用戶探索多生物學場景下基因/轉錄本的表達及轉錄特征。研究團隊將持續維護并定期更新GEN,以不斷整合更多物種的轉錄圖譜數據資源和集成更為豐富的數據分析功能。
北京基因組所(國家生物信息中心)章張研究員與郝麗麗副研究員為本文共同通訊作者,張源笙、鄒東、朱彤彤、徐添翼、陳銘為共同第一作者。該研究得到中科院戰略性先導科技專項、國家重點研發計劃、中科院青促會等項目資助。
GEN數據庫內容和功能模塊概覽