北京基因組所(國家生物信息中心)發布更新版人類長非編碼RNA數據庫LncBook 2.0
近日,由中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心開發的人類長非編碼RNA(long non-coding RNA, lncRNA)數據庫LncBook 2.0正式上線。該研究內容以“LncBook 2.0: integrating human long non-coding RNAs with multi-omics annotations”為題在國際學術期刊Nucleic Acids Research 在線發表。
LncRNA是哺乳動物基因組中的重要組成部分,參與DNA甲基化、組蛋白修飾、轉錄調控、轉錄后調控等多個生物學過程,與人類疾病的產生和發展密切相關。LncBook數據庫致力于人類lncRNA數據整合,并通過多組學數據分析對lncRNA進行系統注釋。自2019年發布以來,LncBook數據庫在描繪人類lncRNA的轉錄圖譜、挖掘lncRNA分子特征以及揭示lncRNA與疾病關系等方面被廣泛應用。
LncBook2.0收錄了119722個新的轉錄本,注釋了9632個新的基因,更新了21305個lncRNA基因的結構。豐富的多組學數據是LncBook2.0的一大亮點,包括保守性、表達、DNA甲基化、變異、小蛋白、相互作用六個方面。通過與40種脊椎動物比較,LncBook2.0刻畫了人類lncRNA基因的保守性,并在這些物種中鑒定出了139306個蛋白編碼及非編碼同源基因。表達數據方面,相比1.0版本,LncBook2.0收錄的表達譜數據涉及的生物學場景從1種增加到了9種,包含器官發育、細胞分化、亞細胞定位等。而在甲基化數據方面,LncBook2.0涉及到的疾病類型從9種癌癥增加到了14種癌癥和2種神經系統發育疾病。此外,LncBook2.0收集了959138條與疾病/性狀相關的變異信息和34012個lncRNA編碼的小蛋白,鑒定了772745條lncRNA-蛋白質相互作用并預測了146092274條lncRNA-miRNA相互作用。
LncBook2.0數據庫具備友好的檢索、瀏覽與可視化功能,方便用戶通過不同基因/轉錄本ID、基因symbol進行檢索和瀏覽。用戶可以在多組學頁面中通過排序、篩選功能過濾出符合條件的lncRNA基因,隨后在單個lncRNA基因的頁面中查看它的轉錄本、編碼潛能、保守性等信息。LncBook2.0還與團隊之前開發的LncRNAWiki和LncExpDB數據庫進行了關聯,用戶在瀏覽lncRNA基因信息時可以通過鏈接跳轉到相關頁面,查看該基因的更多信息。
北京基因組所(國家生物信息中心)博士研究生李昭、特別研究助理劉琳、碩士研究生馮昶瑞為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了中科院戰略性先導科技專項、國家重點研發計劃、中科院青促會等項目資助。

LncBook 2.0數據庫內容與功能
附件下載: