北京基因組所(國家生物信息中心)合作發表多表型全基因組集成分析新方法
全基因組關聯研究(Genome-wide association study, GWAS)是研究人類復雜表型遺傳因素的有效方法。科學家們已應用GWAS發現了大量的遺傳易感位點,闡明了人類復雜表型的多基因性本征,完善了精準醫學的核心理論,構建了數千種疾病的遺傳風險評估模型,并為多項臨床轉化類研究提供了明確的分子靶標。然而,由于無法同時分析多個表型,標準的GWAS流程不能高效檢出具有多效性的遺傳變異。隨著人類復雜表型研究體量的與日俱增,如何高效集成分析大量表型亟待解決。
相較于使用個體數據的多表型集成分析方法,基于GWAS匯總數據的方法在多隊列合作研究中不受個體數據分享限制,同時受隊列特異性影響也更小,因此應用范圍更廣,但也面臨統計學和計算機科學領域的多項挑戰。例如需要推導對多表型效應高度敏感的統計量,考慮由遺傳和非遺傳因素導致的表型間復雜關聯關系,校正由多重迭代和樣本重疊等因素導致的統計量膨脹,同時在分析大量GWAS的情況下,還要對算法的復雜度、并行化方案和內存占用進行優化。
2022年12月20日,北京基因組所(國家生物信息中心)原劉凡研究組與荷蘭伊拉斯謨大學Manfred Kayser團隊合作在Nature Communications上發表了題為“Combining Genome-wide Association Studies Highlights Novel Loci Involved in Human Facial Variation”的文章,該研究研發了用于集成分析多GWAS的高效算法C-GWAS(Combine GWAS),提供了高度并行優化的開源R軟件包,同時通過大規模計算機模擬,展示了C-GWAS對遺傳多效性的高檢出率和在不同遺傳結構下的高穩定性,進而應用C-GWAS分析了78個人類面部形態表型,新發現并驗證了一批影響面部形態的遺傳變異和功能性基因,加深了對人類多維復雜表型遺傳結構的理解。
在方法設計層面,作者對多維GWAS統計量構成的相關性矩陣進行了分解,來區分由可解釋遺傳因素導致的 “效應相關性” 和由不可解釋與非遺傳因素導致的 “背景相關性”,進而依據效應和背景相關性相對強度優選合適的統計量進行集成分析,同時引入自適應迭代算法以甄別部分遺傳變異僅對特定表型子集有效應的情況,從而實現對遺傳多效性檢出率的最大化。為了克服由于多重迭代優選引起的統計量膨脹,作者通過計算機模擬獲得統計量在零假設下的真實分布,并利用其與均一分布的對應關系,對最終觀測到的統計量進行校正,確保了C-GWAS結果和標準GWAS結果可直接在相同顯著閾值下進行比較。通過大規模數據模擬發現,與多種其它方法相比,C-GWAS在不同復雜場景下的統計功效和穩定性均展示出明顯提升。
人類面部形態代表了一組多維、可遺傳且相互關聯的復雜表型。作者應用C-GWAS集成分析了78個面部形態的GWAS,結果顯示C-GWAS的檢出率是傳統方法的3倍,并發現了17個影響臉型的新遺傳位點。通過進一步的驗證分析和功能基因組學分析,作者展示了C-GWAS的結果比傳統方法的結果具有更高的遺傳多效性,顯著提升了臉型可被遺傳因素解釋的比例,且所指向的靶基因具有更明確的生物發育學功能,表明了C-GWAS在解析多維復雜表型遺傳結構中的優勢。
在新發現的17個影響面部形態的遺傳位點中,有13個位點位于顱神經嵴細胞(Cranial neural crest cells, CNCC)中活性調控元件附近,或在垂體等多個組織中表現出與基因表達eQTL信號的高度共定位。其中,與面部寬度和長度相關的CDK2AP1內含子中的多態性rs10773002,其附近的調控元件在CNCC中調控CDK2AP1的表達,且該位點在多組織中與CDK2AP1的eQTL高度共定位,CDK2AP1編碼的蛋白在細胞周期、胚胎干細胞分化和表觀遺傳調控中發揮作用。這些證據提示該位點通過調控CDK2AP1的表達參與到面部形態形成的過程中。
綜上,C-GWAS是一種不依賴個體數據對多表型GWAS匯總數據集成分析的高效算法,對遺傳多效性有較高的檢出率并在復雜場景下有很強的穩定性。作者提供了高度并行優化的開源R包,可在數小時內集成分析數百個GWAS匯總數據。C-GWAS在人類面部形態數據上的應用成功發現了一批新位點和功能基因,加深了對人類面部形態的遺傳結構的理解。未來C-GWAS將被用于解析更高維復雜表型的遺傳結構,為多表型間共享遺傳因素網絡的描繪提供技術支持。