小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

統(tǒng)計遺傳學(xué):第四章,GWAS分析

 育種數(shù)據(jù)分析 2022-07-03 發(fā)布于河南

大家好,我是鄧飛,今天繼續(xù)介紹《統(tǒng)計遺傳學(xué)》這本書,本次介紹第四章:GWAS分析,主要是綜述介紹,具體的實操介紹要到八九十章節(jié)。

這一章節(jié)內(nèi)容很豐富,人類中GWAS關(guān)注的點,GWAS和LD與填充的關(guān)系,GWAS中影響的因素,包括群體結(jié)構(gòu)、異質(zhì)性。另外還有GWAS結(jié)果的矯正,包括Bonferroni ,F(xiàn)DR以及置換檢驗,最后還有位點注釋。

不同學(xué)科,GWAS關(guān)注的點不一樣,動植物可能就是群體分析+基因注釋,人類中會有多基因得分(PGS),這個相當(dāng)于動植物中的分子標(biāo)記輔助(MAS)或者是基因組選擇(GS)。雖然概念有所區(qū)分,但是理論都是相通的。

這本書的電子版,之前是不能選擇復(fù)制的,后來有位老師將其轉(zhuǎn)化為文字版的,就可以復(fù)制了,這樣結(jié)合pdf閱讀器的翻譯,可以更方便的閱讀。明天介紹一下使用的方法。

引文部分是原書的谷歌翻譯,正文部分是我的理解。

第一部分基礎(chǔ),分為六個章節(jié),分別是:

今天,介紹第四章的內(nèi)容,GWAS分析,看一下目錄:

  • 了解全基因組關(guān)聯(lián)研究·
  • 掌握基因分型和測序陣列的基礎(chǔ)和局限性及其與連鎖不平衡和填充的關(guān)系
  • 了解全基因組關(guān)聯(lián)研究研究設(shè)計、元分析和數(shù)據(jù)分析計劃
  • 了解全基因組關(guān)聯(lián)研究的統(tǒng)計推斷、方法和異質(zhì)性的基本方面
  • 掌握質(zhì)量控制的類型
  • 了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
  • 認(rèn)識到在祖先、地理、時間,迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對研究的影響
  • 認(rèn)識這一研究領(lǐng)域的未來方向

簡介和背景

?

隨著基因分型技術(shù)的發(fā)展、成本的降低和先進(jìn)數(shù)據(jù)分析方法的發(fā)展,遺傳關(guān)聯(lián)研究的設(shè)計在過去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標(biāo)準(zhǔn)的,但早期的研究只關(guān)注有限數(shù)量的“候選”基因座。候選基因研究一詞是指這一領(lǐng)域的早期工作,其重點是預(yù)先確定的感興趣的基因座,這些基因座被認(rèn)為與所研究的性狀有關(guān)。正如我們在關(guān)于基因-環(huán)境相互作用的第6章中詳細(xì)討論的那樣,許多早期候選基因研究由于多種原因存在問題,主要是由于缺乏重復(fù),雖然我們的目標(biāo)是讓這一領(lǐng)域的新研究人員避免犯類似的錯誤,但我們應(yīng)該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學(xué)表型。當(dāng)時,許多性狀的極端多基因性和候選基因作為藥物靶點的失?。ɡ缫钟舭Y)讓許多人感到真正的驚訝。另一種選擇是全基因組關(guān)聯(lián)研究(GWAS),該研究同時測量了數(shù)百萬個基因位點。

GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關(guān)聯(lián)的主要方法。正如我們稍后更詳細(xì)地討論的那樣,GWASs測試了數(shù)百萬個單獨的回歸模型,以確定遺傳變異和表型之間的關(guān)聯(lián)?;仡櫟谝徽拢硇涂梢允菃位蛐誀?。

受單個基因內(nèi)變異的強(qiáng)烈影響。但許多是多基因復(fù)雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結(jié)果。GWAS的結(jié)果顯示了每個單核苷酸多態(tài)性與特定性狀或表型的關(guān)聯(lián)。與候選基因研究相比,GWASs是無假設(shè)的,可以在所有基因型區(qū)域中尋找關(guān)聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點差異是我們與眾不同的原因。

由于許多性狀是復(fù)雜的,并且與多個遺傳位點(即多基因)相關(guān),GWAS通常識別出許多遺傳變異,每個變異對表型的影響很小。由于影響大小較小,需要非常大的數(shù)據(jù)源,GWAS發(fā)現(xiàn)通常會在多個數(shù)據(jù)源上進(jìn)行許多GWAS分析,然后合并到一個元分析中。在GWASs中識別的大多數(shù)變體不被認(rèn)為是生物學(xué)上的因果關(guān)系,而是由于連鎖不平衡(LD),可以識別包含一個或多個生物學(xué)功能變體的區(qū)域。到2019年初,已經(jīng)進(jìn)行了近4000次GWASs,從不可知的角度確定了數(shù)千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測量(身高、體重)和行為特征,如初生年齡或教育程度。

本章介紹了GWAS研究和基本概念。由于GWASs的結(jié)果通常是許多實際應(yīng)用的基礎(chǔ),因此本章對于第二部分的后續(xù)應(yīng)用章節(jié)至關(guān)重要,包括如何對遺傳數(shù)據(jù)進(jìn)行質(zhì)量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學(xué)的基礎(chǔ)知識,包括遺傳數(shù)據(jù)收集、研究設(shè)計和方法方面的細(xì)節(jié),以及糾正多重測試的必要性。接下來,我們將在第8章介紹個體水平和遺傳標(biāo)記水平QC的類型。第4節(jié)簡要介紹了GWAS元分析和進(jìn)一步的擴(kuò)展。最后,我們對NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡要歷史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國家集中。最后,我們做了一個簡短的總結(jié),并指出了未來的研究方向。

?

GWAS研究分析和元分析

數(shù)據(jù)分析流程

?

基因發(fā)現(xiàn)不僅是一項智力挑戰(zhàn),也是一項組織和后勤挑戰(zhàn)。由于GWA的質(zhì)量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財團(tuán),進(jìn)行獨立的GWA,隨后由領(lǐng)導(dǎo)該項目的核心小組進(jìn)行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學(xué)中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識、需要成立的財團(tuán)以及長期和耗時的投資。這一領(lǐng)域的新研究人員很少會啟動自己的獨立GWA。然而,了解GWA的構(gòu)思過程是有用的。

首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內(nèi)容、測量和先前的遺傳力估計或其他GWAS結(jié)果(如果可用)。這一研究領(lǐng)域在總結(jié)現(xiàn)有結(jié)果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對50多個雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個名為MaTCH(雙胞胎相關(guān)性和遺傳力的元分析)的web應(yīng)用程序,可通過http://match.ctglabnl/。還有其他網(wǎng)站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關(guān)的遺傳力估計值。Ben Neale的實驗室還擁有一個令人難以置信的網(wǎng)站,用于檢測英國生物庫中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復(fù)雜性狀遺傳學(xué)虛擬實驗室(CTG-VL)生成結(jié)果的可視化,包括曼哈頓圖和許多其他結(jié)果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。

下一步是隔離哪些數(shù)據(jù)源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個聯(lián)盟,或獲取現(xiàn)有或公開可用的數(shù)據(jù)(如英國生物銀行)。組建一個財團(tuán)需要花費大量的時間和精力,包括經(jīng)常等待道德和準(zhǔn)入許可,在某些情況下還需要處理付款以使用數(shù)據(jù)。盡管英國生物銀行(約500000個)等大型數(shù)據(jù)集最近已經(jīng)面世,但通常會形成大型聯(lián)合體,將多個數(shù)據(jù)集組合在一起,以產(chǎn)生盡可能大的樣本。在許多情況下,每個數(shù)據(jù)源的獨立分析師負(fù)責(zé)執(zhí)行

?

分析步驟:

  • 確定可行性,查閱文獻(xiàn),查看遺傳力,表型測定方法
  • 從實驗搜集數(shù)據(jù),或者已有的數(shù)據(jù),確定合作方案
  • 撰寫數(shù)據(jù)分析方案
  • 數(shù)據(jù)存儲,轉(zhuǎn)換,分析,描述分析,匯總結(jié)果
  • QC質(zhì)控,單獨分析和元分析
  • 重點查看顯著的位點
  • 注釋,查看結(jié)果
?

GWAS內(nèi)部,并將結(jié)果發(fā)送回聯(lián)合體領(lǐng)導(dǎo)人。這通常與數(shù)據(jù)的隱私和同意問題有關(guān),如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計的元分析因此是發(fā)現(xiàn)與表型相關(guān)的遺傳變異的最常用方法。由于常見等位基因的遺傳效應(yīng)很小,我們從第一章之前的討論中了解到,信號檢測需要更大的樣本量。由于單個GWASs的動力不足,研究人員需要進(jìn)行元分析并合并多個數(shù)據(jù)源。

?

數(shù)據(jù)分析計劃

這部分,主要是如何收集數(shù)據(jù),包括設(shè)置問卷調(diào)查注意事項。還應(yīng)該注意,應(yīng)該包括一些協(xié)變量。然后常用的數(shù)據(jù)質(zhì)控,使用的模型,有時候會考慮家系的作用。

?

如果您的目標(biāo)是收集大量樣本,請說明如何選擇加入聯(lián)盟和關(guān)鍵截止日期。

然后經(jīng)常列出詳細(xì)的樣本納入標(biāo)準(zhǔn)。例如,在我們對人類生殖的研究中,我們還檢查了有史以來出生的兒童數(shù)量(NEB),只包括那些已經(jīng)到了生育期結(jié)束的兒童(女性至少45歲,男性55歲),并澄清說,我們還希望分析人員將從未生過孩子的個人包括在內(nèi)。這也是您指定任何祖先要求、相關(guān)協(xié)變量、基因分型率(>95?)和其他質(zhì)量控制的地方(另見第8章)。

基因型和插補信息,包括插補前需要應(yīng)用的任何推薦標(biāo)記過濾器,我們將很快討論。在前面提到的示例分析計劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價值背后的邏輯將在第8章中詳細(xì)討論。

用于關(guān)聯(lián)測試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對男性和女性的兩種表型(AFB、NEB)的回歸模型進(jìn)行估計,然后合并。例如,一個方程是Y=m+SNP,β+Zy+e。許多研究還經(jīng)常包括基于家庭的數(shù)據(jù),其中82第4章應(yīng)提供明確的案例說明,以考慮數(shù)據(jù)中的脆弱性結(jié)構(gòu)或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個協(xié)變量(例如,控制人口分層、控制非線性效應(yīng)的出生隊列或任何研究特定協(xié)變量)。

為結(jié)果指定fle格式。例如,許多人經(jīng)常選擇費用聯(lián)合體共享格式。!文件命名方案同樣重要,因為您將收到數(shù)百個不同的文件。

數(shù)據(jù)交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數(shù)據(jù)保護(hù)條例)(見第14章,道德)。

然后,還經(jīng)常包括薈萃分析的描述。這包括標(biāo)記排除篩選、基因組控制、顯著性閾值以及頂級SNP的報告方式。

每個參與的數(shù)據(jù)源(在這一研究領(lǐng)域通常稱為隊列)單獨運行分析,或者可以授權(quán)訪問數(shù)據(jù)。每個研究的匯總統(tǒng)計結(jié)果通常會與特定數(shù)據(jù)源數(shù)據(jù)的一些描述性信息一起上傳。然后將這些結(jié)果結(jié)合起來進(jìn)行薈萃分析。

?

元分析

?

元分析是對來自多個獨立研究的信息進(jìn)行統(tǒng)計綜合,從而提高功效,進(jìn)而降低假陽性發(fā)現(xiàn)的風(fēng)險【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當(dāng)前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數(shù)據(jù),提供回歸系數(shù)、標(biāo)準(zhǔn)誤差、,依此類推,對于遵循預(yù)先指定的分析計劃的群體中的每個遺傳標(biāo)記。因此,它不是單個級別的數(shù)據(jù),而是匯總的匯總結(jié)果。我們2016年的生殖行為研究【6】。

例如,涉及一個元分析,它使用來自60多個不同數(shù)據(jù)源的匯總統(tǒng)計數(shù)據(jù)。在第8章中,我們描述了如何在個人層面上參與OC,然后再進(jìn)行GWAS(例如,去除等位基因頻率低的變體。插補質(zhì)量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復(fù)制的特定研究驅(qū)動的結(jié)果)。GWAS薈萃分析中一個重要且耗時的步驟是第二套質(zhì)量控制,它基本上是協(xié)調(diào)各研究的結(jié)果。盡管提供了統(tǒng)一的分析計劃,但此清理過程可能在初始項目中花費的時間最長,因為分析人員可能使用不同的軟件,或者結(jié)果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎(chǔ)上,為meta-OC過程提供了一個優(yōu)秀的協(xié)議。

?

統(tǒng)計推斷、方法和異質(zhì)性

表型數(shù)據(jù)

確定數(shù)據(jù)的類型,以及需要考慮的協(xié)變量

?

GWA研究的核心前提是對特定人群中的大量樣本同時進(jìn)行數(shù)百萬個假設(shè)檢驗,或者換言之,對每個變量進(jìn)行一個假設(shè)檢驗。每個遺傳關(guān)聯(lián)研究都采用統(tǒng)計推斷來確定和量化遺傳位點和表型之間的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)方法的選擇通常取決于表型的性質(zhì),以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊列)也是常見的。

對于數(shù)量或連續(xù)特征(例如,初生年齡或體重指數(shù)),分析會在表型的連續(xù)分布范圍內(nèi)對個體進(jìn)行比較,通常使用線性回歸。在這里,我們比較了基于檢驗統(tǒng)計量的分布與任何標(biāo)記無關(guān)聯(lián)的零假設(shè),并考慮了標(biāo)準(zhǔn)誤差。刪失數(shù)據(jù)生存模型的其他擴(kuò)展也越來越可能。對于二元或二元性狀,它通常使用邏輯回歸來比較高(病例)值和低(對照)值。與典型的logistic模型一樣,假設(shè)所研究性狀的logit變換與等位基因呈線性關(guān)系,但通常用優(yōu)勢比來解釋。

?

使用P-values和Z-scores

P-value一般用于單個數(shù)據(jù)的分析,Z-score可以用于元分析,表示結(jié)果。

?

第2章更詳細(xì)地闡述了這類研究的統(tǒng)計基礎(chǔ)。簡而言之,目標(biāo)是對遺傳位點和正在研究的表型之間的每一個真實關(guān)聯(lián)進(jìn)行統(tǒng)計顯著性估計。正如大多數(shù)讀者所知,正如前面第2章所討論的,統(tǒng)計顯著性通常由p值決定。p值估計獲得測試統(tǒng)計值的概率,該值與通過所選統(tǒng)計方法為潛在關(guān)聯(lián)估計的值一樣極端(即,在零下)。這并不是一個基因座與一個特征相聯(lián)系的可能性。當(dāng)我們進(jìn)行這種回歸時,我們使用t檢驗等檢驗統(tǒng)計量來檢驗特定遺傳變異的β參數(shù)是否顯著不同于零。檢驗統(tǒng)計量是用來衡量對無效假設(shè)支持程度的數(shù)據(jù)的數(shù)值總結(jié)。在零假設(shè)下,檢驗統(tǒng)計量可能具有已知的概率分布(例如,x’),或者估計其零分布。回想一下,無效假設(shè)是對特定人群之間沒有顯著差異的假設(shè)的統(tǒng)計檢驗,在GWAS的情況下,是病例和對照之間的差異。任何觀察到的差異都?xì)w因于采樣或?qū)嶒炚`差。如果從遺傳位點產(chǎn)生的檢驗統(tǒng)計量值與我們從無效假設(shè)中預(yù)期的值顯著偏離,則有證據(jù)表明存在替代性組間存在顯著差異(病例組與對照組)或與數(shù)量性狀存在顯著關(guān)系。

在薈萃分析中,p值的缺點是不能提供效應(yīng)大小的總體估計,這一點已被廣泛討論。此外,無法評估數(shù)據(jù)集之間的異構(gòu)性。還使用了一個相關(guān)的統(tǒng)計數(shù)據(jù),即Z分?jǐn)?shù),它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關(guān),但使用Z值的優(yōu)勢在于,它們考慮了影響的方向,并且您能夠引入權(quán)重(例如,如果您希望某項特定研究的權(quán)重更高或更低)。單核苷酸多態(tài)性被標(biāo)記為或被視為“點擊率”,以p值為衡量標(biāo)準(zhǔn)。

如前所述,商定的全基因組顯著閾值為p<5×10-8。

這對應(yīng)于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應(yīng)使用更嚴(yán)格的閾值[9]。

?

矯正GWAS結(jié)果

常用的方法有:

  • Bonferroni correction,一般用0.05/N,或者1/N來確定P值
  • 置換檢驗
  • FDR檢驗

「第一種:Bonferroni矯正」

?

DNA微陣列和下一代測序使我們能夠檢測大量串聯(lián)基因組位點的相關(guān)性。GWAS結(jié)果中進(jìn)行比較的程度稱為多重測試問題。這是兩種誤報(l類錯誤)的可能性,如果多重比較的校正過于保守或功率不足,則會產(chǎn)生誤報(2類錯誤)。我們測試了整個基因組中數(shù)百萬個基因變體的關(guān)聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關(guān)。

問題是,當(dāng)我們進(jìn)行這么多測試時,我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強(qiáng)大關(guān)聯(lián)的危險。在GWAS中,對每個遺傳位點和表型進(jìn)行統(tǒng)計檢驗,以產(chǎn)生檢驗統(tǒng)計量和相關(guān)的p值。如果我們?nèi)?biāo)準(zhǔn)p值0.05.

即使給定的遺傳變異與我們的表型無關(guān),我們也有1/20的機(jī)會發(fā)現(xiàn)顯著的關(guān)聯(lián)。這就是所謂的類型1錯誤或假陽性。由于在GWAS中,我們實際上并行執(zhí)行了數(shù)百萬次測試,如果我們采用標(biāo)準(zhǔn)的0.05顯著性閾值,我們很可能會獲得許多誤報。為了解決這個多重測試問題,最常用和最直接的修正是Bonferroni修正。簡單地說,我們將所選的顯著性閾值(p值)除以所執(zhí)行的測試數(shù)量。如果進(jìn)行了10次測試,我們只會聲明,如果p值小于0.005,結(jié)果才是顯著的。在基因組的情況下,我們正在測試100萬個獨立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計學(xué)中獨立性的基本假設(shè)有關(guān),或者說你應(yīng)該從你的樣本中得到反映你會在人群中發(fā)現(xiàn)。

如果數(shù)據(jù)中存在最小的依賴性,而您違反了這一假設(shè),則會產(chǎn)生有偏差的結(jié)果。GWASs的一個統(tǒng)計問題是,附近基因變體的基因型之間往往存在著很強(qiáng)的相關(guān)性?;蛘邠Q句話說,實際測試100萬個遺傳變異實際上更像是測試70萬到80萬個不相關(guān)的遺傳變異。因此,在GWAS中,采用統(tǒng)計閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計顯著性的標(biāo)準(zhǔn),而p<5×10-6通常用于表示“提示性命中”

?

「第二種:置換檢驗」

?

有人認(rèn)為,Bonferroni校正過于保守,導(dǎo)致假陰性結(jié)果的比例增加,并假設(shè)每個基因變異都是獨立于其他變異進(jìn)行測試的,這是獨立的。雖然對替代方法的詳細(xì)解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測試?;谂帕械臏y試多次對表型進(jìn)行排列,然后每次重新計算統(tǒng)計測試,以產(chǎn)生可用于假設(shè)測試的經(jīng)驗零分布。

將其視為標(biāo)簽的洗牌可能更為直觀。為了計算基于排列的p值,結(jié)果度量標(biāo)簽被隨機(jī)排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關(guān)聯(lián)。然后對所有置換數(shù)據(jù)集進(jìn)行統(tǒng)計測試。

這提供了無關(guān)聯(lián)零假設(shè)下檢驗統(tǒng)計量和p值的經(jīng)驗分布。然后將從觀察數(shù)據(jù)中獲得的原始檢驗統(tǒng)計量或p值與p值的經(jīng)驗分布進(jìn)行比較,以確定經(jīng)驗調(diào)整的p值?;谥脫Q的測試是計算密集型的,尤其是當(dāng)需要許多置換時,這對于精確計算非常小的p值是必要的[1]。

?

「第三種:FDR」

?

另一種技術(shù)是Benjamini-Hochberg錯誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號中誤報的預(yù)期比例,F(xiàn)DR值低于固定閾值,并假設(shè)SNP是獨立的。該方法將誤報的預(yù)期比例降至最低,但不具有統(tǒng)計意義。一個限制是,F(xiàn)DR方法仍然假設(shè)SNP和p值是獨立的。

而是一個“標(biāo)簽”換句話說,它們是標(biāo)記,因為附近的變體實際上可能是驅(qū)動關(guān)聯(lián)的因素。請記住,這是一項相關(guān)性研究,而不是因果關(guān)系研究,因此需要進(jìn)一步的生物學(xué)和下游工作,以了解標(biāo)記或其附近標(biāo)記的生物學(xué)功能。在第10章第10.2節(jié)中,我們提供了一個更詳細(xì)的案例研究,說明如何使用FTO(通常被稱為“脂肪基因”)實現(xiàn)這一目標(biāo)。第8章描述了我們在GWAS期間進(jìn)行的各種其他診斷檢查,包括使用森林圖和分位數(shù)-分位數(shù)(Q-Q)圖按性別或數(shù)據(jù)源檢查結(jié)果的異質(zhì)性。第9章還詳細(xì)介紹了控制人口分層的機(jī)制,這是第3章前面介紹的一個概念。

?

曼哈頓圖

?

GWAS的主要結(jié)果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時的年齡特征。該圖是一個散點圖,繪制了p值(軸)的負(fù)對數(shù)(以10為底)和按染色體(x軸)位置排序的SNP關(guān)聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。

圖中所示的單核苷酸多態(tài)性是標(biāo)記,許多不會是實際的因果變異

?

二分類性狀和數(shù)量性狀

二分類一般用卡方檢驗,連續(xù)性狀用F檢驗

?

為了評估二分性特征,卡方檢驗通常用于測試病例和對照組之間分布頻率的差異。它計算病例和對照組的預(yù)期等位基因頻率,就好像SNP與表型無關(guān)一樣。然后以卡方統(tǒng)計量(X)的形式測量與該期望的偏差。假設(shè)SNP和性狀不相關(guān),則這些偏差偶然發(fā)生的概率的p值報告測試。如果p值低于定義的顯著性閾值(在控制多次測試后,稍后討論),則發(fā)現(xiàn)是顯著的。

然后,我們通常還會估計影響大小,這對于理解關(guān)聯(lián)的大小或強(qiáng)度很重要。為了計算二分性狀的效應(yīng)大小,可以使用不同的方法,如優(yōu)勢比(OR)。這是給定表型相關(guān)等位基因的表型概率除以給定非相關(guān)等位基因的表型概率。請注意,這不應(yīng)在個人層面上解釋為“個人風(fēng)險”,而是與另一個基因組相比的風(fēng)險計算。p值表示遺傳關(guān)聯(lián)是否符合我們選擇的統(tǒng)計顯著閾值,但不能用于比較遺傳關(guān)聯(lián)。這是因為p值受到樣本量、統(tǒng)計檢驗?zāi)芰σ约八芯筷P(guān)系之外的其他因素的強(qiáng)烈影響。正是出于這個原因,我們使用效應(yīng)大小來比較兩個SNP:為了正確評估關(guān)聯(lián)的強(qiáng)度和解釋,你需要知道遺傳關(guān)聯(lián)的p值和效應(yīng)大小估計。

?
?

為了評估數(shù)量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個感興趣的SNP相關(guān)聯(lián)。與之前的測試一樣,回歸模型以p值和β系數(shù)定義的效應(yīng)大小的形式產(chǎn)生顯著性度量。然后對每個單核苷酸多態(tài)性進(jìn)行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數(shù)量性狀的效應(yīng)大小,我們使用β系數(shù),其中每個風(fēng)險等位基因的出現(xiàn)對應(yīng)于數(shù)量性狀的增加,等于Beta系數(shù)。例如,假設(shè)我們將基因型AA、AG和GG的SNP與身高(厘米)相關(guān)聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數(shù)為0.5,則預(yù)測每個A等位基因?qū)€體身高的貢獻(xiàn)為0.5厘米。

效應(yīng)大小、樣本大小和統(tǒng)計能力是本分析中相互關(guān)聯(lián)的重要方面。雖然我們在這里沒有詳細(xì)探討這一點,但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測,因為重要關(guān)聯(lián)的統(tǒng)計能力很低,需要非常大的樣本量?;蛘?,在病例對照研究中,重要的不僅是樣本量,還有病例和對照的相對數(shù)量。相同數(shù)量的案例和控件是功率的最佳選擇。

?

固定效應(yīng)模型和隨機(jī)效應(yīng)模型

?

正如我們在第2章中所討論的,固定效應(yīng)模型依賴于假設(shè)每個風(fēng)險等位基因在每個數(shù)據(jù)集中的真實效應(yīng)是相同的。雖然這個假設(shè)可能很脆弱,但與隨機(jī)效應(yīng)模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒有詳細(xì)描述各種固定效應(yīng)模型,但包括反向方差加權(quán)和Cochran-Mantel-Haenszel。隨機(jī)效應(yīng)模型并不認(rèn)為所有研究在功能上都是等效的,因為它們的能力有限,所以很少用于發(fā)現(xiàn)。當(dāng)這些模型的目的是試圖將觀察到的關(guān)聯(lián)推廣到人群之外,并估計相關(guān)變體的平均效應(yīng)大小以及不同人群的平均效應(yīng)大小,以便進(jìn)行預(yù)測時,更常用這些模型。

?

權(quán)重、FDR和填充

?

當(dāng)多個數(shù)據(jù)源組合在一起時,一些研究會有更多的數(shù)據(jù),因此在薈萃分析結(jié)果中應(yīng)該比較小的研究更重要或權(quán)重更大。最常用的最佳權(quán)重是逆方差加權(quán)(每個研究根據(jù)其平方標(biāo)準(zhǔn)誤差的倒數(shù)進(jìn)行加權(quán))。錯誤發(fā)現(xiàn)率(FDR)是指對已發(fā)現(xiàn)但被視為誤報的關(guān)聯(lián)比例的估計。這里,我們計算所謂的Q值,這是聲稱關(guān)聯(lián)可能的最小FDR。正如我們的應(yīng)用章節(jié)所示,我們還測試了插補的可靠性。當(dāng)存在MAFs低的多態(tài)性時,這可能是一個問題,因為MAFs<5的填充SNP被重新排除在分析之外。

?

數(shù)據(jù)來源方差異質(zhì)

?

一些表型可能難以測量或具有很高的測量變異性。在大型GWA研究中,通常需要協(xié)調(diào)不同的數(shù)據(jù)源并構(gòu)建一個可比較的表型。因為已經(jīng)收集了大多數(shù)表型。通常很難進(jìn)行完全協(xié)調(diào)的分析。例如,2018年的一項研究考察了受教育年限的遺傳基礎(chǔ),詳細(xì)考察了表型分類的差異如何影響結(jié)果【15】。

他們得出結(jié)論,在可能的情況下,最詳細(xì)的措施是最好的。然而,在協(xié)調(diào)多個數(shù)據(jù)集時,許多GWA通常協(xié)調(diào)到最常見的分類,因此通常最不詳細(xì)的分類。

除第3章詳細(xì)討論的基于祖先的異質(zhì)性外,可能存在諸如出生隊列、國家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國等相對較小的國家,也存在不同的人口分層模式。GWAS通常會結(jié)合來自多個國家和歷史時期的數(shù)據(jù),以獲得足夠大的樣本量。隱含的假設(shè)是,遺傳學(xué)對個體的影響在時間和地點上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項研究中,我們證明了事實并非如此,并且結(jié)合這些不同的數(shù)據(jù)集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當(dāng)數(shù)據(jù)合并時,對教育和第一個孩子出生時間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個或是出生過的孩子的數(shù)量。相反,我們發(fā)現(xiàn)與身高相關(guān)的遺傳變異在不同人群中似乎是相同的。性別差異也可能導(dǎo)致異質(zhì)性,這就是為什么一些分析,如與生殖或生殖行為相關(guān),分別檢查雌性、雄性和匯總結(jié)果【6,17】。顯然,這可以擴(kuò)展到考慮其他類型的異質(zhì)性,如年齡或生命歷程影響或社會經(jīng)濟(jì)地位。

?

基因型數(shù)據(jù)質(zhì)控

?

對遺傳數(shù)據(jù)進(jìn)行分析以進(jìn)行GWAS需要了解這種情況下的統(tǒng)計推斷,但也需要進(jìn)行大量質(zhì)量檢查,稱為質(zhì)量控制(QC)。QC是處理遺傳數(shù)據(jù)的核心方面之一。我們在第8章中討論了與GWASs相關(guān)的OC(見第8.5節(jié))。QC對于可靠的GWAS結(jié)果是必要的,因為原始基因型數(shù)據(jù)本身就存在問題(見方框4.2)。例如,您可能有很大比例的個體缺失數(shù)據(jù),或者個體中缺失基因型的比率很高,或者其他與低樣本質(zhì)量相關(guān)的問題。正如我們在第8章中更詳細(xì)地概述的那樣,QC可分為個體的質(zhì)控和SNP的質(zhì)控

個體水平QC經(jīng)常檢查(1)DNA數(shù)據(jù)質(zhì)量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復(fù)或相關(guān)個體,以及,(5)祖先差異。第二組質(zhì)量控制分析側(cè)重于基因型的數(shù)據(jù)質(zhì)量或我們在第8章中根據(jù)標(biāo)記OC討論的內(nèi)容。在這里,我們采取幾個步驟來消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補SNP的情況下,排除插補質(zhì)量低的變異研究。

?

NHGRI-EBI GWAS目錄

什么是NHGRI-EBI GWAS目錄

?

該領(lǐng)域的新手通常想知道哪些表型已經(jīng)被研究過,以及已經(jīng)鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡稱目錄),包括所有已發(fā)布GWAS的數(shù)據(jù),位于https://www./gwas/.它是由美國生產(chǎn)的。

國家人類基因組研究所(NHGRI)[19]與歐洲生物信息學(xué)研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴(yán)格的標(biāo)準(zhǔn)(見www./gwas/docs/methods),包括基于陣列的gwas和對100000多個全基因組覆蓋的SNP的分析。目錄中報告的SNP性狀關(guān)聯(lián)是那些p值至少小于1×10-5的性狀關(guān)聯(lián)。目錄研究人員通過自動PubMed搜索找到研究,然后手動整理它們以進(jìn)行評估和納入。所有GWAS性狀都映射到實驗因子本體(EFO)[21]中的術(shù)語,這是一個用于分子生物學(xué)的變量本體,包括疾病、解剖學(xué)、細(xì)胞類型、細(xì)胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關(guān)聯(lián)的結(jié)果和可視化結(jié)果。在這個例子中,潛臺詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說明了根據(jù)所有(人類)染色體的基因組位置報告的遺傳關(guān)聯(lián)。每一條線都鏈接到一個與p值閾值為p的性狀相關(guān)的基因座≤5×10-8,每個圓圈都有顏色編碼,以表示一個獨特的特征。他們根據(jù)17個主要特征類別進(jìn)行分組,如消化系統(tǒng)疾病、血液學(xué)測量、癌癥或藥物反應(yīng)??梢酝ㄟ^出版物、變體、性狀或基因搜索目錄,這些信息會隨著新出版物不斷更新。

?

GWAS歷史介紹

?

以下是幾篇關(guān)于GWASs的優(yōu)秀敘述性評論,描述了基本原理和科學(xué)結(jié)論,并強(qiáng)調(diào)了關(guān)鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個數(shù)據(jù)源,該論文被譽為外交方面的杰作【23】。

如前所述,要進(jìn)行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計能力[25]。這意味著大多數(shù)GWASs發(fā)布到數(shù)據(jù)通常將來自多個數(shù)據(jù)源的單獨分析的匯總結(jié)果匯集到元分析中,以獲得盡可能大的樣本量。過去幾十年來,技術(shù)、方法、理論、計算能力和資金的進(jìn)步極大地改變了GWAS的格局。

在我們之前的工作中,Mills和Rahal(2019)[3]對2005年至2018年10月的13年間的所有GWASs進(jìn)行了系統(tǒng)和計算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數(shù)據(jù)庫。重要的是要注意,除了創(chuàng)建此aliving數(shù)據(jù)庫之外,我們還包括了在公開的GitHub站點上使用的所有代碼(https://github.com/crahal/GWASReview).

換句話說,隨著每個目錄的更新,我們的數(shù)據(jù)庫以及這里描述的數(shù)字和數(shù)字將隨著時間的推移自動更新。如圖4.4所示,隨著時間的推移,發(fā)布的GWASs數(shù)量、樣本量、關(guān)聯(lián)數(shù)量和研究的疾病都有顯著增長。

在上面的面板中,我們看到隨著時間的推移,發(fā)表的研究數(shù)量大幅增加(根據(jù)樣本大小劃分)。在這里,隨著時間的推移,我們看到樣本量的驚人增長,在2018年末和2019年初發(fā)布的樣本有時包含100多萬個個體。這些較大的研究主要歸功于英國生物銀行(約50萬個人)[26、27],以及參與這項研究的23andMe等大型直接面向消費者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關(guān)聯(lián)數(shù)量與GWASs中使用的參與者數(shù)量之間的強(qiáng)正相關(guān)關(guān)系。右下角的面板顯示了獨特特征數(shù)量的增長以及發(fā)布GWASs的期刊數(shù)量的增長。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項研究,涵蓋了5849個獨特的研究材料(論文中歸因于性狀的標(biāo)識符),涉及3508個獨特的性狀,映射到2532個EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費或神經(jīng)質(zhì)。每次研究的平均命中數(shù)為15.3,最強(qiáng)風(fēng)險等位基因的平均p值為1.3729×10-6。55歲左右?報告的關(guān)聯(lián)符合p的標(biāo)準(zhǔn)閾值≤5×10-8.

?

GWAS多樣性的確定

?

或者是該領(lǐng)域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們在前幾章中所討論的,受試者祖先多樣性的差異與人口分層等技術(shù)問題有關(guān)[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數(shù)據(jù)的社會濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數(shù)量和性狀隨著時間的推移確實呈爆炸式增長,但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復(fù)制階段進(jìn)行檢查。這意味著這些非歐洲人群經(jīng)常被用來測試歐洲祖先群體會在其他祖先群體中復(fù)制,因此通常不會作為這些群體中基本基因發(fā)現(xiàn)的基礎(chǔ)。

圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達(dá)95%的受試者到2017年的88%不等。特別是自201l年以來,對亞洲人群的研究一直在強(qiáng)勁而穩(wěn)定地增長(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國和韓國人口。隨著時間的推移,對非洲人口的研究最少,人們希望非洲基因組變異項目和其他促進(jìn)多樣性的項目將繼續(xù)增加和改變這些趨勢。

與GWA研究相關(guān)的多樣性幾乎只討論了與祖先相關(guān)的多樣性,但我們在GWA審查中還發(fā)現(xiàn),地理、環(huán)境、時間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來自僅居住在三個國家(美國、英國和冰島)的參與者。正如我們在本章和其他地方所闡述的,需要做更多的工作來了解環(huán)境暴露和地理集中如何影響結(jié)果。例如,在美國、墨西哥和英國,有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國家截然不同如日本、韓國、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊列、歷史時期和生命歷程階段缺乏時間和人口多樣性。GWASs中最常用的數(shù)據(jù)通常是年齡過大、社會經(jīng)濟(jì)地位較高、女性人數(shù)較多的數(shù)據(jù),而且通常還包括“健康志愿者”的選擇,如英國生物銀行[35]。

?

結(jié)論和未來的方向

?

自2005年第一次GWAS以來,這一研究領(lǐng)域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領(lǐng)域是如何迅速發(fā)展的,這不僅是因為研究的研究、疾病和關(guān)聯(lián)的數(shù)量之多,還因為樣本量的不斷擴(kuò)大。截至2019年,許多大型研究的綜合樣本超過100萬例。然而,我們注意到,這種增長甚至沒有跨越不同的祖先或地理群體,大多數(shù)研究仍在歐洲祖先群體中進(jìn)行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進(jìn)一步增加了多樣性。一個新興而令人興奮的研究領(lǐng)域?qū)⑹欠菤W洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應(yīng)該注意到,組建這些大型財團(tuán)也可能是過去的事情。

隨著英國生物銀行(UK Biobank)等大型數(shù)據(jù)集和23andMe等直接面向消費者的公司數(shù)量的不斷增加,收集許多小型數(shù)據(jù)隊列以生成大型樣本的情況似乎越來越不常見。

讀者還將對GWA研究所依據(jù)的方法學(xué)有一個基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經(jīng)初步了解了這種類型的研究是如何進(jìn)行的,GWASs中統(tǒng)計推斷的意義,以及為什么以及如何需要更正多次測試。

本書第8章還介紹了個人和遺傳標(biāo)記水平上質(zhì)量控制(QC)的重要性以及實際應(yīng)用。

我們對GWAS的簡要歷史表明,這是一個快速發(fā)展的研究領(lǐng)域。

正如我們在關(guān)于倫理問題和未來方向的第14章和第15章中所闡述的,GWAS也并非完全沒有爭議。有人擔(dān)心,長長的優(yōu)先“熱門”名單并沒有帶來一些人承諾的個性化藥物、新療法和風(fēng)險預(yù)測工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學(xué)后續(xù)研究已經(jīng)找到了與已知生物途徑相關(guān)的變體,但也找到了其他未被臨床靶向的變體。

越來越多的研究不僅在研究常見的變異,也在研究罕見的變異。測序數(shù)據(jù)的進(jìn)一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領(lǐng)域和新方法。分析和合成GWAS數(shù)據(jù)的新方法也出現(xiàn)了,例如復(fù)雜性狀遺傳學(xué)虛擬實驗室為GWAS后分析所做的工作(https:///updates).

?

練習(xí):

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-vAJKG9MP-1656835668257)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624102004288.png)]

本章節(jié)包括:

  • 了解全基因組關(guān)聯(lián)研究·
  • 掌握基因分型和測序陣列的基礎(chǔ)和局限性及其與連鎖不定性和填充的關(guān)系
  • 了解全基因組關(guān)聯(lián)研究研究設(shè)計、元分析和數(shù)據(jù)分析計劃
  • 了解全基因組關(guān)聯(lián)研究的統(tǒng)計推斷、方法和異質(zhì)性的基本方面
  • 掌握質(zhì)量控制的類型
  • 了解NHGRI-EBI GWAS目錄以概述全基因組關(guān)聯(lián)研究
  • 認(rèn)識到在祖先、地理、時間,迄今為止全基因組關(guān)聯(lián)研究的人口多樣性及其對研究的影響
  • 意識到了這一研究領(lǐng)域的未來方向

簡介和背景

?

隨著基因分型技術(shù)的發(fā)展、成本的降低和先進(jìn)數(shù)據(jù)分析方法的發(fā)展,遺傳關(guān)聯(lián)研究的設(shè)計在過去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標(biāo)準(zhǔn)的,但早期的研究只關(guān)注有限數(shù)量的“候選”基因座。候選基因研究一詞是指這一領(lǐng)域的早期工作,其重點是預(yù)先確定的感興趣的基因座,這些基因座被認(rèn)為與所研究的性狀有關(guān)。正如我們在關(guān)于基因-環(huán)境相互作用的第6章中詳細(xì)討論的那樣,許多早期候選基因研究由于多種原因存在問題,主要是由于缺乏重復(fù),雖然我們的目標(biāo)是讓這一領(lǐng)域的新研究人員避免犯類似的錯誤,但我們應(yīng)該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學(xué)表型。當(dāng)時,許多性狀的極端多基因性和候選基因作為藥物靶點的失?。ɡ缫钟舭Y)讓許多人感到真正的驚訝。另一種選擇是全基因組關(guān)聯(lián)研究(GWAS),該研究同時測量了數(shù)百萬個基因位點。

GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關(guān)聯(lián)的主要方法。正如我們稍后更詳細(xì)地討論的那樣,GWASs測試了數(shù)百萬個單獨的回歸模型,以確定遺傳變異和表型之間的關(guān)聯(lián)?;仡櫟谝徽?,表型可以是單基因性狀。

受單個基因內(nèi)變異的強(qiáng)烈影響。但許多是多基因復(fù)雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結(jié)果。GWAS的結(jié)果顯示了每個單核苷酸多態(tài)性與特定性狀或表型的關(guān)聯(lián)。與候選基因研究相比,GWASs是無假設(shè)的,可以在所有基因型區(qū)域中尋找關(guān)聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點差異是我們與眾不同的原因。

由于許多性狀是復(fù)雜的,并且與多個遺傳位點(即多基因)相關(guān),GWAS通常識別出許多遺傳變異,每個變異對表型的影響很小。由于影響大小較小,需要非常大的數(shù)據(jù)源,GWAS發(fā)現(xiàn)通常會在多個數(shù)據(jù)源上進(jìn)行許多GWAS分析,然后合并到一個元分析中。在GWASs中識別的大多數(shù)變體不被認(rèn)為是生物學(xué)上的因果關(guān)系,而是由于連鎖不平衡(LD),可以識別包含一個或多個生物學(xué)功能變體的區(qū)域。到2019年初,已經(jīng)進(jìn)行了近4000次GWASs,從不可知的角度確定了數(shù)千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測量(身高、體重)和行為特征,如初生年齡或教育程度。

本章介紹了GWAS研究和基本概念。由于GWASs的結(jié)果通常是許多實際應(yīng)用的基礎(chǔ),因此本章對于第二部分的后續(xù)應(yīng)用章節(jié)至關(guān)重要,包括如何對遺傳數(shù)據(jù)進(jìn)行質(zhì)量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學(xué)的基礎(chǔ)知識,包括遺傳數(shù)據(jù)收集、研究設(shè)計和方法方面的細(xì)節(jié),以及糾正多重測試的必要性。接下來,我們將在第8章介紹個體水平和遺傳標(biāo)記水平QC的類型。第4節(jié)簡要介紹了GWAS元分析和進(jìn)一步的擴(kuò)展。最后,我們對NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡要歷史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國家集中。最后,我們做了一個簡短的總結(jié),并指出了未來的研究方向。

?

GWAS研究分析和元分析

數(shù)據(jù)分析流程

?

基因發(fā)現(xiàn)不僅是一項智力挑戰(zhàn),也是一項組織和后勤挑戰(zhàn)。由于GWA的質(zhì)量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財團(tuán),進(jìn)行獨立的GWA,隨后由領(lǐng)導(dǎo)該項目的核心小組進(jìn)行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學(xué)中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識、需要成立的財團(tuán)以及長期和耗時的投資。這一領(lǐng)域的新研究人員很少會啟動自己的獨立GWA。然而,了解GWA的構(gòu)思過程是有用的。

首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內(nèi)容、測量和先前的遺傳力估計或其他GWAS結(jié)果(如果可用)。這一研究領(lǐng)域在總結(jié)現(xiàn)有結(jié)果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對50多個雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個名為MaTCH(雙胞胎相關(guān)性和遺傳力的元分析)的web應(yīng)用程序,可通過http://match.ctglabnl/。還有其他網(wǎng)站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關(guān)的遺傳力估計值。Ben Neale的實驗室還擁有一個令人難以置信的網(wǎng)站,用于檢測英國生物庫中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復(fù)雜性狀遺傳學(xué)虛擬實驗室(CTG-VL)生成結(jié)果的可視化,包括曼哈頓圖和許多其他結(jié)果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。

下一步是隔離哪些數(shù)據(jù)源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個聯(lián)盟,或獲取現(xiàn)有或公開可用的數(shù)據(jù)(如英國生物銀行)。組建一個財團(tuán)需要花費大量的時間和精力,包括經(jīng)常等待道德和準(zhǔn)入許可,在某些情況下還需要處理付款以使用數(shù)據(jù)。盡管英國生物銀行(約500000個)等大型數(shù)據(jù)集最近已經(jīng)面世,但通常會形成大型聯(lián)合體,將多個數(shù)據(jù)集組合在一起,以產(chǎn)生盡可能大的樣本。在許多情況下,每個數(shù)據(jù)源的獨立分析師負(fù)責(zé)執(zhí)行

?

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-R98ZEGiC-1656835655879)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624094239840.png)]

分析步驟:

  • 確定可行性,查閱文獻(xiàn),查看遺傳力,表型測定方法
  • 從實驗搜集數(shù)據(jù),或者已有的數(shù)據(jù),確定合作方案
  • 撰寫數(shù)據(jù)分析方案
  • 數(shù)據(jù)存儲,轉(zhuǎn)換,分析,描述分析,匯總結(jié)果
  • QC質(zhì)控,單獨分析和元分析
  • 重點查看顯著的位點
  • 注釋,查看結(jié)果
?

GWAS內(nèi)部,并將結(jié)果發(fā)送回聯(lián)合體領(lǐng)導(dǎo)人。這通常與數(shù)據(jù)的隱私和同意問題有關(guān),如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計的元分析因此是發(fā)現(xiàn)與表型相關(guān)的遺傳變異的最常用方法。由于常見等位基因的遺傳效應(yīng)很小,我們從第一章之前的討論中了解到,信號檢測需要更大的樣本量。由于單個GWASs的動力不足,研究人員需要進(jìn)行元分析并合并多個數(shù)據(jù)源。

?

數(shù)據(jù)分析計劃

這部分,主要是如何收集數(shù)據(jù),包括設(shè)置問卷調(diào)查注意事項。還應(yīng)該注意,應(yīng)該包括一些協(xié)變量。然后常用的數(shù)據(jù)質(zhì)控,使用的模型,有時候會考慮家系的作用。

?

如果您的目標(biāo)是收集大量樣本,請說明如何選擇加入聯(lián)盟和關(guān)鍵截止日期。

然后經(jīng)常列出詳細(xì)的樣本納入標(biāo)準(zhǔn)。例如,在我們對人類生殖的研究中,我們還檢查了有史以來出生的兒童數(shù)量(NEB),只包括那些已經(jīng)到了生育期結(jié)束的兒童(女性至少45歲,男性55歲),并澄清說,我們還希望分析人員將從未生過孩子的個人包括在內(nèi)。這也是您指定任何祖先要求、相關(guān)協(xié)變量、基因分型率(>95?)和其他質(zhì)量控制的地方(另見第8章)。

基因型和插補信息,包括插補前需要應(yīng)用的任何推薦標(biāo)記過濾器,我們將很快討論。在前面提到的示例分析計劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價值背后的邏輯將在第8章中詳細(xì)討論。

用于關(guān)聯(lián)測試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對男性和女性的兩種表型(AFB、NEB)的回歸模型進(jìn)行估計,然后合并。例如,一個方程是Y=m+SNP,β+Zy+e。許多研究還經(jīng)常包括基于家庭的數(shù)據(jù),其中82第4章應(yīng)提供明確的案例說明,以考慮數(shù)據(jù)中的脆弱性結(jié)構(gòu)或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個協(xié)變量(例如,控制人口分層、控制非線性效應(yīng)的出生隊列或任何研究特定協(xié)變量)。

為結(jié)果指定fle格式。例如,許多人經(jīng)常選擇費用聯(lián)合體共享格式。!文件命名方案同樣重要,因為您將收到數(shù)百個不同的文件。

數(shù)據(jù)交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數(shù)據(jù)保護(hù)條例)(見第14章,道德)。

然后,還經(jīng)常包括薈萃分析的描述。這包括標(biāo)記排除篩選、基因組控制、顯著性閾值以及頂級SNP的報告方式。

每個參與的數(shù)據(jù)源(在這一研究領(lǐng)域通常稱為隊列)單獨運行分析,或者可以授權(quán)訪問數(shù)據(jù)。每個研究的匯總統(tǒng)計結(jié)果通常會與特定數(shù)據(jù)源數(shù)據(jù)的一些描述性信息一起上傳。然后將這些結(jié)果結(jié)合起來進(jìn)行薈萃分析。

?

元分析

?

元分析是對來自多個獨立研究的信息進(jìn)行統(tǒng)計綜合,從而提高功效,進(jìn)而降低假陽性發(fā)現(xiàn)的風(fēng)險【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當(dāng)前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數(shù)據(jù),提供回歸系數(shù)、標(biāo)準(zhǔn)誤差、,依此類推,對于遵循預(yù)先指定的分析計劃的群體中的每個遺傳標(biāo)記。因此,它不是單個級別的數(shù)據(jù),而是匯總的匯總結(jié)果。我們2016年的生殖行為研究【6】。

例如,涉及一個元分析,它使用來自60多個不同數(shù)據(jù)源的匯總統(tǒng)計數(shù)據(jù)。在第8章中,我們描述了如何在個人層面上參與OC,然后再進(jìn)行GWAS(例如,去除等位基因頻率低的變體。插補質(zhì)量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復(fù)制的特定研究驅(qū)動的結(jié)果)。GWAS薈萃分析中一個重要且耗時的步驟是第二套質(zhì)量控制,它基本上是協(xié)調(diào)各研究的結(jié)果。盡管提供了統(tǒng)一的分析計劃,但此清理過程可能在初始項目中花費的時間最長,因為分析人員可能使用不同的軟件,或者結(jié)果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎(chǔ)上,為meta-OC過程提供了一個優(yōu)秀的協(xié)議。

?

統(tǒng)計推斷、方法和異質(zhì)性

表型數(shù)據(jù)

確定數(shù)據(jù)的類型,以及需要考慮的協(xié)變量

?

GWA研究的核心前提是對特定人群中的大量樣本同時進(jìn)行數(shù)百萬個假設(shè)檢驗,或者換言之,對每個變量進(jìn)行一個假設(shè)檢驗。每個遺傳關(guān)聯(lián)研究都采用統(tǒng)計推斷來確定和量化遺傳位點和表型之間的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)方法的選擇通常取決于表型的性質(zhì),以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊列)也是常見的。

對于數(shù)量或連續(xù)特征(例如,初生年齡或體重指數(shù)),分析會在表型的連續(xù)分布范圍內(nèi)對個體進(jìn)行比較,通常使用線性回歸。在這里,我們比較了基于檢驗統(tǒng)計量的分布與任何標(biāo)記無關(guān)聯(lián)的零假設(shè),并考慮了標(biāo)準(zhǔn)誤差。刪失數(shù)據(jù)生存模型的其他擴(kuò)展也越來越可能。對于二元或二元性狀,它通常使用邏輯回歸來比較高(病例)值和低(對照)值。與典型的logistic模型一樣,假設(shè)所研究性狀的logit變換與等位基因呈線性關(guān)系,但通常用優(yōu)勢比來解釋。

?

使用P-values和Z-scores

P-value一般用于單個數(shù)據(jù)的分析,Z-score可以用于元分析,表示結(jié)果。

?

第2章更詳細(xì)地闡述了這類研究的統(tǒng)計基礎(chǔ)。簡而言之,目標(biāo)是對遺傳位點和正在研究的表型之間的每一個真實關(guān)聯(lián)進(jìn)行統(tǒng)計顯著性估計。正如大多數(shù)讀者所知,正如前面第2章所討論的,統(tǒng)計顯著性通常由p值決定。p值估計獲得測試統(tǒng)計值的概率,該值與通過所選統(tǒng)計方法為潛在關(guān)聯(lián)估計的值一樣極端(即,在零下)。這并不是一個基因座與一個特征相聯(lián)系的可能性。當(dāng)我們進(jìn)行這種回歸時,我們使用t檢驗等檢驗統(tǒng)計量來檢驗特定遺傳變異的β參數(shù)是否顯著不同于零。檢驗統(tǒng)計量是用來衡量對無效假設(shè)支持程度的數(shù)據(jù)的數(shù)值總結(jié)。在零假設(shè)下,檢驗統(tǒng)計量可能具有已知的概率分布(例如,x’),或者估計其零分布。回想一下,無效假設(shè)是對特定人群之間沒有顯著差異的假設(shè)的統(tǒng)計檢驗,在GWAS的情況下,是病例和對照之間的差異。任何觀察到的差異都?xì)w因于采樣或?qū)嶒炚`差。如果從遺傳位點產(chǎn)生的檢驗統(tǒng)計量值與我們從無效假設(shè)中預(yù)期的值顯著偏離,則有證據(jù)表明存在替代性組間存在顯著差異(病例組與對照組)或與數(shù)量性狀存在顯著關(guān)系。

在薈萃分析中,p值的缺點是不能提供效應(yīng)大小的總體估計,這一點已被廣泛討論。此外,無法評估數(shù)據(jù)集之間的異構(gòu)性。還使用了一個相關(guān)的統(tǒng)計數(shù)據(jù),即Z分?jǐn)?shù),它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關(guān),但使用Z值的優(yōu)勢在于,它們考慮了影響的方向,并且您能夠引入權(quán)重(例如,如果您希望某項特定研究的權(quán)重更高或更低)。單核苷酸多態(tài)性被標(biāo)記為或被視為“點擊率”,以p值為衡量標(biāo)準(zhǔn)。

如前所述,商定的全基因組顯著閾值為p<5×10-8。

這對應(yīng)于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應(yīng)使用更嚴(yán)格的閾值[9]。

?

矯正GWAS結(jié)果

常用的方法有:

  • Bonferroni correction,一般用0.05/N,或者1/N來確定P值
  • 置換檢驗
  • FDR檢驗

「第一種:Bonferroni矯正」

?

DNA微陣列和下一代測序使我們能夠檢測大量串聯(lián)基因組位點的相關(guān)性。GWAS結(jié)果中進(jìn)行比較的程度稱為多重測試問題。這是兩種誤報(l類錯誤)的可能性,如果多重比較的校正過于保守或功率不足,則會產(chǎn)生誤報(2類錯誤)。我們測試了整個基因組中數(shù)百萬個基因變體的關(guān)聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關(guān)。

問題是,當(dāng)我們進(jìn)行這么多測試時,我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強(qiáng)大關(guān)聯(lián)的危險。在GWAS中,對每個遺傳位點和表型進(jìn)行統(tǒng)計檢驗,以產(chǎn)生檢驗統(tǒng)計量和相關(guān)的p值。如果我們?nèi)?biāo)準(zhǔn)p值0.05.

即使給定的遺傳變異與我們的表型無關(guān),我們也有1/20的機(jī)會發(fā)現(xiàn)顯著的關(guān)聯(lián)。這就是所謂的類型1錯誤或假陽性。由于在GWAS中,我們實際上并行執(zhí)行了數(shù)百萬次測試,如果我們采用標(biāo)準(zhǔn)的0.05顯著性閾值,我們很可能會獲得許多誤報。為了解決這個多重測試問題,最常用和最直接的修正是Bonferroni修正。簡單地說,我們將所選的顯著性閾值(p值)除以所執(zhí)行的測試數(shù)量。如果進(jìn)行了10次測試,我們只會聲明,如果p值小于0.005,結(jié)果才是顯著的。在基因組的情況下,我們正在測試100萬個獨立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計學(xué)中獨立性的基本假設(shè)有關(guān),或者說你應(yīng)該從你的樣本中得到反映你會在人群中發(fā)現(xiàn)。

如果數(shù)據(jù)中存在最小的依賴性,而您違反了這一假設(shè),則會產(chǎn)生有偏差的結(jié)果。GWASs的一個統(tǒng)計問題是,附近基因變體的基因型之間往往存在著很強(qiáng)的相關(guān)性?;蛘邠Q句話說,實際測試100萬個遺傳變異實際上更像是測試70萬到80萬個不相關(guān)的遺傳變異。因此,在GWAS中,采用統(tǒng)計閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計顯著性的標(biāo)準(zhǔn),而p<5×10-6通常用于表示“提示性命中”

?

「第二種:置換檢驗」

?

有人認(rèn)為,Bonferroni校正過于保守,導(dǎo)致假陰性結(jié)果的比例增加,并假設(shè)每個基因變異都是獨立于其他變異進(jìn)行測試的,這是獨立的。雖然對替代方法的詳細(xì)解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測試。基于排列的測試多次對表型進(jìn)行排列,然后每次重新計算統(tǒng)計測試,以產(chǎn)生可用于假設(shè)測試的經(jīng)驗零分布。

將其視為標(biāo)簽的洗牌可能更為直觀。為了計算基于排列的p值,結(jié)果度量標(biāo)簽被隨機(jī)排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關(guān)聯(lián)。然后對所有置換數(shù)據(jù)集進(jìn)行統(tǒng)計測試。

這提供了無關(guān)聯(lián)零假設(shè)下檢驗統(tǒng)計量和p值的經(jīng)驗分布。然后將從觀察數(shù)據(jù)中獲得的原始檢驗統(tǒng)計量或p值與p值的經(jīng)驗分布進(jìn)行比較,以確定經(jīng)驗調(diào)整的p值?;谥脫Q的測試是計算密集型的,尤其是當(dāng)需要許多置換時,這對于精確計算非常小的p值是必要的[1]。

?

「第三種:FDR」

?

另一種技術(shù)是Benjamini-Hochberg錯誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號中誤報的預(yù)期比例,F(xiàn)DR值低于固定閾值,并假設(shè)SNP是獨立的。該方法將誤報的預(yù)期比例降至最低,但不具有統(tǒng)計意義。一個限制是,F(xiàn)DR方法仍然假設(shè)SNP和p值是獨立的。

而是一個“標(biāo)簽”換句話說,它們是標(biāo)記,因為附近的變體實際上可能是驅(qū)動關(guān)聯(lián)的因素。請記住,這是一項相關(guān)性研究,而不是因果關(guān)系研究,因此需要進(jìn)一步的生物學(xué)和下游工作,以了解標(biāo)記或其附近標(biāo)記的生物學(xué)功能。在第10章第10.2節(jié)中,我們提供了一個更詳細(xì)的案例研究,說明如何使用FTO(通常被稱為“脂肪基因”)實現(xiàn)這一目標(biāo)。第8章描述了我們在GWAS期間進(jìn)行的各種其他診斷檢查,包括使用森林圖和分位數(shù)-分位數(shù)(Q-Q)圖按性別或數(shù)據(jù)源檢查結(jié)果的異質(zhì)性。第9章還詳細(xì)介紹了控制人口分層的機(jī)制,這是第3章前面介紹的一個概念。

?

曼哈頓圖

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-U8GGy3fe-1656835655880)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624100503067.png)]

?

GWAS的主要結(jié)果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時的年齡特征。該圖是一個散點圖,繪制了p值(軸)的負(fù)對數(shù)(以10為底)和按染色體(x軸)位置排序的SNP關(guān)聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。

圖中所示的單核苷酸多態(tài)性是標(biāo)記,許多不會是實際的因果變異

?

二分類性狀和數(shù)量性狀

二分類一般用卡方檢驗,連續(xù)性狀用F檢驗

?

為了評估二分性特征,卡方檢驗通常用于測試病例和對照組之間分布頻率的差異。它計算病例和對照組的預(yù)期等位基因頻率,就好像SNP與表型無關(guān)一樣。然后以卡方統(tǒng)計量(X)的形式測量與該期望的偏差。假設(shè)SNP和性狀不相關(guān),則這些偏差偶然發(fā)生的概率的p值報告測試。如果p值低于定義的顯著性閾值(在控制多次測試后,稍后討論),則發(fā)現(xiàn)是顯著的。

然后,我們通常還會估計影響大小,這對于理解關(guān)聯(lián)的大小或強(qiáng)度很重要。為了計算二分性狀的效應(yīng)大小,可以使用不同的方法,如優(yōu)勢比(OR)。這是給定表型相關(guān)等位基因的表型概率除以給定非相關(guān)等位基因的表型概率。請注意,這不應(yīng)在個人層面上解釋為“個人風(fēng)險”,而是與另一個基因組相比的風(fēng)險計算。p值表示遺傳關(guān)聯(lián)是否符合我們選擇的統(tǒng)計顯著閾值,但不能用于比較遺傳關(guān)聯(lián)。這是因為p值受到樣本量、統(tǒng)計檢驗?zāi)芰σ约八芯筷P(guān)系之外的其他因素的強(qiáng)烈影響。正是出于這個原因,我們使用效應(yīng)大小來比較兩個SNP:為了正確評估關(guān)聯(lián)的強(qiáng)度和解釋,你需要知道遺傳關(guān)聯(lián)的p值和效應(yīng)大小估計。

?
?

為了評估數(shù)量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個感興趣的SNP相關(guān)聯(lián)。與之前的測試一樣,回歸模型以p值和β系數(shù)定義的效應(yīng)大小的形式產(chǎn)生顯著性度量。然后對每個單核苷酸多態(tài)性進(jìn)行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數(shù)量性狀的效應(yīng)大小,我們使用β系數(shù),其中每個風(fēng)險等位基因的出現(xiàn)對應(yīng)于數(shù)量性狀的增加,等于Beta系數(shù)。例如,假設(shè)我們將基因型AA、AG和GG的SNP與身高(厘米)相關(guān)聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數(shù)為0.5,則預(yù)測每個A等位基因?qū)€體身高的貢獻(xiàn)為0.5厘米。

效應(yīng)大小、樣本大小和統(tǒng)計能力是本分析中相互關(guān)聯(lián)的重要方面。雖然我們在這里沒有詳細(xì)探討這一點,但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測,因為重要關(guān)聯(lián)的統(tǒng)計能力很低,需要非常大的樣本量?;蛘?,在病例對照研究中,重要的不僅是樣本量,還有病例和對照的相對數(shù)量。相同數(shù)量的案例和控件是功率的最佳選擇。

?

固定效應(yīng)模型和隨機(jī)效應(yīng)模型

?

正如我們在第2章中所討論的,固定效應(yīng)模型依賴于假設(shè)每個風(fēng)險等位基因在每個數(shù)據(jù)集中的真實效應(yīng)是相同的。雖然這個假設(shè)可能很脆弱,但與隨機(jī)效應(yīng)模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒有詳細(xì)描述各種固定效應(yīng)模型,但包括反向方差加權(quán)和Cochran-Mantel-Haenszel。隨機(jī)效應(yīng)模型并不認(rèn)為所有研究在功能上都是等效的,因為它們的能力有限,所以很少用于發(fā)現(xiàn)。當(dāng)這些模型的目的是試圖將觀察到的關(guān)聯(lián)推廣到人群之外,并估計相關(guān)變體的平均效應(yīng)大小以及不同人群的平均效應(yīng)大小,以便進(jìn)行預(yù)測時,更常用這些模型。

?

權(quán)重、FDR和填充

?

當(dāng)多個數(shù)據(jù)源組合在一起時,一些研究會有更多的數(shù)據(jù),因此在薈萃分析結(jié)果中應(yīng)該比較小的研究更重要或權(quán)重更大。最常用的最佳權(quán)重是逆方差加權(quán)(每個研究根據(jù)其平方標(biāo)準(zhǔn)誤差的倒數(shù)進(jìn)行加權(quán))。錯誤發(fā)現(xiàn)率(FDR)是指對已發(fā)現(xiàn)但被視為誤報的關(guān)聯(lián)比例的估計。這里,我們計算所謂的Q值,這是聲稱關(guān)聯(lián)可能的最小FDR。正如我們的應(yīng)用章節(jié)所示,我們還測試了插補的可靠性。當(dāng)存在MAFs低的多態(tài)性時,這可能是一個問題,因為MAFs<5的填充SNP被重新排除在分析之外。

?

數(shù)據(jù)來源方差異質(zhì)

?

一些表型可能難以測量或具有很高的測量變異性。在大型GWA研究中,通常需要協(xié)調(diào)不同的數(shù)據(jù)源并構(gòu)建一個可比較的表型。因為已經(jīng)收集了大多數(shù)表型。通常很難進(jìn)行完全協(xié)調(diào)的分析。例如,2018年的一項研究考察了受教育年限的遺傳基礎(chǔ),詳細(xì)考察了表型分類的差異如何影響結(jié)果【15】。

他們得出結(jié)論,在可能的情況下,最詳細(xì)的措施是最好的。然而,在協(xié)調(diào)多個數(shù)據(jù)集時,許多GWA通常協(xié)調(diào)到最常見的分類,因此通常最不詳細(xì)的分類。

除第3章詳細(xì)討論的基于祖先的異質(zhì)性外,可能存在諸如出生隊列、國家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國等相對較小的國家,也存在不同的人口分層模式。GWAS通常會結(jié)合來自多個國家和歷史時期的數(shù)據(jù),以獲得足夠大的樣本量。隱含的假設(shè)是,遺傳學(xué)對個體的影響在時間和地點上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項研究中,我們證明了事實并非如此,并且結(jié)合這些不同的數(shù)據(jù)集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當(dāng)數(shù)據(jù)合并時,對教育和第一個孩子出生時間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個或是出生過的孩子的數(shù)量。相反,我們發(fā)現(xiàn)與身高相關(guān)的遺傳變異在不同人群中似乎是相同的。性別差異也可能導(dǎo)致異質(zhì)性,這就是為什么一些分析,如與生殖或生殖行為相關(guān),分別檢查雌性、雄性和匯總結(jié)果【6,17】。顯然,這可以擴(kuò)展到考慮其他類型的異質(zhì)性,如年齡或生命歷程影響或社會經(jīng)濟(jì)地位。

?

基因型數(shù)據(jù)質(zhì)控

?

對遺傳數(shù)據(jù)進(jìn)行分析以進(jìn)行GWAS需要了解這種情況下的統(tǒng)計推斷,但也需要進(jìn)行大量質(zhì)量檢查,稱為質(zhì)量控制(QC)。QC是處理遺傳數(shù)據(jù)的核心方面之一。我們在第8章中討論了與GWASs相關(guān)的OC(見第8.5節(jié))。QC對于可靠的GWAS結(jié)果是必要的,因為原始基因型數(shù)據(jù)本身就存在問題(見方框4.2)。例如,您可能有很大比例的個體缺失數(shù)據(jù),或者個體中缺失基因型的比率很高,或者其他與低樣本質(zhì)量相關(guān)的問題。正如我們在第8章中更詳細(xì)地概述的那樣,QC可分為個體的質(zhì)控和SNP的質(zhì)控

個體水平QC經(jīng)常檢查(1)DNA數(shù)據(jù)質(zhì)量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復(fù)或相關(guān)個體,以及,(5)祖先差異。第二組質(zhì)量控制分析側(cè)重于基因型的數(shù)據(jù)質(zhì)量或我們在第8章中根據(jù)標(biāo)記OC討論的內(nèi)容。在這里,我們采取幾個步驟來消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補SNP的情況下,排除插補質(zhì)量低的變異研究。

?

NHGRI-EBI GWAS目錄

什么是NHGRI-EBI GWAS目錄

?

該領(lǐng)域的新手通常想知道哪些表型已經(jīng)被研究過,以及已經(jīng)鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡稱目錄),包括所有已發(fā)布GWAS的數(shù)據(jù),位于https://www./gwas/.它是由美國生產(chǎn)的。

國家人類基因組研究所(NHGRI)[19]與歐洲生物信息學(xué)研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴(yán)格的標(biāo)準(zhǔn)(見www./gwas/docs/methods),包括基于陣列的gwas和對100000多個全基因組覆蓋的SNP的分析。目錄中報告的SNP性狀關(guān)聯(lián)是那些p值至少小于1×10-5的性狀關(guān)聯(lián)。目錄研究人員通過自動PubMed搜索找到研究,然后手動整理它們以進(jìn)行評估和納入。所有GWAS性狀都映射到實驗因子本體(EFO)[21]中的術(shù)語,這是一個用于分子生物學(xué)的變量本體,包括疾病、解剖學(xué)、細(xì)胞類型、細(xì)胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關(guān)聯(lián)的結(jié)果和可視化結(jié)果。在這個例子中,潛臺詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說明了根據(jù)所有(人類)染色體的基因組位置報告的遺傳關(guān)聯(lián)。每一條線都鏈接到一個與p值閾值為p的性狀相關(guān)的基因座≤5×10-8,每個圓圈都有顏色編碼,以表示一個獨特的特征。他們根據(jù)17個主要特征類別進(jìn)行分組,如消化系統(tǒng)疾病、血液學(xué)測量、癌癥或藥物反應(yīng)??梢酝ㄟ^出版物、變體、性狀或基因搜索目錄,這些信息會隨著新出版物不斷更新。

?

GWAS歷史介紹

?

以下是幾篇關(guān)于GWASs的優(yōu)秀敘述性評論,描述了基本原理和科學(xué)結(jié)論,并強(qiáng)調(diào)了關(guān)鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個數(shù)據(jù)源,該論文被譽為外交方面的杰作【23】。

如前所述,要進(jìn)行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計能力[25]。這意味著大多數(shù)GWASs發(fā)布到數(shù)據(jù)通常將來自多個數(shù)據(jù)源的單獨分析的匯總結(jié)果匯集到元分析中,以獲得盡可能大的樣本量。過去幾十年來,技術(shù)、方法、理論、計算能力和資金的進(jìn)步極大地改變了GWAS的格局。

在我們之前的工作中,Mills和Rahal(2019)[3]對2005年至2018年10月的13年間的所有GWASs進(jìn)行了系統(tǒng)和計算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數(shù)據(jù)庫。重要的是要注意,除了創(chuàng)建此aliving數(shù)據(jù)庫之外,我們還包括了在公開的GitHub站點上使用的所有代碼(https://github.com/crahal/GWASReview).

換句話說,隨著每個目錄的更新,我們的數(shù)據(jù)庫以及這里描述的數(shù)字和數(shù)字將隨著時間的推移自動更新。如圖4.4所示,隨著時間的推移,發(fā)布的GWASs數(shù)量、樣本量、關(guān)聯(lián)數(shù)量和研究的疾病都有顯著增長。

在上面的面板中,我們看到隨著時間的推移,發(fā)表的研究數(shù)量大幅增加(根據(jù)樣本大小劃分)。在這里,隨著時間的推移,我們看到樣本量的驚人增長,在2018年末和2019年初發(fā)布的樣本有時包含100多萬個個體。這些較大的研究主要歸功于英國生物銀行(約50萬個人)[26、27],以及參與這項研究的23andMe等大型直接面向消費者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關(guān)聯(lián)數(shù)量與GWASs中使用的參與者數(shù)量之間的強(qiáng)正相關(guān)關(guān)系。右下角的面板顯示了獨特特征數(shù)量的增長以及發(fā)布GWASs的期刊數(shù)量的增長。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項研究,涵蓋了5849個獨特的研究材料(論文中歸因于性狀的標(biāo)識符),涉及3508個獨特的性狀,映射到2532個EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費或神經(jīng)質(zhì)。每次研究的平均命中數(shù)為15.3,最強(qiáng)風(fēng)險等位基因的平均p值為1.3729×10-6。55歲左右?報告的關(guān)聯(lián)符合p的標(biāo)準(zhǔn)閾值≤5×10-8.

?

GWAS多樣性的確定

?

或者是該領(lǐng)域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們在前幾章中所討論的,受試者祖先多樣性的差異與人口分層等技術(shù)問題有關(guān)[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數(shù)據(jù)的社會濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數(shù)量和性狀隨著時間的推移確實呈爆炸式增長,但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復(fù)制階段進(jìn)行檢查。這意味著這些非歐洲人群經(jīng)常被用來測試歐洲祖先群體會在其他祖先群體中復(fù)制,因此通常不會作為這些群體中基本基因發(fā)現(xiàn)的基礎(chǔ)。

圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達(dá)95%的受試者到2017年的88%不等。特別是自201l年以來,對亞洲人群的研究一直在強(qiáng)勁而穩(wěn)定地增長(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國和韓國人口。隨著時間的推移,對非洲人口的研究最少,人們希望非洲基因組變異項目和其他促進(jìn)多樣性的項目將繼續(xù)增加和改變這些趨勢。

與GWA研究相關(guān)的多樣性幾乎只討論了與祖先相關(guān)的多樣性,但我們在GWA審查中還發(fā)現(xiàn),地理、環(huán)境、時間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來自僅居住在三個國家(美國、英國和冰島)的參與者。正如我們在本章和其他地方所闡述的,需要做更多的工作來了解環(huán)境暴露和地理集中如何影響結(jié)果。例如,在美國、墨西哥和英國,有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國家截然不同如日本、韓國、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊列、歷史時期和生命歷程階段缺乏時間和人口多樣性。GWASs中最常用的數(shù)據(jù)通常是年齡過大、社會經(jīng)濟(jì)地位較高、女性人數(shù)較多的數(shù)據(jù),而且通常還包括“健康志愿者”的選擇,如英國生物銀行[35]。

?

結(jié)論和未來的方向

?

自2005年第一次GWAS以來,這一研究領(lǐng)域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領(lǐng)域是如何迅速發(fā)展的,這不僅是因為研究的研究、疾病和關(guān)聯(lián)的數(shù)量之多,還因為樣本量的不斷擴(kuò)大。截至2019年,許多大型研究的綜合樣本超過100萬例。然而,我們注意到,這種增長甚至沒有跨越不同的祖先或地理群體,大多數(shù)研究仍在歐洲祖先群體中進(jìn)行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進(jìn)一步增加了多樣性。一個新興而令人興奮的研究領(lǐng)域?qū)⑹欠菤W洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應(yīng)該注意到,組建這些大型財團(tuán)也可能是過去的事情。

隨著英國生物銀行(UK Biobank)等大型數(shù)據(jù)集和23andMe等直接面向消費者的公司數(shù)量的不斷增加,收集許多小型數(shù)據(jù)隊列以生成大型樣本的情況似乎越來越不常見。

讀者還將對GWA研究所依據(jù)的方法學(xué)有一個基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經(jīng)初步了解了這種類型的研究是如何進(jìn)行的,GWASs中統(tǒng)計推斷的意義,以及為什么以及如何需要更正多次測試。

本書第8章還介紹了個人和遺傳標(biāo)記水平上質(zhì)量控制(QC)的重要性以及實際應(yīng)用。

我們對GWAS的簡要歷史表明,這是一個快速發(fā)展的研究領(lǐng)域。

正如我們在關(guān)于倫理問題和未來方向的第14章和第15章中所闡述的,GWAS也并非完全沒有爭議。有人擔(dān)心,長長的優(yōu)先“熱門”名單并沒有帶來一些人承諾的個性化藥物、新療法和風(fēng)險預(yù)測工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學(xué)后續(xù)研究已經(jīng)找到了與已知生物途徑相關(guān)的變體,但也找到了其他未被臨床靶向的變體。

越來越多的研究不僅在研究常見的變異,也在研究罕見的變異。測序數(shù)據(jù)的進(jìn)一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領(lǐng)域和新方法。分析和合成GWAS數(shù)據(jù)的新方法也出現(xiàn)了,例如復(fù)雜性狀遺傳學(xué)虛擬實驗室為GWAS后分析所做的工作(https:///updates).

?

練習(xí):

分割線


大家好,我是鄧飛,一個持續(xù)分享的數(shù)據(jù)分析師,這里我將自己公眾號的干貨內(nèi)容挑重點羅列一下,方便大家閱讀和使用。

1,快來領(lǐng)取 | 飛哥的GWAS分析教程

2,飛哥匯總 | 入門數(shù)據(jù)分析資源推薦

3,數(shù)量遺傳學(xué),分享幾本書的電子版

4,學(xué)習(xí)R語言這幾本電子書就夠了!

5,書籍及配套代碼領(lǐng)取--統(tǒng)計遺傳分析導(dǎo)論

6,統(tǒng)計遺傳學(xué):第一章,基因組基礎(chǔ)概念

7,統(tǒng)計遺傳學(xué):第二章,統(tǒng)計分析概念

8,統(tǒng)計遺傳學(xué):第三章,群體遺傳

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多