|
大家好,我是鄧飛。 有小伙伴在群里面問,GWAS分析要不要進(jìn)行LD質(zhì)控,我覺得問題很好,這里介紹一下。 1. 什么是連鎖不平衡(LD)介紹之前連鎖不平衡(LD)之前,先介紹連鎖平衡(LE)。連鎖平衡 (Linkage Equilibrium, LE),在基因組上,如果兩個(gè)不同基因座上的等位基因是隨機(jī)組合在一起的,那么它們就處于連鎖平衡狀態(tài)。這意味著,知道一個(gè)基因座上的等位基因類型,并不能預(yù)測另一個(gè)基因座上的等位基因類型。
LD 指基因組中不同位點(diǎn)的等位基因非隨機(jī)共現(xiàn)的現(xiàn)象(即某些位點(diǎn)的基因型總是 “捆綁出現(xiàn)”)。連鎖不平衡是指不同基因位點(diǎn)上的等位基因之間存在非隨機(jī)關(guān)聯(lián)—— 即某兩個(gè)等位基因同時(shí)出現(xiàn)的頻率,顯著高于或低于它們隨機(jī)組合的預(yù)期頻率。
所以,摩爾根的遺傳定律是解釋連鎖不平衡產(chǎn)生和維持的遺傳學(xué)基礎(chǔ)。那么連鎖不平衡產(chǎn)生的因素有哪些呢? 2. 為什么會(huì)產(chǎn)生連鎖不平衡(LD)連鎖不平衡的產(chǎn)生和維持受多重因素的影響,最重要的就是物理距離,兩個(gè)基因座距離很近,那么在減數(shù)分裂時(shí),他們之間的重組就很少,發(fā)生的概率很低,作為一個(gè)整體(單倍型)遺傳給下一代的概率就很大,所以LD就很高。 其它因素也會(huì)導(dǎo)致群體高的LD,比如受選擇的群體,比如育種群體,某些有利的突變會(huì)在群體中迅速擴(kuò)散,導(dǎo)致群體內(nèi)的這個(gè)區(qū)域的LD升高,這也是野生群體LD衰減很快,而馴化改良群體LD衰減很慢的原因。LD衰減圖繪制--PopLDdecay 3 admixture分析要不要進(jìn)行LD質(zhì)控?Admixtue說明文檔中介紹:去掉LD高的SNP不會(huì)對(duì)結(jié)果有影響,因?yàn)橛?jì)算不依賴于LD,會(huì)大大提升運(yùn)行速度。關(guān)于Admixture,可以參考這篇博客:Admixture使用說明文檔cookbook ![]() 如果我們使用plink進(jìn)行LD質(zhì)控,可以用下面的代碼,標(biāo)準(zhǔn)默認(rèn)是0.1,有時(shí)候也可以選擇0.2或者0.05,根據(jù)自己的數(shù)據(jù)量確定。 ![]() LD質(zhì)控,是為了降低數(shù)據(jù)量,特別是admixture進(jìn)行群體結(jié)構(gòu)分析時(shí),會(huì)大大降低運(yùn)行的時(shí)間,當(dāng)然,有多線程和大內(nèi)存服務(wù)器的小伙伴,完全可以用所有的位點(diǎn),畢竟成年人的世界,兩者都要才是普遍的,都跑一下,看看結(jié)果是否有差異。個(gè)人經(jīng)驗(yàn),無論是LD質(zhì)控不質(zhì)控,只要剩下有一定的數(shù)據(jù)量,結(jié)果變化不大。 ==答案:群體結(jié)構(gòu)admixture分析時(shí),建議進(jìn)行LD質(zhì)控,推薦質(zhì)控標(biāo)準(zhǔn)是 50 10 0.2。== 4. GWAS分析是否要進(jìn)行LD質(zhì)控?GWAS分析中,依據(jù)就是至少有一個(gè)SNP與所控制的基因處于連鎖不平衡狀態(tài)(LD),那么,如果這個(gè)基因?qū)е铝吮硇妥兓?,那么我們就可以通過它所連鎖的SNP檢測到顯著性變化。如果這個(gè)基因附近的SNP都與基因存在LD,那么可以檢測到聚集的SNP顯著性為點(diǎn),顯著性位點(diǎn)成簇出現(xiàn),類似下圖:真實(shí)的顯著位點(diǎn)應(yīng)該是在基因兩側(cè)分布的,有一個(gè)上升和下降的趨勢。GWAS分析中QQ圖和曼哈頓圖如何看? ![]() 上圖中,顯著性位點(diǎn),成簇出現(xiàn)的位點(diǎn)之間,肯定存在LD,如果通過LD過濾掉了,只剩下1個(gè),就會(huì)呈現(xiàn)這種圖:我們認(rèn)為這可能是假陽性,因?yàn)橹車鷽]有位點(diǎn)佐證它。 ![]() 所以,GWAS分析時(shí),不要對(duì)LD進(jìn)行質(zhì)控,起碼不要嚴(yán)格的質(zhì)控。 5. 反過來想我們?cè)谠u(píng)價(jià)GWAS項(xiàng)目位點(diǎn)數(shù)是否夠用時(shí),通過LD衰減距離和基因組的大小來判斷(做GWAS分析的群體,最少需要多少SNP?),具體公式: ![]() 現(xiàn)在求出LD衰減距離為1Mb,豬的基因組大小為2458Mb,那么GWAS所需要標(biāo)記量是多少? 計(jì)算方法:1,因?yàn)閱挝欢际荕b,所以可以直接計(jì)算 2,2458Mb/1Mb = 2458,注意這個(gè)單位是Mb,所以,該群體做GWAS至少需要2458個(gè)SNP標(biāo)記。 |
|
|