方法學(xué)|共定位分析(Colocalization analysis)

昵稱69125444 2023-09-26 發(fā)布于廣西

展開(kāi)全文

https://chr1swallace./coloc/index.html

01.共定位分析的目的

共定位分析通常用于鑒定兩個(gè)表型是否由某一區(qū)域的同一個(gè)causal variant驅(qū)動(dòng)，從而加強(qiáng)兩個(gè)表型之前的關(guān)聯(lián)證據(jù)。這些表型可以是分子表型(如蛋白質(zhì)，mRNA等)，也可以是常見(jiàn)的連續(xù)型性狀(如血壓，BMI等)或二分類疾病(如糖尿病，AD等)。

02.共定位分析的假設(shè)

在給定區(qū)域中，共定位分析的前提假定是兩個(gè)性狀中的每一個(gè)性狀在該區(qū)域最多有1個(gè)真正的causal variant，由此產(chǎn)生了五個(gè)互斥的模型假定(H0-H4)，這五個(gè)模型假定是前提假定下的所有可能的關(guān)聯(lián)情況

共定位分析的過(guò)程中，會(huì)為上面每個(gè)模型產(chǎn)生后驗(yàn)概率(PP.H0-PP.H4)，五個(gè)模型后驗(yàn)概率總和為1，當(dāng)某一模型的后驗(yàn)概率越高，說(shuō)明對(duì)應(yīng)的模型假定在給定數(shù)據(jù)的情況下更有可能成立，當(dāng)然在一般的分析中，我們更希望H4假定成立，因?yàn)镠4模型假定表示兩個(gè)性狀由同一個(gè)causal variant驅(qū)動(dòng)。一般當(dāng)PP.H4>0.75時(shí)(這個(gè)值可視情況調(diào)整)，我們認(rèn)為H4模型假定成立。

H4模型假定成立，說(shuō)明該區(qū)域內(nèi)存在一個(gè)variant是兩個(gè)性狀共享的，但具體是哪個(gè)variant并不清楚，所以共定位分析除了給一個(gè)區(qū)域的五個(gè)模型假定計(jì)算后驗(yàn)概率外，它也對(duì)區(qū)域內(nèi)的每個(gè)SNP計(jì)算SNP的后驗(yàn)概率(SNP.PP.H4)，以評(píng)估哪個(gè)variant是最有可能的causal variant。

03.共定位分析的數(shù)據(jù)要求

For summary data（eQTL，pQTL，GWAS數(shù)據(jù)等）:

二分類表型需要SNP，CHR，BP，A1，A2，BETA，VAR

連續(xù)型表型需要SNP，CHR，BP，A1，A2，BETA，VAR，MAF，N

注意：

1.共定位分析是在一個(gè)基因組區(qū)域進(jìn)行，所以至少一個(gè)數(shù)據(jù)里有CHR，BP，方便提取區(qū)域的SNP

2.共定位需要的是方差，而不是標(biāo)準(zhǔn)差，方差等于SE的平方，VAR = SE^2

3.共定位分析要求不能有重復(fù)SNP，并且SNP在兩個(gè)數(shù)據(jù)中不能有缺失值

4.數(shù)據(jù)最好對(duì)齊效應(yīng)等位基因

關(guān)于區(qū)域的選擇：一般這個(gè)區(qū)域在1MB左右即可，這樣保證區(qū)域內(nèi)有幾千個(gè)SNP可以用來(lái)計(jì)算，這個(gè)區(qū)域的選擇一般是包含該區(qū)域在兩個(gè)性狀中的顯著信號(hào)即可，如果是QTL數(shù)據(jù)和GWAS數(shù)據(jù)進(jìn)行共定位，一般這個(gè)區(qū)域由QTL的cis-region決定，如果是對(duì)兩個(gè)性狀的GWAS數(shù)據(jù)進(jìn)行共定位，一般是根據(jù)對(duì)GWAS數(shù)據(jù)clump后的某一區(qū)域的top SNP加減500kb決定。

04.共定位分析的代碼演示

##################兩個(gè)二分類表型#注意，此代碼僅為示例#################rm(list=ls())library(dplyr)library(coloc)setwd('E:/project/')#讀取數(shù)據(jù)data1 = data.table::fread('./1.DATA/AD',sep = '\t',header=T)data2 = data.table::fread('./1.DATA/PD',sep = '\t',header=T)

#提取一個(gè)區(qū)域data1 = data1 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)data2 = data2 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)

#合并并去重data = merge(data1,data2,by='SNP')data = data[!duplicated(data$SNP),]

#對(duì)齊效應(yīng)等位基因data = data %>% filter((A1.x==A1.y&A2.x==A2.y)|(A1.x==A2.y&A2.x==A1.y)) data = data %>% mutate(BETA.y = ifelse(A1.x==A1.y,BETA.y,-BETA.y))

#計(jì)算方差VARdata$VAR.x = data$SE.x^2data$VAR.y = data$SE.y^2data = data[data$VAR.x!=0 & data$VAR.y!=0 ,]

#拆分整理data1 = data[,c('BETA.x','VAR.x','SNP')]data2 = data[,c('BETA.y','VAR.y','SNP')]colnames(data1)=c('beta','varbeta','snp')colnames(data2)=c('beta','varbeta','snp')data1 = as.list(data1)data2 = as.list(data2)

#聲明表型類型,二分類表型'cc',連續(xù)型表型'quant'data1$type = 'cc'data2$type = 'cc'

#coloc分析，p1,p2,p12為先驗(yàn)概率參數(shù)，下面的值是默認(rèn)參數(shù)res = coloc.abf(data1,data2,p1=1e-4,p2=1e-4,p12=1e-5)

##################一個(gè)連續(xù)一個(gè)二分類#注意，此代碼僅為示例#################rm(list=ls())library(dplyr)library(coloc)setwd('E:/project/')#讀取數(shù)據(jù)data1 = data.table::fread('./1.DATA/AD',sep = '\t',header=T)data2 = data.table::fread('./1.DATA/BMI',sep = '\t',header=T)
#提取一個(gè)區(qū)域data1 = data1 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)data2 = data2 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)
#合并并去重data = merge(data1,data2,by='SNP')data = data[!duplicated(data$SNP),]
#對(duì)齊效應(yīng)等位基因data = data %>% filter((A1.x==A1.y&A2.x==A2.y)|(A1.x==A2.y&A2.x==A1.y)) data = data %>% mutate(BETA.y = ifelse(A1.x==A1.y,BETA.y,-BETA.y))
#計(jì)算方差VARdata$VAR.x = data$SE.x^2data$VAR.y = data$SE.y^2data = data[data$VAR.x!=0 & data$VAR.y!=0 ,]
#拆分整理data1 = data[,c('BETA.x','VAR.x','SNP')]data2 = data[,c('BETA.y','VAR.y','SNP','MAF','N')]colnames(data1)=c('beta','varbeta','snp')colnames(data2)=c('beta','varbeta','snp','MAF','N')data1 = as.list(data1)data2 = as.list(data2)
#聲明表型類型,二分類表型'cc',連續(xù)型表型'quant'data1$type = 'cc'data2$type = 'quant'
#coloc分析，p1,p2,p12為先驗(yàn)概率參數(shù)，下面的值是默認(rèn)參數(shù)res = coloc.abf(data1,data2,p1=1e-4,p2=1e-4,p12=1e-5)

04.共定位分析的結(jié)果

上面代碼中的res變量保存了共定位分析的結(jié)果

res$summary保存了該區(qū)域的五個(gè)模型的后驗(yàn)概率，PP.H4.abf>0.75，認(rèn)為兩個(gè)性狀在該區(qū)域存在共定位的證據(jù)，即該區(qū)域存在共享的causal variant。

res$results保存了該區(qū)域每個(gè)SNP的SNP.PP.H4，區(qū)域中SNP.PP.H4最大的SNP是最有可能共享的那個(gè)causal variant。我們可以看到rs4603的SNP.PP.H4=0.906，說(shuō)明rs4603是最有可能的causal variant。

05.該算法的缺陷及擴(kuò)展

首先，coloc假定區(qū)域里一個(gè)性狀的causal variant最多有一個(gè)，這并不在任何情況下都成立，不過(guò)，coloc最近加入的SuSiE算法放寬了這一假定，SuSiE適用于區(qū)域中存在多個(gè)causal variants的情況。
其次，coloc只能針對(duì)兩個(gè)性狀，而不是多個(gè)性狀，不過(guò)，想同時(shí)對(duì)多個(gè)性狀做共定位分析，可以考慮其他算法，如HyprColoc,moloc等。

SuSiE:https://chr1swallace./coloc/articles/a06_SuSiE.html

HyprColoc:https://github.com/cnfoley/hyprcoloc

moloc:https://github.com/clagiamba/moloc

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱69125444 > 《科研》

舉報(bào)/認(rèn)領(lǐng)