小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

方法學(xué)|共定位分析(Colocalization analysis)

 昵稱69125444 2023-09-26 發(fā)布于廣西

https://chr1swallace./coloc/index.html

01.共定位分析的目的

共定位分析通常用于鑒定兩個(gè)表型是否由某一區(qū)域的同一個(gè)causal variant驅(qū)動(dòng),從而加強(qiáng)兩個(gè)表型之前的關(guān)聯(lián)證據(jù)。這些表型可以是分子表型(如蛋白質(zhì),mRNA等),也可以是常見(jiàn)的連續(xù)型性狀(如血壓,BMI等)或二分類疾病(如糖尿病,AD等)。

02.共定位分析的假設(shè)

在給定區(qū)域中,共定位分析的前提假定是兩個(gè)性狀中的每一個(gè)性狀在該區(qū)域最多有1個(gè)真正的causal variant,由此產(chǎn)生了五個(gè)互斥的模型假定(H0-H4),這五個(gè)模型假定是前提假定下的所有可能的關(guān)聯(lián)情況

圖片

共定位分析的過(guò)程中,會(huì)為上面每個(gè)模型產(chǎn)生后驗(yàn)概率(PP.H0-PP.H4),五個(gè)模型后驗(yàn)概率總和為1,當(dāng)某一模型的后驗(yàn)概率越高,說(shuō)明對(duì)應(yīng)的模型假定在給定數(shù)據(jù)的情況下更有可能成立,當(dāng)然在一般的分析中,我們更希望H4假定成立,因?yàn)镠4模型假定表示兩個(gè)性狀由同一個(gè)causal variant驅(qū)動(dòng)。一般當(dāng)PP.H4>0.75時(shí)(這個(gè)值可視情況調(diào)整),我們認(rèn)為H4模型假定成立。

H4模型假定成立,說(shuō)明該區(qū)域內(nèi)存在一個(gè)variant是兩個(gè)性狀共享的,但具體是哪個(gè)variant并不清楚,所以共定位分析除了給一個(gè)區(qū)域的五個(gè)模型假定計(jì)算后驗(yàn)概率外,它也對(duì)區(qū)域內(nèi)的每個(gè)SNP計(jì)算SNP的后驗(yàn)概率(SNP.PP.H4),以評(píng)估哪個(gè)variant是最有可能的causal variant。

03.共定位分析的數(shù)據(jù)要求

For summary data(eQTL,pQTL,GWAS數(shù)據(jù)等):

二分類表型需要SNP,CHR,BP,A1,A2,BETA,VAR

連續(xù)型表型需要SNP,CHR,BP,A1,A2,BETA,VAR,MAF,N

注意:

1.共定位分析是在一個(gè)基因組區(qū)域進(jìn)行,所以至少一個(gè)數(shù)據(jù)里有CHR,BP,方便提取區(qū)域的SNP

2.共定位需要的是方差,而不是標(biāo)準(zhǔn)差,方差等于SE的平方,VAR = SE^2

3.共定位分析要求不能有重復(fù)SNP,并且SNP在兩個(gè)數(shù)據(jù)中不能有缺失值

4.數(shù)據(jù)最好對(duì)齊效應(yīng)等位基因

關(guān)于區(qū)域的選擇:一般這個(gè)區(qū)域在1MB左右即可,這樣保證區(qū)域內(nèi)有幾千個(gè)SNP可以用來(lái)計(jì)算,這個(gè)區(qū)域的選擇一般是包含該區(qū)域在兩個(gè)性狀中的顯著信號(hào)即可,如果是QTL數(shù)據(jù)和GWAS數(shù)據(jù)進(jìn)行共定位,一般這個(gè)區(qū)域由QTL的cis-region決定,如果是對(duì)兩個(gè)性狀的GWAS數(shù)據(jù)進(jìn)行共定位,一般是根據(jù)對(duì)GWAS數(shù)據(jù)clump后的某一區(qū)域的top SNP加減500kb決定。

04.共定位分析的代碼演示












































##################兩個(gè)二分類表型#注意,此代碼僅為示例#################rm(list=ls())library(dplyr)library(coloc)setwd('E:/project/')#讀取數(shù)據(jù)data1 = data.table::fread('./1.DATA/AD',sep = '\t',header=T)data2 = data.table::fread('./1.DATA/PD',sep = '\t',header=T)
#提取一個(gè)區(qū)域data1 = data1 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)data2 = data2 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)
#合并并去重data = merge(data1,data2,by='SNP')data = data[!duplicated(data$SNP),]
#對(duì)齊效應(yīng)等位基因data = data %>% filter((A1.x==A1.y&A2.x==A2.y)|(A1.x==A2.y&A2.x==A1.y)) data = data %>% mutate(BETA.y = ifelse(A1.x==A1.y,BETA.y,-BETA.y))
#計(jì)算方差VARdata$VAR.x = data$SE.x^2data$VAR.y = data$SE.y^2data = data[data$VAR.x!=0 & data$VAR.y!=0 ,]
#拆分整理data1 = data[,c('BETA.x','VAR.x','SNP')]data2 = data[,c('BETA.y','VAR.y','SNP')]colnames(data1)=c('beta','varbeta','snp')colnames(data2)=c('beta','varbeta','snp')data1 = as.list(data1)data2 = as.list(data2)
#聲明表型類型,二分類表型'cc',連續(xù)型表型'quant'data1$type = 'cc'data2$type = 'cc'
#coloc分析,p1,p2,p12為先驗(yàn)概率參數(shù),下面的值是默認(rèn)參數(shù)res = coloc.abf(data1,data2,p1=1e-4,p2=1e-4,p12=1e-5)











































##################一個(gè)連續(xù)一個(gè)二分類#注意,此代碼僅為示例#################rm(list=ls())library(dplyr)library(coloc)setwd('E:/project/')#讀取數(shù)據(jù)data1 = data.table::fread('./1.DATA/AD',sep = '\t',header=T)data2 = data.table::fread('./1.DATA/BMI',sep = '\t',header=T)
#提取一個(gè)區(qū)域data1 = data1 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)data2 = data2 %>% filter(CHR==9,BP >= 4981602-500000,BP <= 4981602 500000)
#合并并去重data = merge(data1,data2,by='SNP')data = data[!duplicated(data$SNP),]
#對(duì)齊效應(yīng)等位基因data = data %>% filter((A1.x==A1.y&A2.x==A2.y)|(A1.x==A2.y&A2.x==A1.y)) data = data %>% mutate(BETA.y = ifelse(A1.x==A1.y,BETA.y,-BETA.y))
#計(jì)算方差VARdata$VAR.x = data$SE.x^2data$VAR.y = data$SE.y^2data = data[data$VAR.x!=0 & data$VAR.y!=0 ,]
#拆分整理data1 = data[,c('BETA.x','VAR.x','SNP')]data2 = data[,c('BETA.y','VAR.y','SNP','MAF','N')]colnames(data1)=c('beta','varbeta','snp')colnames(data2)=c('beta','varbeta','snp','MAF','N')data1 = as.list(data1)data2 = as.list(data2)
#聲明表型類型,二分類表型'cc',連續(xù)型表型'quant'data1$type = 'cc'data2$type = 'quant'
#coloc分析,p1,p2,p12為先驗(yàn)概率參數(shù),下面的值是默認(rèn)參數(shù)res = coloc.abf(data1,data2,p1=1e-4,p2=1e-4,p12=1e-5)

04.共定位分析的結(jié)果

上面代碼中的res變量保存了共定位分析的結(jié)果

res$summary保存了該區(qū)域的五個(gè)模型的后驗(yàn)概率,PP.H4.abf>0.75,認(rèn)為兩個(gè)性狀在該區(qū)域存在共定位的證據(jù),即該區(qū)域存在共享的causal variant。

圖片

res$results保存了該區(qū)域每個(gè)SNP的SNP.PP.H4,區(qū)域中SNP.PP.H4最大的SNP是最有可能共享的那個(gè)causal variant。我們可以看到rs4603的SNP.PP.H4=0.906,說(shuō)明rs4603是最有可能的causal variant。

圖片

05.該算法的缺陷及擴(kuò)展

  • 首先,coloc假定區(qū)域里一個(gè)性狀的causal variant最多有一個(gè),這并不在任何情況下都成立,不過(guò),coloc最近加入的SuSiE算法放寬了這一假定,SuSiE適用于區(qū)域中存在多個(gè)causal variants的情況。
  • 其次,coloc只能針對(duì)兩個(gè)性狀,而不是多個(gè)性狀,不過(guò),想同時(shí)對(duì)多個(gè)性狀做共定位分析,可以考慮其他算法,如HyprColoc,moloc等。
SuSiE:https://chr1swallace./coloc/articles/a06_SuSiE.html
HyprColoc:https://github.com/cnfoley/hyprcoloc
moloc:https://github.com/clagiamba/moloc

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多