|
美國(guó)明尼蘇達(dá)大學(xué)生物統(tǒng)計(jì)系博士后薛浩然、統(tǒng)計(jì)系沈曉彤教授、生物統(tǒng)計(jì)系潘偉教授在The American Journal of Human Genetics雜志上發(fā)表論文——“Constrained maximum likelihood-based Mendelian randomization robust to both correlated and uncorrelated pleiotropic effects”。 該研究提出了一種新的孟德?tīng)栯S機(jī)化方法來(lái)推斷性狀及疾病之間的因果關(guān)系,該方法對(duì)于基因多效效應(yīng)具有穩(wěn)健的表現(xiàn)。 不同事件和變量之間的相關(guān)關(guān)系在我們的生活以及自然環(huán)境中廣泛的存在。例如某一國(guó)家不同城市的人均用電量同當(dāng)?shù)厝司砀叱收嚓P(guān),大自然中氣溫同海拔高度呈負(fù)相關(guān)。但由于普遍存在的未被觀(guān)測(cè)的混雜因素(Confounder),我們并不能由觀(guān)測(cè)到的相關(guān)性推導(dǎo)出因果關(guān)系(Causality)。比如在第一個(gè)例子中一個(gè)可能的混雜因素是經(jīng)濟(jì)發(fā)展水平,經(jīng)濟(jì)發(fā)展水平高的地方電器使用多因此用電量高,并且飲食營(yíng)養(yǎng)豐富均衡因此人均身高也高,而非用電量高導(dǎo)致人們身高增長(zhǎng)。 因果推斷(Causal Inference)可以幫助人們更加深刻地理解相關(guān)關(guān)系背后的因果關(guān)系,并幫助人們做出更好的決策。特別是在生物和醫(yī)學(xué)中,因果關(guān)系具有重要的意義。如果我們可以判斷性狀以及疾病之間是否存在因果關(guān)系,我們就可以據(jù)此發(fā)展治療疾病的方法,并對(duì)人們?nèi)绾谓】瞪钐峁└訙?zhǔn)確的指導(dǎo)。 工具變量(Instrumental Variable)方法是一類(lèi)重要的研究因果關(guān)系的方法。假設(shè)我們想要研究變量X對(duì)變量Y的因果效應(yīng),并用U代表所有未被觀(guān)測(cè)到的混雜因素,那么一個(gè)有效的工具變量IV需要滿(mǎn)足三個(gè)條件:(A1)IV與X相關(guān),(A2)IV與Y無(wú)直接聯(lián)系,(A3)IV與U獨(dú)立。一個(gè)滿(mǎn)足條件的工具變量可以被看作是X的替代,并且這個(gè)替代不與U和Y直接發(fā)生聯(lián)系,因此通過(guò)判斷IV和Y是否有關(guān)聯(lián)可以推斷出X與Y是否有因果關(guān)系。 孟德?tīng)栯S機(jī)化方法(Mendelian Randomization,MR)是一類(lèi)利用遺傳變異,多為單核苷酸多態(tài)性,作為工具變量(Instrumental Variable)來(lái)研究不同性狀及疾病間因果關(guān)系的方法。然而從上述的有效工具變量的三個(gè)假設(shè)中可以看出,找到一個(gè)有效的SNP作為工具變量在大部分情況下是困難的,因?yàn)檫@意味著我們要完全清楚該SNP的作用機(jī)制。并且由于廣泛存在的基因多效效應(yīng),部分SNP有可能與U、Y之間存在直接的聯(lián)系,因此并非有效的工具變量。一個(gè)SNP如果不滿(mǎn)足A2則稱(chēng)之為有不相關(guān)的多效效應(yīng),如果不滿(mǎn)足A3則稱(chēng)之為有相關(guān)的多效效應(yīng)。 構(gòu)建一種對(duì)于兩種多效效應(yīng)都有穩(wěn)健表現(xiàn)的方法可以幫助研究人員得到更加可靠的結(jié)論?;诩s束最大似然(Constrained Maximum Likelihood),模型平均(Model Average),以及貝葉斯信息量(BIC),研究人員提出了一種新的方法cML-MA-BIC來(lái)解決這個(gè)問(wèn)題。 當(dāng)一組SNP被用作工具變量時(shí),研究人員構(gòu)造一組模型并在每一個(gè)模型中利用約束最大似然選擇有效的SNP,然后基于BIC產(chǎn)生不同模型的權(quán)重來(lái)得到加權(quán)平均模型,最終利用這個(gè)模型來(lái)推斷X和Y之間的因果關(guān)系。并且研究人員提出了利用數(shù)據(jù)擾動(dòng)(Data Perturbation)來(lái)更好的衡量估計(jì)誤差以作為對(duì)變量選擇不穩(wěn)定的補(bǔ)充,以及提出兩種擬合優(yōu)度檢驗(yàn)(Goodness-of-fit Test)來(lái)衡量變量選擇的準(zhǔn)確程度。 通過(guò)大量的模擬實(shí)驗(yàn),研究人員比較了cML-MA-BIC以及其他被廣泛運(yùn)用的MR方法,實(shí)驗(yàn)結(jié)果證實(shí)了cML-MA-BIC穩(wěn)健的表現(xiàn)。在真實(shí)數(shù)據(jù)分析中研究人員探究了12種風(fēng)險(xiǎn)因素對(duì)4種常見(jiàn)疾病的影響,cML-MA-BIC發(fā)現(xiàn)了一些風(fēng)險(xiǎn)因素與疾病間可能存在的因果關(guān)系,比如高體脂率可能引發(fā)冠狀動(dòng)脈疾病,吸煙可能會(huì)導(dǎo)致中風(fēng)。這些關(guān)系也得到了其他相關(guān)研究的支持。 此外,當(dāng)一些常見(jiàn)的假設(shè)成立時(shí),研究人員的定理1提供了對(duì)cML-MA-BIC的理論支持。研究人員用迭代算法來(lái)實(shí)現(xiàn)cML-MA-BIC,并將其編寫(xiě)成軟件MRcML,可以從GitHub下載:https://github. com/xue-hr/MRcML。(生物谷Bioon.com)
|
|
|