| 最近閱讀了一本《Logistic回歸中的交互效應(yīng)》的書,覺得有必要講一講Logistic回歸的交互效應(yīng)。上一期介紹了Logistic回歸分析的SAS實(shí)現(xiàn),今天我們繼續(xù)介紹Logistic回歸的交互效應(yīng)。 五、Logistic回歸模型的交互效應(yīng)在多元統(tǒng)計(jì)分析中,交互效應(yīng)是指某因素的作用隨其他因素水平的不同而不同,兩因素同時(shí)存在時(shí)的作用不等于兩因素單獨(dú)作用之和或之積。將交互效應(yīng)置于因變量、自變量和調(diào)節(jié)變量的框架中進(jìn)行討論是應(yīng)用比較廣泛的一種方法,這種方法有利于理解交互項(xiàng)參數(shù)的意義。其中,因變量受自變量的影響,當(dāng)自變量對(duì)因變量的影響因調(diào)節(jié)變量的取值不同而不同時(shí),說明存在交互效應(yīng)。例如,社會(huì)階層對(duì)就醫(yī)行為的影響在不同的族群中不一樣,在這個(gè)例子中,社會(huì)階層是自變量,就醫(yī)行為是因變量,族群就是調(diào)節(jié)變量。    因此,在應(yīng)用調(diào)節(jié)變量的框架分析交互效應(yīng)時(shí),需要有清晰的理論假設(shè)來界定關(guān)鍵自變量、調(diào)節(jié)變量。一般情況下,研究在提出研究問題時(shí),通常會(huì)假設(shè)某個(gè)自變量可能會(huì)受其他調(diào)節(jié)變量的影響。例如,有研究者研究吸煙飲酒對(duì)胃癌患病率的影響,此時(shí),是否飲酒是關(guān)鍵自變量,是否吸煙是調(diào)節(jié)變量。模型中調(diào)節(jié)變量的確定也會(huì)因研究目的的不同而不同。      目前多采用在Logistic回歸方程中納入因素乘積項(xiàng)的方法進(jìn)行分析交互效應(yīng)。式1是一個(gè)含有兩個(gè)連續(xù)自變量的Logistic回歸模型(不含交互項(xiàng)):假設(shè)本研究中存在交互效應(yīng),即關(guān)鍵自變量X對(duì)結(jié)果變量的影響因調(diào)節(jié)變量Z取值的不同而不同。為了表示這種關(guān)系,可以將β1寫成一個(gè)關(guān)于Z的線性函數(shù):       Logistic回歸中的交互效應(yīng)分析一般都會(huì)用多層次完全模型,即模型包含了最高階交互項(xiàng)的所有低階組成部分。如果要檢驗(yàn)以上假設(shè)的模型,即式3(包含交互效應(yīng))與式1(不包含交互效應(yīng))兩個(gè)模型,只要比較式3與式1的擬合優(yōu)度即可,如果兩個(gè)模型的擬合優(yōu)度的差別有統(tǒng)計(jì)學(xué)意義,說明交互項(xiàng)是有意義的。以下我們就用實(shí)例來講解交互效應(yīng)的參數(shù)估計(jì)和解釋。       在一個(gè)回顧性的研究中,隨機(jī)抽查了某地區(qū)818個(gè)人的吸煙和飲酒等生活方式以及各種慢性疾病的患病情況。表11-8中列出了一部分調(diào)查結(jié)果。試分析吸煙飲酒對(duì)胃病患病率的影響程度以及它們的交互影響程度。(數(shù)據(jù)據(jù)來源張家放主編《醫(yī)用多元統(tǒng)計(jì)學(xué)》)表11-8 吸煙飲酒與胃病的調(diào)查數(shù)據(jù)表11-9 吸煙與飲酒交互效應(yīng)的設(shè)置 /*設(shè)置交互效應(yīng)的啞變量*/DATA STOMACH;  SET STOMACH;  IF X1=1 AND X2=1 THEN X11=1;    ELSE X11=0;  IF X1=1 AND X2=0 THEN X10=1;    ELSE X10=0;  IF X1=0 AND X2=1 THEN X01=1;    ELSE X01=0;  IF X1=0 AND X2=0 THEN X00=1;    ELSE X00=0;RUN;/*無交互效應(yīng)的模型*/PROC LOGISTIC DATA=STOMACH DES;  MODEL Y=X1 X2;  WEIGHT FR;RUN;/*有交互效應(yīng)的模型*/PROC LOGISTIC DATA=STOMACH DES;  MODEL Y=X11 X10 X01;  WEIGHT FR;RUN;在此主要是為了講解模型中交互效應(yīng)的估計(jì)和解釋,結(jié)果不詳細(xì)呈現(xiàn),把兩個(gè)模型的參數(shù)估計(jì)列于表11-10。表11-10 無交互效應(yīng)與有交互效應(yīng)模型的參數(shù)估計(jì)結(jié)果              Logit(P)=-2.6380+0.2068(X1)+ 0.2131(X2)       當(dāng)X1、X2分別取值1,0時(shí)得以下:  Logit(P)= -2.6380+1.0230 (1)+ 0.6616 (1),由此計(jì)算OR= e(1.0230+0.6616)=5.3893Logit(P)= -2.6380+1.0230 (1)+ 0.6616 (0),由此計(jì)算的OR= e1.0230=2.7812Logit(P)= -2.6380+1.0230 (0)+ 0.6616 (1),由此計(jì)算的OR= e0.6616=1.9378Logit(P)= -2.6380+1.0230 (0)+ 0.6616 (0) ,由此計(jì)算的OR=e0=1由以上計(jì)算結(jié)果可以看出即吸煙又喝酒、僅吸煙不喝酒、不吸煙僅喝酒的OR值與交互效應(yīng)模型中交互效應(yīng)的啞變量的OR值是非常接近的。在有交互效應(yīng)的模型中顯示三個(gè)啞變量均有統(tǒng)計(jì)學(xué)意義,參照水平是即不吸煙也不喝酒,結(jié)果顯示:在既吸煙又喝酒患胃病的概率是既不吸煙又不喝酒的5.381倍,僅吸煙者患胃病的概率是不吸煙又不喝酒的2.765倍,僅喝酒者患胃病的概率是不吸煙又不喝酒的1.928倍。上述例子中兩個(gè)變量都是二分類變量,即吸煙和喝酒構(gòu)成的一個(gè)2*2的雙向交互效應(yīng),理解起來比較簡(jiǎn)單。當(dāng)Logistic回歸中分類變量含有三個(gè)或三個(gè)以上的水平時(shí)比本例要復(fù)雜一些,但是其分析過程本例基本一樣,也是將其處理成多個(gè)啞變量,并相應(yīng)生成多個(gè)交互乘積項(xiàng),每個(gè)乘積項(xiàng)都對(duì)應(yīng)著條件主效應(yīng)參數(shù)之間,或條件雙向交互效應(yīng)參數(shù)之間,或三向交互效應(yīng)參數(shù)之間的單個(gè)自由度比較。[1] 張家放. 醫(yī)用多元統(tǒng)計(jì)方法[M]. 武漢:華中科技大學(xué)出版社, 2002.[2] 繆佳, 譯. Logistic回歸中的交互效應(yīng). 上海: 格致出版社, 2014.[3] 趙亮員, 譯. 定序因變量的Logistic回歸模型. 上海: 格致出版社, 2018. |