方差分析的基本思想在進(jìn)行科學(xué)研究時(shí),有時(shí)要按實(shí)驗(yàn)設(shè)計(jì)將所研究的對(duì)象分為多個(gè)處理組進(jìn)行不同的處理,其中 設(shè)處理因素有g(shù)(g>= 2)個(gè)不同水平,實(shí)驗(yàn)對(duì)象隨機(jī)分為g組,分別接受不同水平的干預(yù),第i(i=1,2,...,g)組的樣本含量為n_{i},第i處理組的第j(j=1,2,…ni個(gè)觀測(cè)值用Xij來(lái)表示,其計(jì)算結(jié)果可能可以整理成以下面的形式,如下所示: 方差分析的目的就是在 記總均數(shù)為 各處理組均數(shù)為 總例數(shù)為 實(shí)驗(yàn)數(shù)據(jù)有三個(gè)不同的變異: 2. 組間變異。各處理組由于接受處理的水平不同,各組的樣本均數(shù) 各組均數(shù)之間相關(guān)越懸殊,它們與總均數(shù)的差值越在在, 3. 組內(nèi)變異。在同一處理組中,雖然每個(gè)實(shí)驗(yàn)對(duì)象接受的處理相同,但觀測(cè)值仍各不相同,這種變異稱為組內(nèi)變異(誤差)。組內(nèi)變異用組內(nèi)各觀測(cè)值與其所在組的均數(shù)的差值的平方和表示,記為 總離均差平方和分解為組間離均差平方和與組內(nèi)離均差平方和,就有了以下公式: ![]() 各離均差平方和的自由度為: ![]() 變異程序除與離均差平方和的大小有關(guān)外,還與其自由度有關(guān),由于各部分自由度不相等,因此積分離均差平方和不能直接比較,須將各部分離均差平方和除以相應(yīng)的自由度,其比值稱為均方差,簡(jiǎn)稱為均方(mean square, MS)。公式為: ![]() 如果各組樣本的總體均數(shù)相等( ![]() 如果F值接近于1,就沒有理由拒絕H0;反之,F(xiàn)值越大,拒絕H0的理由越充分,數(shù)理統(tǒng)計(jì)的理論證明,當(dāng)H0成立時(shí),F(xiàn)統(tǒng)計(jì)量服從F分布,方差分析是單側(cè)F檢驗(yàn)。 變異是方差分析的基本思想上面的話可能不太好理解?,F(xiàn)在用大白話來(lái)理解一下,例如我們要研究某個(gè)化合物是否有改善肥胖的效果,我們最初肯定是要做動(dòng)物實(shí)驗(yàn),動(dòng)物實(shí)驗(yàn)的話,例如采用C57的小鼠,分為5組,第1組,給生理鹽水,第2組,給減肥藥(相當(dāng)于陽(yáng)性對(duì)照),第3組,給高劑量的化合物,第4組,給中劑量的化合物,第5組,給低劑量的化合物。分別喂一段時(shí)間后,我們發(fā)現(xiàn)小鼠的體重有所變化,這個(gè)變化由兩部分構(gòu)成,第一個(gè)就是外界的刺激因素導(dǎo)致的,第二種就是小鼠自身導(dǎo)致的。這種變化我們可以稱為 不過(guò)這樣還有一個(gè)問(wèn)題,因?yàn)閿?shù)據(jù)越多,變異程度就越大,為了解決這個(gè)問(wèn)題,就需要用變異除以自由度(例數(shù)-1),這樣比較的就是平均的變異,因此方差分析中就出現(xiàn)了均方(MS)和組內(nèi)均方的概念。組間均方/組內(nèi)均方就是通常所說(shuō)的F值,實(shí)際上代表了這樣一個(gè)含義:如果組間變異遠(yuǎn)遠(yuǎn)大于組內(nèi)變異,那么組間均方除以組內(nèi)均方的值肯定很大,反之,這一值就會(huì)很小。但是,到底大到什么程度才認(rèn)為有統(tǒng)計(jì)學(xué)意義呢,那就得根據(jù)F分布來(lái)判斷。 方差分析的應(yīng)用條件多個(gè)樣本均數(shù)比較的方差分析其應(yīng)用條件為:①各樣本是相互獨(dú)立的隨機(jī)樣本,均來(lái)自**正態(tài)分布總體;②相互比較的各樣本的總體方差相等,即具有等方差齊性。 R中的方差分析函數(shù)所用的函數(shù)為aov(): ![]() 單因素方差分析單因素方差分析(one-way ANOVA)是指對(duì)單因素試驗(yàn)結(jié)果進(jìn)行分析,檢驗(yàn)因素對(duì)試驗(yàn)結(jié)果有無(wú)顯著性影響的方法。單因素方差分析是用來(lái)檢驗(yàn)多個(gè)平均數(shù)之間的差異,從而確定因素對(duì)試驗(yàn)結(jié)果有無(wú)顯著性影響的一種統(tǒng)計(jì)方法。對(duì)于完全隨機(jī)設(shè)計(jì)試驗(yàn)且處理數(shù)大于2時(shí)可以用單因素方差分析(等于2 時(shí)用t檢驗(yàn))。離差平方和的分解公式為:SST(總和)=SSR(組間)+SSE(組內(nèi)),F(xiàn)統(tǒng)計(jì)量為MSR/MSE,MSR=SSR/k-1,MSE=SSE/n-k。其中SST為總離差、SSR為組間平方和、SSE為組內(nèi)平方和或殘差平方和、MSR為組間均方差、MSE為組內(nèi)均方差。 案例分析單因素方差分析例4-2:某醫(yī)生為了研究一種降血脂新藥的臨床療效,按統(tǒng)一納入標(biāo)準(zhǔn)選擇120名高血脂患者,采用完全隨機(jī)設(shè)計(jì)方法將患者等分為4組(具體分組方法見例4-1),進(jìn)行雙盲試驗(yàn)。6周后測(cè)得低密度脂蛋白作為試驗(yàn)結(jié)果,見表4-3。問(wèn)4個(gè)處理組患者的低密度脂蛋白含量總體均數(shù)有無(wú)差別? ![]() 計(jì)算過(guò)程如下所示: 1. 導(dǎo)入數(shù)據(jù)anova1 <>'https://raw./20170505a/raw_data/master/data_szq_402.csv',sep=',')2.正態(tài)檢驗(yàn)方差分析需要一定的假設(shè),即數(shù)據(jù)集應(yīng)該符合正態(tài)和各組的方差相等,可以分別用shapiro.test和bartlett.test檢驗(yàn)從P值觀察到這兩個(gè)假設(shè)是符合的。對(duì)于不符合假設(shè)的情況,我們就要用到非參數(shù)方法,例如Kruskal-Wallis秩和檢驗(yàn) shapiro.test(anova1$value)結(jié)果如下所示: ![]() P值大于0.05說(shuō)明數(shù)據(jù)正態(tài)P值大于0.05說(shuō)明數(shù)據(jù)正態(tài) 3. 方差齊性檢驗(yàn):方差齊性檢驗(yàn)就是檢驗(yàn)各組樣本所代表的總體方差是否一致的檢驗(yàn),兩樣本方差齊性檢驗(yàn)使用Bartlett法,同樣,它也適用于多樣本的方差齊性檢驗(yàn),它是它要求所檢驗(yàn)的樣本總體符合正態(tài)分頁(yè),當(dāng)不符合正態(tài)分布的時(shí)候,就不能使用,則要用Levene檢驗(yàn)。Levene檢驗(yàn)不受數(shù)據(jù)頒販限制,是一種穩(wěn)健的檢驗(yàn),因而被廣泛地認(rèn)為是一種標(biāo)準(zhǔn)的檢驗(yàn)方差齊性的檢驗(yàn)。 方差齊性通常用bartlett檢驗(yàn) bartlett.test(anova1$value~anova1$variable)結(jié)果如下所示: ![]() 結(jié)果顯示p值大于0.05,可認(rèn)為方差齊性。 或者用levene檢驗(yàn): library(car)結(jié)果如下所示: ![]() 結(jié)果發(fā)現(xiàn)sig值大于0.05,表明符合方差齊性假設(shè),可以進(jìn)行進(jìn)一步的參數(shù)檢驗(yàn)。 4. 檢驗(yàn)整體均值是否有差異result <>value~variable,data=anova1)結(jié)果如下所示: ![]() 其中p值小于0.001,因此各組之間存在顯著性差異。另外,R給出的F值是24.88,而書中的例子是24.93,書中的值是由查F表得來(lái)的,是個(gè)范圍,R中的是具體值。 另外也可以采用 > result2 <>TRUE)5. 均數(shù)間的多重比較方差分析得出總體之間有差異,要進(jìn)一步知道哪兩組之間有差異,就要使用均數(shù)間的多重比較,常用的比較方法有SNK檢驗(yàn)(q檢驗(yàn)),LSD檢驗(yàn),Bonferroni檢驗(yàn),Dunnett檢驗(yàn),TurkeyHSD檢驗(yàn)。 現(xiàn)在計(jì)算各組之間的均數(shù)與SD aggregate(anova1$value,by=list(anova1$variable),FUN=mean)結(jié)果如下所示: ![]() 繪制箱形圖可能觀察到不同因素對(duì)于因變量的影響 plot.design(value ~ variable,data =anova1, main = 'Group means') ![]() 繪制有置信區(qū)間的組均值圖 library(gplots)圖片如下所示: ![]() 6. 組間均值的兩兩比較通過(guò)方差分析后,如果整體有差異,則進(jìn)一步進(jìn)行兩兩比較,常用的方法有LSD,TukeyHSD,Scheffe檢驗(yàn),如下所示: LSD檢驗(yàn)library(agricolae) #此包中有LSD檢驗(yàn)結(jié)果如下所示: ![]() 注:R給出的F值是24.88,而書中的例子是24.93,書中的值是由查F表得來(lái)的,是個(gè)范圍,R中的是具體值。 TukeyHSD檢驗(yàn)result2 <>value~variable,data=anova1)結(jié)果如下所示: ![]() 圖片結(jié)果: ![]() glht()函數(shù)做Tukey檢驗(yàn)此外, library(multcomp)計(jì)算結(jié)果如下所示: > summary(tukey4)繪制不同組的箱線圖,如下所示: plot(cld(tukey4,level = .05),col='lightgrey')![]() 7.殘差分析這一步做殘差分析就是為了再次驗(yàn)證原始數(shù)據(jù)是否服從正態(tài)分布,如下所示: residual <>殘差的QQ圖如下所示(如果不了解QQ圖,可以參考這篇文章《分位數(shù)及其應(yīng)用》: ![]() shapiro檢驗(yàn),如下所示: > shapiro.test(residual)p值的為0.4026,可以認(rèn)為殘差滿足正態(tài)性。 繪制殘差圖,如下所示: plot(residual ~ anova1$variable, main='各組的殘差圖')![]() 對(duì)殘差進(jìn)行方差齊性檢驗(yàn),如下所示: > library(car)P值大于0.05,可以認(rèn)為殘差滿足方差齊性。 參考資料
|
|
|
來(lái)自: 微笑如酒 > 《統(tǒng)計(jì)》