| 
     分類資料在醫(yī)學(xué)統(tǒng)計中很常見,有些統(tǒng)計學(xué)書上稱為計數(shù)資料,比如(有效、無效),(發(fā)病、不發(fā)?。?、女),血型(A、B、O、AB)等等。分類資料一般根據(jù)頻數(shù)整理成列聯(lián)表的形式,一般的列聯(lián)表多是二維的(也稱行列表,或R×C列聯(lián)表,高維列聯(lián)表下次討論),列聯(lián)表根據(jù)變量是否有序可以分為雙向無序、單項有序、雙向有序列聯(lián)表,統(tǒng)計方法是不同的,分析如下: 一、雙向無序列聯(lián)表 (一)成組四格表     是指行、列變量均為無序的列聯(lián)表,例如要研究吸煙和肺癌之間的關(guān)系,行變量為是否吸煙:吸煙、不吸煙,列變量為肺癌發(fā)?。喊l(fā)病,不發(fā)病,如下表:
 | 
 | 發(fā)生肺癌 | 未發(fā)生肺癌 |  | 吸煙 | a | b |  | 不吸煙 | c | d | 
     對于這種數(shù)據(jù),我們的統(tǒng)計目的是分析行列變量的獨(dú)立性,即:肺癌發(fā)病是否與吸煙有關(guān),可選用的方法有以下兩種:  1、Pearson卡方檢驗(yàn):     基于卡方分布,H0為行、列變量相互獨(dú)立,SPSS中“分析->描述性統(tǒng)計->交叉表”可實(shí)現(xiàn)。 四格表使用條件:專用公式①樣本總數(shù)大于40;②各個單元格理論值均大于5。校正公式:①樣本總數(shù)大于40;②理論值1<T<5;Fisher確切概率法:①樣本總數(shù)小于40,或T<1,無需選擇,軟件自動計算成組四格表Fisher。  2、Fisher精確概率:     基于超幾何分布,當(dāng)數(shù)據(jù)不滿足Pearson卡方檢驗(yàn)時使用。SPSS中“分析->描述性統(tǒng)計->交叉表”可實(shí)現(xiàn)。注意SPSS僅提供了2×2表的精確概率,需要計算R×C列聯(lián)表的精確概率,可以選擇精確按鈕中的蒙特卡羅近似法實(shí)現(xiàn)。 (一)成組R×C表(雙向無序) | 
 | A型 | B型 | O型 | AB型 |  | A地區(qū) | a | b | c | d |  | B地區(qū) | e | f | j | h |  | C地區(qū) | i | j | k | l | 
 1.Pearson卡方檢驗(yàn)     條件:不能有任何一個格子的理論頻數(shù)T<1,同時1<T<5的格子數(shù)不能超過總格子數(shù)的1/5. 如若不符合:可以增加研究樣本量(通常少用);對理論頻數(shù)較小的行或者列進(jìn)行合并或者刪除;采用R×C表的Fisher確切概率法(通常采用蒙特卡洛近似法) 2.R×C表Fisher確切概率法    操作:分析—描述—交叉表—設(shè)置好行列變量—點(diǎn)擊精確—選擇蒙特卡洛。 二、單項有序的列聯(lián)表     常見的情況是結(jié)果變量有序,而原因變量無序。比如要比較AB兩種藥物的治療效果,藥物分組(AB)是無序的,而結(jié)果變量是有序的(無效,顯效,治愈),可以整理成如下的表格:  可以選擇的統(tǒng)計方法主要有:  1、Mann–WhitneyU 檢驗(yàn)  基于卡方分布,H0為兩組總體分布一致,SPSS中“分析->非參數(shù)檢驗(yàn)->獨(dú)立樣本”中可實(shí)現(xiàn)。  注意:在SPSS中,如果是整理成了列聯(lián)表資料,需要用頻數(shù)進(jìn)行數(shù)據(jù)加權(quán)。變量編碼為:①藥物(名義):A=1,B=2,②療效(度量):無效=1,有效=2,治愈=3,③頻數(shù)(度量)。  2、Kruskal-Wallis H檢驗(yàn):用于分組數(shù)大于2的情況,比如要比較3種或以上藥物的療效。實(shí)現(xiàn)方法與Mann–WhitneyU 類似。     注意:當(dāng)行變量為有序時,通常當(dāng)作無序處理。但若行變量為有序,列變量為二分類率時,根據(jù)研究目的,也可以選擇趨勢性卡方檢驗(yàn)。 三、雙向有序列聯(lián)表 1、行、列變量有序但屬性不同     比如這個例子:要比較某種藥物對某種疾病的治療效果,按年齡段的分組,要考察治療效果是否與年齡段相關(guān),整理成下表: | 
 | 無效 | 有效 | 治愈 |  | 20-30歲 | a | b | c |  | 30-40歲 | d | e | f |  | 40-50歲 | h | i | j |  | 50-60歲 | k | l | m |  | 60歲以上 | n | o | p | 
     行、列都是有序的,這是我們主要關(guān)心的:行列變量之間是否有相關(guān)性,如果有相關(guān)性,是線性相關(guān)還是曲線關(guān)系??梢赃x擇的方法如下:
  (1)Spearman等級相關(guān):檢驗(yàn)有無相關(guān)性,基于卡方檢驗(yàn),在SPSS中“分析->相關(guān)->雙樣本”中可實(shí)現(xiàn)。  (2)線性趨勢卡方檢驗(yàn):檢驗(yàn)有無線性關(guān)系,基于卡方檢驗(yàn),SPSS“分析->交叉表”卡方結(jié)果表格中的“線性和線性組合”就是。 2、行列有序且屬性相同  (1)行列變量獨(dú)立     通常是為了檢驗(yàn)一致性。比如用兩臺儀器對同一樣本進(jìn)行檢驗(yàn),結(jié)果分為陰性、陽性,現(xiàn)在要比較兩臺儀器的結(jié)果是否據(jù)有一致性。整理成下表:  常用的方法為:  Kappa一致性檢驗(yàn):H0為行列變量無一致性。在SPSS中“分析->描述性統(tǒng)計->交叉表”中可實(shí)現(xiàn)。  (2)配對行列表     行列變量為配對資料,比如有某種藥物可以緩解某種疾病的某種癥狀,在同一個患者身上比較用藥前后的癥狀,評價藥物的資料效果,列成下表: | 
 | 治療前有癥狀 | 治療前無癥狀 |  | 治療后有癥狀 | a | b |  | 治療后無癥狀 | c | d | 
  可以選用的統(tǒng)計方法:  (1)McNemar檢驗(yàn):僅用于2×2列聯(lián)表?;诳ǚ椒植肌T赟PSS中“分析->描述性統(tǒng)計->交叉表”中可實(shí)現(xiàn)。本檢驗(yàn)與Pearson卡方檢驗(yàn)具有同一性,使用條件必須滿足Pearson卡方檢驗(yàn)的條件。如果條件不能滿足,需要進(jìn)行Yate校正。  (2)Bowker檢驗(yàn):是McNemar檢驗(yàn)的擴(kuò)展,用于分類數(shù)目大于2的配對列聯(lián)表分析。在SPSS中“分析->描述性統(tǒng)計->交叉表”中可實(shí)現(xiàn)。 SPSS中依然選擇的是Mcnemar,結(jié)果輸出的是Mcnemar-Bowker結(jié)果。 :說了這么多,肯定有人問,松哥“到底何為行變量、何為列變量呢”,設(shè)置原則一般為:實(shí)驗(yàn)設(shè)計三要素中的干預(yù)因素為行變量,實(shí)驗(yàn)效應(yīng)指標(biāo)為列變量,何為實(shí)驗(yàn)設(shè)計三要素,請查閱公眾號(data973)相關(guān)內(nèi)容。 |