小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

SPSS之1:n傾向性得分匹配

 Memo_Cleon 2021-04-05

轉(zhuǎn)自個人微信公眾號【Memo_Cleon】的統(tǒng)計學(xué)習(xí)筆記:SPSS之1:n傾向性得分匹配

前面我們已經(jīng)有兩篇推文介紹過傾向性得分匹配(傾向值匹配),一篇是采用SPSS進(jìn)行1:1的PSM,另外一篇采用的是R的MatchIt包來實(shí)現(xiàn)。SPSS操作簡便,但目前尚不支持1:n的PSM,也不能直接對匹配后的數(shù)據(jù)進(jìn)行平衡性分析,安裝R插件后這些問題都會得到解決,安裝教程可參考《PS Matching安裝攻略》。本次筆記的操作需要成功安裝PS Matching插件。

在進(jìn)行傾向值分析分析過程中,有幾個問題關(guān)鍵問題需要了解一下。
(1)匹配方法。傾向值匹配用到的具體方法有很多,比如最鄰近匹配(nearest neighbor matching)、卡鉗匹配(caliper matching)、精確匹配(Exact Matching)、最優(yōu)匹配(Optimal Matching)、完全匹配(Full Matching)。最鄰近匹配是從暴露組(或干預(yù)組、處理組)的第一個研究對象開始在對照組中尋找傾向值(propensity score,PS)與其最接近的個體進(jìn)行配對,直至暴露組所有個體找到對象。我們在前面兩篇推文中使用到的卡鉗匹配,實(shí)際上就是在最臨近匹配的基礎(chǔ)上加一個限制條件,即要求暴露/干預(yù)組與對照個體間的傾向值差值在事先設(shè)定的某范圍內(nèi)才能進(jìn)行匹配。精確匹配要求匹配對象具有相同的協(xié)變量值。最優(yōu)匹配(Optimal Matching,或稱最優(yōu)成對匹配Optimal pair matching)和完全匹配(Full Matching,或稱最優(yōu)完全匹配Optimal full matching)不求單個匹配最好,但整體上更好,最優(yōu)匹配要去每個暴露組對象與單個對照組對象相匹配,完全匹配則可以每個暴露組對象與一個或多個對照組,或者每個對照組對象與一個或多個暴露組對象相匹配。另外還有一些其他的匹配算法,比如遺傳匹配(Genetic Matching)、粗度精確匹配(Coarsened Exact Matching)、子類匹配(Subclassification)。匹配指標(biāo)除了傾向值外,還有馬氏距離、病例對照按各個因素直接匹配等。
(2)傾向值模型變量的選擇。傾向值是在給定協(xié)變量的條件下,研究對象被分配到處理組的概率。常通過傾向值模型來獲得,一般采用logistic回歸或者Probit回歸。在建立傾向值模型時,應(yīng)該納入哪些變量呢?全部協(xié)變量?與暴露因素和結(jié)局都有關(guān)的協(xié)變量(即混雜因素)?與結(jié)局有關(guān)的變量?還是與暴露和結(jié)局都無關(guān)的變量?研究表明模型納入與處理無關(guān)而與結(jié)局有關(guān)的變量,可以增加估計處理效應(yīng)的精度,同時不會增加偏倚,最優(yōu)傾向值模型是納入所有與結(jié)局有關(guān)的變量,而不管其是否與暴露因素有關(guān)。哪些是相關(guān)因素應(yīng)根據(jù)專業(yè)知識而定,一種可以考慮的辦法是將結(jié)局變量與協(xié)變量構(gòu)建二分類的logistic模型進(jìn)行逐步回歸,進(jìn)入模型的變量作為PS模型的自變量。注意此處構(gòu)建的模型因變量是結(jié)局變量,而不是在構(gòu)建PS模型時的暴露/干預(yù)因素,如果以暴露/干預(yù)因素為因變量來進(jìn)行過logistic逐步回歸篩選,納入的變量再多,最終篩選到的都是與暴露因素相關(guān)的因素,其與結(jié)局變量相關(guān)或不相關(guān)是不知道的,PS模型納入與處理有關(guān)而與結(jié)果無關(guān)的變量不會降低偏倚,而且會降低估計處理效應(yīng)的精度
(3)匹配后數(shù)據(jù)集的組間均衡性分析。傾向值匹配只是數(shù)據(jù)的處理過程,獲得匹配集后還需要再次對協(xié)變量在處理組和對照組的均衡性進(jìn)行驗(yàn)證,在均衡的前提下才能考察干預(yù)的作用。很多文章對匹配數(shù)據(jù)的組間協(xié)變量均衡性檢驗(yàn)采用的是假設(shè)檢驗(yàn)的方法,我們在《傾向性得分匹配(SPSS)》、《傾向性得分匹配(R:MatchIt)》、《病例對照匹配》中對匹配后的數(shù)據(jù)就是采用這種方法對均衡性進(jìn)行分析。但這樣做有值得商榷的地方。傾向性匹配數(shù)據(jù)集是從代表總體的樣本的再抽樣,是樣本中的樣本,而假設(shè)檢驗(yàn)對應(yīng)的是樣本所在的總體,另外傾向性匹配后的數(shù)據(jù)樣本量減少本就會導(dǎo)致P值變大?;谶@兩點(diǎn),有些研究并不采用假設(shè)檢驗(yàn)來驗(yàn)證匹配后的均衡性,而是采用標(biāo)準(zhǔn)化均數(shù)差異standardized mean difference),PS Matching插件中提供該指標(biāo)的多種驗(yàn)證方法。有些研究會同時提供標(biāo)準(zhǔn)差異和假設(shè)檢驗(yàn)的結(jié)果。
(4)處理效應(yīng)的估計。數(shù)據(jù)匹配前,干預(yù)組和對照組間的比較我們一般按照兩個獨(dú)立樣本來處理,在經(jīng)過匹配之后,一種觀點(diǎn)認(rèn)為協(xié)變量在干預(yù)/暴露組和對照組間分布均衡,個體之間有配對特征,兩組間不再獨(dú)立,因此匹配后的組間比較應(yīng)考慮到樣本的配對特征,還有一種觀點(diǎn)傾向值分析畢竟是在結(jié)局已定情況下的校正,與試驗(yàn)前的配對不同,考慮到兩配對樣本更高的分析效率,為不增加假陽性錯誤,按兩獨(dú)立樣本的設(shè)計進(jìn)行分析結(jié)果會更為穩(wěn)健一些。
(5)回放(replacement)。允許放回就是允許在匹配過程中重復(fù)利用對照,這樣可以增大匹配數(shù)據(jù)集,傾向值總體差異也會變小,其缺點(diǎn)也很明顯,由于對照組內(nèi)包含了重復(fù)的個體,缺乏缺乏獨(dú)立性,采用什么方法就存在爭議。因此一般都不允許回放。

示例仍然采用《傾向性得分匹配》的數(shù)據(jù):考察孕期婦女吸煙對新生兒體重的影響的觀察性研究。暴露為吸煙(mbsmoke),結(jié)局變量為是否出現(xiàn)低體重新生兒(lbweight),本次筆記僅考慮孕母年齡(mage)、是否白人(mrace)、婚姻狀況(mmarried)、孕期是否飲酒(alcohol)以及父親的年齡(fage)和是否白人(frace)幾個協(xié)變量。

【1】基線評估:
結(jié)果表明幾個協(xié)變量在組間均衡性較差,即這幾個協(xié)變量在暴露和對照組間存在統(tǒng)計學(xué)差異。

【2】傾向性匹配:Analyze >> PS Matching

 l 匹配算法:提供了最鄰近匹配、完全匹配和優(yōu)化匹配。本例默認(rèn)最鄰近算法;

l 舍棄共同支持域外單位:對重疊域外的觀察對象的處理方式,包括不處理、處理組和對照組均舍棄、舍棄處理組、舍棄對照組;

l 估計算法:默認(rèn)logistic回歸;

l 二分類治療指示因子(0代表對照組,1代表處理組):變量類型務(wù)必為尺度變量。本例選入mbsmoke,原變量尺度為名義變量,需要改為尺度變量;

l 協(xié)變量:選入需要匹配的變量,本例選入所有的協(xié)變量:孕母年齡(mage)、種族(mrace)、婚姻狀況(mmarried)、是否吸煙(mbsmoke)、孕期是否飲酒(alcohol)、父親的年齡(fage)和是否白人(frace);

l 附加協(xié)變量:可選入與結(jié)局變量無關(guān)但需要平衡的變量。以結(jié)局變量為因變量,以協(xié)變量為解釋變量進(jìn)行的逐步回歸結(jié)果,進(jìn)入模型的變量選入?yún)f(xié)變量,未進(jìn)入模型的變量選入附加協(xié)變量框,本例未按此法操作,感興趣者可以嘗試;

l 精確匹配:依據(jù)選入的變量對個體進(jìn)行精確匹配,僅適用于最鄰近匹配;

l 卡鉗值:取值范圍0-1,值越小匹配越嚴(yán)格符合要求的匹配集越小,默認(rèn)取值0.2。

【繪圖和輸出】

繪圖:可輸出傾向值直方圖、個案抖動散點(diǎn)圖、標(biāo)準(zhǔn)化差異直方圖、各協(xié)變量標(biāo)準(zhǔn)化均數(shù)差異散點(diǎn)圖、各協(xié)變量匹配前后標(biāo)準(zhǔn)化均數(shù)差異變化線圖,圖片可選擇96~400PPI的分辨率。

輸出數(shù)據(jù)集:可選擇[帶有傾向值的原始數(shù)據(jù)集]或者[通過新生成變量“matched_id”來標(biāo)識的配對數(shù)據(jù)集],數(shù)據(jù)集可以包括所有個案,或者只保留匹配的個案。新生成數(shù)據(jù)集內(nèi)容如下表所示。本例選擇“Paired dataset by “matched_id”&“Matched cases”。

平衡性統(tǒng)計量:基本和詳細(xì)兩種,另外可選擇是否包含交互作用。本例不考慮交互作用。

【最鄰近匹配選項】

亞分類:可選擇是否按照傾向值接近程度分為若干亞分類進(jìn)行分析,可以通過處理組、對照組或所有個案來進(jìn)行分類;

匹配比率:默認(rèn)處理組和對照組進(jìn)行1:1匹配,也可以進(jìn)行1:n進(jìn)行匹配。本例設(shè)置為1:2;

匹配順序:當(dāng)出現(xiàn)多個滿足匹配條件的個案時,有從最大傾向值開始匹配、從最小傾向值開始匹配、隨機(jī)匹配三種方式。本例默認(rèn)從最大值開始;

本例不允許回放(replacement)。

【3】傾向性值匹配結(jié)果

(1)樣本匹配概況:原數(shù)據(jù)對照組3778例,治療組864例,經(jīng)過傾向值匹配后獲得的數(shù)據(jù)集中處理組841例,對照組1567例,治療組和對照組并非剛好是1:2,這是由于有病例組未能找到匹配對象所致;未能匹配成功的病例中治療組23例,對照組2199例;有12例對照組病例不再共同支持域被舍棄掉。 

(2)平衡性檢驗(yàn)

(2.1)Hansen&Bowers全局平衡性檢驗(yàn):P>0.05表示協(xié)變量和附加協(xié)變量框中的變量在兩組間整體均衡性良好,但只適用于1:1匹配且數(shù)據(jù)不能回放,本例按1:2進(jìn)行匹配,因此該法不能給出結(jié)果。 

(2.2)相對多變量不平衡L1檢驗(yàn):L1值取值范圍0-1,匹配后的值越小匹配效果越好。該例匹配后的值變小,表示匹配對平衡性有改善。

 

(2.3)不平衡協(xié)變量概況,若出現(xiàn)|d|>0.25的變量則提示該變量存在不均衡性,且會按照|d|大小從上到下給出。|d|即標(biāo)準(zhǔn)化均數(shù)差異(standardized mean difference)。本例未出現(xiàn)|d|>0.25的變量,可認(rèn)為匹配后各變量在組間達(dá)到了均衡。 

(2.4)各變量的平衡性詳情,給出傾向值和各變量在匹配前后處理組均值、對照組均值、對照組各變量的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)化均數(shù)差。|標(biāo)準(zhǔn)化均數(shù)差|<0.1,則組間均衡性良好,|標(biāo)準(zhǔn)化均數(shù)差|>0.25則組間均衡性較差了。本例匹配后各變量標(biāo)準(zhǔn)化均數(shù)差絕對值均小于0.1,組間均衡性良好。 

對于標(biāo)準(zhǔn)差異,除了上述表格直接給出了具體的數(shù)值,后面也給出了標(biāo)準(zhǔn)化差異的幾種圖示法結(jié)果,如各變量的標(biāo)準(zhǔn)化差異的變化線圖(lineplot)、直方圖(histogram)以及散點(diǎn)圖(loveplot),見后面的(2.6)、(2.8)、(2.9)。

(2.5)個案抖動散點(diǎn)圖,顯示傾向值的分布。本例處理組和對照組的重疊性較好,雖然處理組還有一些未能匹配的對象,但是獲得兩組匹配個體的傾向值都比較接近,匹配效果還是不錯的。該圖中對照組匹配對象的圈點(diǎn)要比處理組大,是因?yàn)樵谠搱D中圈點(diǎn)的大小表示權(quán)重,本例處理組:對照組采用的比率是1:2,因此對照組的點(diǎn)比較大。

(2.6)標(biāo)準(zhǔn)差異變化線圖,用線圖來表示各個變量匹配前后標(biāo)準(zhǔn)化均數(shù)差異絕對值變化。本例各個變量的標(biāo)準(zhǔn)差異均明顯降低,匹配對數(shù)據(jù)的平衡有改善。

(2.7)傾向值的分布直方圖。提供未匹配和匹配后傾向值的相似度,并提供共同支持域的密度函數(shù)曲線,匹配后處理組和對照分布近似提示匹配良好。

(2.8)匹配前后標(biāo)準(zhǔn)差異直方圖,提供匹配前后標(biāo)準(zhǔn)化均數(shù)差異的直方圖即密度曲線。匹配后的標(biāo)準(zhǔn)化差異集中在0附近,提示不再存在系統(tǒng)差異。 

(2.9)loveplot,即各協(xié)變量標(biāo)準(zhǔn)化均數(shù)差異散點(diǎn)圖,該圖能夠明顯看出匹配前后均衡性發(fā)生的改變。各協(xié)變量匹配前后的標(biāo)準(zhǔn)化差異,若匹配后變量對應(yīng)點(diǎn)落-0.25~0.25之間,則示變量達(dá)到均衡。

有的研究對匹配后數(shù)據(jù)均衡性研究采用的是假設(shè)檢驗(yàn)分析,這個我們在本文的開始已經(jīng)提到過。假設(shè)檢驗(yàn)結(jié)果顯示是否飲酒在組間依舊不平衡。我們可以縮小卡鉗值重新對原始數(shù)據(jù)進(jìn)行匹配,實(shí)際上當(dāng)卡鉗值設(shè)置為0.1時,飲酒在組間達(dá)到平衡,感興趣的可以自行操作。

【4】暴露因素作用評估:孕期吸煙能夠影響新生兒的體重。

兩獨(dú)立樣本的卡方分析:Chi2=19.784,P<0.001,OR=1.810;

考慮配對的單因素條件logistic回歸:wald chi2=15.346,P<0.001,進(jìn)行多因素校正wald chi2=21.841,P<0.001,RR=2.252。

參考文獻(xiàn)

王永吉等.中華流行病學(xué)雜志,2010,31(7).

黃福強(qiáng)等.J south Med Univ,2015,35(11).

Yoon Kong Loke et al.Diabetes Obes Metab. 2020;22(Suppl. 3).

轉(zhuǎn)自個人微信公眾號【Memo_Cleon】的統(tǒng)計學(xué)習(xí)筆記:SPSS之1:n傾向性得分匹配。

END

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多