雙重差分傾向得分匹配(PSM

晶晶晶晶323 2020-02-03

展開(kāi)全文

Angela鎮(zhèn)樓，盡管是奔著CAROLE & TUESDAY去的，誰(shuí)能想到被Angela圈了粉~

Angela的ED《not afraid》很好聽(tīng)。

Angela和Tao，意難平。

由于最近過(guò)于沉迷楠神的《政策信息學(xué)》，

so 鴿了好久欸（理直氣壯.JPG）

我們來(lái)完整操作一遍吧。

PSM-DID，本質(zhì)就是先利用PSM的手段進(jìn)行分組，再利用DID計(jì)算政策效應(yīng)。

outline

一、變量介紹及基礎(chǔ)準(zhǔn)備

二、計(jì)算p-score

第一種 pscore程序
第二種 psmatch2程序
第三種 nnmatch

三、匹配前后的平衡情況

第一種 psmatch2程序后估計(jì)
第二種 核密度曲線前后對(duì)比
第三種 diff里面的test support

四、雙重差分

一、變量介紹及基礎(chǔ)準(zhǔn)備

因變量：政策實(shí)施可能帶來(lái)的影響Y。

實(shí)驗(yàn)處理效應(yīng)：是否實(shí)施某項(xiàng)政策（要求treatment effect嚴(yán)格外生，不存在內(nèi)生性問(wèn)題）。

匹配變量（協(xié)變量）：使用盡可能多的協(xié)變量可以最大程度的滿足“可忽略假設(shè)”

這里面可以認(rèn)為實(shí)驗(yàn)處理效應(yīng)D是一個(gè)格外關(guān)注的自變量，協(xié)變量Xi是控制變量。因此，對(duì)于Y和D的選擇要直接相關(guān)，譬如說(shuō)處理效應(yīng)是“職業(yè)培訓(xùn)”，那么Y應(yīng)該是工資；處理效應(yīng)是“河長(zhǎng)制”的建立，那么Y應(yīng)該是河流治理水平；處理效應(yīng)是“新藥”，那么Y應(yīng)該是壽命或者其他健康指標(biāo)。

同樣重要的是協(xié)變量的選取，有兩大準(zhǔn)則，首先當(dāng)然和treatment effects垂直獨(dú)立，其次是要在已有文獻(xiàn)中研究能夠對(duì)Y有影響的變量，譬如說(shuō)

李賁&吳利華（2018）研究開(kāi)發(fā)區(qū)設(shè)立（D）和企業(yè)成長(zhǎng)（Y）的關(guān)系，對(duì)于協(xié)變量的選取就是企業(yè)年齡（Age 及其二次項(xiàng)Age×Age）、企業(yè)規(guī)模（Scale）、企業(yè)資產(chǎn)收益率（ROA）、企業(yè)資本密集度（Clr）、企業(yè)杠桿率（Leverage）、企業(yè)融資約束（Finance）、企業(yè)工資水平（Wage）、國(guó)有控股虛擬變量（State）、地區(qū)虛擬變量以及行業(yè)虛擬變量作為匹配的特征變量。
Jiahuan Lu（2015）研究的是以績(jī)效為基礎(chǔ)的外包（D）和績(jī)效（Y）之間的關(guān)系，協(xié)變量的選取包括State and service year、Demographic background、Race、Gender (female)、Veteran、Primary disability、Secondary disability、Preservice status、Employment services。
石大千等（2018）研究的是智慧城市建設(shè)（D）和降低環(huán)境污染（Y），對(duì)于協(xié)變量的選取包括經(jīng)濟(jì)發(fā)展水平、城市化、對(duì)外開(kāi)放、技術(shù)創(chuàng)新和產(chǎn)業(yè)結(jié)構(gòu)。
Urban & Niebler（2014）研究的是在搖擺州投放廣告（D）和總統(tǒng)競(jìng)選（Y）之間的關(guān)系，對(duì)于協(xié)變量取值包括該州的median household income, percent hispanic, percent african american, percen college graduates, and population density等。

此外，協(xié)變量的選取也應(yīng)該符合一般線性回歸，不存在多重共線性，不存在內(nèi)生性等問(wèn)題。

第一步安裝程序

安裝psmatch2，pscore diff 等程序

* Download and install Stata ado files for psmatch2、diff

【ssc install psmatch2, replace
ssc install diff, replace】

第二步變量定義

對(duì)自變量、因變量、treatment variable進(jìn)行定義，如

* Define treatment, outcome, and independent variables

global treatment treatment
global ylist Score
global xlist mobile_phone internet gdp_pc ……
global breps 2000

這里面【breps】表示bootstrap抽樣次數(shù)，一般200應(yīng)該差不多。

*Define panel data variable

encode city , gen(city2)
xtset city2 year

二、計(jì)算p-score

之前的時(shí)候，小白上傳的Ani Katchova老師的視頻

54:54

計(jì)量經(jīng)濟(jì)學(xué)-傾向得分匹配法-PSM（Econometrics - Propensity Score Matching）

342416

白圭圭認(rèn)真工作了嗎

里面的【pscore】程序，可以直接計(jì)算pscore

pscore estimates the propensity score (pscore) of the treatment on varlist (the control variables) using a probit (or logit) model and stratifies individuals in blocks according to the pscore; displays summary statistics of the pscore and of the stratification; checks that the balancing property is satisfied; if not satisfied asks for a less parsimonious specification of the pscore; saves the estimated pscore and - optionally - the block number. The estimated propensity scores can then be used together with attr, attk, attnw, attnd, and atts to obtain estimates of the average treatment effect on the treated using, respectively, radius matching, kernel matching, nearest neighbour matching (in one of the two versions: equal weights and random draw), and stratification, the latter using the block numbers as an input.

第一種 pscore程序

* Propensity score matching with common support
pscore $treatment $xlist, pscore(myscore) blockid(myblock) comsup

這個(gè)程序會(huì)比陳強(qiáng)老師書(shū)里面提到的psmatch2可以輸出更為詳細(xì)的匹配得分計(jì)算細(xì)節(jié)

第一張表告知實(shí)驗(yàn)組和控制組的頻次等基本情況

第二張表顯示傾向得分計(jì)算情況，不過(guò)看樣子默認(rèn)是用probit reg，我們待會(huì)用logit計(jì)算看看

緊接著的note告訴我們common support的范圍。

common support中的p-score的描述情況，包括百分位數(shù)，樣本數(shù)，均值，峰度等等

這個(gè)還有一個(gè)顯著的優(yōu)勢(shì)就是“分區(qū)塊”，保證區(qū)塊內(nèi)的實(shí)驗(yàn)組和對(duì)照組的pscore不存在統(tǒng)計(jì)學(xué)差異

緊接著的就是平衡性檢驗(yàn)，如果平衡性檢驗(yàn)通過(guò)了，就是黑色的字體告訴你“satisfied”，如果不滿足就會(huì)是紅色的warning字體，告訴你“unsatisfied”

如果遇到unsatisfied的情況，會(huì)告訴你是因?yàn)槟氵x擇的那個(gè)協(xié)變量導(dǎo)致common support過(guò)低，平衡性檢驗(yàn)不通過(guò)，這時(shí)候我的建議是刪除這個(gè)協(xié)變量。

回到data視圖，可以看見(jiàn)新增了三個(gè)變量

第二步進(jìn)行匹配

①匹配方法選擇

在實(shí)際進(jìn)行匹配中，究竟應(yīng)使用哪種具體方法或參數(shù)（比如k臨近匹配的k取值，是否放回，如何處理并列），目前文獻(xiàn)中尚未明確指明。一般認(rèn)為，根據(jù)具體數(shù)據(jù)來(lái)選擇具體方法。比如控制組個(gè)體不多，則應(yīng)該進(jìn)行有放回的匹配，如果存在較多具有可比性的控制組個(gè)體，則考慮一對(duì)多或核匹配，以提高匹配效率。在實(shí)踐中，一般建議嘗試不同的匹配方法，然后比較其結(jié)果（類(lèi)似于敏感性分析）；如果不同方法的結(jié)果相似，說(shuō)明結(jié)果是穩(wěn)健的，不依賴于具體方法，如果差異較大，則需要考察具體出現(xiàn)的原因。

我們看其他學(xué)者的做法，也是直接匯報(bào)采用了哪一種匹配方法

徐志剛等（2018）采用的是核匹配方法，選擇默認(rèn)值0.06作為區(qū)間間隔。
Urban & Niebler（2014）采用了局部線性匹配、核匹配
Jiahuan Lu（2015）采用的是one-to-one nearest neighbor matching without replacement. A caliper is included to ensure that matched units are chosen only when the absolute distance between the two units is within the caliper. Higher powers and interaction terms of the covariates are added when necessary to achieve the best possible matching outcomes (Guo and Fraser 2010).
李賁&吳利華（2018）借鑒Abadie et al.（2004）的研究，采用“k 近鄰匹配”（k=4）方法；匹配時(shí)不允許并列，當(dāng)存在傾向得分相同的并列個(gè)體，按照數(shù)據(jù)排序選擇。
石大千等（2018）采用的是核匹配法

所以說(shuō)，大家都沒(méi)有說(shuō)明為什么選這個(gè)方法。。。。

所以比較tricky的做法就是，把所有匹配方法都做一下，哪個(gè)效果最好匯報(bào)哪一個(gè)咯~

本狗

程序見(jiàn)下

* Nearest neighbor matching
attnd $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots

* Radius matching
attr $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots radius(0.1)

* Kernel Matching
attk $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots

kernel matching運(yùn)行起來(lái)好慢好慢好慢好慢好慢啊

* Stratification Matching
atts $ylist $treatment $xlist, pscore(myscore) blockid(myblock) comsup boot reps($breps) dots

第二種 psmatch2程序

psmatch2可以直接選擇匹配的方法。程序的介紹詳見(jiàn)陳強(qiáng)老師P545頁(yè)。

需要注意的是，

默認(rèn)程序里面估計(jì)方法是probit，不過(guò)我們常用的是logit，
默認(rèn)是全部匹配，common表示只僅對(duì)common support內(nèi)的個(gè)體進(jìn)行匹配，最好用common。
默認(rèn)是僅匯報(bào)ATT，可以用ate補(bǔ)充匯報(bào)ATT, AUT, ATT

采用不同的匹配方法

* Matching methods

* K neighbor matching K臨近匹配

psmatch2 treatment $xlist, neighbor(1) logit out(score)

會(huì)輸出很多新的變量

如果我們選擇【psmatch2 treatment $xlist, neighbor(1) logit ate common out(score)】

會(huì)多輸出ATU ATE以及_score -n1等值

* Radius matching

psmatch2 treatment $xlist, radius logit

* Kernel Matching

psmatch2 treatment $xlist, kernel logit

欸，用psmatch2的kernel匹配比pscore程序快很多欸

第三種 nnmatch程序

一些學(xué)者還喜歡借鑒Abadie et al.（2004）的研究，采用“k 近鄰匹配”（k=4）方法；匹配時(shí)不允許并列，當(dāng)存在傾向得分相同的并列個(gè)體，按照數(shù)據(jù)排序選擇；并選擇作為匹配的特征變量。

記得安裝一下nnmatch

程序安裝

*Abadie et al.（2004）的程序

nnmatch score treatment $xlist, tc(att) m(4) bias(bias)

這個(gè)程序運(yùn)行起來(lái)會(huì)比較慢。bias可以不用。

原文示例

小白自己的結(jié)果見(jiàn)下。

三、匹配前后的平衡情況

在進(jìn)行PSM-DID 估計(jì)前，還需進(jìn)行模型有效性檢驗(yàn)。其中首先需要檢驗(yàn)匹配后各變量實(shí)驗(yàn)組和控制組是否變得平衡，也就是說(shuō)實(shí)驗(yàn)組和控制組協(xié)變量的均值在匹配后是否具有顯著差異。如果不存在顯著差異，則支持使用PSM-DID 方法。

H0:實(shí)驗(yàn)組與控制組協(xié)變量之間無(wú)顯著差異。

第一種 psmatch2后估計(jì)

剛才的psmatch2還有一個(gè)優(yōu)點(diǎn)就是，自帶兩個(gè)“估計(jì)后命令”（post-estimation commands），分別用來(lái)檢驗(yàn)匹配后數(shù)據(jù)是否平衡，以及畫(huà)圖顯示傾向得分的共同取值范圍。

輸入

【pstest $xlist, both graph】

會(huì)輸出兩張表，第一張介紹匹配前后不同維度的協(xié)變量的t檢驗(yàn)。結(jié)果非常理想。

Ideally, after the matching procedure, the absolute standardized difference of covariate means should be less than 5%, and the t-statistic should no longer be significant (D’Agostino 1998; Haviland, Nagin, and Rosenbaum 2007).

可以看見(jiàn)，match以后，所有的協(xié)變量T檢驗(yàn)都不顯著了。

其次就是輸出匹配前后的對(duì)比圖

重點(diǎn)看匹配以后的值是否接近0，一般只要小于10%就可以接受。

另外一個(gè)post-estimation command 是直方圖

輸入【psgraph, bin(20)】

這個(gè)圖有點(diǎn)奇怪，沒(méi)有區(qū)分on support和off support。沒(méi)有查到原因，

要不然正常情況下輸出應(yīng)該是這樣的

第二種繪制匹配前的密度函數(shù)圖

第一步，繪制匹配前的密度函數(shù)圖

*-(a)before matching: 匹配前的密度函數(shù)圖

twoway (kdensity _ps if treatment==1,lp(solid) lw(*2.5)) ///

(kdensity _ps if treatment==0,lp(dash) lw(*2.5)), ///

ytitle("核密度") ///

ylabel(,angle(0)) ///

xtitle("傾向得分值") ///

xscale(titlegap(2)) ///

xlabel(0(0.2)0.8, format(%2.1f)) ///

legend(label(1 "實(shí)驗(yàn)組") label(2 "控制組") row(2) ///

position(12) ring(0)) ///

scheme(s1mono)

graph export "01.wmf", replace fontface("Times New Roman")

效果圖見(jiàn)下：

第二步，繪制匹配后的傾向得分圖

采用psmatch2計(jì)算匹配后的p-score

psmatch2 t $xlist, neighbor(1) logit out(score)

*-(b)after matching: 匹配后的密度函數(shù)圖

twoway (kdensity _ps if treatment==1,lp(solid) lw(*2.5)) ///

(kdensity _ps if treatment==0&_wei!=.,lp(dash) lw(*2.5)), ///

ytitle("核密度") ylabel(,angle(0)) ///

xtitle("傾向得分值") xscale(titlegap(2)) ///

xlabel(0(0.2)0.8, format(%2.1f)) ///

legend(label(1 "實(shí)驗(yàn)組") label(2 "控制組") row(2) ///

position(12) ring(0)) ///

scheme(s1mono)

graph export "02.wmf", replace fontface("Times New Roman")

效果圖見(jiàn)下：

在匹配后實(shí)驗(yàn)組和控制組傾向得分值的概率密度已經(jīng)比較接近，說(shuō)明匹配效果較好。因此，在共同支撐假設(shè)基礎(chǔ)上進(jìn)一步證明了PSM-DID方法的可行性和合理性。

第三種 diff里面的test support

*檢驗(yàn)匹配后各變量實(shí)驗(yàn)組和控制組是否變得平衡

diff score,t($treatment) p(t_2012) kernel id(city2) logit cov($xlist) test support

判斷匹配過(guò)程的有效性主要可以從匹配前后的t 統(tǒng)計(jì)量的變化、匹配前后標(biāo)準(zhǔn)偏差的變化兩個(gè)方面來(lái)看：①?gòu)膖統(tǒng)計(jì)量的變化中可以發(fā)現(xiàn)，特征變量在匹配之后均不再具有顯著差異【紅色方框顯示】。從各協(xié)變量的檢驗(yàn)結(jié)果看，匹配后所有變量均不存在顯著性差異，而結(jié)果變量score存在十分顯著的差異，從而證明使用PSM-DID 方法是合理的。

②匹配后標(biāo)準(zhǔn)偏差的絕對(duì)值越小，說(shuō)明匹配的效果越好；Rosenbaum and Rubin（1985）認(rèn)為若匹配后標(biāo)準(zhǔn)偏差的絕對(duì)值能夠小于20%，則匹配處理是有效的。根據(jù)匹配過(guò)程中處理組與對(duì)照組的平衡性檢驗(yàn)結(jié)果，差不多20%，還差一點(diǎn)點(diǎn)理想。

【diff score,t($treatment) p(t_2012) kernel id(city2) logit cov($xlist) report support】

上面這個(gè)表格還可以進(jìn)一步整理成為類(lèi)似下面的表格

四、雙重差分

一、沒(méi)有匹配的普通差分

所謂“雙重差分估計(jì)量”（difference-in-differences estimator），指實(shí)驗(yàn)組的平均變化與控制組的平均變化之差。采用DID可以剔除實(shí)驗(yàn)組與控制組“實(shí)驗(yàn)前差異”（pretreatment differences）；雙重差分的隱含假設(shè)是，即使沒(méi)有政策變化，控制組與實(shí)驗(yàn)組的時(shí)間趨勢(shì)也一樣。

倍差法（Difference-in-Differences）不要求假設(shè)實(shí)驗(yàn)組和控制組樣本在實(shí)驗(yàn)前同質(zhì)，它是在假設(shè)實(shí)驗(yàn)組和控制組前后變化趨勢(shì)相同的情況下，通過(guò)兩次差分來(lái)計(jì)算實(shí)驗(yàn)處理效應(yīng)對(duì)實(shí)驗(yàn)組的平均處理效應(yīng)ATT（Blundell R. and Dias M. C.，2002）。但是采用倍差法的假設(shè)是遵循“共同趨勢(shì)”假設(shè)，否則參數(shù)估計(jì)結(jié)果會(huì)有偏差（Heckman et al.，1998）。

盡管剛才我們提到了【diff】，但我們還是follow Jiahuan Lu（2015）等學(xué)者的做法，手工計(jì)算。

Puhani (2012) and Karaca-Mandic, Norton, and Dowd (2012) further demonstrate that with DID models only, the incremental effect of the coefficient of the interaction term could approximate the treatment effect on the treated.

寫(xiě)出DID的回歸方程

Y= β0+β1Treatment + β2Policy+ β3Treatment *Policy+εit

其中policy表示政策效果，為政策效果虛擬變量，實(shí)施某政策前為0，實(shí)施后為1。

匯報(bào)表格也和Jiahuan Lu（2015）一樣，首先匯報(bào)DID結(jié)果

程序【xtreg $ylist t_2012 treatment jh $xlist,re r】

其中，t_2012是上面的政策效果虛擬變量，2012年及以前為0，2012年以后為1

jh為政策效果虛擬變量和實(shí)驗(yàn)效果的交互項(xiàng)。

交互項(xiàng)顯著表示政策效果有效。

二、匹配以后的差分

我們采用一對(duì)一無(wú)放回鄰匹配

程序

【psmatch2 treatment $xlist, neighbor(1) logit ate common out(score) noreplacement】

結(jié)果會(huì)多出來(lái)幾個(gè)變量，其中比較重要的是生產(chǎn)了新的對(duì)照組

PSM-DID是指基于PSM結(jié)果進(jìn)行的DID。

所以DID的程序是一樣的，只不過(guò)變量改變了。

生成新的交互項(xiàng)

gen newjh=_treated*t_2012

再跑一遍DID

xtreg $ylist t_2012 _treated newjh $xlist,re r, if _support==1

一般而言不會(huì)再去匯報(bào)普通DID的結(jié)果了，直接匯報(bào)PSM-DID結(jié)果。和剛才的普通DID相比，樣本量顯著的降低了。但是交互項(xiàng)的顯著性還是不變的。

完結(jié)撒花??ヽ(°▽°)ノ?

關(guān)于PSM-DID我還是一知半解，如果有比較了解的大佬，還望幫忙挑出毛病和指導(dǎo)一下~~

參考文獻(xiàn)

田利輝,王可第.社會(huì)責(zé)任信息披露的“掩飾效應(yīng)”和上市公司崩盤(pán)風(fēng)險(xiǎn)——來(lái)自中國(guó)股票市場(chǎng)的DID-PSM分析[J].管理世界,2017(11):146-157.

李賁,吳利華.開(kāi)發(fā)區(qū)設(shè)立與企業(yè)成長(zhǎng):異質(zhì)性與機(jī)制研究[J].中國(guó)工業(yè)經(jīng)濟(jì),2018(04):79-97.

Lu J. The performance of performance-based contracting in human services: a quasi-experiment[J]. Journal of Public Administration Research and Theory, 2015, 26(2): 277-293.

石大千,丁海,衛(wèi)平,劉建江.智慧城市建設(shè)能否降低環(huán)境污染[J].中國(guó)工業(yè)經(jīng)濟(jì),2018(06):117-135.

Urban C, Niebler S. Dollars on the Sidewalk: Should US Presidential Candidates Advertise in Uncontested States?[J]. American Journal of Political Science, 2014, 58(2): 322-336.

何文盛,姜雅婷,唐序康.行政審批制度改革可以提升地方政府績(jī)效嗎?——基于中國(guó)15個(gè)副省級(jí)城市2001—2015年面板數(shù)據(jù)的分析[J].公共行政評(píng)論,2019,12(03):118-138+192-193.

徐志剛,寧可,鐘甫寧,紀(jì)月清.新農(nóng)保與農(nóng)地轉(zhuǎn)出:制度性養(yǎng)老能替代土地養(yǎng)老嗎?——基于家庭人口結(jié)構(gòu)和流動(dòng)性約束的視角[J].管理世界,2018,34(05):86-97+180.

彩蛋

先獲得每年的處理組和對(duì)照組樣本，如果使用的是“漸進(jìn)式”DID 方法，需要將樣本按照進(jìn)入年份逐年進(jìn)行匹配。

我前幾天無(wú)所事事查文獻(xiàn)的時(shí)候，看見(jiàn)了Gary King 18年的這篇《Why Propensity Scores Should Not Be Used for Matching》，還是比較新。雖然看見(jiàn)Gary king我就想起他提出的半監(jiān)督學(xué)習(xí)的Readme程序bug過(guò)多，害我花了很久時(shí)間都沒(méi)有搞出來(lái)（記小本本），但是我還是仔細(xì)拜讀了一下?？傮w和我們這篇操作是唱反調(diào)的，p-score不適用匹配。

感悟

其實(shí)剛開(kāi)始接觸PSM-DID的時(shí)候走了很多很多很多很多彎路啊。這篇專欄一度流產(chǎn)。知道論文的ddl來(lái)了。。我果然還是ddl驅(qū)動(dòng)的。

最大的感悟就是，JPART不愧是我最?lèi)?ài)的期刊。

真的，管理世界和JPART這兩個(gè)期刊對(duì)學(xué)方法的人來(lái)說(shuō)簡(jiǎn)直太友好了，每一個(gè)步驟都講得很詳細(xì)，AJPS經(jīng)管“數(shù)據(jù)公開(kāi)”，可是經(jīng)常復(fù)制不出來(lái)文章中的結(jié)果，很多書(shū)里面的都是理論，沒(méi)有操作細(xì)節(jié)。JPART就好圈粉。detailedly&systemly。

尤其是Jiahuan Lu（2015）的這篇文章太令我感動(dòng)了，比較少人在跑回歸前還檢驗(yàn)異方差并校正，都是直接用個(gè)robust或者普通ols。說(shuō)好的跑ols要滿足高斯馬爾科夫定理，但是很少人遵守。感動(dòng)。T^T

我一定要強(qiáng)迫我們南霸天老師也看?。。?！

吃我安利?。。。。。?！

小白和南霸天的日常

Angela結(jié)尾。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看