因果 X：解決多學(xué)科領(lǐng)域的因果問(wèn)題 | 因果科學(xué)讀書(shū)會(huì)第三季啟動(dòng)

菌心說(shuō) 2021-09-27

展開(kāi)全文

導(dǎo)語(yǔ)

“因果”并不是一個(gè)新概念，而是一個(gè)已經(jīng)在多個(gè)學(xué)科中使用了數(shù)十年的分析技術(shù)。通過(guò)前兩季的分享，我們主要梳理了因果科學(xué)在計(jì)算機(jī)領(lǐng)域的前沿進(jìn)展。如要融會(huì)貫通，我們需要回顧數(shù)十年來(lái)在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、生物學(xué)等多個(gè)領(lǐng)域中，都是使用了什么樣的因果模型、以什么樣的范式、解決了什么樣的問(wèn)題。我們還要嘗試進(jìn)行對(duì)比和創(chuàng)新，看能否以現(xiàn)在的眼光，用其他的模型，為這些研究提供新的解決思路。

讀書(shū)會(huì)背景

在經(jīng)歷了第一季的前沿探索，第二季因果基礎(chǔ)知識(shí)和實(shí)踐之后（前兩季學(xué)習(xí)路徑參考文章：構(gòu)建因果引擎，創(chuàng)新科研范式——因果科學(xué)的學(xué)習(xí)路線圖），該如何利用因果工具成為了社區(qū)成員的最關(guān)心的問(wèn)題?！耙蚬?X”就是要讓因果真正地應(yīng)用于我們的科學(xué)研究中，不管你是來(lái)自計(jì)算機(jī)、數(shù)理統(tǒng)計(jì)領(lǐng)域，還是社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)領(lǐng)域，還是醫(yī)學(xué)、生物學(xué)領(lǐng)域，我們希望共同探究出因果研究的范式，真正解決因果的多學(xué)科應(yīng)用問(wèn)題，乃至解決工業(yè)界的問(wèn)題。

由智源社區(qū)、集智俱樂(lè)部聯(lián)合舉辦的因果科學(xué)與Causal AI讀書(shū)會(huì)第三季，將主要面向兩類(lèi)人群：如果你從事計(jì)算機(jī)相關(guān)方向研究，希望為不同領(lǐng)域引入新的計(jì)算方法，通過(guò)大數(shù)據(jù)、新算法得到新成果，可以通過(guò)讀書(shū)會(huì)各個(gè)領(lǐng)域的核心因果問(wèn)題介紹和論文推薦快速入手；如果你從事其他理工科或人文社科領(lǐng)域研究，也可以通過(guò)所屬領(lǐng)域的因果研究綜述介紹和研討已有工作的示例代碼，在自己的研究中快速開(kāi)始嘗試部署結(jié)合因果的算法。

讀書(shū)會(huì)安排

第三季因果科學(xué)與Causal AI讀書(shū)會(huì)，將主要結(jié)合因果推斷的潛在結(jié)果（Potential Outcomes）框架展開(kāi)討論，并嘗試在不同領(lǐng)域嘗試建立與SCM的對(duì)應(yīng)關(guān)系。

分享主要按照「理論學(xué)習(xí)」+「案例研討」的模式進(jìn)行展開(kāi)：

第一個(gè)模塊為「理論學(xué)習(xí)」模塊，這部分將參考W. Imbens和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences以及A. Hernan和M. Robins的Causal Inference: What if進(jìn)行分享，將重點(diǎn)介紹潛在結(jié)果框架，包括但不限于實(shí)驗(yàn)性研究和觀察性研究中的重要方法以及更穩(wěn)健的因果效應(yīng)估計(jì)方法。

第二個(gè)模塊為「案例研討」模塊，將圍繞目前在不同領(lǐng)域?qū)W術(shù)界和業(yè)界面臨的重要問(wèn)題，研討包括但不限于計(jì)量經(jīng)濟(jì)學(xué)、推薦系統(tǒng)、精準(zhǔn)醫(yī)療、計(jì)算社會(huì)科學(xué)、推薦系統(tǒng)、智能運(yùn)維等學(xué)科典型的因果相關(guān)分析的研究實(shí)例。對(duì)這些研究進(jìn)行復(fù)現(xiàn)。我們也將嘗試提供相關(guān)代碼示例，對(duì)這些研究進(jìn)行復(fù)現(xiàn)，幫助大家在自己的研究中快速開(kāi)始部署結(jié)合因果的算法。

整體內(nèi)容設(shè)計(jì)模塊如下：

（文末有具體介紹與參考文獻(xiàn)）

「基礎(chǔ)理論學(xué)習(xí)」

因果推斷的潛在結(jié)果框架在實(shí)驗(yàn)性研究的應(yīng)用
因果推斷在觀察性研究中的應(yīng)用：DESIGN
因果推斷在觀察性研究中的應(yīng)用（續(xù)）：ANALYSIS

「案例研討」

醫(yī)學(xué)、藥學(xué)、生物學(xué)中的研究案例
管理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及政治學(xué)中的研究案例
因果隨機(jī)森林及其在工業(yè)界的應(yīng)用
多級(jí)治療與連續(xù)性暴露
因果推薦系統(tǒng)
因果在自然語(yǔ)言處理中的應(yīng)用
因果與公平性和可解釋性

「深入理論學(xué)習(xí)」

雙穩(wěn)健估計(jì)、處理極端傾向得分的方法
陰性對(duì)照試驗(yàn)
高維因果推斷
結(jié)合隨機(jī)化試驗(yàn)數(shù)據(jù)與觀察性數(shù)據(jù)

參與方式及時(shí)間

發(fā)起人員

中國(guó)科學(xué)院計(jì)算技術(shù)研究所在讀博士生李奉治和北京大學(xué)大數(shù)據(jù)科學(xué)研究中心在讀博士生李昊軒。

參與人員

計(jì)算機(jī)領(lǐng)域的人群，希望為不同領(lǐng)域引入新的計(jì)算方法，通過(guò)大數(shù)據(jù)、新算法得到新成果的朋友。
社會(huì)學(xué)、生物學(xué)等其他領(lǐng)域人群，希望通過(guò)所屬領(lǐng)域的因果研究綜述介紹和相關(guān)理論學(xué)習(xí)實(shí)踐，在自己的研究中結(jié)合因果算法的朋友。

運(yùn)行模式

每周由1-2名讀書(shū)會(huì)成員領(lǐng)讀相關(guān)書(shū)籍章節(jié)或者介紹因果推斷在某一領(lǐng)域中的應(yīng)用

時(shí)間：

從2021年10月24日開(kāi)始，每周日上午 10:00-12:00舉辦。共11-12期，每周一期。持續(xù)時(shí)間預(yù)計(jì) 2-3 個(gè)月。

方式：

此次讀書(shū)會(huì)為線上閉門(mén)讀書(shū)會(huì)，采用線上會(huì)議的方式進(jìn)行，結(jié)束之后會(huì)為報(bào)名成員提供視頻回放等多種資料供大家學(xué)習(xí)。

費(fèi)用：

為了甄選出真正對(duì)因果推理感興趣、有相關(guān)研究經(jīng)驗(yàn)的專業(yè)人士，也為激勵(lì)小伙伴們堅(jiān)持學(xué)習(xí)，本期讀書(shū)會(huì)將采取收費(fèi) - 退款的保證金模式。費(fèi)用可開(kāi)發(fā)票。

具體規(guī)則：

1. 讀書(shū)會(huì)保證金共計(jì) 299 元/人。

2. 滿足如下條件之一者全額退款（本季讀書(shū)會(huì)結(jié)束后統(tǒng)一退費(fèi)）：

貢獻(xiàn)了一次講座（半小時(shí)以上）內(nèi)容的（需要提前向主持人申請(qǐng)并通過(guò)試講）；

完成了一篇以上讀書(shū)筆記寫(xiě)作，并在集智俱樂(lè)部公眾號(hào)分享。（讀書(shū)筆記標(biāo)準(zhǔn)：字?jǐn)?shù)3千以上，圖文并茂，具體請(qǐng)參照此文：因果觀念新革命？萬(wàn)字長(zhǎng)文，解讀復(fù)雜系統(tǒng)背后的暗因果）；

認(rèn)真完成集智百科相應(yīng)的編撰任務(wù)，經(jīng)過(guò)集智百科團(tuán)隊(duì)審核通過(guò)，并達(dá)到299積分。（詳情見(jiàn)https://wiki./index.php?title=激勵(lì)制度）

3. 滿足以下條件之一的不僅可以全額退款，還有額外獎(jiǎng)勵(lì)：

由讀書(shū)會(huì)內(nèi)容啟發(fā)，產(chǎn)生了靠譜的新產(chǎn)品創(chuàng)意，并在讀書(shū)會(huì)結(jié)束 2 個(gè)月內(nèi)提交了詳細(xì)的產(chǎn)品策劃方案，并通過(guò)了集智俱樂(lè)部組織的相應(yīng)考核答辯的；

由讀書(shū)會(huì)內(nèi)容啟發(fā)，萌發(fā)了科研論文創(chuàng)意，在讀書(shū)會(huì)結(jié)束 2 個(gè)月內(nèi)完成初稿，并在最終的論文成果中致謝集智俱樂(lè)部和因果社區(qū)的（需要發(fā)表在SCI等核心刊物上。）

上述規(guī)則的最終解釋權(quán)歸集智俱樂(lè)部所有。

報(bào)名：（長(zhǎng)期有效）

掃碼報(bào)名

第一步：掃碼填寫(xiě)報(bào)名信息。

第二步：信息填寫(xiě)之后，進(jìn)入付款流程，提交保證金299元。（符合退費(fèi)條件后可退費(fèi)。）

第三步：添加負(fù)責(zé)人微信，拉入對(duì)應(yīng)的讀書(shū)會(huì)討論群。

我們也會(huì)對(duì)每次分享的內(nèi)容進(jìn)行錄制，剪輯后發(fā)布在集智學(xué)園的官網(wǎng)上，供讀書(shū)會(huì)成員回看。

讀書(shū)會(huì)閱讀材料

理論學(xué)習(xí)模塊

潛在結(jié)果指接受潛在治療的個(gè)體的結(jié)果，通常在有限樣本中，視每個(gè)個(gè)體的潛在結(jié)果是命定的，而隨機(jī)性來(lái)源于分配機(jī)制（Assignment Mechanisms）。若分配機(jī)制已知，則稱為實(shí)驗(yàn)性研究（Experimental Studies），否則稱為觀察性研究（Observational Studies）。對(duì)于個(gè)體而言，治療的因果關(guān)系是個(gè)體接受治療的潛在結(jié)果與未接受治療的潛在結(jié)果之間的差異。因果推斷的挑戰(zhàn)仍然是缺失數(shù)據(jù)問(wèn)題，目前已經(jīng)被廣泛應(yīng)用于學(xué)術(shù)界及業(yè)界，包括但不限于：計(jì)量經(jīng)濟(jì)學(xué)，推薦系統(tǒng)，精準(zhǔn)醫(yī)療以及人文社科領(lǐng)域等。

在實(shí)驗(yàn)性研究中，我們將介紹完全隨機(jī)實(shí)驗(yàn)的四種估計(jì)因果效應(yīng)以及置信區(qū)間的方法：Fisher精確P值法，Neyman重復(fù)抽樣法，回歸方法以及基于模型的推斷方法，然后推廣至分層隨機(jī)實(shí)驗(yàn)和配對(duì)隨機(jī)實(shí)驗(yàn)。

在觀察性研究中，我們將介紹傾向性得分的估計(jì)及分層方法，以及協(xié)變量分布均衡性的評(píng)估，修剪法和匹配法提升協(xié)變量均衡等。為了實(shí)現(xiàn)更穩(wěn)健的因果效應(yīng)估計(jì)，我們還將介紹逆概率加權(quán)和邊緣結(jié)構(gòu)模型，G-估算與結(jié)構(gòu)嵌入模型，以及工具變量法。

案例研討模塊

在「案例研討」過(guò)程中，將由各個(gè)領(lǐng)域的主講人介紹因果推斷技術(shù)在各自領(lǐng)域內(nèi)的現(xiàn)有推斷方法，推薦系統(tǒng)中的雙穩(wěn)健方法，因果推斷在多級(jí)治療或連續(xù)暴露情形下的推斷方法，以及快手等業(yè)界中廣泛使用的因果森林方法。

醫(yī)學(xué)、藥學(xué)、生物學(xué)中的研究案例

【簡(jiǎn)介】

一、隨機(jī)化被破壞時(shí)的因果推斷

在一個(gè)隨機(jī)化試驗(yàn)中，每個(gè)個(gè)體都被隨機(jī)地分配到兩種處理方案中的一種，這時(shí)估計(jì)平均因果作用是很容易的。但實(shí)際上，隨機(jī)化條件有可能被破壞。例如，在激勵(lì)試驗(yàn)中，患者未必遵從醫(yī)囑，實(shí)際接受的治療方案與原本被分配的治療方案不同；在以非生存結(jié)局為主要關(guān)心目標(biāo)時(shí)，主要結(jié)局可能被死亡截?cái)啵瑹o(wú)法對(duì)死亡個(gè)體定義主要結(jié)局。處理不完美隨機(jī)化試驗(yàn)通常采用主層分析（Principal Stratification）方法，把按照某中間潛在結(jié)果把人群分層，然后考慮有意義的主層（如依從組、存活組）內(nèi)的因果作用。

二、精準(zhǔn)醫(yī)療

精準(zhǔn)醫(yī)療旨在根據(jù)患者的特征，選擇恰當(dāng)?shù)闹委煼桨?，達(dá)到治療收益的最大化?；颊咝枰鶕?jù)自己的病情選擇最優(yōu)的治療方案，醫(yī)生也需要根據(jù)各治療方案的特點(diǎn)選擇最適宜的患者進(jìn)行個(gè)體化治療。關(guān)于最優(yōu)個(gè)性化治療規(guī)則的研究主要有兩個(gè)思路。一種思路是直接最大化在某種個(gè)性化治療規(guī)則下的群體平均響應(yīng)，在某些情況下可以轉(zhuǎn)化為加權(quán)分類(lèi)問(wèn)題；另一種思路關(guān)注給定協(xié)變量組合后處理組和控制組的平均響應(yīng)水平差異，兩種治療方案的效用差異恰好對(duì)應(yīng)了因果作用。通過(guò)估計(jì)因果作用實(shí)現(xiàn)個(gè)性化治療策略的選擇，為臨床應(yīng)用提供了極大便利。

【參考文獻(xiàn)】

[1] Keisuke, H. , Imbens, G. W. , Rubin, D. B. , & Xiao-Hua, Z. . (2000). Assessing the effect of an influenza vaccine in an encouragement design. Biostatistics.

https://pubmed.ncbi.nlm./12933526/

[2] Wang, L. , Zhou, X. H. , & Richardson, T. S. . (2016). Identification and estimation of causal effects with outcomes truncated by death. Biometrika.

https://academic./biomet/article/104/3/597/3957587

[3] Zhao, Y., Zeng, D., Rush, A. J., & Kosorok, M. R. (2012). Estimating individualized treatment rules using outcome weighted learning. Journal of the American Statistical Association.

https://www.ncbi.nlm./pmc/articles/PMC3636816/

[4] Guo, W. , Zhou, X. H., & Ma, S. (2020). Estimation of optimal individualized treatment rules using a covariate-specific treatment effect curve with high-dimensional covariates. Journal of the American Statistical Association.

https://www./doi/full/10.1080/01621459.2020.1865167

管理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及政治學(xué)中的研究案例

【簡(jiǎn)介】

計(jì)量經(jīng)濟(jì)學(xué)以建立經(jīng)濟(jì)計(jì)量模型為主要手段，定量分析研究具有隨機(jī)性特性的經(jīng)濟(jì)變量關(guān)系，其本質(zhì)可以歸納為一個(gè)因果推斷問(wèn)題。例如，在微觀經(jīng)濟(jì)學(xué)中，我們關(guān)心的是某些干預(yù)措施對(duì)于具體的個(gè)體行為的影響，比如班級(jí)規(guī)模對(duì)兒童學(xué)習(xí)效果有何影響？教授對(duì)個(gè)人就業(yè)及未來(lái)收入有何影響？大學(xué)教育對(duì)未來(lái)收入有何影響？在宏觀經(jīng)濟(jì)學(xué)和政策效應(yīng)評(píng)估中，我們關(guān)心比如對(duì)農(nóng)民工進(jìn)行職業(yè)培訓(xùn)是否可以增加他們的就業(yè)機(jī)會(huì)和收入水平？限購(gòu)政策是否能夠抑制房?jī)r(jià)的持續(xù)上漲？

本期分享會(huì)主要介紹利用觀測(cè)數(shù)據(jù)進(jìn)行因果推斷時(shí)幾種常見(jiàn)的識(shí)別策略，包括回歸、匹配、工具變量法、雙重差分法和斷點(diǎn)回歸設(shè)計(jì)。雙重差分方法（Difference in Difference, DID）適用于事前所有個(gè)體都沒(méi)有受到政策干預(yù)，而事后只有一組個(gè)體受到政策干預(yù)的情形。斷點(diǎn)回歸設(shè)計(jì)（Regression Discontinuity?Design, RDD）則可被視為是一種僅次于隨機(jī)實(shí)驗(yàn)的能夠有效利用現(xiàn)實(shí)約束條件分析變量之間因果關(guān)系的實(shí)證方法。

【參考文獻(xiàn)】

[1] Zhou Xiang and Yu Xie. 'Marginal treatment effects from a propensity score perspective. 'Journal of Political Economy.

https://www.journals./doi/abs/10.1086/702172

[2] Yu Xie, Jennie E. Brand, and Ben Jann. Estimating heterogeneous treatment effects with observational data. Sociological Methodology, 42(1),(2012): 314-347.

https://journals./doi/abs/10.1177/0081175012452652

[3] Jennie E. Brand and Yu Xie. Who benefits most from college? Evidence for negative selection in heterogeneous economic returns to higher education. American Sociological Review, 75(2), (2010): 273-302.

https://journals./doi/10.1177/0003122410363567

[4] Rajeev H. Dehe jia and Sadek Wahba. Causal effects in nonexperimental studies: reevaluating the evaluation of training programs. Publications of the American Statistical Association, 94(448),(1999):1053-1062.

[5] https://www./doi/abs/10.1080/01621459.1999.10473858

Angrist J D, Pischke J S. Mostly harmless econometrics[M]. Princeton university press, 2008.

[6] Huynh V N , Kreinovich V , Sriboonchitta S . Causal Inference in Econometrics[J]. Studies in Computational Intelligence, 2016.

[7] 趙西亮. 基本有用的計(jì)量經(jīng)濟(jì)學(xué)[M]. 北京大學(xué)出版社，2017.

[8] 李井奎. 大偵探經(jīng)濟(jì)學(xué)[M]. 中信出版社，2021.

因果隨機(jī)森林及其在工業(yè)界的應(yīng)用

【簡(jiǎn)介】

估計(jì)異質(zhì)因果效應(yīng)，即條件平均因果效應(yīng)(Conditional Average Causal Effect, CATE)，一直以來(lái)都是因果推斷研究的重要組成?；跇?shù)模型的估計(jì) CATE 的方法在學(xué)術(shù)界被廣泛研究，其中最有代表性的是斯坦福大學(xué)經(jīng)濟(jì)學(xué)教授 Susan Athey 的系列工作，包括因果樹(shù)、因果森林和廣義隨機(jī)森林。廣義隨機(jī)森林 (因果森林是它的特例)和普通的隨機(jī)森林最大的區(qū)別在于，它是從局部加權(quán)估計(jì)的角度而不是集成方法的角度來(lái)解釋的。這種基于森林的臨近權(quán)重讓其相對(duì)于其它方法具備靈活性，自適應(yīng)性和易用性等優(yōu)點(diǎn)。此外, 它基于局部矩方程的估計(jì)量還具備良好的統(tǒng)計(jì)性質(zhì)。近年來(lái)，它們更是被廣泛應(yīng)用在工業(yè)界互聯(lián)網(wǎng)商業(yè)平臺(tái)的營(yíng)銷(xiāo)活動(dòng)中, 可以有效地提高用戶參與度和平臺(tái)收入，例如阿里巴巴和亞馬遜的優(yōu)惠券, 共享乘車(chē)優(yōu)步和滴滴的折扣券，抖音的視頻觀看金幣激勵(lì)等。估計(jì)用戶對(duì)激勵(lì)的敏感度 (即 CATE) 是個(gè)性化激勵(lì)關(guān)鍵的第一步。所以因果森林是同時(shí)在學(xué)術(shù)界和工業(yè)界都是非常有影響力的工作。

【參考文獻(xiàn)】

[1] Athey, Susan, and Guido Imbens. 'Recursive partitioning for heterogeneous causal effects.' Proceedings of the National Academy of Sciences 113.27 (2016): 7353-7360.

https://www./content/113/27/7353.short

[2] Wager, Stefan, and Susan Athey. 'Estimation and inference of heterogeneous treatment effects using random forests.' Journal of the American Statistical Association 113.523 (2018): 1228-1242.

https://www./doi/abs/10.1080/01621459.2017.1319839

[3] (Optional) Hahn, P. Richard, Jared S. Murray, and Carlos M. Carvalho. 'Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion).' Bayesian Analysis 15.3 (2020): 965-1056.

https:///journals/bayesian-analysis/volume-15/issue-3/Bayesian-Regression-Tree-Models-for-Causal-Inference--Regularization-Confounding/10.1214/19-BA1195.full

多級(jí)治療與連續(xù)性暴露

【簡(jiǎn)介】

若治療有多種級(jí)別，如何實(shí)現(xiàn)穩(wěn)定的因果效應(yīng)估計(jì)？進(jìn)一步，考慮對(duì)PM2.5作為暴露指標(biāo)的因果效應(yīng)估計(jì)，作為一個(gè)連續(xù)暴露指標(biāo)，如何魯棒地估計(jì)因果效應(yīng)？事實(shí)上，許多觀察性研究的數(shù)據(jù)不能直接采用隨機(jī)實(shí)驗(yàn)的分析方法，因?yàn)椴豢珊雎孕詿o(wú)法得到保障。然而，在給定均衡得分（Balance Score）之后，可以認(rèn)為數(shù)據(jù)來(lái)自一個(gè)分層隨機(jī)實(shí)驗(yàn)。本次分享主題將傳統(tǒng)的二元治療方案中的因果推斷方法推廣到多級(jí)治療，以及連續(xù)型暴露的情形。在二元治療中，傾向性得分是一維的均衡得分，可以自然地依照估計(jì)的傾向性得分進(jìn)行分層。在多級(jí)治療情形中，利用多元邏輯回歸可以實(shí)現(xiàn)對(duì)傾向性得分的估計(jì)，繼而可以進(jìn)一步對(duì)總體樣本進(jìn)行分塊或修剪，以提升協(xié)變量分布的均衡性。但是要實(shí)現(xiàn)廣義傾向性得分的匹配，需要匹配的維數(shù)將轉(zhuǎn)化為T(mén)-1，其中T是治療的狀態(tài)數(shù)，高維傾向性得分的匹配將帶來(lái)一定的挑戰(zhàn)。本期將分享基于弱非混淆性（Weak Unconfoundedness）和廣義傾向性得分的子類(lèi)化方法，以實(shí)現(xiàn)傾向性得分的一維匹配，從而得到一類(lèi)更穩(wěn)健的因果推斷估計(jì)量。

【參考文獻(xiàn)】

[1] Yang, Shu, et al. 'Propensity score matching and subclassification in observational studies with multi‐level treatments.' Biometrics 72.4 (2016): 1055-1065.

https://onlinelibrary./doi/abs/10.1111/biom.12505

[2] Wu, Xiao, et al. 'Matching on generalized propensity scores with continuous exposures.' arXiv preprint arXiv:1812.06575 (2018).

https:///abs/1812.06575

因果推薦系統(tǒng)

【簡(jiǎn)介】

推薦系統(tǒng)能夠在“信息過(guò)載”的情況下，向用戶高效地推薦感興趣的物品。對(duì)于工業(yè)界，推薦算法也能夠最大限度地吸引客戶并提高用戶轉(zhuǎn)化率，進(jìn)而實(shí)現(xiàn)公司利潤(rùn)的最大化。亞馬遜至少有20%的銷(xiāo)售來(lái)自推薦算法，Netflix曾宣稱有60%的用戶是通過(guò)推薦系統(tǒng)來(lái)找到感興趣的電影和視頻。然而，推薦系統(tǒng)的原始數(shù)據(jù)中通常隱含許多偏差，例如用戶更傾向于選擇位置更好的物品，或者比如極其喜歡或不喜歡一個(gè)電影的用戶更傾向于給電影評(píng)分，因此數(shù)據(jù)集并不能代表總體用戶，稱之為選擇偏差。因果推薦系統(tǒng)給出了一種可行的方案來(lái)消除這些偏差，例如雙穩(wěn)健方法等，從因果的角度來(lái)講，其本質(zhì)問(wèn)題是要回答干預(yù)和反事實(shí)問(wèn)題，例如“如果強(qiáng)迫一個(gè)用戶看某個(gè)電影，他對(duì)于電影的評(píng)分會(huì)是多少？”。本期讀書(shū)會(huì)將結(jié)合最新的因果推薦系統(tǒng)的相關(guān)成果，例如Recsys，Sigir等，來(lái)介紹如果用因果科學(xué)的語(yǔ)言來(lái)正式定義并解決因果推薦場(chǎng)景中的問(wèn)題，進(jìn)而消除偏差，實(shí)現(xiàn)更好的推薦效果。

【參考文獻(xiàn)】

[1] Bonner S, Vasile F. Causal embeddings for recommendation[C]//Proceedings of the 12th ACM conference on recommender systems. 2018: 104-112.
https://dl./doi/abs/10.1145/3240323.3240360
[2] Sato M, Takemori S, Singh J, et al. Unbiased learning for the causal effect of recommendation[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 378-387.
https://dl./doi/10.1145/3383313.3412261
[3] Mehrotra R, Bhattacharya P, Lalmas M. Inferring the Causal Impact of New Track Releases on Music Recommendation Platforms through Counterfactual Predictions[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 687-691.
https://dl./doi/abs/10.1145/3383313.3418491
[4] Wang Y, Liang D, Charlin L, et al. Causal inference for recommender systems[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 426-431.
https://dl./doi/abs/10.1145/3383313.3412225

因果在自然語(yǔ)言處理中的應(yīng)用

【簡(jiǎn)介】

設(shè)想一家醫(yī)學(xué)研究中心希望建立一個(gè)分類(lèi)器，從病人醫(yī)療記錄的文本敘述中檢測(cè)臨床診斷。這些記錄由多個(gè)醫(yī)院站點(diǎn)組成，其中每個(gè)站點(diǎn)目標(biāo)臨床狀況的頻率和敘述的寫(xiě)作風(fēng)格都有所不同。當(dāng)分類(lèi)器應(yīng)用于不屬于訓(xùn)練集的站點(diǎn)的記錄時(shí)，它的準(zhǔn)確率會(huì)下降。事后分析表明，它在表面上不相關(guān)的特性上投入了大量的精力，比如醫(yī)院的寫(xiě)作風(fēng)格。事實(shí)上，我們希望一個(gè)魯棒的預(yù)測(cè)器能夠著重于依據(jù)醫(yī)療狀態(tài)而非寫(xiě)作風(fēng)格進(jìn)行預(yù)測(cè)，即在干預(yù)寫(xiě)作風(fēng)格等混淆因素時(shí)，分類(lèi)器能夠保持結(jié)局指標(biāo)穩(wěn)定。為此，自然語(yǔ)言處理建模的最新進(jìn)展可以幫助研究人員用文本數(shù)據(jù)做出因果結(jié)論，并且來(lái)自因果推斷的想法可以用來(lái)使自然語(yǔ)言處理模型更加魯棒且具有解釋性。對(duì)于因果和自然語(yǔ)言處理的結(jié)合，當(dāng)文本信息作為潛在結(jié)果時(shí)，其難點(diǎn)是從高維文本信息實(shí)現(xiàn)有效降維；當(dāng)文本信息作為混淆因素時(shí)，其難點(diǎn)是利用自然語(yǔ)言處理方法來(lái)限制混淆；當(dāng)文本信息作為治療狀態(tài)時(shí)，其難點(diǎn)是潛在結(jié)果框架下分配機(jī)制的可忽略性和正概率假設(shè)。本期讀書(shū)會(huì)將介紹不變性測(cè)試和敏感性測(cè)試，以及利用反事實(shí)樣本增強(qiáng)方法以獲取更穩(wěn)健的因果效應(yīng)估計(jì)。

【參考文獻(xiàn)】

[1] Feder, Amir, et al. 'Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond.' arXiv preprint arXiv:2109.00725 (2021).

https:///abs/2109.00725

[2] Egami, Naoki, et al. 'How to make causal inferences using texts.' arXiv preprint arXiv:1802.02163 (2018).

https:///abs/1802.02163

[3] Keith, Katherine A., David Jensen, and Brendan O'Connor. 'Text and causal inference: A review of using text to remove confounding from causal estimates.' arXiv preprint arXiv:2005.00649 (2020).

https:///abs/2005.00649

因果與公平性和可解釋性

【簡(jiǎn)介】

在機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于各行各業(yè)的今天，對(duì)于一些高風(fēng)險(xiǎn)的決策問(wèn)題，例如AI在判斷一個(gè)人的信用卡/借貸申請(qǐng)是否應(yīng)該通過(guò)時(shí)，或是HR判斷一個(gè)人的簡(jiǎn)歷是否合格時(shí)，人們開(kāi)始關(guān)注機(jī)器學(xué)習(xí)模型的可解釋性和公平性問(wèn)題。可解釋性的目的是回答“模型做出預(yù)測(cè)時(shí)利用了哪些信息？哪些信息在預(yù)測(cè)中更重要？”這樣的問(wèn)題。而公平性則關(guān)注機(jī)器學(xué)習(xí)模型做出的預(yù)測(cè)是否對(duì)不同的人群（如性別，年齡，種族）或者個(gè)體公平。本期讀書(shū)會(huì)將結(jié)合一些近期發(fā)表在一流會(huì)議和期刊上的論文，介紹幾種借助因果推斷來(lái)提高機(jī)器學(xué)習(xí)可解釋性和公平性的方法。

【參考文獻(xiàn)】

[1] Vig, Jesse, et al. 'Investigating Gender Bias in Language Models Using Causal Mediation Analysis.' NeurIPS. 2020.

[2] Kusner, Matt, et al. 'Counterfactual fairness.' Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.

https:///abs/1703.06856

[3] Kilbertus, Niki, et al. 'The sensitivity of counterfactual fairness to unmeasured confounding.' Uncertainty in Artificial Intelligence. PMLR, 2020.

http://proceedings./v115/kilbertus20a.html

[4] Chiappa, Silvia. 'Path-specific counterfactual fairness.' Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. No. 01. 2019.

https://ojs.//index.php/AAAI/article/view/4777

[5] Feder, Amir, et al. 'Causalm: Causal model explanation through counterfactual language models.' Computational Linguistics 47.2 (2021): 333-386.

https:///abs/2005.13407

特別鳴謝：本文的主題內(nèi)容由中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士生李奉治和北京大學(xué)大數(shù)據(jù)科學(xué)研究中心博士生李昊軒設(shè)計(jì)并撰寫(xiě)，由中國(guó)地質(zhì)大學(xué)（北京）博士生段月然組織和編輯，特別感謝普林斯頓大學(xué)研究員黃俊銘、劍橋大學(xué)博士生陸超超、香港城市大學(xué)助理教授郭若城、中國(guó)科學(xué)技術(shù)大學(xué)博士生龔鶴揚(yáng)等成員提供的內(nèi)容和反饋。

因果科學(xué)社區(qū)的簡(jiǎn)介

因果科學(xué)社區(qū)由智源社區(qū)、集智俱樂(lè)部共同推動(dòng)，面向因果科學(xué)領(lǐng)域的垂直型學(xué)術(shù)討論社區(qū)，目的是促進(jìn)因果科學(xué)專業(yè)人士和興趣愛(ài)好者們的學(xué)習(xí)、交流和合作，推進(jìn)因果科學(xué)學(xué)術(shù)、產(chǎn)業(yè)生態(tài)的建設(shè)和落地，孕育新一代因果科學(xué)領(lǐng)域的學(xué)術(shù)專家和產(chǎn)業(yè)創(chuàng)新者。加入任意一季讀書(shū)會(huì)即可加入因果社區(qū)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：菌心說(shuō) > 《復(fù)雜系統(tǒng)、邏輯學(xué)，因果關(guān)系，因果科學(xué)》

舉報(bào)/認(rèn)領(lǐng)