小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

因果 X:解決多學(xué)科領(lǐng)域的因果問(wèn)題 | 因果科學(xué)讀書(shū)會(huì)第三季啟動(dòng)

 菌心說(shuō) 2021-09-27

圖片

導(dǎo)語(yǔ)

“因果”并不是一個(gè)新概念,而是一個(gè)已經(jīng)在多個(gè)學(xué)科中使用了數(shù)十年的分析技術(shù)。通過(guò)前兩季的分享,我們主要梳理了因果科學(xué)在計(jì)算機(jī)領(lǐng)域的前沿進(jìn)展。如要融會(huì)貫通,我們需要回顧數(shù)十年來(lái)在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、生物學(xué)等多個(gè)領(lǐng)域中,都是使用了什么樣的因果模型、以什么樣的范式、解決了什么樣的問(wèn)題。我們還要嘗試進(jìn)行對(duì)比和創(chuàng)新,看能否以現(xiàn)在的眼光,用其他的模型,為這些研究提供新的解決思路。

圖片
   



讀書(shū)會(huì)背景



在經(jīng)歷了第一季的前沿探索,第二季因果基礎(chǔ)知識(shí)和實(shí)踐之后(前兩季學(xué)習(xí)路徑參考文章:構(gòu)建因果引擎,創(chuàng)新科研范式——因果科學(xué)的學(xué)習(xí)路線圖,該如何利用因果工具成為了社區(qū)成員的最關(guān)心的問(wèn)題?!耙蚬?X”就是要讓因果真正地應(yīng)用于我們的科學(xué)研究中,不管你是來(lái)自計(jì)算機(jī)、數(shù)理統(tǒng)計(jì)領(lǐng)域,還是社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)領(lǐng)域,還是醫(yī)學(xué)、生物學(xué)領(lǐng)域,我們希望共同探究出因果研究的范式,真正解決因果的多學(xué)科應(yīng)用問(wèn)題,乃至解決工業(yè)界的問(wèn)題。

由智源社區(qū)、集智俱樂(lè)部聯(lián)合舉辦的因果科學(xué)與Causal AI讀書(shū)會(huì)第三季,將主要面向兩類(lèi)人群:如果你從事計(jì)算機(jī)相關(guān)方向研究,希望為不同領(lǐng)域引入新的計(jì)算方法,通過(guò)大數(shù)據(jù)、新算法得到新成果,可以通過(guò)讀書(shū)會(huì)各個(gè)領(lǐng)域的核心因果問(wèn)題介紹和論文推薦快速入手;如果你從事其他理工科或人文社科領(lǐng)域研究,也可以通過(guò)所屬領(lǐng)域的因果研究綜述介紹和研討已有工作的示例代碼,在自己的研究中快速開(kāi)始嘗試部署結(jié)合因果的算法。

   



讀書(shū)會(huì)安排



第三季因果科學(xué)與Causal AI讀書(shū)會(huì),將主要結(jié)合因果推斷的潛在結(jié)果(Potential Outcomes)框架展開(kāi)討論,并嘗試在不同領(lǐng)域嘗試建立與SCM的對(duì)應(yīng)關(guān)系。

分享主要按照「理論學(xué)習(xí)」+「案例研討」的模式進(jìn)行展開(kāi):

第一個(gè)模塊為「理論學(xué)習(xí)」模塊,這部分將參考W. Imbens和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences以及A. Hernan和M. Robins的Causal Inference: What if進(jìn)行分享,將重點(diǎn)介紹潛在結(jié)果框架,包括但不限于實(shí)驗(yàn)性研究和觀察性研究中的重要方法以及更穩(wěn)健的因果效應(yīng)估計(jì)方法。

圖片

第二個(gè)模塊為「案例研討」模塊,將圍繞目前在不同領(lǐng)域?qū)W術(shù)界和業(yè)界面臨的重要問(wèn)題,研討包括但不限于計(jì)量經(jīng)濟(jì)學(xué)、推薦系統(tǒng)、精準(zhǔn)醫(yī)療、計(jì)算社會(huì)科學(xué)、推薦系統(tǒng)、智能運(yùn)維等學(xué)科典型的因果相關(guān)分析的研究實(shí)例。對(duì)這些研究進(jìn)行復(fù)現(xiàn)。們也將嘗試提供相關(guān)代碼示例,對(duì)這些研究進(jìn)行復(fù)現(xiàn),幫助大家在自己的研究中快速開(kāi)始部署結(jié)合因果的算法。

整體內(nèi)容設(shè)計(jì)模塊如下:

(文末有具體介紹與參考文獻(xiàn))

「基礎(chǔ)理論學(xué)習(xí)」

  • 因果推斷的潛在結(jié)果框架在實(shí)驗(yàn)性研究的應(yīng)用
  • 因果推斷在觀察性研究中的應(yīng)用:DESIGN
  • 因果推斷在觀察性研究中的應(yīng)用(續(xù)):ANALYSIS

「案例研討」
  • 醫(yī)學(xué)、藥學(xué)、生物學(xué)中的研究案例
  • 管理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及政治學(xué)中的研究案例
  • 因果隨機(jī)森林及其在工業(yè)界的應(yīng)用
  • 多級(jí)治療與連續(xù)性暴露
  • 因果推薦系統(tǒng)
  • 因果在自然語(yǔ)言處理中的應(yīng)用
  • 因果與公平性和可解釋性

「深入理論學(xué)習(xí)」
  • 雙穩(wěn)健估計(jì)、處理極端傾向得分的方法
  • 陰性對(duì)照試驗(yàn)
  • 高維因果推斷
  • 結(jié)合隨機(jī)化試驗(yàn)數(shù)據(jù)與觀察性數(shù)據(jù)
   



參與方式及時(shí)間



發(fā)起人員

中國(guó)科學(xué)院計(jì)算技術(shù)研究所在讀博士生李奉治和北京大學(xué)大數(shù)據(jù)科學(xué)研究中心在讀博士生李昊軒。


參與人員

  • 計(jì)算機(jī)領(lǐng)域的人群,希望為不同領(lǐng)域引入新的計(jì)算方法,通過(guò)大數(shù)據(jù)、新算法得到新成果的朋友。
  • 社會(huì)學(xué)、生物學(xué)等其他領(lǐng)域人群,希望通過(guò)所屬領(lǐng)域的因果研究綜述介紹和相關(guān)理論學(xué)習(xí)實(shí)踐,在自己的研究中結(jié)合因果算法的朋友。


運(yùn)行模式

每周由1-2名讀書(shū)會(huì)成員領(lǐng)讀相關(guān)書(shū)籍章節(jié)或者介紹因果推斷在某一領(lǐng)域中的應(yīng)用


時(shí)間:

從2021年10月24日開(kāi)始,每周日上午 10:00-12:00舉辦。共11-12期,每周一期。持續(xù)時(shí)間預(yù)計(jì) 2-3 個(gè)月。

方式:

此次讀書(shū)會(huì)為線上閉門(mén)讀書(shū)會(huì),采用線上會(huì)議的方式進(jìn)行,結(jié)束之后會(huì)為報(bào)名成員提供視頻回放等多種資料供大家學(xué)習(xí)。


費(fèi)用:

為了甄選出真正對(duì)因果推理感興趣、有相關(guān)研究經(jīng)驗(yàn)的專業(yè)人士,也為激勵(lì)小伙伴們堅(jiān)持學(xué)習(xí),本期讀書(shū)會(huì)將采取收費(fèi) - 退款的保證金模式。費(fèi)用可開(kāi)發(fā)票。


具體規(guī)則:

1. 讀書(shū)會(huì)保證金共計(jì) 299 元/人。

2. 滿足如下條件之一者全額退款(本季讀書(shū)會(huì)結(jié)束后統(tǒng)一退費(fèi))

  • 貢獻(xiàn)了一次講座(半小時(shí)以上)內(nèi)容的(需要提前向主持人申請(qǐng)并通過(guò)試講);

  • 認(rèn)真完成集智百科相應(yīng)的編撰任務(wù),經(jīng)過(guò)集智百科團(tuán)隊(duì)審核通過(guò),并達(dá)到299積分。(詳情見(jiàn)https://wiki./index.php?title=激勵(lì)制度)

3. 滿足以下條件之一的不僅可以全額退款,還有額外獎(jiǎng)勵(lì):

  • 由讀書(shū)會(huì)內(nèi)容啟發(fā),產(chǎn)生了靠譜的新產(chǎn)品創(chuàng)意,并在讀書(shū)會(huì)結(jié)束 2 個(gè)月內(nèi)提交了詳細(xì)的產(chǎn)品策劃方案,并通過(guò)了集智俱樂(lè)部組織的相應(yīng)考核答辯的;

  • 由讀書(shū)會(huì)內(nèi)容啟發(fā),萌發(fā)了科研論文創(chuàng)意,在讀書(shū)會(huì)結(jié)束 2 個(gè)月內(nèi)完成初稿,并在最終的論文成果中致謝集智俱樂(lè)部和因果社區(qū)的(需要發(fā)表在SCI等核心刊物上。)

上述規(guī)則的最終解釋權(quán)歸集智俱樂(lè)部所有。


報(bào)名:(長(zhǎng)期有效)


掃碼報(bào)名

第一步:掃碼填寫(xiě)報(bào)名信息。

第二步:信息填寫(xiě)之后,進(jìn)入付款流程,提交保證金299元。(符合退費(fèi)條件后可退費(fèi)。)

第三步:添加負(fù)責(zé)人微信,拉入對(duì)應(yīng)的讀書(shū)會(huì)討論群。

我們也會(huì)對(duì)每次分享的內(nèi)容進(jìn)行錄制,剪輯后發(fā)布在集智學(xué)園的官網(wǎng)上,供讀書(shū)會(huì)成員回看。
   



讀書(shū)會(huì)閱讀材料



理論學(xué)習(xí)模塊

潛在結(jié)果指接受潛在治療的個(gè)體的結(jié)果,通常在有限樣本中,視每個(gè)個(gè)體的潛在結(jié)果是命定的,而隨機(jī)性來(lái)源于分配機(jī)制(Assignment Mechanisms)。若分配機(jī)制已知,則稱為實(shí)驗(yàn)性研究(Experimental Studies),否則稱為觀察性研究(Observational Studies)。對(duì)于個(gè)體而言,治療的因果關(guān)系是個(gè)體接受治療的潛在結(jié)果與未接受治療的潛在結(jié)果之間的差異。因果推斷的挑戰(zhàn)仍然是缺失數(shù)據(jù)問(wèn)題,目前已經(jīng)被廣泛應(yīng)用于學(xué)術(shù)界及業(yè)界,包括但不限于:計(jì)量經(jīng)濟(jì)學(xué),推薦系統(tǒng),精準(zhǔn)醫(yī)療以及人文社科領(lǐng)域等。

在實(shí)驗(yàn)性研究中,我們將介紹完全隨機(jī)實(shí)驗(yàn)的四種估計(jì)因果效應(yīng)以及置信區(qū)間的方法:Fisher精確P值法,Neyman重復(fù)抽樣法,回歸方法以及基于模型的推斷方法,然后推廣至分層隨機(jī)實(shí)驗(yàn)和配對(duì)隨機(jī)實(shí)驗(yàn)。

在觀察性研究中,我們將介紹傾向性得分的估計(jì)及分層方法,以及協(xié)變量分布均衡性的評(píng)估,修剪法和匹配法提升協(xié)變量均衡等。為了實(shí)現(xiàn)更穩(wěn)健的因果效應(yīng)估計(jì),我們還將介紹逆概率加權(quán)和邊緣結(jié)構(gòu)模型,G-估算與結(jié)構(gòu)嵌入模型,以及工具變量法。

案例研討模塊

在「案例研討」過(guò)程中,將由各個(gè)領(lǐng)域的主講人介紹因果推斷技術(shù)在各自領(lǐng)域內(nèi)的現(xiàn)有推斷方法,推薦系統(tǒng)中的雙穩(wěn)健方法,因果推斷在多級(jí)治療或連續(xù)暴露情形下的推斷方法,以及快手等業(yè)界中廣泛使用的因果森林方法。

醫(yī)學(xué)、藥學(xué)、生物學(xué)中的研究案例
【簡(jiǎn)介】

一、隨機(jī)化被破壞時(shí)的因果推斷
在一個(gè)隨機(jī)化試驗(yàn)中,每個(gè)個(gè)體都被隨機(jī)地分配到兩種處理方案中的一種,這時(shí)估計(jì)平均因果作用是很容易的。但實(shí)際上,隨機(jī)化條件有可能被破壞。例如,在激勵(lì)試驗(yàn)中,患者未必遵從醫(yī)囑,實(shí)際接受的治療方案與原本被分配的治療方案不同;在以非生存結(jié)局為主要關(guān)心目標(biāo)時(shí),主要結(jié)局可能被死亡截?cái)啵瑹o(wú)法對(duì)死亡個(gè)體定義主要結(jié)局。處理不完美隨機(jī)化試驗(yàn)通常采用主層分析(Principal Stratification)方法,把按照某中間潛在結(jié)果把人群分層,然后考慮有意義的主層(如依從組、存活組)內(nèi)的因果作用。

二、精準(zhǔn)醫(yī)療
精準(zhǔn)醫(yī)療旨在根據(jù)患者的特征,選擇恰當(dāng)?shù)闹委煼桨?,達(dá)到治療收益的最大化?;颊咝枰鶕?jù)自己的病情選擇最優(yōu)的治療方案,醫(yī)生也需要根據(jù)各治療方案的特點(diǎn)選擇最適宜的患者進(jìn)行個(gè)體化治療。關(guān)于最優(yōu)個(gè)性化治療規(guī)則的研究主要有兩個(gè)思路。一種思路是直接最大化在某種個(gè)性化治療規(guī)則下的群體平均響應(yīng),在某些情況下可以轉(zhuǎn)化為加權(quán)分類(lèi)問(wèn)題;另一種思路關(guān)注給定協(xié)變量組合后處理組和控制組的平均響應(yīng)水平差異,兩種治療方案的效用差異恰好對(duì)應(yīng)了因果作用。通過(guò)估計(jì)因果作用實(shí)現(xiàn)個(gè)性化治療策略的選擇,為臨床應(yīng)用提供了極大便利。

【參考文獻(xiàn)】

[1] Keisuke, H. , Imbens, G. W. , Rubin, D. B. , & Xiao-Hua, Z. . (2000). Assessing the effect of an influenza vaccine in an encouragement design. Biostatistics.

https://pubmed.ncbi.nlm./12933526/

[2] Wang, L. , Zhou, X. H. , & Richardson, T. S. . (2016). Identification and estimation of causal effects with outcomes truncated by death. Biometrika.

https://academic./biomet/article/104/3/597/3957587

[3] Zhao, Y., Zeng, D., Rush, A. J., & Kosorok, M. R. (2012). Estimating individualized treatment rules using outcome weighted learning. Journal of the American Statistical Association.

https://www.ncbi.nlm./pmc/articles/PMC3636816/

[4] Guo, W. , Zhou, X. H., & Ma, S. (2020). Estimation of optimal individualized treatment rules using a covariate-specific treatment effect curve with high-dimensional covariates. Journal of the American Statistical Association.

https://www./doi/full/10.1080/01621459.2020.1865167


管理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及政治學(xué)中的研究案例

【簡(jiǎn)介】
計(jì)量經(jīng)濟(jì)學(xué)以建立經(jīng)濟(jì)計(jì)量模型為主要手段,定量分析研究具有隨機(jī)性特性的經(jīng)濟(jì)變量關(guān)系,其本質(zhì)可以歸納為一個(gè)因果推斷問(wèn)題。例如,在微觀經(jīng)濟(jì)學(xué)中,我們關(guān)心的是某些干預(yù)措施對(duì)于具體的個(gè)體行為的影響,比如班級(jí)規(guī)模對(duì)兒童學(xué)習(xí)效果有何影響?教授對(duì)個(gè)人就業(yè)及未來(lái)收入有何影響?大學(xué)教育對(duì)未來(lái)收入有何影響?在宏觀經(jīng)濟(jì)學(xué)和政策效應(yīng)評(píng)估中,我們關(guān)心比如對(duì)農(nóng)民工進(jìn)行職業(yè)培訓(xùn)是否可以增加他們的就業(yè)機(jī)會(huì)和收入水平?限購(gòu)政策是否能夠抑制房?jī)r(jià)的持續(xù)上漲?
本期分享會(huì)主要介紹利用觀測(cè)數(shù)據(jù)進(jìn)行因果推斷時(shí)幾種常見(jiàn)的識(shí)別策略,包括回歸、匹配、工具變量法、雙重差分法和斷點(diǎn)回歸設(shè)計(jì)。雙重差分方法(Difference in Difference, DID)適用于事前所有個(gè)體都沒(méi)有受到政策干預(yù),而事后只有一組個(gè)體受到政策干預(yù)的情形。斷點(diǎn)回歸設(shè)計(jì)(Regression Discontinuity?Design, RDD)則可被視為是一種僅次于隨機(jī)實(shí)驗(yàn)的能夠有效利用現(xiàn)實(shí)約束條件分析變量之間因果關(guān)系的實(shí)證方法。

【參考文獻(xiàn)】
[1] Zhou Xiang and Yu Xie. 'Marginal treatment effects from a propensity score perspective. 'Journal of Political Economy.

https://www.journals./doi/abs/10.1086/702172

[2] Yu Xie, Jennie E. Brand, and Ben Jann. Estimating heterogeneous treatment effects with observational data. Sociological Methodology, 42(1),(2012): 314-347.

https://journals./doi/abs/10.1177/0081175012452652

[3] Jennie E. Brand and Yu Xie. Who benefits most from college? Evidence for negative selection in heterogeneous economic returns to higher education. American Sociological Review, 75(2), (2010): 273-302.

https://journals./doi/10.1177/0003122410363567

[4] Rajeev H. Dehe jia and Sadek Wahba. Causal effects in nonexperimental studies: reevaluating the evaluation of training programs. Publications of the American Statistical Association, 94(448),(1999):1053-1062.

[5] https://www./doi/abs/10.1080/01621459.1999.10473858

Angrist J D, Pischke J S. Mostly harmless econometrics[M]. Princeton university press, 2008.

[6] Huynh V N ,  Kreinovich V ,  Sriboonchitta S . Causal Inference in Econometrics[J]. Studies in Computational Intelligence, 2016.

[7] 趙西亮. 基本有用的計(jì)量經(jīng)濟(jì)學(xué)[M]. 北京大學(xué)出版社,2017.
[8] 李井奎. 大偵探經(jīng)濟(jì)學(xué)[M]. 中信出版社,2021.

因果隨機(jī)森林及其在工業(yè)界的應(yīng)用
【簡(jiǎn)介】
估計(jì)異質(zhì)因果效應(yīng),即條件平均因果效應(yīng)(Conditional Average Causal Effect, CATE),一直以來(lái)都是因果推斷研究的重要組成?;跇?shù)模型的估計(jì) CATE 的方法在學(xué)術(shù)界被廣泛研究,其中最有代表性的是斯坦福大學(xué)經(jīng)濟(jì)學(xué)教授 Susan Athey 的系列工作,包括因果樹(shù)、因果森林和廣義隨機(jī)森林。廣義隨機(jī)森林 (因果森林是它的特例)和普通的隨機(jī)森林最大的區(qū)別在于,它是從局部加權(quán)估計(jì)的角度而不是集成方法的角度來(lái)解釋的。這種基于森林的臨近權(quán)重讓其相對(duì)于其它方法具備靈活性,自適應(yīng)性和易用性等優(yōu)點(diǎn)。此外, 它基于局部矩方程的估計(jì)量還具備良好的統(tǒng)計(jì)性質(zhì)。近年來(lái),它們更是被廣泛應(yīng)用在工業(yè)界互聯(lián)網(wǎng)商業(yè)平臺(tái)的營(yíng)銷(xiāo)活動(dòng)中, 可以有效地提高用戶參與度和平臺(tái)收入,例如阿里巴巴和亞馬遜的優(yōu)惠券, 共享乘車(chē)優(yōu)步和滴滴的折扣券,抖音的視頻觀看金幣激勵(lì)等。估計(jì)用戶對(duì)激勵(lì)的敏感度 (即 CATE) 是個(gè)性化激勵(lì)關(guān)鍵的第一步。所以因果森林是同時(shí)在學(xué)術(shù)界和工業(yè)界都是非常有影響力的工作。

【參考文獻(xiàn)】
[1] Athey, Susan, and Guido Imbens. 'Recursive partitioning for heterogeneous causal effects.' Proceedings of the National Academy of Sciences 113.27 (2016): 7353-7360.

https://www./content/113/27/7353.short

[2] Wager, Stefan, and Susan Athey. 'Estimation and inference of heterogeneous treatment effects using random forests.' Journal of the American Statistical Association 113.523 (2018): 1228-1242.

https://www./doi/abs/10.1080/01621459.2017.1319839

[3] (Optional) Hahn, P. Richard, Jared S. Murray, and Carlos M. Carvalho. 'Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion).' Bayesian Analysis 15.3 (2020): 965-1056.

https:///journals/bayesian-analysis/volume-15/issue-3/Bayesian-Regression-Tree-Models-for-Causal-Inference--Regularization-Confounding/10.1214/19-BA1195.full


多級(jí)治療與連續(xù)性暴露
【簡(jiǎn)介】
若治療有多種級(jí)別,如何實(shí)現(xiàn)穩(wěn)定的因果效應(yīng)估計(jì)?進(jìn)一步,考慮對(duì)PM2.5作為暴露指標(biāo)的因果效應(yīng)估計(jì),作為一個(gè)連續(xù)暴露指標(biāo),如何魯棒地估計(jì)因果效應(yīng)?事實(shí)上,許多觀察性研究的數(shù)據(jù)不能直接采用隨機(jī)實(shí)驗(yàn)的分析方法,因?yàn)椴豢珊雎孕詿o(wú)法得到保障。然而,在給定均衡得分(Balance Score)之后,可以認(rèn)為數(shù)據(jù)來(lái)自一個(gè)分層隨機(jī)實(shí)驗(yàn)。本次分享主題將傳統(tǒng)的二元治療方案中的因果推斷方法推廣到多級(jí)治療,以及連續(xù)型暴露的情形。在二元治療中,傾向性得分是一維的均衡得分,可以自然地依照估計(jì)的傾向性得分進(jìn)行分層。在多級(jí)治療情形中,利用多元邏輯回歸可以實(shí)現(xiàn)對(duì)傾向性得分的估計(jì),繼而可以進(jìn)一步對(duì)總體樣本進(jìn)行分塊或修剪,以提升協(xié)變量分布的均衡性。但是要實(shí)現(xiàn)廣義傾向性得分的匹配,需要匹配的維數(shù)將轉(zhuǎn)化為T(mén)-1,其中T是治療的狀態(tài)數(shù),高維傾向性得分的匹配將帶來(lái)一定的挑戰(zhàn)。本期將分享基于弱非混淆性(Weak Unconfoundedness)和廣義傾向性得分的子類(lèi)化方法,以實(shí)現(xiàn)傾向性得分的一維匹配,從而得到一類(lèi)更穩(wěn)健的因果推斷估計(jì)量。

【參考文獻(xiàn)】
[1] Yang, Shu, et al. 'Propensity score matching and subclassification in observational studies with multi‐level treatments.' Biometrics 72.4 (2016): 1055-1065.

https://onlinelibrary./doi/abs/10.1111/biom.12505

[2] Wu, Xiao, et al. 'Matching on generalized propensity scores with continuous exposures.' arXiv preprint arXiv:1812.06575 (2018).

https:///abs/1812.06575


因果推薦系統(tǒng)
【簡(jiǎn)介】
推薦系統(tǒng)能夠在“信息過(guò)載”的情況下,向用戶高效地推薦感興趣的物品。對(duì)于工業(yè)界,推薦算法也能夠最大限度地吸引客戶并提高用戶轉(zhuǎn)化率,進(jìn)而實(shí)現(xiàn)公司利潤(rùn)的最大化。亞馬遜至少有20%的銷(xiāo)售來(lái)自推薦算法,Netflix曾宣稱有60%的用戶是通過(guò)推薦系統(tǒng)來(lái)找到感興趣的電影和視頻。然而,推薦系統(tǒng)的原始數(shù)據(jù)中通常隱含許多偏差,例如用戶更傾向于選擇位置更好的物品,或者比如極其喜歡或不喜歡一個(gè)電影的用戶更傾向于給電影評(píng)分,因此數(shù)據(jù)集并不能代表總體用戶,稱之為選擇偏差。因果推薦系統(tǒng)給出了一種可行的方案來(lái)消除這些偏差,例如雙穩(wěn)健方法等,從因果的角度來(lái)講,其本質(zhì)問(wèn)題是要回答干預(yù)和反事實(shí)問(wèn)題,例如“如果強(qiáng)迫一個(gè)用戶看某個(gè)電影,他對(duì)于電影的評(píng)分會(huì)是多少?”。本期讀書(shū)會(huì)將結(jié)合最新的因果推薦系統(tǒng)的相關(guān)成果,例如Recsys,Sigir等,來(lái)介紹如果用因果科學(xué)的語(yǔ)言來(lái)正式定義并解決因果推薦場(chǎng)景中的問(wèn)題,進(jìn)而消除偏差,實(shí)現(xiàn)更好的推薦效果。

【參考文獻(xiàn)】
[1] Bonner S, Vasile F. Causal embeddings for recommendation[C]//Proceedings of the 12th ACM conference on recommender systems. 2018: 104-112.
https://dl./doi/abs/10.1145/3240323.3240360
[2] Sato M, Takemori S, Singh J, et al. Unbiased learning for the causal effect of recommendation[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 378-387.
https://dl./doi/10.1145/3383313.3412261
[3] Mehrotra R, Bhattacharya P, Lalmas M. Inferring the Causal Impact of New Track Releases on Music Recommendation Platforms through Counterfactual Predictions[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 687-691.
https://dl./doi/abs/10.1145/3383313.3418491
[4] Wang Y, Liang D, Charlin L, et al. Causal inference for recommender systems[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 426-431.
https://dl./doi/abs/10.1145/3383313.3412225

因果在自然語(yǔ)言處理中的應(yīng)用

【簡(jiǎn)介】
設(shè)想一家醫(yī)學(xué)研究中心希望建立一個(gè)分類(lèi)器,從病人醫(yī)療記錄的文本敘述中檢測(cè)臨床診斷。這些記錄由多個(gè)醫(yī)院站點(diǎn)組成,其中每個(gè)站點(diǎn)目標(biāo)臨床狀況的頻率和敘述的寫(xiě)作風(fēng)格都有所不同。當(dāng)分類(lèi)器應(yīng)用于不屬于訓(xùn)練集的站點(diǎn)的記錄時(shí),它的準(zhǔn)確率會(huì)下降。事后分析表明,它在表面上不相關(guān)的特性上投入了大量的精力,比如醫(yī)院的寫(xiě)作風(fēng)格。事實(shí)上,我們希望一個(gè)魯棒的預(yù)測(cè)器能夠著重于依據(jù)醫(yī)療狀態(tài)而非寫(xiě)作風(fēng)格進(jìn)行預(yù)測(cè),即在干預(yù)寫(xiě)作風(fēng)格等混淆因素時(shí),分類(lèi)器能夠保持結(jié)局指標(biāo)穩(wěn)定。為此,自然語(yǔ)言處理建模的最新進(jìn)展可以幫助研究人員用文本數(shù)據(jù)做出因果結(jié)論,并且來(lái)自因果推斷的想法可以用來(lái)使自然語(yǔ)言處理模型更加魯棒且具有解釋性。對(duì)于因果和自然語(yǔ)言處理的結(jié)合,當(dāng)文本信息作為潛在結(jié)果時(shí),其難點(diǎn)是從高維文本信息實(shí)現(xiàn)有效降維;當(dāng)文本信息作為混淆因素時(shí),其難點(diǎn)是利用自然語(yǔ)言處理方法來(lái)限制混淆;當(dāng)文本信息作為治療狀態(tài)時(shí),其難點(diǎn)是潛在結(jié)果框架下分配機(jī)制的可忽略性和正概率假設(shè)。本期讀書(shū)會(huì)將介紹不變性測(cè)試和敏感性測(cè)試,以及利用反事實(shí)樣本增強(qiáng)方法以獲取更穩(wěn)健的因果效應(yīng)估計(jì)。

【參考文獻(xiàn)】
[1] Feder, Amir, et al. 'Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond.' arXiv preprint arXiv:2109.00725 (2021).

https:///abs/2109.00725

[2] Egami, Naoki, et al. 'How to make causal inferences using texts.' arXiv preprint arXiv:1802.02163 (2018).

https:///abs/1802.02163

[3] Keith, Katherine A., David Jensen, and Brendan O'Connor. 'Text and causal inference: A review of using text to remove confounding from causal estimates.' arXiv preprint arXiv:2005.00649 (2020).

https:///abs/2005.00649

因果與公平性和可解釋性

【簡(jiǎn)介】

在機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于各行各業(yè)的今天,對(duì)于一些高風(fēng)險(xiǎn)的決策問(wèn)題,例如AI在判斷一個(gè)人的信用卡/借貸申請(qǐng)是否應(yīng)該通過(guò)時(shí),或是HR判斷一個(gè)人的簡(jiǎn)歷是否合格時(shí),人們開(kāi)始關(guān)注機(jī)器學(xué)習(xí)模型的可解釋性和公平性問(wèn)題。可解釋性的目的是回答“模型做出預(yù)測(cè)時(shí)利用了哪些信息?哪些信息在預(yù)測(cè)中更重要?”這樣的問(wèn)題。而公平性則關(guān)注機(jī)器學(xué)習(xí)模型做出的預(yù)測(cè)是否對(duì)不同的人群(如性別,年齡,種族)或者個(gè)體公平。本期讀書(shū)會(huì)將結(jié)合一些近期發(fā)表在一流會(huì)議和期刊上的論文,介紹幾種借助因果推斷來(lái)提高機(jī)器學(xué)習(xí)可解釋性和公平性的方法。

【參考文獻(xiàn)】

[1] Vig, Jesse, et al. 'Investigating Gender Bias in Language Models Using Causal Mediation Analysis.' NeurIPS. 2020.

[2] Kusner, Matt, et al. 'Counterfactual fairness.' Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.

https:///abs/1703.06856

[3] Kilbertus, Niki, et al. 'The sensitivity of counterfactual fairness to unmeasured confounding.' Uncertainty in Artificial Intelligence. PMLR, 2020.

http://proceedings./v115/kilbertus20a.html

[4] Chiappa, Silvia. 'Path-specific counterfactual fairness.' Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. No. 01. 2019.

https://ojs.//index.php/AAAI/article/view/4777

[5] Feder, Amir, et al. 'Causalm: Causal model explanation through counterfactual language models.' Computational Linguistics 47.2 (2021): 333-386.

https:///abs/2005.13407


特別鳴謝:本文的主題內(nèi)容由中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士生李奉治和北京大學(xué)大數(shù)據(jù)科學(xué)研究中心博士生李昊軒設(shè)計(jì)并撰寫(xiě),由中國(guó)地質(zhì)大學(xué)(北京)博士生段月然組織和編輯,特別感謝普林斯頓大學(xué)研究員黃俊銘、劍橋大學(xué)博士生陸超超、香港城市大學(xué)助理教授郭若城、中國(guó)科學(xué)技術(shù)大學(xué)博士生龔鶴揚(yáng)等成員提供的內(nèi)容和反饋。

   



因果科學(xué)社區(qū)的簡(jiǎn)介



因果科學(xué)社區(qū)由智源社區(qū)、集智俱樂(lè)部共同推動(dòng),面向因果科學(xué)領(lǐng)域的垂直型學(xué)術(shù)討論社區(qū),目的是促進(jìn)因果科學(xué)專業(yè)人士和興趣愛(ài)好者們的學(xué)習(xí)、交流和合作,推進(jìn)因果科學(xué)學(xué)術(shù)、產(chǎn)業(yè)生態(tài)的建設(shè)和落地,孕育新一代因果科學(xué)領(lǐng)域的學(xué)術(shù)專家和產(chǎn)業(yè)創(chuàng)新者。加入任意一季讀書(shū)會(huì)即可加入因果社區(qū)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多