| 作者 七君 我們平時(shí)在做重大決策的時(shí)候,比如擇校啊,選專業(yè)啊,總是會參考這些比較對象的硬指標(biāo),比如它們的錄取率啊,就業(yè)率啊等等。像是,哪個(gè)學(xué)校的就業(yè)率高,我們就會去報(bào)考這個(gè)學(xué)校。 統(tǒng)計(jì)數(shù)字可以幫助我們了解這些比較對象的優(yōu)劣,讓我們做出明智的決策。不光是個(gè)人,公司和國家也是這樣做決策的。那么這樣做對嗎? 其...實(shí)...不...對 今天我們就來介紹一個(gè)讓人非常頭疼,但非常有用的悖論,它會告訴你,很多時(shí)候統(tǒng)計(jì)數(shù)字相當(dāng)不可靠,特別容易誤導(dǎo)人。 先來看一個(gè)假設(shè)的例子。 小明生了慢粒白血病,她的失散多年的哥哥找到有2家比較好的醫(yī)院,醫(yī)院A和醫(yī)院B供小明選擇就醫(yī)。 小明的哥哥多方打聽,搜集了這兩家醫(yī)院的統(tǒng)計(jì)數(shù)據(jù),它們是這樣的: 醫(yī)院A最近接收的1000個(gè)病人里,有900個(gè)活著,100個(gè)死了。 醫(yī)院B最近接收的1000個(gè)病人里,有800個(gè)活著,200個(gè)死了。 作為對統(tǒng)計(jì)學(xué)懵懵懂懂的普通人來說,看起來最明智的選擇應(yīng)該是醫(yī)院A對吧,病人存活率很高有90%啊!總不可能選醫(yī)院B吧,存活率只有80%啊。 呵呵,如果小明的選擇是醫(yī)院A,那么她就中計(jì)了。 就這么說吧,如果醫(yī)院A最近接收的1000個(gè)病人里,有100個(gè)病人病情很嚴(yán)重,900個(gè)病人病情并不嚴(yán)重。 在這100個(gè)病情嚴(yán)重的病人里,有30個(gè)活下來了,其他70人死了。所以病重的病人在醫(yī)院A的存活率是30%。 而在病情不嚴(yán)重的900個(gè)病人里,870個(gè)活著,30個(gè)人死了。所以病情不嚴(yán)重的病人在醫(yī)院A的存活率是96.7%。 在醫(yī)院B最近接收的1000個(gè)病人里,有400個(gè)病情很嚴(yán)重,其中210個(gè)人存活,因此病重的病人在醫(yī)院B的存活率是52.5%。 有600個(gè)病人病情不嚴(yán)重,590個(gè)人存活,所以病情不嚴(yán)重的病人在醫(yī)院B的存活率是98.3%。 畫成表格,就是這樣的—— 醫(yī)院A: 
 醫(yī)院B: 
 你可以看到,在區(qū)分了病情嚴(yán)重和不嚴(yán)重的病人后,不管怎么看,最好的選擇都是醫(yī)院B。但是只看整體的存活率,醫(yī)院A反而是更好的選擇了。所謂遠(yuǎn)看是汪峰,近看白巖松,就是這個(gè)道理。 這讓人很抓狂。萬一我們真的患上了什么病,又遇到了這種類似的情況,豈不是會讓自己掉坑里?大韓民國這么多小明就是因?yàn)檫@個(gè)原因去世的嗎?到底這是怎么回事? 實(shí)際上,我們剛剛看到的例子,就是統(tǒng)計(jì)學(xué)中著名的黑魔法之一——辛普森悖論(Simpson's paradox)。辛普森悖論最初是英國數(shù)學(xué)家愛德華·H·辛普森(Edward H. Simpson)在1951年發(fā)現(xiàn)的。 辛普森悖論就是當(dāng)你把數(shù)據(jù)拆開細(xì)看的時(shí)候,細(xì)節(jié)和整體趨勢完全不同的現(xiàn)象。 
 從統(tǒng)計(jì)學(xué)家的觀點(diǎn)來看,出現(xiàn)辛普森悖論的原因是因?yàn)檫@些數(shù)據(jù)中潛藏著一個(gè)魔鬼——潛在變量(lurking variable),比如在上面這個(gè)例子里,潛在變量就是病情嚴(yán)重程度不同的病人的占比。 辛普森悖論在日常生活中層出不窮。 最著名的辛普森悖論的實(shí)例,就是1973年加利福尼亞大學(xué)伯克利分校性別歧視案的例子。 
 大家從表格里可以看到,如果只看整體錄取率,那么男生的錄取率是44%,女生的是35%。 不求甚解的話,一般人肯定會得出這樣的結(jié)論——女生被歧視了。打算申請這所著名大學(xué)的女生要是看到這樣的數(shù)據(jù),八成肺都?xì)庹恕?/p> 
 別急,現(xiàn)在把上面的數(shù)據(jù)按照院系拆分,再來看看每個(gè)系的錄取率。 
 你可以看到,在6個(gè)院系的4個(gè)里,女生的錄取率大于男生,女生只在2個(gè)院系里容易折戟。加利福尼亞大學(xué)伯克利分校的統(tǒng)計(jì)學(xué)教授 Peter Bickel 后來發(fā)現(xiàn),如果按照這樣的分類,女生實(shí)際上比男生的錄取率還高一點(diǎn)點(diǎn)。 Bickel 認(rèn)為,在這個(gè)案例中,辛普森悖論出現(xiàn)的原因是,女生更愿意申請那些競爭壓力很大的院系(比如英語系),但是男生卻更愿意申請那些相對容易進(jìn)的院系(比如工程學(xué)系)。辛普森悖論真是太奇怪了。 再比如這個(gè)經(jīng)典的佛羅里達(dá)死刑悖論。 1991年,科羅拉多大學(xué)的統(tǒng)計(jì)學(xué)家 Michael L. Radelet 和東北大學(xué)的社會學(xué)研究院主任 Glenn Pierce 重新查看了1976-1987年間美國佛羅里達(dá)州的謀殺案的審判數(shù)據(jù),發(fā)現(xiàn)了重大的司法不公正事件。 從歸總的數(shù)據(jù)來看,佛羅里達(dá)的法官在審判的時(shí)候并沒有偏向白人,因?yàn)榘兹讼右扇说乃佬搪噬踔吝€比黑人高一些。 
 但是,如果按照被害人的種族來分割數(shù)據(jù)的話,我們就會看到很不一樣的結(jié)果了——黑人比白人更容易被判死刑。 
 現(xiàn)在你可以很明顯地看出,不管被害人是什么種族,黑人比白人更有可能被判死刑。 這還不算。分類后的數(shù)據(jù)顯示,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。種族歧視昭然若揭啊。 所以,我們要怎樣才能避免辛普森悖論呢? 答案是…很難。不少統(tǒng)計(jì)學(xué)家認(rèn)為,辛普森悖論的存在,讓我們不可能光用統(tǒng)計(jì)數(shù)字來推導(dǎo)準(zhǔn)確的因果關(guān)系。 因?yàn)閿?shù)據(jù)可以用各種各樣的方式分類,然后再進(jìn)行比較,所以理論上潛在變量無窮無盡,你總是可以用某個(gè)潛在變量得到某種結(jié)論。 而且對于那些不懷好意的人來說,他們很容易對數(shù)據(jù)進(jìn)行拆分或者歸總,得到一個(gè)對自己有利的指標(biāo),從而來迷惑甚至操縱他人。醫(yī)學(xué)和社會學(xué)的研究者也常常會遇到辛普森悖論,從而得出錯(cuò)誤的結(jié)論。 辛普森悖論完美地闡釋了這句古老的哲學(xué)寓言:“假如一棵樹在森林里倒下而沒有人在附近聽見,它有沒有發(fā)出聲音?”如果有一個(gè)邪惡的潛在變量逃脫了你的眼睛,那么統(tǒng)計(jì)數(shù)字得出的結(jié)論還可信嗎? 我們能做的,就是仔細(xì)地研究分析各種影響因素,不要籠統(tǒng)概括地、淺嘗折止地看問題。 什么,你要我舉個(gè)利用辛普森悖論操縱別人的例子? 很簡單啊。那些常說“我是聰明的小朋友里最漂亮的,漂亮的小朋友里最聰明的”小孩,一般都是既不_____,也不_____的。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|  |