小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

這個(gè)著名的統(tǒng)計(jì)學(xué)悖論,第一次聽說的人很可能懷疑人生

 鼠標(biāo)快跑 2018-11-21

作者 七君



我們平時(shí)在做重大決策的時(shí)候,比如擇校啊,選專業(yè)啊,總是會參考這些比較對象的硬指標(biāo),比如它們的錄取率啊,就業(yè)率啊等等。像是,哪個(gè)學(xué)校的就業(yè)率高,我們就會去報(bào)考這個(gè)學(xué)校。



統(tǒng)計(jì)數(shù)字可以幫助我們了解這些比較對象的優(yōu)劣,讓我們做出明智的決策。不光是個(gè)人,公司和國家也是這樣做決策的。那么這樣做對嗎?


其...實(shí)...不...對


今天我們就來介紹一個(gè)讓人非常頭疼,但非常有用的悖論,它會告訴你,很多時(shí)候統(tǒng)計(jì)數(shù)字相當(dāng)不可靠,特別容易誤導(dǎo)人。




先來看一個(gè)假設(shè)的例子。



小明生了慢粒白血病,她的失散多年的哥哥找到有2家比較好的醫(yī)院,醫(yī)院A和醫(yī)院B供小明選擇就醫(yī)。


小明的哥哥多方打聽,搜集了這兩家醫(yī)院的統(tǒng)計(jì)數(shù)據(jù),它們是這樣的:


醫(yī)院A最近接收的1000個(gè)病人里,有900個(gè)活著,100個(gè)死了。


醫(yī)院B最近接收的1000個(gè)病人里,有800個(gè)活著,200個(gè)死了。


作為對統(tǒng)計(jì)學(xué)懵懵懂懂的普通人來說,看起來最明智的選擇應(yīng)該是醫(yī)院A對吧,病人存活率很高有90%啊!總不可能選醫(yī)院B吧,存活率只有80%啊。


呵呵,如果小明的選擇是醫(yī)院A,那么她就中計(jì)了。


就這么說吧,如果醫(yī)院A最近接收的1000個(gè)病人里,有100個(gè)病人病情很嚴(yán)重,900個(gè)病人病情并不嚴(yán)重。


在這100個(gè)病情嚴(yán)重的病人里,有30個(gè)活下來了,其他70人死了。所以病重的病人在醫(yī)院A的存活率是30%。


而在病情不嚴(yán)重的900個(gè)病人里,870個(gè)活著,30個(gè)人死了。所以病情不嚴(yán)重的病人在醫(yī)院A的存活率是96.7%。


在醫(yī)院B最近接收的1000個(gè)病人里,有400個(gè)病情很嚴(yán)重,其中210個(gè)人存活,因此病重的病人在醫(yī)院B的存活率是52.5%。


有600個(gè)病人病情不嚴(yán)重,590個(gè)人存活,所以病情不嚴(yán)重的病人在醫(yī)院B的存活率是98.3%。



畫成表格,就是這樣的——


醫(yī)院A:


病情

死亡

存活

總數(shù)

存活率

嚴(yán)重

70

30

100

30%

不嚴(yán)重

30

870

900

96.7%

合計(jì)

100

900

1000

90%


醫(yī)院B:


病情

死亡

存活

總數(shù)

存活率

嚴(yán)重

190

210

400

52.5%

不嚴(yán)重

10

590

600

98.3%

合計(jì)

200

800

1000

80%



你可以看到,在區(qū)分了病情嚴(yán)重和不嚴(yán)重的病人后,不管怎么看,最好的選擇都是醫(yī)院B。但是只看整體的存活率,醫(yī)院A反而是更好的選擇了。所謂遠(yuǎn)看是汪峰,近看白巖松,就是這個(gè)道理。



這讓人很抓狂。萬一我們真的患上了什么病,又遇到了這種類似的情況,豈不是會讓自己掉坑里?大韓民國這么多小明就是因?yàn)檫@個(gè)原因去世的嗎?到底這是怎么回事?


實(shí)際上,我們剛剛看到的例子,就是統(tǒng)計(jì)學(xué)中著名的黑魔法之一——辛普森悖論(Simpson's paradox)。辛普森悖論最初是英國數(shù)學(xué)家愛德華·H·辛普森(Edward H. Simpson)在1951年發(fā)現(xiàn)的。


辛普森悖論就是當(dāng)你把數(shù)據(jù)拆開細(xì)看的時(shí)候,細(xì)節(jié)和整體趨勢完全不同的現(xiàn)象。


辛普森悖論:同一組數(shù)據(jù),整體的趨勢和分組后的趨勢完全不同。


從統(tǒng)計(jì)學(xué)家的觀點(diǎn)來看,出現(xiàn)辛普森悖論的原因是因?yàn)檫@些數(shù)據(jù)中潛藏著一個(gè)魔鬼——潛在變量(lurking variable),比如在上面這個(gè)例子里,潛在變量就是病情嚴(yán)重程度不同的病人的占比。



辛普森悖論在日常生活中層出不窮。


最著名的辛普森悖論的實(shí)例,就是1973年加利福尼亞大學(xué)伯克利分校性別歧視案的例子。


加利福尼亞大學(xué)伯克利分校


大家從表格里可以看到,如果只看整體錄取率,那么男生的錄取率是44%,女生的是35%。


不求甚解的話,一般人肯定會得出這樣的結(jié)論——女生被歧視了。打算申請這所著名大學(xué)的女生要是看到這樣的數(shù)據(jù),八成肺都?xì)庹恕?/p>




男生

女生


申請人數(shù)

錄取人數(shù)

申請人數(shù)

錄取人數(shù)

合計(jì)

8442

44%

4321

35%



別急,現(xiàn)在把上面的數(shù)據(jù)按照院系拆分,再來看看每個(gè)系的錄取率。


院系

男生

女生

申請人數(shù)

錄取比例

申請人數(shù)

錄取比例

A

825

62%

108

82%

B

560

63%

25

68%

C

325

37%

593

34%

D

417

33%

375

35%

E

191

28%

393

24%

F

373

6%

341

7%


你可以看到,在6個(gè)院系的4個(gè)里,女生的錄取率大于男生,女生只在2個(gè)院系里容易折戟。加利福尼亞大學(xué)伯克利分校的統(tǒng)計(jì)學(xué)教授 Peter Bickel 后來發(fā)現(xiàn),如果按照這樣的分類,女生實(shí)際上比男生的錄取率還高一點(diǎn)點(diǎn)。


Bickel 認(rèn)為,在這個(gè)案例中,辛普森悖論出現(xiàn)的原因是,女生更愿意申請那些競爭壓力很大的院系(比如英語系),但是男生卻更愿意申請那些相對容易進(jìn)的院系(比如工程學(xué)系)。辛普森悖論真是太奇怪了。



再比如這個(gè)經(jīng)典的佛羅里達(dá)死刑悖論。


1991年,科羅拉多大學(xué)的統(tǒng)計(jì)學(xué)家 Michael L. Radelet 和東北大學(xué)的社會學(xué)研究院主任 Glenn Pierce 重新查看了1976-1987年間美國佛羅里達(dá)州的謀殺案的審判數(shù)據(jù),發(fā)現(xiàn)了重大的司法不公正事件。


從歸總的數(shù)據(jù)來看,佛羅里達(dá)的法官在審判的時(shí)候并沒有偏向白人,因?yàn)榘兹讼右扇说乃佬搪噬踔吝€比黑人高一些。


嫌疑人種族

死刑人數(shù)

非死刑人數(shù)

死刑百分比%

白人

53

430

11

黑人

15

176

7.9


但是,如果按照被害人的種族來分割數(shù)據(jù)的話,我們就會看到很不一樣的結(jié)果了——黑人比白人更容易被判死刑。


被害人種族

嫌疑人種族

死刑人數(shù)

非死刑人數(shù)

死刑百分比%

白人

白人

53

414

11.3

白人

黑人

11

37

22.9

黑人

白人

0

16

0

黑人

黑人

4

139

2.8


現(xiàn)在你可以很明顯地看出,不管被害人是什么種族,黑人比白人更有可能被判死刑。


這還不算。分類后的數(shù)據(jù)顯示,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。種族歧視昭然若揭啊。




所以,我們要怎樣才能避免辛普森悖論呢?


答案是…很難。不少統(tǒng)計(jì)學(xué)家認(rèn)為,辛普森悖論的存在,讓我們不可能光用統(tǒng)計(jì)數(shù)字來推導(dǎo)準(zhǔn)確的因果關(guān)系。


因?yàn)閿?shù)據(jù)可以用各種各樣的方式分類,然后再進(jìn)行比較,所以理論上潛在變量無窮無盡,你總是可以用某個(gè)潛在變量得到某種結(jié)論。


而且對于那些不懷好意的人來說,他們很容易對數(shù)據(jù)進(jìn)行拆分或者歸總,得到一個(gè)對自己有利的指標(biāo),從而來迷惑甚至操縱他人。醫(yī)學(xué)和社會學(xué)的研究者也常常會遇到辛普森悖論,從而得出錯(cuò)誤的結(jié)論。



辛普森悖論完美地闡釋了這句古老的哲學(xué)寓言:“假如一棵樹在森林里倒下而沒有人在附近聽見,它有沒有發(fā)出聲音?”如果有一個(gè)邪惡的潛在變量逃脫了你的眼睛,那么統(tǒng)計(jì)數(shù)字得出的結(jié)論還可信嗎?


我們能做的,就是仔細(xì)地研究分析各種影響因素,不要籠統(tǒng)概括地、淺嘗折止地看問題。


什么,你要我舉個(gè)利用辛普森悖論操縱別人的例子?


很簡單啊。那些常說“我是聰明的小朋友里最漂亮的,漂亮的小朋友里最聰明的”小孩,一般都是既不_____,也不_____的。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多