熊大胡說| 數(shù)據(jù)表明：數(shù)據(jù)相當(dāng)不靠譜！

云端陋室 2016-06-30

展開全文

大家好，我是媛子。初次見面請多多關(guān)照。

寫這篇文章的動力呢，其實(shí)是經(jīng)常在看到大眾媒體報道出來的一些所謂的“數(shù)據(jù)表明”、“實(shí)驗數(shù)據(jù)顯示”、“大數(shù)據(jù)告訴我們”blablabla……這些貌似嚴(yán)謹(jǐn)?shù)难哉摃r啊，我作為一個整天跟數(shù)據(jù)打交道的統(tǒng)計人，所產(chǎn)生的一種強(qiáng)烈的吐槽欲望。

當(dāng)今“大數(shù)據(jù)”如日中天，公司推出什么產(chǎn)品、政府出臺什么政策、媒體報道什么現(xiàn)象，很多時候呢已經(jīng)不再是靠領(lǐng)導(dǎo)一拍腦袋，而是拿數(shù)據(jù)來說話。這當(dāng)然是件好事兒啦，用靠譜的數(shù)據(jù)加上合理的統(tǒng)計分析得出的結(jié)論總比個人色彩濃厚的主觀判斷招人喜歡吧。

這話一點(diǎn)兒錯都沒有，但是千萬不要漏看兩個關(guān)鍵詞：“靠譜的數(shù)據(jù)”和“合理的統(tǒng)計分析”。

我們姑且不論什么樣的統(tǒng)計分析是合理的，先來談?wù)勈裁礃拥臄?shù)據(jù)是靠譜的。收集的數(shù)據(jù)都不靠譜，什么分析都是耍流氓。而要收集到靠譜的數(shù)據(jù)呀，首先要找對收集數(shù)據(jù)的對象，或者說樣本（sample）。

那我們就一起來看看到底什么樣的樣本靠譜，什么樣的不靠譜。

大家先來看以下幾個真實(shí)的例子。

1化學(xué)防曬完勝物理防曬！（呃？）

第一個例子呢，是關(guān)于化學(xué)防曬霜和物理防曬霜的PK。

這其實(shí)是我前幾天偶然在優(yōu)酷上面看到的一個號稱護(hù)膚小偵探的網(wǎng)紅發(fā)布的視頻，點(diǎn)擊率很高。他做了一個實(shí)驗，得出結(jié)論說在防曬霜的選擇上，化學(xué)防曬霜完勝物理防曬霜。

那么他怎么做的那個實(shí)驗?zāi)?？兩管防曬霜：一管物理的，一管化學(xué)的；兩個從大街上拉來的志愿者：一個男的，一個女的；男的涂上了物理防曬霜，女的涂上了化學(xué)防曬霜；兩人分別戶外暴走倆小時；然后用“專業(yè)的儀器”檢測皮膚狀態(tài)，包括什么色素沉著情況啦、皮膚發(fā)紅程度啦、毛孔粗細(xì)啦、皮膚水分含量等等等等。這便是他收集到的數(shù)據(jù)，聽起來夠?qū)I(yè)吧。

結(jié)果呢，女生完勝，結(jié)論成立，還順帶種草了幾款化學(xué)防曬霜。完美！看到這兒，本寶寶的內(nèi)心啊幾乎是崩潰的。不知道會有多少無辜少女看完會這個，盲目地跟風(fēng)拔草啊！

我們久暫且相信這個“專業(yè)的儀器”檢測的結(jié)果能夠真的刻畫防曬效果，單就實(shí)驗本身來說，這也是一個漏洞簡直不能更加百出的案例。

相信很多朋友都能發(fā)現(xiàn)其中的貓膩——這倆人防曬效果不同真的是由于化學(xué)防曬和物理防曬造成的嗎？還是這個男生和這個女生皮膚狀況本來就不同呢？或是男生和女生對于防曬霜的反應(yīng)不同？還是因為兩人接受的紫外線強(qiáng)度不同（因為兩人并未在同一處暴走）？還是因為兩款防曬霜其他方面造成的不同？而非物理性和化學(xué)性的差異呢？諸如此類的麻煩我們稱之為“混淆因素”（confounding effect）。那如果一個實(shí)驗會造成這么多的混淆因素，那搞它有啥用??？

所以，這是一個典型的不靠譜樣本。造成這么多混淆因素的罪魁禍?zhǔn)?，大家可能已?jīng)猜到了，就是樣本不夠多啊，或者說樣本容量（sample size）不夠大。如果他能每組找出幾十個人，有男有女，大家初始的皮膚狀態(tài)都差不多，而且大家都在同一處戶外暴走，是不是就靠譜多了?。浚ㄆ鋵?shí)呢，這里還有另外一個跟樣本無關(guān)的麻煩事兒，就是那兩管防曬霜能否作為物理防曬和化學(xué)防曬的代表，這就涉及到我們統(tǒng)計里面說的隨機(jī)效應(yīng)（random effect）和確定效應(yīng)（fixed effect）的問題啊，這里媛子就先不啰嗦了。）

那如果說這個防曬霜的例子問題主要出在樣本容量不夠大上面，那是不是只要找到足夠多的樣本就萬事大吉了呢？（中國人民不差人兒對吧?。┪覀冊賮砜聪旅孢@個例子。

2羅斯福將敗給蘭登！（哈？）

這個例子是關(guān)于羅斯福在美國總統(tǒng)競選時候的例子。

1936年美國總統(tǒng)改選。改選之前呢，一家民意測驗機(jī)構(gòu)《文學(xué)文摘》雜志，為了預(yù)測民主黨候選人羅斯福與共和黨候選人蘭登兩個誰能當(dāng)選，以訂閱雜志的顧客電話簿和俱樂部成員名單上的地址發(fā)出1000萬封投票信，1000萬封，收回回信200萬封，花費(fèi)了大量的人力物力。

怎么樣？樣本夠大吧？200萬封，沒問題了吧？雜志社的調(diào)查結(jié)果是，蘭登將以57 %對43%的比例獲勝，并進(jìn)行了大量的宣傳。而最后選舉的結(jié)果呢，作為后來人的大家都知道了，羅斯福勝了，還是以62%對38%大獲全勝。

《文學(xué)文摘》的問題顯然不出在樣本容量上了：200萬啊，再不夠連張藝謀都沒轍了吧。那么問題到底出在哪兒呢？大家再回過頭來想想，這200萬的樣本都是怎么來的呢？是從雜志電話簿和俱樂部成員名單中來的。

1936年啊，什么樣的人會去訂雜志讀，去俱樂部high??？富人唄！也就是說，這200萬是從富人中來的，不能代表全民。換句話說，《文學(xué)文摘》所采集的樣本忽略了占人口大多數(shù)的平民這部分投票者，所以它不具有代表全民總體（population）的能力。再換句話說，這個樣本是有偏的（sampling bias）。

那這種有偏性會造成什么后果呢？我們就來看看富人支持羅斯福的比例跟全民支持羅斯福的比例有什么不同。只要你有一丟丟的國際政治歷史背景（當(dāng)然理科生媛子也就剩一丟丟了……），就可以察覺問題的所在：羅斯福競選和當(dāng)政后實(shí)行新政都主要在為廣大的平民發(fā)聲，強(qiáng)調(diào)平等，這勢必會動到富人們的蛋糕，對吧？所以呢，富人們不開心了。那現(xiàn)在看來，以上的現(xiàn)象就完全沒啥奇怪的了吧？

其實(shí)在1936年啊，已經(jīng)有人意識到這一點(diǎn)了。在《文學(xué)文摘》勞民傷財?shù)卣{(diào)查同時，美國蓋洛普等三家民意測驗機(jī)構(gòu)事先根據(jù)人口分布特點(diǎn)抽樣調(diào)查，設(shè)計了一個抽樣方案（sampling strategy），他們派調(diào)查員只調(diào)查3000選民，只有3000位，預(yù)測的結(jié)果呢，就是羅斯福當(dāng)選。當(dāng)然，至于如何合理地抽取樣本，這是一門統(tǒng)計專業(yè)課——抽樣技術(shù)要干的事兒了。

講到這兒，我們可以總結(jié)一下了：“靠譜的數(shù)據(jù)”應(yīng)該收集于具有總體代表性（representative）的較大樣本。用統(tǒng)計的語言，我們把能夠代表總體的這種樣本稱為隨機(jī)樣本（random sample），意思就是說要從總體中足夠隨機(jī)地抽取樣本得到的數(shù)據(jù)才是有代表性的。

聽媛子啰嗦了這么多啊，想告訴大家的就是，當(dāng)你讀統(tǒng)計報告、看有關(guān)數(shù)據(jù)的報道時，千萬別盲從，擦亮你的眼睛，先看看數(shù)據(jù)的來源是不是靠得住。當(dāng)你自己做統(tǒng)計分析時，也別不管三七二十一直接甩出各種高大上的統(tǒng)計模型，先看看數(shù)據(jù)有沒有什么問題，如果有，應(yīng)當(dāng)怎樣彌補(bǔ)。

數(shù)據(jù)啊，就像是我們烹飪的食材。媛子生活在廈門，家鄉(xiāng)在青島，喜歡吃海鮮。大家都知道，對海鮮來說，好的食材不需要復(fù)雜的烹飪，清蒸一下就很美味了。那如果給你一堆死魚爛蝦（魚和蝦怎么得罪你了……），哪怕你是米其林七星廚師，把它們折騰成向日葵的樣子，它也終究是一堆死魚爛蝦。

那通過以上兩個例子呢，大家就應(yīng)該知道怎樣的數(shù)據(jù)能做出好的海鮮了。（呃……）最好要夠隨機(jī)！最好要大樣本！

那有朋友可能會說了，明白！那我們以后做什么決策之前，只要做個靠譜的實(shí)驗，收集靠譜的數(shù)據(jù)，然后再來個靠譜的分析不就萬事大吉啦！呃，等一下啊，這么說是沒錯，但是呢，有時候條件有限，不是你想隨機(jī)就隨機(jī)，你想大樣本就大樣本的。臣妾做不到啊！

比如下面的兩個例子。

3消失的彈孔

這個例子呢是，它的名字叫做“消失的彈孔”是在抽樣技術(shù)里面一個比較著名的例子。在二戰(zhàn)期間，美軍不希望自己的飛機(jī)被敵人的戰(zhàn)斗機(jī)擊落，因此呢要為飛機(jī)披上裝甲。但是裝甲又會增加飛機(jī)的重量，飛機(jī)的機(jī)動性就會減弱，而且會更耗油。防御過度和防御不足都會帶來問題！

所以他們想找到一個最優(yōu)方案，在飛機(jī)的某些部位使用裝甲。那么到底是哪些部位呢？軍方發(fā)現(xiàn)，美軍的飛機(jī)在歐洲上空與敵機(jī)交火后返回基地時啊，飛機(jī)上留有的彈孔分布得并不均勻，機(jī)身上的彈孔比引擎上的多。所以軍方的結(jié)論是，應(yīng)該把裝甲放在彈孔多的機(jī)身部位。元芳，你怎么看？是不是有一種“英雄所見略同”的親切感？

但事實(shí)呢是，在這一點(diǎn)上，軍官們最幸運(yùn)的是他們居然擁有一個統(tǒng)計小組。小組組長叫做Abraham Wald，如果你學(xué)過統(tǒng)計的話，沒錯，就是那個著名的Wald 檢驗的那個Wald。這個倔強(qiáng)的組長啊完全不同意軍官們的方案，他認(rèn)為需要加裝甲的部位不應(yīng)該是彈孔多的地方，而應(yīng)該是彈孔少的地方，也就是引擎。后面的故事應(yīng)該大家都猜到了，美軍將Wald的建議迅速付諸實(shí)施，挽救了眾多的美軍戰(zhàn)機(jī)。

在這里先讓我跑個題。這也體現(xiàn)了熊大老師一直在強(qiáng)調(diào)的讓數(shù)據(jù)產(chǎn)生價值的理念。打贏戰(zhàn)爭呢不能靠，就是不能僅靠天時地利人和，如果你被擊落的飛機(jī)比對方少5%，消耗的油料低5%，補(bǔ)兵給養(yǎng)多5%，付出成本僅為對方的95%，拿你就很可能成為勝利方。這個就是數(shù)據(jù)所產(chǎn)生的價值。

好了跑題結(jié)束。那Wald他的高明的地方在什么地方呢？其實(shí)啊他的結(jié)論就基于一個理論：返航的飛機(jī)并不是能夠代表所有飛機(jī)的隨機(jī)樣本。那么問題來了，我們能去戰(zhàn)爭現(xiàn)場去調(diào)查被擊落的飛機(jī)嗎？這不太可能，這上刀山下火海的，成本實(shí)在是太高了。所以像剛才那個美國總統(tǒng)競選的例子一樣，這個樣本是有偏的，而且我們沒有辦法把它做到無偏。那怎么辦呢？難道只能兩手一攤：“事已至此，恕在下無能為力啦”？

那讓我們再仔細(xì)想想啊，既然這是一個有偏的樣本，那么它偏在哪兒呢？為什么會偏呢？理論上來講，一架飛機(jī)飛在空中，它各部分中彈的概率應(yīng)該大體是均等的，但是呢能夠返航的飛機(jī)引擎罩上的彈孔卻比其余部位少，那么那些失蹤的彈孔去哪兒了？——沒錯，在那些未能返航的飛機(jī)上。這說明什么？說明引擎如果中彈將是致命的，很可能被擊中就墜落了，回不來了，而機(jī)身被打得千瘡百孔的情況下仍能返回基地。這充分說明啊機(jī)身可以經(jīng)受得住打擊破壞，而引擎不行。

所以呢，即使我們的樣本是不合理的，我們還是通過，就是可以利用收集到的不完美的數(shù)據(jù)通過分析得出正確的決策。其實(shí)這種“消失的彈孔”的現(xiàn)象啊，在我們現(xiàn)實(shí)生活中無處不在，在統(tǒng)計上我們稱其為“幸存者偏差”（survivorship bias）。但并不是所有的人都會像Wald一樣熟悉它，所以呢人們經(jīng)常會憑直覺得到相反的結(jié)論。

上面的例子是一個觀察性研究（叫做observational study），也就是說我們沒有辦法控制數(shù)據(jù)采集的方式，只能去觀測結(jié)果。換句話說，有些數(shù)據(jù)啊，不是你想隨機(jī)就能隨機(jī)得了的。遇到這種情況，我們在分析的時候就需要想辦法去處理這些不完美的數(shù)據(jù)。

而又有些時候呢，問題不出在沒法隨機(jī)，而出在預(yù)算有限，沒條件得到很大的樣本量。這在工科領(lǐng)域比較常見，尤其是那種做一次實(shí)驗需要大型設(shè)備消耗巨大的人力物力財力的那種。那這種情況我們應(yīng)該怎么辦呢？我們來看下面這個非常淺顯的例子啊。

4Boys’ Shoes

QQ截圖20160626142235.jpg

假設(shè)我們現(xiàn)在想研發(fā)一種做運(yùn)動鞋的高大上的新材料，看看是不是比舊的材料更耐磨損。又假設(shè)我們現(xiàn)在的研發(fā)成本非常高，只能提供4雙樣品鞋，所以呀我們找來了8個孩子來試穿，4雙新材料4雙舊材料。聽到這兒，結(jié)合之前聽媛子嘮叨的，第一反應(yīng)是不是“完了完了完了，這個樣本量太小了沒法整了”？

但領(lǐng)導(dǎo)要讓你整你是不還得硬著頭皮去整。那怎么整呢？大家能想到的是不是把孩子分成兩組，4個穿新材料的鞋，4個穿舊材料的鞋吧？讓他們天天穿，穿倆月，然后回來測量磨損程度。乍一看是不是很OK押，對吧？但仔細(xì)想想，畢竟一組只有4個孩子呀。如果磨損程度不一樣，你怎么知道真的是新的材料給力，還是分到新材料的那組孩子恰好比較宅比較不愛運(yùn)動，所以沒有那么經(jīng)常地用鞋呢？也就是說啊“材料”這個因素很可能跟這個“孩子的活躍程度”或者說“活動程度”這個因素分不開了。這就是樣本太小所導(dǎo)致的潛在混淆因素，如果樣本夠大，就基本上不可能這么恰好了。

那么在樣本容量無法擴(kuò)大的前提下，有沒有什么辦法來消除掉這個混淆因素呢？——仔細(xì)想想還是有的——別忘了啊，每個孩子都有兩只腳呢！可以分別穿兩種材料的鞋！我們可以給每一個孩子選一只腳穿新材料，另一只腳穿舊材料啊，這樣呢，每一組新舊材料的對比都是基于同一個孩子的，就不存在他喜不喜歡運(yùn)動的問題啦。這在統(tǒng)計上叫做“完全隨機(jī)區(qū)組設(shè)計”（randomized complete-block design），可以用配對的兩樣本t檢驗（paired two-sample t test）的方法進(jìn)行分析。

到這兒呢，大家看出這個例子和上一個“消失的彈孔”案例之間的區(qū)別了沒？在這個例子中，我們其實(shí)是有辦法去設(shè)計整個實(shí)驗，去控制收集數(shù)據(jù)的方式的，所以它不再是觀察性研究，而是實(shí)驗性研究（experimental study）。

我們遇到這種問題的時候，可以從設(shè)計實(shí)驗的階段就忙活起來了，在給定的預(yù)算條件下，看看怎么樣得到的數(shù)據(jù)不會存在或者盡可能少地存在混淆因素是我們首要考慮的問題。

總結(jié)

聊到這兒呢，到了真正該總結(jié)的時候了。我們知道樣本越隨機(jī)、樣本量越大，收集到的數(shù)據(jù)就越靠譜。但是呢，有的時候真的是天不遂人愿啊。

如果我們沒法隨機(jī)，也就是觀察性研究，我們只能通過統(tǒng)計分析方法或者邏輯思維來彌補(bǔ)不完美的數(shù)據(jù)；如果我們還是有辦法控制這個數(shù)據(jù)收集的方式，也就是所謂的實(shí)驗性研究，我們就可以根據(jù)預(yù)算制定一套收集數(shù)據(jù)的方法，來避免混淆因素的干擾，使我們的統(tǒng)計結(jié)果更精確、更穩(wěn)定、更可信。

再借用海鮮用一下：如果食材（也就是我們的數(shù)據(jù)來源）不咋地，咱又沒得選，就得靠廚師的功力（也就是統(tǒng)計或者邏輯分析）來救場啦。如果咱可以自己準(zhǔn)備食材，那我們就趕緊奔赴生鮮市場吧~

作者簡介

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

熊大胡說| 數(shù)據(jù)表明：數(shù)據(jù)相當(dāng)不靠譜！

1化學(xué)防曬完勝物理防曬！（呃？）

2羅斯福將敗給蘭登！（哈？）

3消失的彈孔

4Boys’ Shoes

1化學(xué)防曬完勝物理防曬！（呃？）

2羅斯福將敗給蘭登！（哈？）