| 科學(xué)的目的是盡可能準(zhǔn)確地建立事實(shí)。因此,分辨觀察到的現(xiàn)象是否是真實(shí)的、還是純屬巧合的結(jié)果至關(guān)重要。如果你以為你發(fā)現(xiàn)了一些事實(shí),而它其實(shí)只是隨機(jī)的,這會(huì)被稱為虛假的發(fā)現(xiàn)或假陽性。尤其是在醫(yī)學(xué)的某些領(lǐng)域,假陽性這種情況是非常常見的。 假陽性;許多微觀的癌和非癌的人體組織樣本。圖片來源:Wellcome Images 7月22日,一篇發(fā)表在PsyArXiv的文章引發(fā)了一場(chǎng)激烈的大辯論。辯論的問題很簡(jiǎn)單,而且還正中所有科學(xué)研究的核心,即:什么樣的結(jié)果才能算是可靠的? 這個(gè)問題非常重要,因?yàn)樵S多學(xué)科目前都面臨著“可重復(fù)性危機(jī)”,即使是教科書里的內(nèi)容,也未必能通過嚴(yán)格的重新測(cè)試。 此次辯論的中心是“統(tǒng)計(jì)顯著性”這個(gè)概念,它是決定研究結(jié)果是否能發(fā)表在科學(xué)期刊中最有影響力的度量標(biāo)準(zhǔn)之一。若一個(gè)結(jié)果要能被算得上是“統(tǒng)計(jì)上顯著的”,它需要通過一項(xiàng)簡(jiǎn)單的測(cè)試。測(cè)試的答案被稱為“P值”。如果P值小于0.05-恭喜你!通過測(cè)試,你擁有了一個(gè)統(tǒng)計(jì)顯著的研究結(jié)果。 但不久前,來自統(tǒng)計(jì)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、政治學(xué)、還有生物醫(yī)學(xué)等學(xué)科的72名卓越的學(xué)者想要改變這種現(xiàn)狀。他們?cè)谝黄磳⒖窃凇蹲匀蝗祟愋袨椤冯s志上的文章中表示,研究結(jié)果必須通過更高的門檻,才能被視為具有“統(tǒng)計(jì)顯著性”。 這篇題為《重新定義統(tǒng)計(jì)顯著性》的文章即將發(fā)表在《自然:人類行為》雜志。合作者包括了兩位研究可重復(fù)性的重量級(jí)人物:John Ioannidis和Brian Nosek.圖片來源:D.J.Benjamin 作者寫道:“我們建議將P值改為小于0.005,這個(gè)簡(jiǎn)單的步驟將即刻提高科學(xué)研究在許多領(lǐng)域的重復(fù)性?!?如果這一改變被接受,它就有可能大大減少科學(xué)文獻(xiàn)中的假陽性。 斯坦福大學(xué)健康研究教授 John Ioannidis 是這篇文章的作者之一,他說:“我們使用P值的方式存在很大的問題,這導(dǎo)致了現(xiàn)在學(xué)術(shù)論文中出現(xiàn)了大量誤導(dǎo)性的主張?!?同時(shí) Ioannidis 也表示,這個(gè)建議并不能解決科學(xué)中的所有問題,他說:“我認(rèn)為這就像是一個(gè)大壩,在我們找到永久性修復(fù)的方法前,它能幫我們遏制洪水?!?div> 但并不是每個(gè)人都認(rèn)同這種做法。 它能導(dǎo)致的最好結(jié)果是,通過這個(gè)簡(jiǎn)單的改變,學(xué)術(shù)文獻(xiàn)中的錯(cuò)誤得以顯著減少。而最壞的結(jié)果,這種居高臨下的命令,可能讓科學(xué)中一些真正的問題喪失表達(dá)機(jī)會(huì)。 這也正是這場(chǎng)辯論的主要焦點(diǎn)。 什么是P值? 當(dāng)研究人員計(jì)算一個(gè)P值時(shí),他們測(cè)試的是“零假設(shè)”。要知道的是:這不是一個(gè)關(guān)于實(shí)驗(yàn)者最迫切想要回答的問題的測(cè)試。 什么是零假設(shè)呢?舉個(gè)簡(jiǎn)單粗暴的例子,假設(shè)實(shí)驗(yàn)者想要知道每天吃一個(gè)巧克力棒是否能減肥,于是分配了50個(gè)參與者每天吃一個(gè)巧克力棒,安排另50人不許吃巧克力棒。在實(shí)驗(yàn)前和試驗(yàn)后分別測(cè)量?jī)山M參與者的體重,之后再比較兩組的平均體重。 這時(shí),零假設(shè)會(huì)倡導(dǎo)的論證則是:吃巧克力與不吃巧克力的參與者的體重減輕沒有差別(即假設(shè)了要被試驗(yàn)的效應(yīng)并不存在)。因此,駁回零假設(shè)是科學(xué)家在證明自己理論過程中的主要障礙。科學(xué)家會(huì)通過統(tǒng)計(jì)學(xué)來排除一些零假設(shè)。最基礎(chǔ)的,他們會(huì)問自己:基于現(xiàn)有的結(jié)果,相信零假設(shè)是正確的這件事會(huì)有多荒謬呢? 駁回零假設(shè)與法庭上證明一個(gè)人有罪的原則有些類似。比如說,在法庭上,你先假定被告是無辜的,接著你看到證據(jù),如:帶血的刀子上有他的指紋,他有暴力傾向的記錄,還有目擊證人作證等等。根據(jù)這些證據(jù),無罪定論開始顯得幼稚。到了某一程度上,法官會(huì)感覺得到,這已超出了合理懷疑,被告并不是無辜的。 零假設(shè)檢驗(yàn)遵循類似的邏輯:如果吃巧克力的人和不吃的人之間的體重差異不同,那么“沒有重量差異”的零假設(shè)則看起來很愚蠢。就可以被駁回。 你可能會(huì)想:這種證明一個(gè)實(shí)驗(yàn)的方式豈不是很迂回?是的,就是很迂回!被駁回的零假設(shè)是實(shí)驗(yàn)的一個(gè)間接證據(jù)。它并不能說明你的科學(xué)結(jié)論是否正確。 就接著上面的例子來說,比如被駁回的零假設(shè)并不能告訴提供你任何關(guān)于巧克力引起減肥的機(jī)制。它也不能告訴你實(shí)驗(yàn)是否設(shè)計(jì)良好、控制得當(dāng),或者結(jié)果是否被擇優(yōu)挑選過等等。它只是幫你了解結(jié)果的罕見程度。 而P值量化了這個(gè)稀有度。它告訴你的是,在假設(shè)這個(gè)零假設(shè)是真的的前提下,在重復(fù)實(shí)驗(yàn)中,你能得到相同結(jié)果的次數(shù)是多少。如果P值非常小,也就是說得到相同結(jié)果的次數(shù)很少,則證明零假設(shè)的可能性很小,這意味著實(shí)驗(yàn)結(jié)果的數(shù)據(jù)是由隨機(jī)運(yùn)氣導(dǎo)致的可能性就很小。 另外還有一個(gè)問題,研究者永遠(yuǎn)也無法完全排除零假設(shè),所以科學(xué)家們就選擇了一個(gè)讓他們比較舒適的門檻,也就是現(xiàn)在設(shè)定的P值小于0.05。 在理想情況下,一個(gè)等于0.05的P值意味著如果你重復(fù)實(shí)驗(yàn)100次(強(qiáng)調(diào):假設(shè)零假設(shè)為真),你能得到相同的結(jié)果的次數(shù)為5次。 最后一個(gè)超級(jí)棘手、幾乎大多數(shù)人都弄錯(cuò)的概念是:P值小于0.05并不意味著你的實(shí)驗(yàn)結(jié)果是由隨機(jī)運(yùn)氣產(chǎn)生的幾率不到5%,也不意味著你只有小于5%的概率得到假陽性的結(jié)果。它能說明的只是:在零假設(shè)為真的情況下,你得到的結(jié)果是由于隨機(jī)運(yùn)氣導(dǎo)致的概率不到5%。 這聽起來很吹毛求疵,但卻至關(guān)重要。因?yàn)檫@常導(dǎo)致人們對(duì)P值的理解產(chǎn)生誤會(huì),過度自信,因?yàn)镻值為0.05的實(shí)驗(yàn)出現(xiàn)假陽性的概率可以遠(yuǎn)遠(yuǎn)高于5%。 反對(duì)P < 0.05的聲音 通常,P值不能用來做結(jié)論,而是確定可能性,像一種取樣測(cè)試。在很長(zhǎng)一段時(shí)間以來,小于0.05的P值取樣看上去很不錯(cuò)。但在最近過去的幾年里,越來越多的研究者和統(tǒng)計(jì)學(xué)家已經(jīng)意識(shí)到,P<0.05并不像想象中的那么有力。 最顯而易見的證據(jù)是:許多P值低于0.05門檻的論文無法被更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法重復(fù)。 2015年《科學(xué)》雜志的一篇論文試圖復(fù)制100篇發(fā)表在一本優(yōu)秀的心理學(xué)雜志上的發(fā)現(xiàn),只有39%通過了測(cè)試。其他學(xué)科要稍微好一點(diǎn),經(jīng)濟(jì)學(xué)中類似的復(fù)制發(fā)現(xiàn)約有60%的結(jié)果是可重復(fù)的。生物醫(yī)藥也同樣是“可重復(fù)性危機(jī)”的重災(zāi)區(qū),但具體數(shù)字還并不清楚。 從2015年《科學(xué)》刊登的這篇論文提供的一些線索來看,發(fā)現(xiàn)P值低于0.01的心理學(xué)研究的可被重復(fù)的可能性要明顯高于剛好在0.05水平的研究。 通常P=0.05被視為“統(tǒng)計(jì)顯著”,P=0.01為“非常顯著”。低P值會(huì)使假設(shè)成立的可能性更大,但不會(huì)有非常明顯的差異。圖片來源:R. NUZZO 另外,還有研究人員還發(fā)現(xiàn),我們能看到的所有已發(fā)表的論文都有一個(gè)名義上的“統(tǒng)計(jì)學(xué)上顯著的”結(jié)果。 而實(shí)際上,這些P值小于0.05的絕大多數(shù)論文并不符合其真正的效果。 很久以來,科學(xué)家都認(rèn)為P < 0.05代表了事情的罕見,而新的統(tǒng)計(jì)學(xué)發(fā)現(xiàn)并不是這樣的。 2013年在PNAS刊登的一篇論文中,華盛頓大學(xué)的統(tǒng)計(jì)學(xué)家 Johnson 使用了更先進(jìn)的統(tǒng)計(jì)技術(shù)來測(cè)試這個(gè)研究者通常所做的“一個(gè)0.05的P值意味著零假設(shè)為真的幾率是5%”的假設(shè)。他的分析顯示,事實(shí)上,當(dāng)P值為0.05時(shí),零假設(shè)為真的概率可達(dá)到25%到30%。 而25%和30%這樣的數(shù)字,幾乎很難被稱得上“罕見”二字了。 更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法 這篇論文里所提倡的主要是在修辭上的改變:將達(dá)到0.05級(jí)別的結(jié)果稱為具有“啟示性”意義的結(jié)果,而達(dá)到更嚴(yán)格標(biāo)準(zhǔn)的0.005的結(jié)果才能被稱為“統(tǒng)計(jì)顯著”的結(jié)果。換句話說,期刊仍然可以像以前一樣發(fā)表一些較弱、甚至可能無效的結(jié)果。這種語言上的調(diào)整將有希望降低媒體在發(fā)布新聞稿和新聞報(bào)道時(shí),類似“重磅”、“大突破”、“大發(fā)現(xiàn)”等標(biāo)題語的濫用。 統(tǒng)計(jì)顯著的意義上的變化可能會(huì)迫使今后研究人員需采取嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方法。如果實(shí)驗(yàn)室確實(shí)想發(fā)表“統(tǒng)計(jì)顯著”的結(jié)果,在將來可能會(huì)變得更加困難。例如,對(duì)一些需要參與者的實(shí)驗(yàn),參與人數(shù)平均可能要增加70%,這樣變化基本能將證據(jù)的力度提高六倍左右。 加重的舉證責(zé)任將可能推動(dòng)研究人員采用其他科學(xué)改革者一直呼吁的做法,如與其他實(shí)驗(yàn)室共享數(shù)據(jù)以達(dá)成共識(shí),并對(duì)已有的科研工作進(jìn)行更長(zhǎng)遠(yuǎn)的思考。更高的門檻也將鼓勵(lì)實(shí)驗(yàn)室在發(fā)表結(jié)果之前更多次的重復(fù)實(shí)驗(yàn)。 值得一提的是,在某些領(lǐng)域中,為了避免錯(cuò)誤的結(jié)果,早已將P值的閾值設(shè)置的非常低。比如粒子物理學(xué)家在收集粒子對(duì)撞產(chǎn)生的數(shù)據(jù)中一直要求P值低于3 ×10^?7,遺傳學(xué)家在進(jìn)行全基因組關(guān)聯(lián)研究時(shí),也要求P值小于5×10^?8。但也有一些科學(xué)家已經(jīng)放棄P值,轉(zhuǎn)而使用更復(fù)雜的統(tǒng)計(jì)學(xué)工具,比如貝葉斯檢驗(yàn)。 反對(duì)P < 0.005的聲音 當(dāng)然關(guān)于這個(gè)提案也有許多反對(duì)的聲音,其中一個(gè)是心理學(xué)家 Daniel Lakens,目前他正與數(shù)十名作者聯(lián)合組織反駁論文。他的主要觀點(diǎn)是,這種改變“統(tǒng)計(jì)顯著性”的建議可能減緩科學(xué)進(jìn)步的步伐。 Lakens 舉了一個(gè)例子:“我們將科學(xué)研究比喻成在公路上駕駛一輛汽車,公路會(huì)設(shè)定最高速度。你可以將你所在國家的最高速度設(shè)置為每小時(shí)20英里,這樣的話沒有人會(huì)因車禍而死,即便你撞倒了一個(gè)人,他們也不會(huì)死。這樣很好,對(duì)吧?但在科學(xué)上我們不這樣做,我們要將最高速度設(shè)置得高一點(diǎn),因?yàn)槟悄茏屛覀兏斓牡诌_(dá)下一個(gè)地方??茖W(xué)就是這樣啊……” Lakens 說,理想的情況下,證明一個(gè)假設(shè)所需的統(tǒng)計(jì)顯著性的水平取決于這個(gè)假設(shè)的荒謬程度。 換句話說,如果你想要聲稱一個(gè)“心靈感應(yīng)”這類發(fā)現(xiàn)是真的,你會(huì)需要一個(gè)很低的P值;但是,對(duì)一個(gè)已經(jīng)很平常的概念,我們是否還需要一個(gè)如此極端的測(cè)試呢?高標(biāo)準(zhǔn)可能會(huì)阻礙只有較少科研資源的年輕博士檢驗(yàn)他們的想法。 再者,0.05的P值也并不一定意味著實(shí)驗(yàn)將是假陽性。一個(gè)好的研究者會(huì)知道如何跟進(jìn)和找出真相。 對(duì)這個(gè)提案的另一個(gè)批評(píng)是,它會(huì)使得科學(xué)界加劇對(duì)P值的關(guān)注。而正如上問討論的那樣,P值并不能真正告訴我們一個(gè)假設(shè)的優(yōu)劣。 Ioannidis 也承認(rèn):“統(tǒng)計(jì)顯著性本身并不能傳遞一個(gè)研究的意義、重要性、臨床價(jià)值和實(shí)用性?!彼f,在理想情況下,科學(xué)家們不需要依靠零假設(shè)測(cè)試來重新審視他們自己。但是我們不是生活在理想世界里,在現(xiàn)實(shí)世界中,P值仍是任何科學(xué)家都可以輕松使用來測(cè)試的一種快速簡(jiǎn)單的工具。而且在現(xiàn)在,P值仍在決定什么是可以被發(fā)表的這一問題上扮演很重要的角色。 真正的問題:科學(xué)文化氛圍 或許改變統(tǒng)計(jì)顯著性的定義并不能解決真正的問題,因?yàn)檎嬲膯栴}可能是科學(xué)文化。 在2016年一項(xiàng)調(diào)查中采訪了200多名美國知名高校的科學(xué)家,詢問他們:“如果你能改變一件與現(xiàn)在科學(xué)圈有關(guān)的事,那將是什么?”答案中的一個(gè)清晰的回復(fù)便是:科學(xué)機(jī)構(gòu)需要設(shè)置對(duì)待科研失敗的更好的方式。 科學(xué)文化氛圍的現(xiàn)狀是,年輕的科學(xué)家需要一定的發(fā)表量才能獲得工作,成功發(fā)表論文需要統(tǒng)計(jì)顯著的結(jié)果,統(tǒng)計(jì)顯著性本身并不導(dǎo)致可重復(fù)性危機(jī)?;蛟S是這種科研氛圍加劇了這種了使這個(gè)行業(yè)變得脆弱的情況。 但就目前而言,調(diào)整P值仍只是一個(gè)引發(fā)劇烈爭(zhēng)辯的提案。各類期刊并不會(huì)急于在一夜之間改變編輯與審核的標(biāo)準(zhǔn)。這場(chǎng)辯論還將持續(xù)。 但是如果因此變成,修正了措辭的“啟示性”的結(jié)果難以被發(fā)表,只得到“啟示性”結(jié)果的研究無法留住科研經(jīng)費(fèi),那么科學(xué)共同體或許還沒有汲取足夠的教訓(xùn)。 其實(shí)仔細(xì)想想,關(guān)于調(diào)整P值的這項(xiàng)提案似乎更多在說科學(xué)家需要更嚴(yán)謹(jǐn)?shù)氖褂每茖W(xué)措辭,“啟示性”或者“無效的”結(jié)果也是結(jié)果。Ioannidis說:“平均來看,'失敗'的研究平比正面研究可能更有價(jià)值?!?div> 科研機(jī)構(gòu)和科學(xué)期刊其實(shí)都知道這一點(diǎn),但他們只是常常忘記要這樣做。 |
|
|