![]() × 探源現(xiàn)代預(yù)測之術(shù) ——貝葉斯定理 ![]() “人生中最重要的問題,在絕大多數(shù)情況下,真的就只是概率問題。” ——皮埃爾-西蒙·拉普拉斯(1749-1827) 你是否曾經(jīng)想過,為什么有的人總是賭運氣,而有的人卻能準(zhǔn)確地預(yù)測未來? 答案就在于概率。 這時候,我們不得不提到一個神奇的定理——貝葉斯定理。從物理學(xué)到癌癥研究,從生態(tài)學(xué)到心理學(xué),貝葉斯定理幾乎像“熱力學(xué)第二定律”一樣放之宇宙皆準(zhǔn)了,幾乎所有學(xué)科都可以用這個公式做出精準(zhǔn)的預(yù)測和決策。它是人工智能的“祖師爺”,是商業(yè)分析師必備定理!江湖傳聞“萬物皆可貝葉斯”!下面就讓我們一起揭開“現(xiàn)代預(yù)測之術(shù)——貝葉斯定理”的神秘面紗吧! ![]() 一 ![]() 托馬斯·貝葉斯 ![]() ![]() 01 18世紀(jì)英國神學(xué)家、數(shù)學(xué)家、數(shù)理統(tǒng)計學(xué)家和哲學(xué)家 02 1702年出生于英國倫敦,做過神甫,1742年成為英國皇家學(xué)會會員 03 他是概率論理論創(chuàng)始人,貝葉斯統(tǒng)計的創(chuàng)立者,“歸納地”運用數(shù)學(xué)概率,“從特殊推論一般、從樣本推論全體”的第一人 ![]() 貝葉斯定理是由英國數(shù)學(xué)家 Thomas Bayes 在 1700 年代末或 1800 年代初提出的。然而,他的這個理論一直未被廣泛關(guān)注和應(yīng)用,直到他的朋友,英國數(shù)學(xué)家 Richard Price 于1763年發(fā)表了一篇有關(guān)概率與統(tǒng)計的論文,其中提到了貝葉斯定理,成為第一篇公開發(fā)表有關(guān)貝葉斯定理的論文。此后,1800年 Pierre-Simon Laplace 獨立發(fā)現(xiàn)并發(fā)表了一篇關(guān)于貝葉斯定理的論文,是第一篇詳細(xì)解釋和應(yīng)用貝葉斯定理的作品。 二 ![]() 公式推導(dǎo) ![]() ![]() 條件概率 條件概率表示為:P(B|A),讀作“在A發(fā)生的條件下B的概率”. 計算公式為: ![]() 乘法原理 在實際應(yīng)用中,乘法原理通常用于計算多個獨立事件同時發(fā)生的概率.其數(shù)學(xué)表達(dá)式如下:P(A∩B)=P(A)×P(B│A). 貝葉斯公式 假設(shè)有兩個事件 A 和 B,它們的概率分別為 P(A) 和 P(B),現(xiàn)在要求P(A|B). 條件概率式 ![]() 其中,P(A∩B) 表示 A 和 B 同時發(fā)生的概率. 乘法原理 P(A∩B)=P(A)×P(B│A) 其中,P(B|A) 表示在 A 發(fā)生的條件下B 發(fā)生的概率. 現(xiàn)在可以將 P(A∩B) 替換為乘法公式的右邊表達(dá)式 ![]() 根據(jù)全概率公式,將 P(B)展開為: ![]() 其中 ![]() 表示事件 A 不發(fā)生的情形.將上式帶回貝葉斯公式中,可以得到: ![]() ![]() 三 ![]() 典故新解 ![]() 烽火戲諸侯 ![]() 西周末年,昏庸的周幽王為博愛妾褒姒一笑,采納了虢石父的建議,點燃了驪山烽火臺。褒姒見千軍萬馬召之即來,揮之即去,如同兒戲一般,覺得十分好玩,禁不住嫣然一笑。周幽王大喜,因而又?jǐn)?shù)次點燃烽火,導(dǎo)致諸侯們都不相信烽火,也漸漸不來了。后來犬戎攻破鎬京,殺死了沒有諸侯來救駕的周幽王。 用貝葉斯定理計算: 設(shè) P(撒謊)=0.1 P(真話)=0.9 (先驗概率) P(敵人入侵|真話)=0.8 P(敵人沒入侵|真話)=0.2 P(敵人入侵|撒謊)=0.3 P(敵人沒入侵|撒謊)=0.7 可求得當(dāng)敵人沒入侵時周幽王撒謊的概率(后驗概率) P(撒謊|敵人沒入侵) =(P(撒謊)×P(敵人沒入侵|撒謊))/P(敵人沒入侵) =(P(撒謊) ×P(敵人沒入侵|撒謊))/(P(撒謊)×P(敵人沒入侵|撒謊)+P (真話) ×P(敵人沒入侵|真話)) =(0.1×0.7)/(0.1×0.7+0.9×0.2) =0.28(28%) P (真話|敵人沒入侵) =1- P (撒謊|敵人沒入侵) =1-0.28=0.72(72%) ![]() 可見,在周幽王撒謊五次后,就點燃烽火一事而言,他在諸侯心中基本沒有了信任度,也難怪后來陷入孤立無援的局面。 將國事當(dāng)兒戲,不禁惹得后人感慨: 良夜頤宮奏管簧,無端烽火燭穹蒼。 ——《東周列國志》 ![]() 四 ![]() 經(jīng)典問題 ![]() 01蒙提霍爾問題 (三門問題) ![]() 有三扇門,其中一扇門后面有一輛車,另外兩扇門后面分別有山羊。參賽者選擇其中一扇門,主持人打開另外兩扇門中的一扇門,顯示出其中一只山羊。此時,主持人給參賽者提供一個機(jī)會,允許他更改選擇。請問參賽者如果更改選擇,獲得車的概率會更大嗎? 解答: 事件A和事件B可設(shè)定如下: 事件A為:第一次抽樣為山羊; 事件B為:第三次抽樣為汽車. 事件A完成后,我們將“從剩下兩扇門中去掉一只山羊”變?yōu)橐粋€固定步驟,然后再執(zhí)行事件B。換門后能贏得汽車的概率問題,變?yōu)榍笫录﨎的概率P(B). 這里最終求的不是條件概率,需要使用貝葉斯公式的變形版本: P(B)=P(B|A)×P(A)/P(A|B) P(A)=P(第一次抽樣為山羊)=2/3. 在第一次抽樣為山羊發(fā)生的前提下,由于主持人確定會再去掉一只山羊,于是第三次抽樣為汽車的概率為100%,即 P(B|A)=P(第三次抽樣為汽車|第一次抽樣為山羊)=1. 而第三次抽樣為汽車發(fā)生的前提下,剩下兩個門只能都是山羊,于是第一次抽樣為山羊的概率也為100%,即 P(A|B)=P(第一次抽樣為山羊|第三次抽樣為汽車)=1. 于是,根據(jù)貝葉斯公式, 02別墅問題 一座別墅在過去的20年里一共發(fā)生過2次被盜,別墅的主人有一條狗,狗平均每周晚上叫3次,在盜賊入侵時狗叫的概率被估計為0.9,問題是:在狗叫的時候發(fā)生入侵的概率是多少? 解答: 我們假設(shè) A 事件為狗在晚上叫,B 為盜賊入侵,則以天為單位統(tǒng)計, P(B|A)=0.9×(2/7300)/(3/7)=0.00058. 03假陽性問題 已知某種疾病的發(fā)病率是0.001,即1000人中會有1個人待病。現(xiàn)有一種試劑可以檢驗患者是否得病,它的準(zhǔn)確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現(xiàn)陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽性?,F(xiàn)有一個病人的檢驗結(jié)果為陽性,請問他確實得病的可能性有多大? 解答: 根據(jù)題目的條件,我們可以使用貝葉斯定理求解。 設(shè)事件A表示病人確實得病,事件B表示病人的檢驗結(jié)果為陽性,則: P(A)=0.001,即病人確實得病的概率是0.001. P(B|A)=0.99,即在病人確實得病的情況下,檢驗結(jié)果呈陽性的概率是0.99. ![]() = 0.05,即在病人沒有得病的情況下,檢驗結(jié)果呈陽性的概率是0.05. 求解病人確實得病的概率,即P(A|B): 首先 ![]() 其中 ![]() =1-P(A). 計算得到: P(B)=0.99×0.001+0.05×0.999≈0.051 根據(jù)貝葉斯定理: P(A|B)=P(B|A)×P(A)/P(B) 代入上面的值計算得到: P(A|B)=0.99×0.001/0.051≈0.0194 因此,這個病人確實得病的可能性約為1.94%. ![]() 五 ![]() 生活中的應(yīng)用 ![]() 01垃圾郵件過濾器 貝葉斯方法可以應(yīng)用于垃圾郵件過濾器中,用來預(yù)測某個郵件是垃圾郵件的概率.這需要先知道一些先驗概率(例如,垃圾郵件的比例是多少),然后根據(jù)郵件中的關(guān)鍵詞或其他特征來計算后驗概率(即這封郵件是垃圾郵件的概率是多少)。 02醫(yī)學(xué)診斷 在醫(yī)學(xué)領(lǐng)域中,貝葉斯方法可以用來預(yù)測某種疾病的概率,這需要先知道某種疾病的基本概率,然后根據(jù)一些指標(biāo)如血液檢查結(jié)果等信息來計算后驗概率,從而確定是否需要進(jìn)一步進(jìn)行特定檢查。 03機(jī)器翻譯 貝葉斯方法可以用來改善機(jī)器翻譯的質(zhì)量,例如,使用一個先驗概率表示翻譯中的某個詞可能屬于什么類型的短語,并使用選擇最大化概率的方式來選擇最佳的翻譯。 04金融風(fēng)險管理 貝葉斯方法可以用來預(yù)測某個金融產(chǎn)品價格變化的概率,這需要先知道某個投資產(chǎn)品的基本概率,然后根據(jù)市場信息和經(jīng)濟(jì)指標(biāo)等因素來計算后驗概率,從而確定變化的可能性。 ![]() 六 ![]() 哲學(xué)聯(lián)系 ![]() 01做行動派 不行動意味著你失去了獲取新信息的可能,錯過了進(jìn)步的機(jī)會。貝葉斯告訴我們給我們提供了一個很好的思路: 先做一個預(yù)判,動起來,利用新的信息不斷修正原來的預(yù)判。 02初始概率很重要 初始概率越準(zhǔn)確,我們就能越容易、越快速的得到真實的概率。而如何獲得相對靠譜的初始概率,是個硬功夫,它需要你的經(jīng)驗和平時的深度思考,有時甚至和底層的價值觀、思維方式都有關(guān)。 03對特殊情況要足夠重視 貝葉斯定理告訴我們,萬分之一概率的事情,也有可能因為特殊事件,一下子變成了50%。所以,每當(dāng)出現(xiàn)特殊的、罕見的情況時,我們要保持高度警惕。 04信息的收集、質(zhì)量、判斷,是提高決策水平的最重要環(huán)節(jié) 在做決定之前,盡可能多的收集信息是必須的。但是錯誤的信息、低質(zhì)量的信息,會讓你的修正偏離真相越來越遠(yuǎn),你能不能區(qū)分信息來源的可靠性、能不能進(jìn)行交叉驗證、邏輯推理,就顯得至關(guān)重要。 ![]() ![]() 撰稿 | 托馬斯小火車隊 排版 | 托馬斯小火車隊 ![]() |
|
|