小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

理解概率統(tǒng)計核心理念:事件的條件與關(guān)聯(lián)——深解貝葉斯原理

 岐黃道心 2019-02-16

打開數(shù)據(jù)分析的大門,從感性走向理性。

“概率統(tǒng)計”正確理解,才能正確應(yīng)用!

本專欄從最通俗易懂的角度,用最易于理解的方法,真正內(nèi)化吸收概率統(tǒng)計的核心思想與算法,幫助您在工作生活中正確應(yīng)用概率統(tǒng)計知識。

征兵的故事

美國海軍每次征兵都會打出號召性的廣告,盡其所能地宣傳,讓最優(yōu)秀的年青人加入軍隊,還要想辦法不讓父母們擔(dān)心孩子的安危。

美軍征兵海報

這不,有一年廣告是這么說的:

權(quán)威統(tǒng)計數(shù)據(jù)表明,紐約市民的每年的死亡率為1.6%,而美國海軍每年的死亡率僅有0.9%!所以,美國海軍是比紐約市更安全的地方!

普通人一看,有這么3點反應(yīng):

  1. 不能吧,不合常理???
  2. 權(quán)威統(tǒng)計,數(shù)據(jù)應(yīng)該是真的。
  3. 也許是因為海軍確實安全吧!

恭喜,中計了!

這個詭計的要害其實一語即可道破:

紐約市民中包括老弱病殘,而美國海軍全是挑選出來的精壯青年,后者正常的死亡率應(yīng)該連0.2%都不到,而到了海軍要多犧牲出0.7%,還說不危險?!

軍人上戰(zhàn)場都是冒著生命危險

所以,想用概率的比較來說明問題,就必須很清晰概率的計算前提

要想通過比較概率來說明問題,前提是:

分析事件的關(guān)聯(lián)性與獨立性

具體地說,一個人是美國海軍這個事件,與一個人是普通市民的這個事件,二者是有隱含邏輯關(guān)聯(lián)的,因為一個人100%是普通市民,但也許只有1%可以選中成為海軍士兵。

精要總結(jié):

兩個概率的統(tǒng)計群體,擁有邏輯上的關(guān)聯(lián)性,但該關(guān)聯(lián)性沒有體現(xiàn)在概率計算中,因此兩個概率值是無法做比較的。

如果注意觀察,在生活甚至工作中,這樣的“偽對比”其實非常之多,稍不注意就會落入概率陷阱之中。

甚至可以說,我們?nèi)粘R姷降膹V告宣傳中,凡是出現(xiàn)概率或比率的,都需要擦亮雙眼仔細辨別。

條件概率

概率對比的正確操作,是使用“條件概率”

直接上例子:

統(tǒng)計發(fā)現(xiàn),人類患肺癌的概率為0.1%,而吸煙者患肺癌的概率為0.4%,如何知道不吸煙的人患肺癌的概率是多少呢?(人群中吸煙者的比率為20%)

第一反應(yīng),0.4>0.1,不吸煙肯定不那么容易患肺癌,那么差多少呢?

歸納一下已條件:

P(肺癌)=0.1% 即P(不肺癌)=99.9%

P(吸煙)=20% 即P(不吸煙)=80%

P(肺癌|吸煙) = 0.4%

最后那一行的意思表示“條件概率”

P(肺癌|吸煙) 表示 在吸煙的條件下 得肺癌的概率。

豎線后面就表示這個概率計算的總體,所以說,為什么要用一豎來表示條件概率,因為這一豎“|”其實就是除號“/”??!

那么,咱們要求的,不吸煙的人患肺癌的概率 可以表示為:

P(肺癌|不吸煙)

這里采用“分解法”,對于全體人類而言,患肺癌的人分兩類:

  • 吸煙 且 患肺癌
  • 不吸煙 且 患肺癌

所以:

P(肺癌)

= P(肺癌 且 吸煙) +P(肺癌 且 不吸煙)

= P(肺癌|吸煙) x P(吸煙)+P(肺癌|不吸煙) x P(不吸煙)

這種把一個事件(肺癌)用另一個事件(吸煙)給分割開的公式,叫做

全概率分解。

而式中,只有一個未知量,得到 P(肺癌|不吸煙)=0.025%。

戒煙吧,還您一個健康的肺

可見:

  • 不吸煙患病的概率要遠低于吸煙患病的概率;
  • 可以得到明確判斷吸煙與肺癌的關(guān)系。
  • 概率對比要確定前提條件,即使用條件概率。

全概率分解展現(xiàn)的是兩個事件的關(guān)聯(lián)性。

貝葉斯公式

如果對上面式子中的乘號有疑問,可以再看看下面的圖形解釋。

假設(shè)有事件A 和 B :

顯然,事件A 與 事件B有交集,也就是說他們可能同時發(fā)生,(比如一個人既吸煙,同時也患了肺癌),那么AB同時發(fā)生的概率可以表示為:

或:

都是可以的。

所以顯然:

上面這三個式子叫做貝葉斯原理,這個公式非常擅于解決這樣一類問題:

假如已經(jīng)發(fā)生了一個事件,如事件B,那么,在此基礎(chǔ)上,事件A會發(fā)生的概率是多少呢?

其實,就是求 P(A|B),由上式,顯然:

這個貝葉斯原理可厲害了,是人工智能算法中的一項重要技術(shù),其實它在生活中的方方面面都有應(yīng)用,理解貝葉斯原理對于大腦進行邏輯判斷非常有幫助。

上個實例吧。

檢查結(jié)果為陽性!

你懷疑自己得了一種嚴(yán)重的疾病,雖然這種疾病在人群中比較少見(概率為1%),但是你還是到醫(yī)院來檢查一下,檢查結(jié)果竟然是陽性(陽性意思就是判定有?。?,大夫說他們醫(yī)院進口的檢驗機器正確率高達98%!

(要假設(shè)機器的檢驗正確或錯誤,與檢驗樣品無關(guān),是機器本身的功能性)

你更絕望了!

看起來好像必然會生病了,98%的正診率怕是跑不掉了。

是直接做手術(shù)?還是再做一次昂貴的檢查?

其實,學(xué)過上面的知識,你會更理智地更準(zhǔn)確地判斷問題。

首先,明確“陽性”與“有病”是兩個概念,“陽性”是醫(yī)院的診斷,而醫(yī)院是完全有可能誤診的,所以說有4種情況:

  • 陽性 且 有病
  • 陽性 且 沒病
  • 陰性 且 有病
  • 陰性 且 沒病

目前的情況是,事件“陽性”已經(jīng)發(fā)生了,所以我們想求的是:

P(有病|陽性)

有事件發(fā)生了,所以根據(jù)貝葉斯公式得到:

P(有病|陽性) = P(有病 且 陽性) / P(陽性)

根據(jù)貝葉斯定理——

P(有病 且 陽性) = P(有病 且 正診) = P(有病) x P(正診) = 0.01 x 0.98 = 0.0098

根據(jù)全概率分解——

陽性包括 有病查出陽性 和 沒病查出陽性(誤診了)

P(陽性) = P(正診 且 有病) +P(誤診 且 沒病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296

最后計算結(jié)果為

P(有病|陽性) = 33%

也就是說,雖然檢查出了陽性,但你患病的概率其實中只有1/3,當(dāng)然要再檢查一次,不要著急做手術(shù)!

那么,這是什么道理呢?

原因就在于,這種病比較罕見,只有1%,這就造成了雖然誤診率小,但是不患病卻誤診成陽性的人數(shù)比例就顯得多,事實上是患病而正診成陽性的2倍之多。

當(dāng)然,這個例子在實際情況中不太成立,主要因為診斷的正誤不是隨機的,診斷主要還是根據(jù)醫(yī)生的經(jīng)驗,而且檢查往往也不是一項指標(biāo)而是許多項指標(biāo)。

理解貝葉斯定理——相關(guān)度因子

貝葉斯定理是基于兩個事件的關(guān)聯(lián)性,是在B事件發(fā)生后,對A事件發(fā)生概率的重新評估與預(yù)測。

P(A) —— '預(yù)估概率',指在B發(fā)生前,對A事件發(fā)生概率的初步判斷,所以也叫“先驗概率”。

P(A|B) —— '修正概率',指B事件發(fā)生后,對A事件概率的重新評估與預(yù)測,所以也叫“后驗概率”。

P(B|A)/P(B)這一部分看起來都是“不對稱的”,所以想要徹底理解,有一個最關(guān)鍵的變形步驟,好像沒見有資料這么提,卻是理解貝葉斯的關(guān)鍵所在——

上文提到:

那么,就把 P(B|A) = P(A且B)/P(A)代入葉貝斯公式,得到:

更易理解的葉貝斯公式

下面精彩了,咱們把

這一部分,稱為:

關(guān)聯(lián)度因子(Likelihood ratio)

所以貝葉斯原理是在教你:如何根據(jù)出現(xiàn)的新信息修正概率預(yù)測呢!

修正概率 = 預(yù)估概率 x 關(guān)聯(lián)度因子

詳解關(guān)聯(lián)度因子

這個關(guān)聯(lián)度因子終于變得對稱了,它的深層含義就昭然若揭了

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多