| 一、概率論基礎(chǔ)
 
              不確定性產(chǎn)生的三種來(lái)源:             (1)建模系統(tǒng)存在隨機(jī)性             (2)不完全觀測(cè): 確定的系統(tǒng),但是觀測(cè)值不完全,因?yàn)橛行┲禃r(shí)不可能完全觀測(cè)到的。             (3)不完全建模:可以理解建模時(shí)候,舍棄的部分值導(dǎo)致了模型預(yù)測(cè)時(shí)出現(xiàn)的不確定性 
             隨機(jī)變量可以使離散的和連續(xù)的。例如:                  離散隨機(jī)變量:觀測(cè)天氣狀態(tài)x, x可以是(多云、晴天,雷暴天氣)定量數(shù)據(jù)                  連續(xù)隨機(jī)變量:統(tǒng)計(jì)抽煙人群年齡x, x可以是 [15, 65] 區(qū)間的任一值 
         (1)離散型隨機(jī)變量 + 概率質(zhì)量函數(shù)             離散型隨機(jī)變量的概率分布使用概率質(zhì)量函數(shù)(PMF)來(lái)表示,用字母P來(lái)表示,則有P(x)     函數(shù)P是x的概率質(zhì)量函數(shù)必須滿足以下條件:               A、P定義域是x的所有可能狀態(tài):  如x的可能狀態(tài)為(x1,x2,x3),恰好 (x1,x2,x3)是P的整個(gè)定義域               B、任意x,有   0 ≤ P(x)≤ 1   :  P(x) = 0, 表示不會(huì)發(fā)生;P(x) = 1表示一定發(fā)生。P的值域必須處于[0,1] 之間               C、x的所有狀態(tài)的概率和為1 (歸一化).  P(X=x1) +P(X=x1) + ... + P(X=xn)  = 1         (2)連續(xù)型隨機(jī)變量 + 概率密度函數(shù)            連續(xù)型隨機(jī)變量用概率密度函數(shù)(PDF)表示, 用p(小寫)表示    函數(shù)p是x的 概率密度函數(shù)必須滿足以下條件:               A、P定義域是x的所有可能狀態(tài)               B、任意x, p(x) ≥0。 (不要求 p(x)  ≤ 1)               C、                       假設(shè)x落在區(qū)間[a,b]上, 可以通過對(duì)概率密度函數(shù)求導(dǎo)得到概率真實(shí)值:        (3)聯(lián)合概率分布:概率質(zhì)量函數(shù)可以同時(shí)作用于多個(gè)隨機(jī)變量的, 如P(X=x, Y=y)表示x和y同時(shí)發(fā)生的概率 
             邊緣概率是針對(duì)于聯(lián)合概率分布,用于了解一個(gè)子集的概率分布,其計(jì)算方式就是針對(duì)某個(gè)隨機(jī)變量求導(dǎo),如下:                 計(jì)算聯(lián)合概率分布P(X=x, Y=y) : 
               對(duì)任意x, 都有:                 相當(dāng)于對(duì)于 
 
             條件概率在統(tǒng)計(jì)學(xué)里這樣描述的,在事件B發(fā)生的條件下,事件A發(fā)生的概率,表示為 P( B | A)。                統(tǒng)計(jì)學(xué)中的表示方法:                     P(A | B) = P(A B) / P(B) = P(A U B)/ P(B),  表示 A在B條件下發(fā)生的概率=  AB共同發(fā)生的概率 / B 發(fā)生的概率。 P(AB)表示A和B同時(shí)發(fā)生的概率。                 ML中的表示: 
           獨(dú)立性:如果事件A和事件B同時(shí)發(fā)生的概率 = 事件A發(fā)生的概率 × 事件B發(fā)生的概率,那么成事件A和事件B是相互獨(dú)立的                 P(AB) = P(A)P(B)                 對(duì)于任意x和y,有如下式子:             條件獨(dú)立性 :  給定事件C發(fā)生概率的條件下, 事件A和事件B同時(shí)發(fā)生的概率 = 事件C條件下,A發(fā)生的概率 × 事件C條件下,B發(fā)生的概率,那么說明事件A和事件B在給定事件C下條件獨(dú)立。                 P(A,B |C) = P(A|C) P(B|C) 
                 P(a, b, c) = P(a | b, c) * P(b, c)                       = P(a | b, c) * P(b | c) * P(c) 
           已知 A在B條件下發(fā)生的概率 P(A | B), B發(fā)生的概率P(B), 求 P(B | A)發(fā)生的概率。           貝葉斯定理如下:                   P(B | A) =  P(A | B)·P(B) / P(A)  
 
             離散型隨機(jī)變量:             連續(xù)型隨機(jī)變量: 
  
             令E(X)=μ1, E(Y)=μ2,那么x,y的協(xié)方差為:                     cov(X,Y)= E((X-μ1) (Y-μ2))                     cov(X,Y)= E(X·Y)- μ1μ2            若| cov(X,Y)| 很大,表示變量變化大,且各自距離均值很遠(yuǎn)。             cov(X,Y) > 0 ,  兩個(gè)變量?jī)A向于 取較大值             cov(X,Y) < 0,   一個(gè)變量較大值,一個(gè)較小值,反之亦然。 
             (1)伯努利分布:二值隨機(jī)變量分布,0-1分布。                         P(x=0)= a,  p(x=1) = 1-a             (2)多項(xiàng)式分布:             (3)高斯分布                     正太分布又稱為 高斯分布                     標(biāo)準(zhǔn)正態(tài)分布:  μ=0, = 1的正態(tài)分布。                     概率密度函數(shù), 其為一個(gè)鐘型曲線:  
                                 A、建模時(shí),很多真實(shí)情況比較接近正態(tài)分布。中心極限定理也說明很多隨機(jī)變量的和/均值等都服從正態(tài)分布                                 B、相同方差的所有可能概率分布中, 正態(tài)分布有最大的不確定性。 所以正態(tài)分布是先驗(yàn)知識(shí)最少的分布。噪聲較多的正態(tài)分布,其不確定性較高,如果模型能表現(xiàn)較好,那么說明模型魯棒性較高。                     正態(tài)分布推廣到多維空間,就有多維正態(tài)分布             (4)指數(shù)分布和laplace分布(拉普拉斯分布): 二、信息論基礎(chǔ) 
                 一個(gè)不太可能發(fā)生的是發(fā)生了,要比非常可能發(fā)生的事,提供更多的信息 
             (1)、 非??赡馨l(fā)生的事信息量少,極端情況下,確保能夠發(fā)生的事件應(yīng)該無(wú)信息量             (2)、 較不可能發(fā)生的事,具有較高的信息量             (3)、 獨(dú)立事件應(yīng)具有增量的信息 
 
             定義(以e為底的自然對(duì)數(shù)) :              單位:奈特(1奈特= 1/e的概率觀測(cè)到一個(gè)事件所獲取的信息量) 
             公式:                  一個(gè)分部的香農(nóng)熵是遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量                 若X為連續(xù)的, 香農(nóng)熵被稱為   微分熵 
          當(dāng)且僅當(dāng)兩個(gè)分布相同時(shí),散度為0。連續(xù)型隨機(jī)變量,“幾乎處處”是相同的分布。 
  | 
|  |