小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機器學習總結(基礎):信息論、概率

 taotao_2016 2019-09-17

機器學習總結(基礎):信息論、概率

本系列我們將總結機器學習基礎并研究主要的機器學習(ML)算法。我們假設您對機器學習(ML)有了基本的接觸,我們可能會跳過或僅僅簡要介紹某些概念。

信息論

香農(nóng)信息量(information content)是事件x發(fā)生時的信息增益量。在數(shù)學上,它被定義為

機器學習總結(基礎):信息論、概率

如果一枚硬幣是有偏差的,并且總是正面朝上,那么事件是可以預測的,信息量為零。如果硬幣是均勻的,那么概率分布是均勻的,到底發(fā)生了什么是最不可預測的,信息量最高。

在計算機科學中,我們把信息量看作是利用事件頻率以最有效的編碼方案編碼信息的比特數(shù)。對于均勻硬幣,正面編碼方案為0b0,反面編碼方案為0b1。為了便于討論,log以2為底。拋一枚均勻硬幣的正面或反面的信息內(nèi)容為-log?(?)= 1。當我們拋硬幣一次時,我們得到了1位的信息。

如果X的值是隨機過程的結果,例如擲骰子時的數(shù)字,則X稱為隨機變量。我們可以模擬從分布pX)生成的X的值。根據(jù)中心極限定理,我們可以用高斯模型對X進行建模。

機器學習總結(基礎):信息論、概率

熵H測量隨機變量的預期信息——事件的期望信息量是多少。因此,我們以等于事件頻率(概率)的權重來總結所有信息量。

機器學習總結(基礎):信息論、概率

例如,在拋均勻硬幣時,P(X =head)= 1/2,P(X =tail)= 1/2。它的熵等于

機器學習總結(基礎):信息論、概率

因此,我們只需要一位來編碼每個事件。

交叉熵

交叉熵H(P, Q)通過一種針對分布Q的編碼方案,測量用分布P編碼X的期望比特數(shù)。

機器學習總結(基礎):信息論、概率

在機器學習(ML)中,我們希望我們的預測Q與ground truth值P匹配。我們將使用交叉熵作為我們的訓練目標,以最小化ground truth值標簽與我們的預測之間的差異。

機器學習總結(基礎):信息論、概率

該訓練數(shù)據(jù)點的交叉熵計算結果為

機器學習總結(基礎):信息論、概率

許多分類問題的成本函數(shù)很簡單

機器學習總結(基礎):信息論、概率

KL-散度

kl散度測量兩個分布P和Q的差異。

機器學習總結(基礎):信息論、概率

KL-發(fā)散總是大于或等于零。

交叉熵、熵與KL散度的關系為:

機器學習總結(基礎):信息論、概率

由于熵不隨模型參數(shù)而變化,因此優(yōu)化KL散度與優(yōu)化交叉熵相同。因此,在訓練模型時,既可以優(yōu)化交叉熵,也可以優(yōu)化kl -散度。

機器學習總結(基礎):信息論、概率

kl散度有幾個點需要注意

  • KL(p,q)≥0
  • KL(p,p)= 0
  • KL(p,q)≠KL(q,p)(非對稱)

KL(q, p)叫做逆KL散度。kl散度的非對稱性具有非常重要的意義。例如,假設ground truth P是一個雙峰分布(下面的藍色曲線),我們想用single mode高斯分布(紅色曲線)對其建模。如果使用KL散度 KL(p, q)作為訓練目標函數(shù),我們將得到(a)中的高斯分布,該高斯分布覆蓋了ground truth p的兩種模態(tài),并且在兩種模態(tài)之間的波谷處有一個峰值。如果使用逆KL-散度KL(q, p),我們將得到(b)或(c)中的一個局部最優(yōu)。

機器學習總結(基礎):信息論、概率

對于KL(p,q),如果p(x)不為零,我們希望q(x)不為零。否則,如果q(x)很小,則KL值將很高。對于KL(q,p),如果P(x)為零,我們也希望Q(x)也為零。

機器學習總結(基礎):信息論、概率

可能更容易看到2D空間的差異。逆KL僅覆蓋雙峰ground truth實例中的一種模態(tài),但Q的峰值將接近該模態(tài)之一的峰值。

機器學習總結(基礎):信息論、概率

問題的根源是,我們使用的是一個簡單的模型,用于更復雜的ground truth。在一些問題領域,我們可能沒有這個問題,因為兩個模型都很接近。

條件熵

條件熵H(Y|X)是所有可能的X條件下Y的加權熵。計算公式為:

機器學習總結(基礎):信息論、概率

信息增益

互信息(或信息增益)I(X ; Y)是當觀察到Y時在隨機變量X上獲得的信息。下面的數(shù)學定義并不直觀。

機器學習總結(基礎):信息論、概率

用熵可以更好地理解它

機器學習總結(基礎):信息論、概率

直覺上,互信息通過了解X來衡量我們獲得了多少信息?如果知道Y給出了關于X的所有信息,則條件熵H(X | Y)為零,因為不再需要關于X的信息?;バ畔變?yōu)镠(X)(或H(Y))。另一方面,如果知道Y不給我們關于X的信息,則條件熵是H(X)并且互信息是零。

例如,如果我們知道對象的標簽(Y),我們就會獲得有關其原始圖像(X)的大量信息。我們不應該把它的圖片誤認為是其他對象。因此,信息增益I(X; Y)很高。讓我們用集合來形象化?;バ畔⑹撬闹丿B。

機器學習總結(基礎):信息論、概率

如果隨機變量X和Y不相關,則它們的交集為空,因此,互信息為零。如果隨機變量X和Y相同,則H(X)= H(Y)= I(X; Y),知道Y與知道X的集合相同。

讓我們簡要介紹一下互信息的一些應用。在決策樹中,我們選擇一個條件來最大化I——這個條件通過根據(jù)分支條件分離數(shù)據(jù)來獲得最大的信息。在另一個例子中,InfoGAN最大化了生成的圖像G與其預期標簽c之間的互信息。這鼓勵GAN模型生成與其預期標簽相關的圖像。

機器學習總結(基礎):信息論、概率

概率

概率質量函數(shù)是離散變量的概率分布。例如,

機器學習總結(基礎):信息論、概率

概率密度函數(shù)(PDF)是具有小寫符號p(x)的連續(xù)變量的概率分布。我們可以通過在這個范圍內(nèi)對它進行積分來計算兩個值之間的概率。

機器學習總結(基礎):信息論、概率

累積分布函數(shù)(CDF):CDF計算累積概率pX≤x)。

機器學習總結(基礎):信息論、概率

條件概率

機器學習總結(基礎):信息論、概率

獨立性:如果兩個隨機變量A和B是獨立的

機器學習總結(基礎):信息論、概率

邊際概率:邊際概率PX)通過將聯(lián)合概率與其他變量相加(或積分)來計算。

機器學習總結(基礎):信息論、概率

在許多機器學習(ML)問題中,我們?yōu)樗凶兞拷⒙?lián)合分布模型。一旦建模,我們可以通過對其余變量求和或積分來推斷單個或一個變量子集(px 1)或px 1,x 2,x 3))的概率。

機器學習總結(基礎):信息論、概率

鏈式法則

機器學習總結(基礎):信息論、概率

貝葉斯定理

機器學習總結(基礎):信息論、概率

該等式看起來很簡單,但它是機器學習(ML)中最重要的等式之一。

貝葉斯定理可以用不同的形式表示。

機器學習總結(基礎):信息論、概率

假設有一種遺傳性疾病,只有0.1%的人患病。我們開發(fā)了一個測試,其正面和負面結果的準確率為99%。所以,如果你測試為陽性,你是否應該擔心呢?直覺會說是,但實際上,貝葉斯定理證明你只有9%的幾率得到這種疾?。ㄗC明)。

概率模型和非概率模型

通常,模型可以分類為概率模型和非概率模型。概率模型使用概率分布來模擬問題并進行預測。這些模型通常建立在MLE(最大似然估計)或MAP(最大后驗估計)上。例如,在訓練線性回歸模型時,我們優(yōu)化其參數(shù)w以最大化觀察數(shù)據(jù)的可能性。非概率模型不使用分布來對它們進行建模。他們的一些例子包括聚類,SVM,決策樹等......

貝葉斯推斷與點估計

在貝葉斯定理中,我們感興趣的是估計p(y|x)的分布。在給定觀察到的變量x的情況下,貝葉斯推斷可被視為推斷未觀察到的變量,如潛在因子,標簽或模型參數(shù)θ。這不是點估計。我們估計一個概率曲線,給出了相應可能性的所有可能性。例如,我們不知道雜工的平均收費率(一個點估算),而是回答有關可能的費率問題。

在線性回歸推理中,我們基于輸入特征預測確定值(點估計)。例如,房屋的價格可以從平方英尺和房間數(shù)量計算(價格= a×平方英尺+ b×房間數(shù)+ c)。

機器學習總結(基礎):信息論、概率

在貝葉斯定理中,先驗和可能性都是概率密度函數(shù)(PDF)。計算出的后驗是PDF。利用貝葉斯定理,我們預測了一個值的分布以及這些值的確定性。與點估計相比,概率模型能更好地解釋現(xiàn)實世界中的不確定性。

貝葉斯定理的優(yōu)缺點

在一些機器學習(ML)問題中,建模P(y | x 1,x 2,x 3, ... )可能很難。如后面Naive Bayes定理所示,對于某些問題域,這個概率可以進一步分解為獨立分量(P(x 1 | y)P(x 2 | y))...)。這使得建模和解決變得極其容易。此外,在早期實驗階段,由于我們還沒有收集到足夠的樣本,證據(jù)很薄弱。但如果我們有一個堅實的先驗信念,我們可以使用貝葉斯定理將新證據(jù)與信念結合起來。現(xiàn)在不要擔心細節(jié)。

我們現(xiàn)在正在研究曲線而不是單點估計。一般來說,計算后驗并不容易,即使方程看起來很簡單。

機器學習總結(基礎):信息論、概率

疾病例子中的計算非常簡單,因為狀態(tài)數(shù)很小。然而,在高維空間或連續(xù)空間中,將先驗和似然曲線相乘通常是難以處理的。

機器學習總結(基礎):信息論、概率

計算積分可能更難。我們需要推斷一個聯(lián)合概率并將其整合到y上。在許多問題中,x和/或y由許多變量組成(x =(x 1,x 2,x 3,...))。指數(shù)復雜度的詛咒很快就形成了。

在我們的機器學習系列中討論的大部分機器學習(ML)算法都致力于簡化或近似后驗。例如,我們可以用高斯分布對先驗和似然進行建模。后驗分布為高斯分布,易于分析計算。

在ML中,模型訓練也可以表示為貝葉斯推理中的后驗

機器學習總結(基礎):信息論、概率

其中w是模型參數(shù)。分母中的邊際概率總和超過w,不再是w的函數(shù)。因此,它不會改變。為了找到最優(yōu)模型,我們可以忽略邊際概率。通常,我們會在不評估邊際概率的情況下找到最優(yōu)解。

機器學習總結(基礎):信息論、概率

樸素貝葉斯定理

樸素貝葉斯定理通過探索變量的獨立性來解決分類問題。如前所述,當Px | y)更容易建模時,貝葉斯定理幫助我們求解Py | x),即我們通過P (x?, x?, x?,…| y)計算Py | x 1,x 2,x 3,...,。但是,聯(lián)合條件概率Px 1,x 2,x 3,... | y)通常仍然過于復雜。x 1,x 2,...,xn的指數(shù)組合使得收集數(shù)據(jù)以進行估計變得非常困難。

但是我們可以假設x 1,x 2,x 3,...xn彼此獨立,將Px 1,x 2,... | y)簡化為Px 1 | yPx 2 | y)... Pxn | y)..,因此,Py | x)可以計算為

機器學習總結(基礎):信息論、概率

在ML中,利用獨立性P(A, B) = P(A) P(B)或條件獨立性P(A, B|C) = P(A|C) P(B|C)是避免指數(shù)復雜度和使問題易于處理的重要步驟。即使樸素貝葉斯算法中的變量相互獨立通常是錯誤的,但從經(jīng)驗上看,這仍然是解決問題的有效簡化。

讓我們使用樸素貝葉斯定理來檢測垃圾郵件。我們知道垃圾郵件可能經(jīng)常使用哪些字詞(例如“money”)。我們將Px 1,x 2,... | y)簡化為獨立分量Px 1 | yPx 2 | y)的乘法...我們使用貝葉斯定理來枚舉是否是垃圾郵件,并選擇下面計算值最高的分類。

機器學習總結(基礎):信息論、概率

在這個例子中,我們忽略了電子郵件中單詞的頻率。但是單詞的頻率是垃圾郵件的一個很好的指標。例如,“money”一詞在垃圾郵件中出現(xiàn)的頻率可能會更高。為了模擬它,我們可以使用泊松分布Px?|垃圾郵件),其中x?代表一個特定的詞。給定一個特定的詞,對于垃圾郵件或非垃圾郵件,我們使用具有不同λ的泊松分布來相應地模擬這種字數(shù)的概率。

機器學習總結(基礎):信息論、概率

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多