小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

用實(shí)例說明決策樹算法

 知行合一ing 2019-01-24

用實(shí)例說明決策樹算法

決策樹是最重要的機(jī)器學(xué)習(xí)算法之一。它用于機(jī)器學(xué)習(xí)分類和機(jī)器學(xué)習(xí)回歸問題。在本文中,我們將討論相對(duì)于機(jī)器學(xué)習(xí)中的分類部分。

什么是決策樹?

機(jī)器學(xué)習(xí)種的決策樹是一種具有樹狀結(jié)構(gòu)的分類和預(yù)測(cè)工具,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示對(duì)一個(gè)屬性的測(cè)試,每個(gè)分支表示測(cè)試的結(jié)果,每個(gè)葉節(jié)點(diǎn)(終端節(jié)點(diǎn))持有一個(gè)類標(biāo)簽。

用實(shí)例說明決策樹算法

上面我們有一個(gè)小決策樹。決策樹的一個(gè)重要優(yōu)點(diǎn)是它具有很強(qiáng)的可解釋性。這里如果身高> 180厘米(或身高<180厘米并且體重> 80公斤)的人是男性。其他女性。你有沒有想過我們是怎么得出這個(gè)決策樹的。我將嘗試使用天氣數(shù)據(jù)集來解釋它。

在進(jìn)一步討論之前,我將解釋一些與決策樹相關(guān)的重要術(shù)語。

在機(jī)器學(xué)習(xí)中,熵是對(duì)正在處理的信息中的隨機(jī)性的度量。熵越高,從該信息中得出任何結(jié)論就越困難。

用實(shí)例說明決策樹算法

信息增益

信息增益可以定義為從觀察另一個(gè)隨機(jī)變量獲得的隨機(jī)變量或信號(hào)的信息量??梢哉J(rèn)為是父節(jié)點(diǎn)的熵與子節(jié)點(diǎn)的加權(quán)平均熵之間的差異。

用實(shí)例說明決策樹算法

基尼雜質(zhì)

Gini雜質(zhì)是一種度量,如果根據(jù)子集中標(biāo)簽的分布對(duì)隨機(jī)選擇的元素進(jìn)行隨機(jī)標(biāo)記,那么該元素被錯(cuò)誤標(biāo)記的頻率。

用實(shí)例說明決策樹算法

基尼雜質(zhì)的下限為0,如果數(shù)據(jù)集僅包含一個(gè)類,則出現(xiàn)0。

用實(shí)例說明決策樹算法

有很多算法可以構(gòu)建決策樹。

  1. CART(分類和回歸樹) - 這使用基尼雜質(zhì)作為度量。
  2. ID3(Iterative Dichotomiser 3) - 它使用熵和信息增益作為度量。

在本文中,我將介紹ID3。

使用ID3算法進(jìn)行分類

考慮一下我們將決定是否踢足球的天氣數(shù)據(jù)集。

用實(shí)例說明決策樹算法

這里有自變量來確定因變量。自變量是Outlook,Temperature,Humidity 和Wind。自變量是play football(yes/no)。

作為第一步,我們必須為決策樹找到父節(jié)點(diǎn)。為此,請(qǐng)按照以下步驟操作:

找到類變量的熵。

  • E(S) = -[(9/14)log(9/14) + (5/14)log(5/14)] = 0.94

注意:這里的log以2為底。這里總共有14個(gè)yes/ni。其中9個(gè)yes,5個(gè)no。在此基礎(chǔ)上,我們計(jì)算了上述概率。

從上面的數(shù)據(jù)我們可以很容易地得到下表

用實(shí)例說明決策樹算法

現(xiàn)在我們必須計(jì)算平均加權(quán)熵。也就是說,我們發(fā)現(xiàn)每個(gè)特征的權(quán)重總和乘以概率。

  • E(S, outlook) = (5/14)*E(3,2) + (4/14)*E(4,0) + (5/14)*E(2,3) = (5/14)(-(3/5)log(3/5)-(2/5)log(2/5))+ (4/14)(0) + (5/14)((2/5)log(2/5)-(3/5)log(3/5)) = 0.693

下一步是尋找信息增益。它是我們?cè)谏厦姘l(fā)現(xiàn)的父熵和平均加權(quán)熵之間的差。

  • IG(S, outlook) = 0.94 - 0.693 = 0.247

同樣地找到Temperature,Humidity和Windy的信息增益。

  • IG(S, Temperature) = 0.940 - 0.911 = 0.029
  • IG(S, Humidity) = 0.940 - 0.788 = 0.152
  • IG(S, Windy) = 0.940 - 0.8932 = 0.048

現(xiàn)在選擇具有最大熵增益的特征。這是Outlook.So,它形成決策樹的第一個(gè)節(jié)點(diǎn)(根節(jié)點(diǎn))。

現(xiàn)在我們的數(shù)據(jù)如下所示

用實(shí)例說明決策樹算法

由于overcast 僅包含“yes”類的示例,我們可以將其設(shè)置為yes?,F(xiàn)在我們的決策樹看起來如下。

用實(shí)例說明決策樹算法

下一步是在我們的決策樹中找到下一個(gè)節(jié)點(diǎn)?,F(xiàn)在我們將在sunny下找到一個(gè)。我們必須確定以下哪個(gè)Temperature ,Humidity 或Wind有更高的信息增益。

用實(shí)例說明決策樹算法

計(jì)算父熵E(sunny)

  • E(sunny) = (-(3/5)log(3/5)-(2/5)log(2/5)) = 0.971.

現(xiàn)在計(jì)算溫度的信息增益。 IG(sunny, Temperature)

用實(shí)例說明決策樹算法

  • E(sunny, Temperature) = (2/5)*E(0,2) + (2/5)*E(1,1) + (1/5)*E(1,0)=2/5=0.4

現(xiàn)在計(jì)算信息增益。

  • IG(sunny, Temperature) = 0.971–0.4 =0.571

同樣我們得到

  • IG(sunny, Humidity) = 0.971
  • IG(sunny, Windy) = 0.020

這里IG(sunny, Humidity)是最大的值。所以Humidity 是sunny下的節(jié)點(diǎn)。

用實(shí)例說明決策樹算法

對(duì)于上表中的Humidity ,我們可以說,如果humidity是normal時(shí), play將發(fā)生,如果high則不會(huì)play。同樣地,找到rainy下面的節(jié)點(diǎn)。

注意:熵大于0的分支需要進(jìn)一步拆分。

最后,我們的決策樹將如下所示:

用實(shí)例說明決策樹算法

使用CART算法進(jìn)行分類

使用CART的分類與它類似。但是我們使用基尼雜質(zhì)代替熵。

因此,作為第一步,我們將找到?jīng)Q策樹的根節(jié)點(diǎn)。為此計(jì)算類變量的gini索引

  • Gini(S) = 1 - [(9/14)2 + (5/14)2] = 0.4591

下一步我們將計(jì)算基尼增益。首先,我們將找到Outlook,Temperature, Humidity 和Windy的平均加權(quán)基尼雜質(zhì)。

首先考慮Outlook的情況

用實(shí)例說明決策樹算法

  • Gini(S, outlook) = (5/14)gini(3,2) + (4/14)*gini(4,0)+ (5/14)*gini(2,3) = (5/14)(1 - (3/5)2 - (2/5)2) + (4/14)*0 + (5/14)(1 - (2/5)2 - (3/5)2)= 0.171+0+0.171 = 0.342
  • gain (S, outlook) = 0.459 - 0.342 = 0.117
  • gain(S, Temperature) = 0.459 - 0.4405 = 0.0185
  • gain(S, Humidity) = 0.459 - 0.3674 = 0.0916
  • gain(S, windy) = 0.459 - 0.4286 = 0.0304

選擇一種具有較高gini增益的。由于outlook的Gini增益更高,所以我們可以選擇它作為根節(jié)點(diǎn)。

現(xiàn)在您已經(jīng)知道如何進(jìn)一步進(jìn)行。重復(fù)我們?cè)贗D3算法中使用的相同步驟。

決策樹的優(yōu)缺點(diǎn)

好處:

  1. 決策樹是超級(jí)可解釋的
  2. 需要很少的數(shù)據(jù)預(yù)處理
  3. 適用于低延遲應(yīng)用

缺點(diǎn):

  1. 更有可能過度擬合噪聲數(shù)據(jù)。隨著樹越來越深,噪聲過度擬合的概率也會(huì)增加。解決方案就是

    pruning

    。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多