小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器學(xué)習(xí)中的數(shù)學(xué)(2)

 阿甘Y 2012-04-28

版權(quán)聲明:

    本文由LeftNotEasy所有,發(fā)布于http://leftnoteasy.cnblogs.com/。如果轉(zhuǎn)載,請(qǐng)注明出處,在未經(jīng)作者同意下將本文用于商業(yè)用途,將追究其法律責(zé)任。如果有問(wèn)題,請(qǐng)聯(lián)系作者 wheeleast@gmail.com

前言:

    距離上次發(fā)文章,也快有半個(gè)月的時(shí)間了,這半個(gè)月的時(shí)間里又在學(xué)習(xí)機(jī)器學(xué)習(xí)的道路上摸索著前進(jìn),積累了一點(diǎn)心得,以后會(huì)慢慢的寫(xiě)寫(xiě)這些心得。寫(xiě)文章是促進(jìn)自己對(duì)知識(shí)認(rèn)識(shí)的一個(gè)好方法,看書(shū)的時(shí)候往往不是非常細(xì),所以有些公式、知識(shí)點(diǎn)什么的就一帶而過(guò),里面的一些具體意義就不容易理解了。而寫(xiě)文章,特別是寫(xiě)科普性的文章,需要對(duì)里面的具體意義弄明白,甚至還要能舉出更生動(dòng)的例子,這是一個(gè)挑戰(zhàn)。為了寫(xiě)文章,往往需要把之前自己認(rèn)為看明白的內(nèi)容重新理解一下。

    機(jī)器學(xué)習(xí)可不是一個(gè)完全的技術(shù)性的東西,之前和部門(mén)老大在outing的時(shí)候一直在聊這個(gè)問(wèn)題,機(jī)器學(xué)習(xí)絕對(duì)不是一個(gè)一個(gè)孤立的算法堆砌起來(lái)的,想要像看《算法導(dǎo)論》這樣看機(jī)器學(xué)習(xí)是個(gè)不可取的方法,機(jī)器學(xué)習(xí)里面有幾個(gè)東西一直貫穿全書(shū),比如說(shuō)數(shù)據(jù)的分布、最大似然(以及求極值的幾個(gè)方法,不過(guò)這個(gè)比較數(shù)學(xué)了),偏差、方差的權(quán)衡,還有特征選擇,模型選擇,混合模型等等知識(shí),這些知識(shí)像磚頭、水泥一樣構(gòu)成了機(jī)器學(xué)習(xí)里面的一個(gè)個(gè)的算法。想要真正學(xué)好這些算法,一定要靜下心來(lái)將這些基礎(chǔ)知識(shí)弄清楚,才能夠真正理解、實(shí)現(xiàn)好各種機(jī)器學(xué)習(xí)算法。

    今天的主題是線性回歸,也會(huì)提一下偏差、方差的均衡這個(gè)主題。

線性回歸定義:

    在上一個(gè)主題中,也是一個(gè)與回歸相關(guān)的,不過(guò)上一節(jié)更側(cè)重于梯度這個(gè)概念,這一節(jié)更側(cè)重于回歸本身與偏差和方差的概念。

    回歸最簡(jiǎn)單的定義是,給出一個(gè)點(diǎn)集D,用一個(gè)函數(shù)去擬合這個(gè)點(diǎn)集,并且使得點(diǎn)集與擬合函數(shù)間的誤差最小。

    image    上圖所示,給出一個(gè)點(diǎn)集(x,y), 需要用一個(gè)函數(shù)去擬合這個(gè)點(diǎn)集,藍(lán)色的點(diǎn)是點(diǎn)集中的點(diǎn),而紅色的曲線是函數(shù)的曲線,第一張圖是一個(gè)最簡(jiǎn)單的模型,對(duì)應(yīng)的函數(shù)為y = f(x) = ax + b,這個(gè)就是一個(gè)線性函數(shù),

    第二張圖是二次曲線,對(duì)應(yīng)的函數(shù)是y = f(x) = ax^2 + b。

    第三張圖我也不知道是什么函數(shù),瞎畫(huà)的。

    第四張圖可以認(rèn)為是一個(gè)N次曲線,N = M - 1,M是點(diǎn)集中點(diǎn)的個(gè)數(shù),有一個(gè)定理是,對(duì)于給定的M個(gè)點(diǎn),我們可以用一個(gè)M - 1次的函數(shù)去完美的經(jīng)過(guò)這個(gè)點(diǎn)集。

    真正的線性回歸,不僅會(huì)考慮使得曲線與給定點(diǎn)集的擬合程度最好,還會(huì)考慮模型最簡(jiǎn)單,這個(gè)話題我們將在本章后面的偏差、方差的權(quán)衡中深入的說(shuō),另外這個(gè)話題還可以參考我之前的一篇文章:貝葉斯、概率分布與機(jī)器學(xué)習(xí),里面對(duì)模型復(fù)雜度的問(wèn)題也進(jìn)行了一些討論。

    線性回歸(linear regression),并非是指的線性函數(shù),也就是

image (為了方便起見(jiàn),以后向量我就不在上面加箭頭了)

    x0,x1…表示一個(gè)點(diǎn)不同的維度,比如說(shuō)上一節(jié)中提到的,房子的價(jià)錢(qián)是由包括面積、房間的個(gè)數(shù)、房屋的朝向等等因素去決定的。而是用廣義的線性函數(shù):

 image    wj是系數(shù),w就是這個(gè)系數(shù)組成的向量,它影響著不同維度的Φj(x)在回歸函數(shù)中的影響度,比如說(shuō)對(duì)于房屋的售價(jià)來(lái)說(shuō),房間朝向的w一定比房間面積的w更小。Φ(x)是可以換成不同的函數(shù),不一定要求Φ(x)=x,這樣的模型我們認(rèn)為是廣義線性模型。

 

最小二乘法與最大似然:

    這個(gè)話題在此處有一個(gè)很詳細(xì)的討論,我這里主要談?wù)勥@個(gè)問(wèn)題的理解。最小二乘法是線性回歸中一個(gè)最簡(jiǎn)單的方法,它的推導(dǎo)有一個(gè)假設(shè),就是回歸函數(shù)的估計(jì)值與真實(shí)值間的誤差假設(shè)是一個(gè)高斯分布。這個(gè)用公式來(lái)表示是下面的樣子:image ,y(x,w)就是給定了w系數(shù)向量下的回歸函數(shù)的估計(jì)值,而t就是真實(shí)值了,ε表示誤差。我們可以接下來(lái)推出下面的式子:

image     這是一個(gè)簡(jiǎn)單的條件概率表達(dá)式,表示在給定了x,w,β的情況下,得到真實(shí)值t的概率,由于ε服從高斯分布,則從估計(jì)值到真實(shí)值間的概率也是高斯分布的,看起來(lái)像下面的樣子:

     image     貝葉斯、概率分布與機(jī)器學(xué)習(xí)這篇文章中對(duì)分布影響結(jié)果這個(gè)話題討論比較多,可以回過(guò)頭去看看,由于最小二乘法有這樣一個(gè)假設(shè),則會(huì)導(dǎo)致,如果我們給出的估計(jì)函數(shù)y(x,w)與真實(shí)值t不是高斯分布的,甚至是一個(gè)差距很大的分布,那么算出來(lái)的模型一定是不正確的,當(dāng)給定一個(gè)新的點(diǎn)x’想要求出一個(gè)估計(jì)值y’,與真實(shí)值t’可能就非常的遠(yuǎn)了。

     概率分布是一個(gè)可愛(ài)又可恨的東西,當(dāng)我們能夠準(zhǔn)確的預(yù)知某些數(shù)據(jù)的分布時(shí),那我們可以做出一個(gè)非常精確的模型去預(yù)測(cè)它,但是在大多數(shù)真實(shí)的應(yīng)用場(chǎng)景中,數(shù)據(jù)的分布是不可知的,我們也很難去用一個(gè)分布、甚至多個(gè)分布的混合去表示數(shù)據(jù)的真實(shí)分布,比如說(shuō)給定了1億篇網(wǎng)頁(yè),希望用一個(gè)現(xiàn)有的分布(比如說(shuō)混合高斯分布)去匹配里面詞頻的分布,是不可能的。在這種情況下,我們只能得到詞的出現(xiàn)概率,比如p(的)的概率是0.5,也就是一個(gè)網(wǎng)頁(yè)有1/2的概率出現(xiàn)“的”。如果一個(gè)算法,是對(duì)里面的分布進(jìn)行了某些假設(shè),那么可能這個(gè)算法在真實(shí)的應(yīng)用中就會(huì)表現(xiàn)欠佳。最小二乘法對(duì)于類(lèi)似的一個(gè)復(fù)雜問(wèn)題,就很無(wú)力了

 

偏差、方差的權(quán)衡(trade-off):

    偏差(bias)和方差(variance)是統(tǒng)計(jì)學(xué)的概念,剛進(jìn)公司的時(shí)候,看到每個(gè)人的嘴里隨時(shí)蹦出這兩個(gè)詞,覺(jué)得很可怕。首先得明確的,方差是多個(gè)模型間的比較,而非對(duì)一個(gè)模型而言的,對(duì)于單獨(dú)的一個(gè)模型,比如說(shuō):

image

    這樣的一個(gè)給定了具體系數(shù)的估計(jì)函數(shù),是不能說(shuō)f(x)的方差是多少。而偏差可以是單個(gè)數(shù)據(jù)集中的,也可以是多個(gè)數(shù)據(jù)集中的,這個(gè)得看具體的定義。

    方差和偏差一般來(lái)說(shuō),是從同一個(gè)數(shù)據(jù)集中,用科學(xué)的采樣方法得到幾個(gè)不同的子數(shù)據(jù)集,用這些子數(shù)據(jù)集得到的模型,就可以談他們的方差和偏差的情況了。方差和偏差的變化一般是和模型的復(fù)雜程度成正比的,就像本文一開(kāi)始那四張小圖片一樣,當(dāng)我們一味的追求模型精確匹配,則可能會(huì)導(dǎo)致同一組數(shù)據(jù)訓(xùn)練出不同的模型,它們之間的差異非常大。這就叫做方差,不過(guò)他們的偏差就很小了,如下圖所示:

image     上圖的藍(lán)色和綠色的點(diǎn)是表示一個(gè)數(shù)據(jù)集中采樣得到的不同的子數(shù)據(jù)集,我們有兩個(gè)N次的曲線去擬合這些點(diǎn)集,則可以得到兩條曲線(藍(lán)色和深綠色),它們的差異就很大,但是他們本是由同一個(gè)數(shù)據(jù)集生成的,這個(gè)就是模型復(fù)雜造成的方差大。模型越復(fù)雜,偏差就越小,而模型越簡(jiǎn)單,偏差就越大,方差和偏差是按下面的方式進(jìn)行變化的:

image     當(dāng)方差和偏差加起來(lái)最優(yōu)的點(diǎn),就是我們最佳的模型復(fù)雜度。

     用一個(gè)很通俗的例子來(lái)說(shuō),現(xiàn)在咱們國(guó)家一味的追求GDP,GDP就像是模型的偏差,國(guó)家希望現(xiàn)有的GDP和目標(biāo)的GDP差異盡量的小,但是其中使用了很多復(fù)雜的手段,比如說(shuō)倒賣(mài)土地、強(qiáng)拆等等,這個(gè)增加了模型的復(fù)雜度,也會(huì)使得偏差(居民的收入分配)變大,窮的人越窮(被趕出城市的人與進(jìn)入城市買(mǎi)不起房的人),富的人越富(倒賣(mài)土地的人與賣(mài)房子的人)。其實(shí)本來(lái)模型不需要這么復(fù)雜,能夠讓居民的收入分配與國(guó)家的發(fā)展取得一個(gè)平衡的模型是最好的模型。

    最后還是用數(shù)學(xué)的語(yǔ)言來(lái)描述一下偏差和方差:

image    E(L)是損失函數(shù),h(x)表示真實(shí)值的平均,第一部分是與y(模型的估計(jì)函數(shù))有關(guān)的,這個(gè)部分是由于我們選擇不同的估計(jì)函數(shù)(模型)帶來(lái)的差異,而第二部分是與y無(wú)關(guān)的,這個(gè)部分可以認(rèn)為是模型的固有噪聲。

    對(duì)于上面公式的第一部分,我們可以化成下面的形式:

image    這個(gè)部分在PRML的1.5.5推導(dǎo),前一半是表示偏差,而后一半表示方差,我們可以得出:損失函數(shù)=偏差^2+方差+固有噪音。

    下圖也來(lái)自PRML:

image

    這是一個(gè)曲線擬合的問(wèn)題,對(duì)同分布的不同的數(shù)據(jù)集進(jìn)行了多次的曲線擬合,左邊表示方差,右邊表示偏差,綠色是真實(shí)值函數(shù)。ln lambda表示模型的復(fù)雜程度,這個(gè)值越小,表示模型的復(fù)雜程度越高,在第一行,大家的復(fù)雜度都很低(每個(gè)人都很窮)的時(shí)候,方差是很小的,但是偏差同樣很小(國(guó)家也很窮),但是到了最后一幅圖,我們可以得到,每個(gè)人的復(fù)雜程度都很高的情況下,不同的函數(shù)就有著天壤之別了(貧富差異大),但是偏差就很小了(國(guó)家很富有)。

預(yù)告:

    接下來(lái)準(zhǔn)備談?wù)劸€性分類(lèi)的一些問(wèn)題,敬請(qǐng)關(guān)注:)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多