小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

 昵稱32901809 2019-01-19

在上一節(jié)的課程我們介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),同時(shí)這樣的循環(huán)結(jié)構(gòu)也會(huì)給優(yōu)化帶來(lái)一定的困難,本文主要介紹兩種較為簡(jiǎn)單的方式來(lái)緩解RNN的優(yōu)化問(wèn)題:

· 正交初始化

· 激活函數(shù)的選擇


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


BPTT的兩個(gè)關(guān)鍵點(diǎn)



「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


我們可以上圖寫(xiě)出前向傳播的公式,使用f作為隱藏單元的激活函數(shù),g作為輸出單元的激活函數(shù),為了簡(jiǎn)化問(wèn)題,不使用偏置,也不在單元中使用閾值,一個(gè)圓圈只代表一個(gè)神經(jīng)元,以

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

為例:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


其中

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

。在反向傳播時(shí),我們就不能采取原來(lái)逐層反向傳播的方法去更新參數(shù),因?yàn)閿?shù)據(jù)在使用時(shí)有著不同的進(jìn)入順序,同時(shí)每個(gè)時(shí)間步共享參數(shù),我們對(duì)單獨(dú)時(shí)間步的更新需要考慮整個(gè)序列上的信息。我們稱這樣的方式為沿時(shí)間的反向傳播(BP through time),但真正本質(zhì)的機(jī)制只有兩個(gè),參數(shù)共享和循環(huán)結(jié)構(gòu)。

要理解這一點(diǎn)并不難,我們只需要考慮矩陣乘法,參數(shù)未被共享的情況下,從形式上來(lái)看,矩陣參數(shù)更新之間互不干擾,我們可以很方便對(duì)每個(gè)參數(shù)進(jìn)行更新,但如果參數(shù)共享,那么矩陣的元素需要綁定在一起更新,梯度的更新變?yōu)榱藚?shù)共享的區(qū)域梯度之和。因?yàn)閰?shù)共享的區(qū)域是沿著時(shí)間共享,所以求和也需要按照時(shí)間。(在同樣具備參數(shù)共享的CNN的反向傳播中,求和是按照空間)

我們對(duì)參數(shù)V的更新,就要考慮不同時(shí)間步上的參數(shù)共享,我們可以把前向傳播寫(xiě)成矩陣的形式:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


就有:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



在此基礎(chǔ)上,我們對(duì)于參數(shù)U進(jìn)行同樣的前向傳播操作:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



我們會(huì)發(fā)現(xiàn),當(dāng)前時(shí)間步的變量

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

會(huì)包含前一步的變量

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

,此時(shí)我們選擇對(duì)U或者W求梯度,就不能忽略掉前一步的變量,因?yàn)榍耙徊降淖兞恐幸舶藚?shù)U和W,那么我們?cè)趯?duì)U進(jìn)行更新時(shí),就需要將前面的時(shí)間步遞歸展開(kāi):


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


因?yàn)?/p>

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



同理,我們對(duì)W做參數(shù)更新,也是同樣的結(jié)構(gòu):


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



我們可以清晰的看到,權(quán)重共享機(jī)制使得我們需要對(duì)每個(gè)時(shí)間步梯度求和,循環(huán)結(jié)構(gòu)使得我們需要遞歸地處理梯度,根據(jù)我們的展開(kāi)式,每一個(gè)

「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”

都會(huì)產(chǎn)生一個(gè)或多個(gè)W,比如:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



當(dāng)我們鏈的越來(lái)越長(zhǎng)的時(shí)候,整條鏈出現(xiàn)了W的連乘,這正是循環(huán)結(jié)構(gòu)帶來(lái)的。

在普通的神經(jīng)網(wǎng)絡(luò)中,梯度消失往往來(lái)源于激活函數(shù)和層與層協(xié)調(diào)更新,但在RNN中,梯度消失和爆炸的來(lái)源之一就是共享參數(shù)W的連乘。在RNN中,循環(huán)層如果沒(méi)有梯度的流動(dòng),那么就表示序列的信息并沒(méi)有傳達(dá)到下去,我們所謂的記憶單元就會(huì)喪失記憶能力,RNN相比傳統(tǒng)n-gram模型的優(yōu)勢(shì)也就不復(fù)存在。

從理論上來(lái)說(shuō),我們希望盡可能保持W值保持在一定范圍內(nèi),使得網(wǎng)絡(luò)可以被有效的訓(xùn)練。


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


正交初始化


正交初始化的思路很簡(jiǎn)單,就是利用了正交矩陣的性質(zhì),它的轉(zhuǎn)置矩陣就是它的逆矩陣,有:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



使得矩陣的連乘不會(huì)放大或者縮小W本身的值。

我們也可以從另外一個(gè)角度來(lái)理解,如果我們對(duì)矩陣做特征值分解,分解為對(duì)角矩陣和正交矩陣的乘積:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


矩陣的連乘就會(huì)變成:


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”



矩陣的連乘就會(huì)變?yōu)槠涮卣髦档倪B乘,所以:

· 如果特征值的絕對(duì)值都小于1,那么參數(shù)梯度會(huì)越變?cè)叫 ?/p>

· 如果特征值近似都等于1,那么參數(shù)梯度就可以保持正常范圍。

· 如果特征值的絕對(duì)值都大于1,那么參數(shù)梯度會(huì)越來(lái)越大。

正交矩陣的特征值要么是1、要么是-1,雖然我們無(wú)法保證參數(shù)矩陣W永遠(yuǎn)都是這樣的形式,但至少可以在初始化上做到這一點(diǎn)。


「周末AI課堂」RNN的優(yōu)化難題|機(jī)器學(xué)習(xí)你會(huì)遇到的“坑”


激活函數(shù)


我們很早就曾講過(guò)激活函數(shù)的重要性,sigmoid函數(shù)具有非中心化和廣泛的飽和性,ReLU以及它的各種變體可以很好的解決這個(gè)問(wèn)題,但是在循環(huán)神經(jīng)網(wǎng)絡(luò)中,我們需要考慮參數(shù)的特征值,ReLU在其右端是一個(gè)線性函數(shù),雖然它的梯度恒定為1,但函數(shù)值卻可以無(wú)限的增長(zhǎng)。

傳統(tǒng)的ReLU在RNN中則可能會(huì)帶來(lái)梯度爆炸的問(wèn)題,但解決梯度爆炸我們一般會(huì)采用截?cái)啵╟lipping)的方式,也就是如果梯度大于某值,就令其等于某值。另外,我們還可以在采用tanh激活函數(shù),因?yàn)樗姆秶赱-1,1],更好的適應(yīng)參數(shù)連乘帶來(lái)的梯度爆炸,卻也在一定程度上無(wú)法避免梯度消失。

我們需要在這兩者之間做trade-off,因?yàn)槲覀兗炔幌胱尲せ詈瘮?shù)對(duì)權(quán)重求導(dǎo)的部分變得太大或者太小,也不希望函數(shù)本身的值變得太大或者太小。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多