小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

LSTM的興衰

 板橋胡同37號(hào) 2020-09-30
LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))作為遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的一種更好的變體,已經(jīng)成為深度學(xué)習(xí)領(lǐng)域中的主力軍。隨著機(jī)器學(xué)習(xí)研究的加速,各種方法出現(xiàn)和消失得越來越快,似乎 LSTM 已經(jīng)開始走向消亡。讓我們回過頭,去探索語言建模的演變,從它的起步階段到解決復(fù)雜問題的現(xiàn)代進(jìn)步。

本文最初發(fā)表于 Towards Data Science 博客,經(jīng)原作者 Andre Ye 授權(quán),InfoQ 中文站翻譯并分享。

從根本上說,就像任何其他監(jiān)督式機(jī)器學(xué)習(xí)的問題一樣,語言建模的目標(biāo)是:在給定文檔 d 的情況下,預(yù)測一些輸出 y。文檔 d 必須以某種方式以數(shù)字形式表示,這可以通過機(jī)器學(xué)習(xí)算法進(jìn)行處理。

將文檔表示為數(shù)字的最初解決方案是詞袋(bag of words,BoW)模型。每個(gè)單詞在向量中占據(jù)一個(gè)維度,每個(gè)值表示該單詞在文檔中出現(xiàn)的次數(shù)。但是,這種方法并沒有考慮到單詞的順序,這很重要(請(qǐng)想想“I live to work, I work to live)。

為了解決這個(gè)問題,人們使用了 n 元語法模型(n-gram)。這些是由 n 個(gè)單詞組成的序列,其中每個(gè)元素表示一個(gè)單詞組合的存在。如果我們的數(shù)據(jù)集中有 10000 個(gè)單詞,并且我們想存儲(chǔ)為二元語法,則需要 100002 個(gè)唯一的組合。對(duì)于任何相當(dāng)不錯(cuò)的模型,我們很可能需要三元語法甚至四元語法,每個(gè)都會(huì)將詞匯量提高到另一個(gè)冪。

顯然,n 元語法和詞袋模型甚至并不能處理稍微復(fù)雜的語言任務(wù)。它們的解決方案包括向量化過程,但這些過程過于稀疏、龐大,并且無法捕捉到語言本身的精髓。那解決方案是什么呢?是遞歸神經(jīng)網(wǎng)絡(luò)。

與使用高維、稀疏的向量化解決方案(試圖一次性地將整個(gè)文檔饋送到模型中)不同,遞歸神經(jīng)網(wǎng)絡(luò)是利用文本的序列特性。遞歸神經(jīng)網(wǎng)絡(luò)可以表示為遞歸函數(shù),其中 a 是在每個(gè)時(shí)間步驟上應(yīng)用的變換函數(shù),h 是隱層狀態(tài)的集合,x 表示數(shù)據(jù)的集合。

$h_t=A(h_{t-1},x_{t-1})$

每個(gè)時(shí)間步驟都是利用前一個(gè)時(shí)間步驟的知識(shí)創(chuàng)建的,通過對(duì)前一個(gè)輸出應(yīng)用相同的函數(shù)創(chuàng)建一個(gè)新的輸出。當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)“展開”時(shí),我們可以看到在不同的時(shí)間步驟的輸入是如何被饋送到模型中的,并且還知道模型之前“看到”了什么。

因?yàn)檫f歸神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)輸入都應(yīng)用相同的函數(shù),所以它還有一個(gè)額外的好處:能夠處理可變長度的輸入。使用相同函數(shù)背后的基本原理可以被認(rèn)為是將“通用語言 / 序列規(guī)則”應(yīng)用于每個(gè)時(shí)間步驟。

然而,遞歸神經(jīng)網(wǎng)絡(luò)出色的遞歸特性也導(dǎo)致了一些問題。將遞歸神經(jīng)網(wǎng)絡(luò)的遞歸定義簡單地展開到第四個(gè)隱藏狀態(tài),我們可以看到,A 函數(shù)被應(yīng)用了很多次。

$h_3=(A(A(A(H_0,x_0),x_1),x_2)$

$A(x)$ 實(shí)際上只是乘以一個(gè)權(quán)重矩陣,然后加到一個(gè)偏差矩陣上。當(dāng)然,在進(jìn)行較大的簡化時(shí),經(jīng)過十個(gè)時(shí)間步驟之后,初始輸入 $x_0$ 基本上是乘以 $w^{10}$,其中 $w$ 是權(quán)重矩陣。因?yàn)槿魏斡?jì)算都會(huì)產(chǎn)生結(jié)果,所以將數(shù)字轉(zhuǎn)換為冪會(huì)得到極端的結(jié)果:

  • 0.31? = 0.000005

  • 0.51? = 0.0009

  • 1.51? = 57.7

  • 1.71? = 201.6

這就引起了很多問題。權(quán)重矩陣將導(dǎo)致值要么向零(遞減),要么向無窮大或負(fù)無窮大(爆炸)。因此,遞歸神經(jīng)網(wǎng)絡(luò)受到梯度遞減和梯度爆炸問題的困擾。當(dāng)權(quán)重更新時(shí),這不僅會(huì)導(dǎo)致計(jì)算問題,還意味著它們“患有癡呆癥”:它們忘記了任何超過幾個(gè)時(shí)間步驟的東西,因?yàn)橥ㄟ^遞歸乘法,它們已經(jīng)被模糊或放大到無法理解的程度。

因此,當(dāng)使用遞歸神經(jīng)網(wǎng)絡(luò)生成文本時(shí),你可能會(huì)看到無限循環(huán):

I walked on the street and walked on the street and walked on the street and walked on the street and walked on the street and…

當(dāng)網(wǎng)絡(luò)生成第二輪“walked on”時(shí),它已經(jīng)忘記了上次說過的內(nèi)容。它認(rèn)為,通過它天真的機(jī)制,有了前一次的輸入“the street and…”,下一次的輸出應(yīng)該是“walked on”。這種循環(huán)會(huì)持續(xù)下去,是因?yàn)樽⒁饬蚣芴 ?/p>

解決方法:LSTM 網(wǎng)絡(luò),于 1997 年首次提出,但基本上不被重視,直到最近,計(jì)算資源使這一發(fā)現(xiàn)變得更加實(shí)用。

它仍然是一個(gè)遞歸網(wǎng)絡(luò),但是對(duì)輸入進(jìn)行了復(fù)雜的轉(zhuǎn)換。每個(gè)細(xì)胞的輸入通過復(fù)雜的操作進(jìn)行處理,產(chǎn)生兩個(gè)輸出,可以認(rèn)為是“長期記憶”(貫穿細(xì)胞的頂線)和“短期記憶”(底部輸出)。

通過長期記憶通道的向量可以在沒有任何干擾的情況下通過整個(gè)鏈。只有門(粉紅點(diǎn))可以阻止或添加信息,所以如果網(wǎng)絡(luò)選擇這樣做,它可以保留它從任意數(shù)量的細(xì)胞之前發(fā)現(xiàn)有用的數(shù)據(jù)。

這種長期信息流的加入極大地?cái)U(kuò)大了網(wǎng)絡(luò)的注意力規(guī)模。它可以訪問之前的細(xì)胞狀態(tài),但也可以訪問不久前的學(xué)習(xí)中獲得有用的信息,使得它能夠參考上下文——這是更多人類交流的關(guān)鍵屬性。

LSTM 運(yùn)作良好——有一段時(shí)間。它可以在較短的文本長度上進(jìn)行相當(dāng)好的字符生成,并且沒有被許多早期自然語言處理發(fā)展的問題所困擾,特別是更全面的深度和對(duì)單個(gè)單詞以及它們的集體含義的理解。

然而,LSTM 網(wǎng)絡(luò)也有它的缺點(diǎn)。它仍然是一個(gè)遞歸網(wǎng)絡(luò),因此如果輸入序列有 1000 個(gè)字符,LSTM 細(xì)胞被調(diào)用 1000 次,這是一個(gè)很長的梯度路徑。雖然增加一個(gè)長期記憶通道有所幫助,但它可以容納的容量畢竟是有限的。

另外,由于 LSTM 本質(zhì)上是遞歸的(要查找當(dāng)前狀態(tài),你需要找到以前的狀態(tài)),因此并不能并行地對(duì)它們進(jìn)行訓(xùn)練。

也許更為緊迫的是,遷移學(xué)習(xí)在 LSTM(或遞歸神經(jīng)網(wǎng)絡(luò))上并不是十分有效。深度卷積神經(jīng)網(wǎng)絡(luò)之所以能夠得到普及,部分原因是像 Inception 這樣的預(yù)訓(xùn)練模型可以簡單地下載和微調(diào)。從一個(gè)已經(jīng)知道任務(wù)的普遍規(guī)則的模型開始訓(xùn)練的寶貴能力使其更易于獲得和可行。

有時(shí)候,經(jīng)過預(yù)訓(xùn)練的 LSTM 可以成功遷移,但并不是常見的做法是有原因的。這是有道理的——每篇文字都有自己獨(dú)特的風(fēng)格。與圖像不同的是,圖像幾乎總是遵循某種某種帶有陰影和邊緣的嚴(yán)格的通用規(guī)則,而文本的結(jié)構(gòu)則沒那么明顯,更為流暢。

是的,有一些基本的語法規(guī)則來支撐文本的框架,但它遠(yuǎn)沒有圖像那么嚴(yán)格。除此之外,還有不同的語法規(guī)則——不同的詩歌形式、不同的方言(如莎士比亞和古英語)、不同的用法(Twitter 上的推文語言、即興演講的書面版本)。比方說,從維基百科(Wikipedia)上預(yù)訓(xùn)練的 LSTM 開始,可能比從頭開始學(xué)習(xí)數(shù)據(jù)集要容易得多。

除了經(jīng)過預(yù)訓(xùn)練的嵌入之外,當(dāng)遇到更高要求的現(xiàn)代問題時(shí),如跨多種語言的機(jī)器翻譯或與人工書寫的文本完全無法區(qū)分的文本生成,而 LSTM 是有限的。越來越多的新架構(gòu)被用來處理更具挑戰(zhàn)性的任務(wù):Transformer。

Transformer 最初是在論文《注意力就是你所需要的一切》(Attention Is All You Need)提出的,以解決語言翻譯問題,它的架構(gòu)非常復(fù)雜。不過,最重要的部分是注意力的概念。

在本文的前面,我們討論了注意力跨度,即遞歸神經(jīng)網(wǎng)絡(luò)過去有多少隱藏狀態(tài)可以回顧。Transformer 擁有無限的注意力大小,這是它們相對(duì)于 LSTM 優(yōu)勢的核心。做到這一點(diǎn)的關(guān)鍵是什么?

Transformer 不使用遞歸。

Transformer 通過全比較來實(shí)現(xiàn)無限的注意力大小。它不是按順序處理每個(gè)單詞,而是一次性處理整個(gè)序列,建立一個(gè)“注意力矩陣”,其中每個(gè)輸出是輸入的加權(quán)和。因此,例如,我們可以將發(fā)育單詞“accord”表達(dá)為 ‘The’(0)+‘a(chǎn)greement’(1)+…。網(wǎng)絡(luò)會(huì)學(xué)習(xí)注意力矩陣的權(quán)重。

紅色邊框內(nèi)的區(qū)域很有趣:盡管“European Economic Area”被翻譯成“européenne économique zone”,但在法語中,其詞序?qū)嶋H上是“zone économique européenne”。注意力矩陣能夠直接捕捉到這些關(guān)系。

注意力允許輸出值之間的直接訪問,LSTM 必須通過記憶通道間接和順序訪問這些信息。

Transformer 的計(jì)算成本很高——構(gòu)建矩陣的 O(n2) 運(yùn)行時(shí)間是無法避免的。然而,由于各種原因,它并不像一些人想象的那樣言中。首先,由于 Transformer 的非遞歸性質(zhì),可以使用并行性來訓(xùn)練模型,而這正是 LSTM 或遞歸神經(jīng)網(wǎng)絡(luò)無法做到的。

此外,GPU 和其他硬件已經(jīng)發(fā)展到這樣的程度:它們的擴(kuò)展能力令人難以置信的強(qiáng)大——10 × 10 矩陣的速度基本上與 1000 × 1000 矩陣的速度一樣快。

現(xiàn)代 Transformer 的計(jì)算時(shí)間很長,很大程度上并不是因?yàn)樽⒁饬C(jī)制。相反,在注意力機(jī)制的幫助下,遞歸語言建模的問題得到了解決。

Transformer 模型在使用遷移學(xué)習(xí)時(shí)也顯示出了很好的效果,這對(duì)它們的普及起到了巨大的作用。

那么,LSTM 的未來是什么?

在它真正“消亡”之前,還有很長的路要走,但它肯定是在走下坡路。首先,LSTM 的變體在序列建模方面已顯示出成功,例如在生成音樂或預(yù)測股票價(jià)格,在這種情況下,考慮到額外的計(jì)算負(fù)擔(dān),回溯和保持無限長注意力持續(xù)時(shí)間的能力并不那么重要。

摘  要
  • 通過將前一個(gè)輸出傳遞到下一個(gè)輸入,創(chuàng)建了一個(gè)更加有序的建模方法,從而創(chuàng)建了遞歸神經(jīng)網(wǎng)絡(luò),已解決傳統(tǒng)的 n 元模型和詞袋模型方法的稀疏性、低效性和信息缺乏性的問題。

  • LSTM 是通過引入由門控制的長短期記憶通道來解決遞歸神經(jīng)網(wǎng)絡(luò)忘記輸入超過幾個(gè)時(shí)間步驟的問題。

  • LSTM 的一些缺點(diǎn)包括對(duì)遷移學(xué)習(xí)不友好、不能用于并行計(jì)算,以及注意力跨度有限,即使在擴(kuò)展后也是如此。

  • Transformer 拋棄了遞歸建模。相反,通過注意力矩陣,Transformer 可以直接訪問輸出的其他元素,這使得它們具有無限的注意力大小。此外,它們還可以在并行計(jì)算上運(yùn)行。

  • LSTM 在序列建模方面仍有應(yīng)用,例如,音樂生成或股票預(yù)測。然而,隨著 Transformer 變得更易于獲取、更強(qiáng)大、更實(shí)用,與語言建模的 LSTM 相關(guān)的大部分炒作預(yù)計(jì)將煙消云散。

作者介紹:

Andre Ye,Critiq 聯(lián)合創(chuàng)始人。機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)與數(shù)學(xué)愛好者。

原文鏈接:

https:///long-short-term-memory-networks-are-dying-whats-replacing-it-5ff3a99399fe


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多