LSTM的興衰

板橋胡同37號(hào) 2020-09-30

展開全文

LSTM（Long Short-Term Memory，長短期記憶網(wǎng)絡(luò)）作為遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN）的一種更好的變體，已經(jīng)成為深度學(xué)習(xí)領(lǐng)域中的主力軍。隨著機(jī)器學(xué)習(xí)研究的加速，各種方法出現(xiàn)和消失得越來越快，似乎 LSTM 已經(jīng)開始走向消亡。讓我們回過頭，去探索語言建模的演變，從它的起步階段到解決復(fù)雜問題的現(xiàn)代進(jìn)步。

本文最初發(fā)表于 Towards Data Science 博客，經(jīng)原作者 Andre Ye 授權(quán)，InfoQ 中文站翻譯并分享。

從根本上說，就像任何其他監(jiān)督式機(jī)器學(xué)習(xí)的問題一樣，語言建模的目標(biāo)是：在給定文檔 d 的情況下，預(yù)測一些輸出 y。文檔 d 必須以某種方式以數(shù)字形式表示，這可以通過機(jī)器學(xué)習(xí)算法進(jìn)行處理。

將文檔表示為數(shù)字的最初解決方案是詞袋（bag of words，BoW）模型。每個(gè)單詞在向量中占據(jù)一個(gè)維度，每個(gè)值表示該單詞在文檔中出現(xiàn)的次數(shù)。但是，這種方法并沒有考慮到單詞的順序，這很重要（請(qǐng)想想“I live to work, I work to live）。

為了解決這個(gè)問題，人們使用了 n 元語法模型（n-gram）。這些是由 n 個(gè)單詞組成的序列，其中每個(gè)元素表示一個(gè)單詞組合的存在。如果我們的數(shù)據(jù)集中有 10000 個(gè)單詞，并且我們想存儲(chǔ)為二元語法，則需要 100002 個(gè)唯一的組合。對(duì)于任何相當(dāng)不錯(cuò)的模型，我們很可能需要三元語法甚至四元語法，每個(gè)都會(huì)將詞匯量提高到另一個(gè)冪。

顯然，n 元語法和詞袋模型甚至并不能處理稍微復(fù)雜的語言任務(wù)。它們的解決方案包括向量化過程，但這些過程過于稀疏、龐大，并且無法捕捉到語言本身的精髓。那解決方案是什么呢？是遞歸神經(jīng)網(wǎng)絡(luò)。

與使用高維、稀疏的向量化解決方案（試圖一次性地將整個(gè)文檔饋送到模型中）不同，遞歸神經(jīng)網(wǎng)絡(luò)是利用文本的序列特性。遞歸神經(jīng)網(wǎng)絡(luò)可以表示為遞歸函數(shù)，其中 a 是在每個(gè)時(shí)間步驟上應(yīng)用的變換函數(shù)，h 是隱層狀態(tài)的集合，x 表示數(shù)據(jù)的集合。

$h_t=A(h_{t-1},x_{t-1})$

每個(gè)時(shí)間步驟都是利用前一個(gè)時(shí)間步驟的知識(shí)創(chuàng)建的，通過對(duì)前一個(gè)輸出應(yīng)用相同的函數(shù)創(chuàng)建一個(gè)新的輸出。當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)“展開”時(shí)，我們可以看到在不同的時(shí)間步驟的輸入是如何被饋送到模型中的，并且還知道模型之前“看到”了什么。

因?yàn)檫f歸神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)輸入都應(yīng)用相同的函數(shù)，所以它還有一個(gè)額外的好處：能夠處理可變長度的輸入。使用相同函數(shù)背后的基本原理可以被認(rèn)為是將“通用語言 / 序列規(guī)則”應(yīng)用于每個(gè)時(shí)間步驟。

然而，遞歸神經(jīng)網(wǎng)絡(luò)出色的遞歸特性也導(dǎo)致了一些問題。將遞歸神經(jīng)網(wǎng)絡(luò)的遞歸定義簡單地展開到第四個(gè)隱藏狀態(tài)，我們可以看到，A 函數(shù)被應(yīng)用了很多次。

$h_3=(A(A(A(H_0,x_0),x_1),x_2)$

$A(x)$ 實(shí)際上只是乘以一個(gè)權(quán)重矩陣，然后加到一個(gè)偏差矩陣上。當(dāng)然，在進(jìn)行較大的簡化時(shí)，經(jīng)過十個(gè)時(shí)間步驟之后，初始輸入 $x_0$ 基本上是乘以 $w^{10}$，其中 $w$ 是權(quán)重矩陣。因?yàn)槿魏斡?jì)算都會(huì)產(chǎn)生結(jié)果，所以將數(shù)字轉(zhuǎn)換為冪會(huì)得到極端的結(jié)果：

0.31? = 0.000005
0.51? = 0.0009
1.51? = 57.7
1.71? = 201.6

這就引起了很多問題。權(quán)重矩陣將導(dǎo)致值要么向零（遞減），要么向無窮大或負(fù)無窮大（爆炸）。因此，遞歸神經(jīng)網(wǎng)絡(luò)受到梯度遞減和梯度爆炸問題的困擾。當(dāng)權(quán)重更新時(shí)，這不僅會(huì)導(dǎo)致計(jì)算問題，還意味著它們“患有癡呆癥”：它們忘記了任何超過幾個(gè)時(shí)間步驟的東西，因?yàn)橥ㄟ^遞歸乘法，它們已經(jīng)被模糊或放大到無法理解的程度。

因此，當(dāng)使用遞歸神經(jīng)網(wǎng)絡(luò)生成文本時(shí)，你可能會(huì)看到無限循環(huán)：

I walked on the street and walked on the street and walked on the street and walked on the street and walked on the street and…

當(dāng)網(wǎng)絡(luò)生成第二輪“walked on”時(shí)，它已經(jīng)忘記了上次說過的內(nèi)容。它認(rèn)為，通過它天真的機(jī)制，有了前一次的輸入“the street and…”，下一次的輸出應(yīng)該是“walked on”。這種循環(huán)會(huì)持續(xù)下去，是因?yàn)樽⒁饬蚣芴　?/p>

解決方法：LSTM 網(wǎng)絡(luò)，于 1997 年首次提出，但基本上不被重視，直到最近，計(jì)算資源使這一發(fā)現(xiàn)變得更加實(shí)用。

它仍然是一個(gè)遞歸網(wǎng)絡(luò)，但是對(duì)輸入進(jìn)行了復(fù)雜的轉(zhuǎn)換。每個(gè)細(xì)胞的輸入通過復(fù)雜的操作進(jìn)行處理，產(chǎn)生兩個(gè)輸出，可以認(rèn)為是“長期記憶”（貫穿細(xì)胞的頂線）和“短期記憶”（底部輸出）。

通過長期記憶通道的向量可以在沒有任何干擾的情況下通過整個(gè)鏈。只有門（粉紅點(diǎn)）可以阻止或添加信息，所以如果網(wǎng)絡(luò)選擇這樣做，它可以保留它從任意數(shù)量的細(xì)胞之前發(fā)現(xiàn)有用的數(shù)據(jù)。

這種長期信息流的加入極大地?cái)U(kuò)大了網(wǎng)絡(luò)的注意力規(guī)模。它可以訪問之前的細(xì)胞狀態(tài)，但也可以訪問不久前的學(xué)習(xí)中獲得有用的信息，使得它能夠參考上下文——這是更多人類交流的關(guān)鍵屬性。

LSTM 運(yùn)作良好——有一段時(shí)間。它可以在較短的文本長度上進(jìn)行相當(dāng)好的字符生成，并且沒有被許多早期自然語言處理發(fā)展的問題所困擾，特別是更全面的深度和對(duì)單個(gè)單詞以及它們的集體含義的理解。

然而，LSTM 網(wǎng)絡(luò)也有它的缺點(diǎn)。它仍然是一個(gè)遞歸網(wǎng)絡(luò)，因此如果輸入序列有 1000 個(gè)字符，LSTM 細(xì)胞被調(diào)用 1000 次，這是一個(gè)很長的梯度路徑。雖然增加一個(gè)長期記憶通道有所幫助，但它可以容納的容量畢竟是有限的。

另外，由于 LSTM 本質(zhì)上是遞歸的（要查找當(dāng)前狀態(tài)，你需要找到以前的狀態(tài)），因此并不能并行地對(duì)它們進(jìn)行訓(xùn)練。

也許更為緊迫的是，遷移學(xué)習(xí)在 LSTM（或遞歸神經(jīng)網(wǎng)絡(luò)）上并不是十分有效。深度卷積神經(jīng)網(wǎng)絡(luò)之所以能夠得到普及，部分原因是像 Inception 這樣的預(yù)訓(xùn)練模型可以簡單地下載和微調(diào)。從一個(gè)已經(jīng)知道任務(wù)的普遍規(guī)則的模型開始訓(xùn)練的寶貴能力使其更易于獲得和可行。

有時(shí)候，經(jīng)過預(yù)訓(xùn)練的 LSTM 可以成功遷移，但并不是常見的做法是有原因的。這是有道理的——每篇文字都有自己獨(dú)特的風(fēng)格。與圖像不同的是，圖像幾乎總是遵循某種某種帶有陰影和邊緣的嚴(yán)格的通用規(guī)則，而文本的結(jié)構(gòu)則沒那么明顯，更為流暢。

是的，有一些基本的語法規(guī)則來支撐文本的框架，但它遠(yuǎn)沒有圖像那么嚴(yán)格。除此之外，還有不同的語法規(guī)則——不同的詩歌形式、不同的方言（如莎士比亞和古英語）、不同的用法（Twitter 上的推文語言、即興演講的書面版本）。比方說，從維基百科（Wikipedia）上預(yù)訓(xùn)練的 LSTM 開始，可能比從頭開始學(xué)習(xí)數(shù)據(jù)集要容易得多。

除了經(jīng)過預(yù)訓(xùn)練的嵌入之外，當(dāng)遇到更高要求的現(xiàn)代問題時(shí)，如跨多種語言的機(jī)器翻譯或與人工書寫的文本完全無法區(qū)分的文本生成，而 LSTM 是有限的。越來越多的新架構(gòu)被用來處理更具挑戰(zhàn)性的任務(wù)：Transformer。

Transformer 最初是在論文《注意力就是你所需要的一切》（Attention Is All You Need）提出的，以解決語言翻譯問題，它的架構(gòu)非常復(fù)雜。不過，最重要的部分是注意力的概念。

在本文的前面，我們討論了注意力跨度，即遞歸神經(jīng)網(wǎng)絡(luò)過去有多少隱藏狀態(tài)可以回顧。Transformer 擁有無限的注意力大小，這是它們相對(duì)于 LSTM 優(yōu)勢的核心。做到這一點(diǎn)的關(guān)鍵是什么？

Transformer 不使用遞歸。

Transformer 通過全比較來實(shí)現(xiàn)無限的注意力大小。它不是按順序處理每個(gè)單詞，而是一次性處理整個(gè)序列，建立一個(gè)“注意力矩陣”，其中每個(gè)輸出是輸入的加權(quán)和。因此，例如，我們可以將發(fā)育單詞“accord”表達(dá)為 ‘The’(0)+‘a(chǎn)greement’(1)+…。網(wǎng)絡(luò)會(huì)學(xué)習(xí)注意力矩陣的權(quán)重。

紅色邊框內(nèi)的區(qū)域很有趣：盡管“European Economic Area”被翻譯成“européenne économique zone”，但在法語中，其詞序?qū)嶋H上是“zone économique européenne”。注意力矩陣能夠直接捕捉到這些關(guān)系。

注意力允許輸出值之間的直接訪問，LSTM 必須通過記憶通道間接和順序訪問這些信息。

Transformer 的計(jì)算成本很高——構(gòu)建矩陣的 O(n2) 運(yùn)行時(shí)間是無法避免的。然而，由于各種原因，它并不像一些人想象的那樣言中。首先，由于 Transformer 的非遞歸性質(zhì)，可以使用并行性來訓(xùn)練模型，而這正是 LSTM 或遞歸神經(jīng)網(wǎng)絡(luò)無法做到的。

此外，GPU 和其他硬件已經(jīng)發(fā)展到這樣的程度：它們的擴(kuò)展能力令人難以置信的強(qiáng)大——10 × 10 矩陣的速度基本上與 1000 × 1000 矩陣的速度一樣快。

現(xiàn)代 Transformer 的計(jì)算時(shí)間很長，很大程度上并不是因?yàn)樽⒁饬C(jī)制。相反，在注意力機(jī)制的幫助下，遞歸語言建模的問題得到了解決。

Transformer 模型在使用遷移學(xué)習(xí)時(shí)也顯示出了很好的效果，這對(duì)它們的普及起到了巨大的作用。

那么，LSTM 的未來是什么？

在它真正“消亡”之前，還有很長的路要走，但它肯定是在走下坡路。首先，LSTM 的變體在序列建模方面已顯示出成功，例如在生成音樂或預(yù)測股票價(jià)格，在這種情況下，考慮到額外的計(jì)算負(fù)擔(dān)，回溯和保持無限長注意力持續(xù)時(shí)間的能力并不那么重要。

摘要

通過將前一個(gè)輸出傳遞到下一個(gè)輸入，創(chuàng)建了一個(gè)更加有序的建模方法，從而創(chuàng)建了遞歸神經(jīng)網(wǎng)絡(luò)，已解決傳統(tǒng)的 n 元模型和詞袋模型方法的稀疏性、低效性和信息缺乏性的問題。
LSTM 是通過引入由門控制的長短期記憶通道來解決遞歸神經(jīng)網(wǎng)絡(luò)忘記輸入超過幾個(gè)時(shí)間步驟的問題。
LSTM 的一些缺點(diǎn)包括對(duì)遷移學(xué)習(xí)不友好、不能用于并行計(jì)算，以及注意力跨度有限，即使在擴(kuò)展后也是如此。
Transformer 拋棄了遞歸建模。相反，通過注意力矩陣，Transformer 可以直接訪問輸出的其他元素，這使得它們具有無限的注意力大小。此外，它們還可以在并行計(jì)算上運(yùn)行。
LSTM 在序列建模方面仍有應(yīng)用，例如，音樂生成或股票預(yù)測。然而，隨著 Transformer 變得更易于獲取、更強(qiáng)大、更實(shí)用，與語言建模的 LSTM 相關(guān)的大部分炒作預(yù)計(jì)將煙消云散。

作者介紹：

Andre Ye，Critiq 聯(lián)合創(chuàng)始人。機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)與數(shù)學(xué)愛好者。

原文鏈接：

https:///long-short-term-memory-networks-are-dying-whats-replacing-it-5ff3a99399fe

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：板橋胡同37號(hào) > 《AI》

舉報(bào)/認(rèn)領(lǐng)