幾種使用了CNN（卷積神經(jīng)網(wǎng)絡(luò)）的文本分類模型

xyzhao 2017-04-13

展開全文

下面就列舉了幾篇運(yùn)用CNN進(jìn)行文本分類的論文作為總結(jié)。

1 yoon kim 的《Convolutional Neural Networks for Sentence Classification》。（2014 Emnlp會(huì)議）

這里寫圖片描述
他用的結(jié)構(gòu)比較簡(jiǎn)單，就是使用長度不同的 filter 對(duì)文本矩陣進(jìn)行卷積，filter的寬度等于詞向量的長度，然后使用max-pooling 對(duì)每一filter提取的向量進(jìn)行操作，最后每一個(gè)filter對(duì)應(yīng)一個(gè)數(shù)字，把這些filter拼接起來，就得到了一個(gè)表征該句子的向量。最后的預(yù)測(cè)都是基于該句子的。該模型作為一個(gè)經(jīng)典的模型，作為很多其他改領(lǐng)域論文里實(shí)驗(yàn)參照。

2 《A Convolutional Neural Network for Modelling Sentences》（2014 ACL會(huì)議）
這里寫圖片描述

這個(gè)模型看起來就相對(duì)復(fù)雜一些，不過其基礎(chǔ)也是基于卷積的。每一層的卷積操作之后同樣會(huì)跟上一個(gè)max pooling操作。整個(gè)模型操作相對(duì)于上面的那個(gè)模型比較繁瑣，同時(shí)我有以下幾個(gè)比較質(zhì)疑的地方：
1 倒數(shù)第二到倒數(shù)第三層使用了k-max 的pooling操作，也就是說第三層中相鄰的詞語對(duì)應(yīng)于原來的句子可能不再是相鄰的，而且它們只有相對(duì)的先后關(guān)系保存了下來。倒數(shù)第三層中不同卷積平面對(duì)應(yīng)的詞語在原句子中可能處于不同的位置，甚至是不同的詞語，因此倒數(shù)第三道倒數(shù)第四之間的卷積是沒有意義的。

2 關(guān)于這里的folding操作。把同一個(gè)詞語向量的不用維度之間進(jìn)行加法操作，這樣原文里是這樣解釋的“With a folding layer, a feature detector of the i-th order depends now on two rows of feature values in the lower maps of order i -1.”。但是這樣的操作有意義嗎？？從來沒有見人提到用過，也許我們未來可以探索一下這樣是否能夠提高卷積器的性能。

3《A C-LSTM Neural Network for Text Classification》（arXiv preprint arXiv）
這里寫圖片描述
其實(shí)這篇論文里只是用cnn對(duì)原文的詞向量以某一長度的filter進(jìn)行卷積抽象，這樣原來的純粹詞向量序列就變成了經(jīng)過卷積的抽象含義序列。最后對(duì)原句子的encoder還是使用lstm，由于使用了抽象的含義向量，因此其分類效果將優(yōu)于傳統(tǒng)的lstm，這里的cnn可以理解為起到了特征提取的作用。

4 《Recurrent Convolutional Neural Networks for Text Classification》（2015 AAAi會(huì)議）
這里寫圖片描述
正如標(biāo)題所說的，把lstm和cnn結(jié)合起來了，不過這個(gè)結(jié)合的方式和上面的不一樣。舉例來說對(duì)于詞序列: A B C D E F來說，在形成C詞的向量化表示的時(shí)候，使用的不再僅僅是C的word embedding，而是C左邊的內(nèi)容構(gòu)成的向量和C以及C右邊內(nèi)容構(gòu)成的向量的拼接形式。由于使用到了左右兩邊的內(nèi)容故使用的是雙向的Lstm。然后如圖中所示使用1-d convolution的方式得到一系列的y，最后經(jīng)過max-pooling的方式得到整個(gè)句子的向量化表示，最后的預(yù)測(cè)也是基于該句子的。

5 《Learning text representation using recurrent convolutional neural network with highway layers》（arXiv preprint arXiv）
這里寫圖片描述
這個(gè)模型幾乎就是稍微的更改了一下4中的模型，只不過在C向量拼接完畢將要進(jìn)行卷積操作之前經(jīng)過了一個(gè)highway而已。（本人對(duì)于僅僅加了一個(gè)highway就能提高模型準(zhǔn)確率的做法感到十分懷疑，畢竟這個(gè)網(wǎng)絡(luò)的層數(shù)并不深）

原文鏈接:http://blog.csdn.net/guoyuhaoaaa/article/details/53188918

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： xyzhao > 《深度學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)