2021機器學(xué)習(xí)研究風(fēng)向是啥？MLP→CNN→Transformer→MLP！

黃爸爸好 2021-05-24

展開全文

設(shè)為 “星標(biāo)”，重磅干貨，第一時間送達！

轉(zhuǎn)載自專知

就在2月份，Transformer還橫掃CV和NLP各種task。但到了5月份，似乎一切變了。近來，谷歌、清華、Facebook相繼發(fā)表了關(guān)于多層感知機（MLP）的工作，MLP→CNN→Transformer→MLP 似乎已經(jīng)成為一種大勢所趨。我們來看下最新的幾篇代表性論文。

12月:“圖像識別也是Transformer最強(ViT)”
2月:“Transformer is All you Need”
3月:“Attention is not All you Need”
5月:“在MLP上的ViT并(MLPmixer)”
5月:“Convolution比Transformer強”
5月:“在MLP上加個門，跨越Transformer (Pay Attention to MLPs)”

谷歌大腦首席科學(xué)家、AutoML 鼻祖 Quoc Le 研究團隊將 gMLP 用于圖像分類任務(wù)，并在 ImageNet 數(shù)據(jù)集上取得了非常不錯的結(jié)果。在類似的訓(xùn)練設(shè)置下，gMLP 實現(xiàn)了與 DeiT（一種改進了正則化的 ViT 模型）相當(dāng)?shù)男阅堋２粌H如此，在參數(shù)減少 66% 的情況下，gMLP 的準(zhǔn)確率比 MLP-Mixer 高出 3%。這一系列的實驗結(jié)果對 ViT 模型中自注意力層的必要性提出了質(zhì)疑。

他們還將 gMLP 應(yīng)用于 BERT 的掩碼語言建模（MLM）任務(wù)，發(fā)現(xiàn) gMLP 在預(yù)訓(xùn)練階段最小化困惑度的效果與 Transformer 一樣好。該研究的實驗表明，困惑度僅與模型的容量有關(guān)，對注意力的存在并不敏感。隨著容量的增加，研究者觀察到，gMLP 的預(yù)訓(xùn)練和微調(diào)表現(xiàn)的提升與 Transformer 一樣快。

gMLP 的有效性，視覺任務(wù)上自注意力和 NLP 中注意力機制的 case-dependent 不再具有優(yōu)勢，所有這些都令研究者對多個領(lǐng)域中注意力的必要性提出了質(zhì)疑。

總的來說，該研究的實驗結(jié)果表明，自注意力并不是擴展 ML 模型的必要因素。隨著數(shù)據(jù)和算力的增加，gMLP 等具有簡單空間交互機制的模型具備媲美 Transformer 的強大性能，并且可以移除自注意力或大幅減弱它的作用。

整個模型具有空間門控單元（Spatial Gating Unit, SGU）的 gMLP 架構(gòu)示意圖如下所示，該模型由堆疊的 L 塊（具有相同的結(jié)構(gòu)和大?。┙M成。

谷歌原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)，并且在設(shè)計上非常簡單，在 ImageNet 數(shù)據(jù)集上也實現(xiàn)了媲美 CNN 和 ViT 的性能。

卷積神經(jīng)網(wǎng)絡(luò)（CNNs）是計算機視覺的主流模型，近年來，基于注意力的網(wǎng)絡(luò)，如vision transformer也得到了廣泛的應(yīng)用。2021年3月4日，谷歌人工智能研究院Ilya Tolstikhin, Neil Houlsby等人研究員提出一種基于多層感知機結(jié)構(gòu)的MLP-Mixer并在頂會“Computer Vision and Pattern Recognition（CVPR）”上發(fā)表一篇題為“MLP-Mixer: An all-MLP Architecture for Vision”的文章。MLP-Mixer包含兩種類型的MLP層：一種是獨立應(yīng)用于圖像patches的MLP（即“混合”每個位置特征），另一種是跨patches應(yīng)用的MLP（即“混合”空間信息）。當(dāng)在大數(shù)據(jù)集上訓(xùn)練時，或使用正則化訓(xùn)練方案時，MLP-Mixer在圖像分類基準(zhǔn)上獲得有競爭力的分數(shù)，并且預(yù)訓(xùn)練和推理成本與最先進的模型相當(dāng)。作者希望這些結(jié)果能激發(fā)出更深入的研究，超越成熟的CNN和transformer領(lǐng)域。

MLP-Mixer的網(wǎng)絡(luò)結(jié)構(gòu)圖

作者提出一種基于多層感知機結(jié)構(gòu)的MLP-Mixer，這是一種不使用注意力機制和卷積的網(wǎng)絡(luò)。MLP-Mixer的體系結(jié)構(gòu)完全基于多層感知機，將圖像的空間位置或特征通道上進行重復(fù)應(yīng)用。MLP-Mixer僅依賴于基礎(chǔ)矩陣乘操作、數(shù)據(jù)排布變換(比如reshape、transposition)以及非線性層。

上圖給出了MLP-Mixer的網(wǎng)絡(luò)結(jié)構(gòu)圖。首先跟Vision Transformer的patch image過程一樣，將輸入尺寸為H×W×C的圖像變?yōu)镹×D的向量，其中P×P為圖像塊的大小，N=HW÷P²，N是圖像塊的數(shù)量，D是將圖像塊reshape為固定長度的大小，為了避免由于圖像塊設(shè)置大小不同，造成模型無法固定訓(xùn)練的問題。然后由多個Mixer layer組成，其中Mixer layer使用兩種類型的MLP層：信道混合MLP和空間混合MLP。信道混合MLP允許不同信道之間的通信；它們獨立地對每個空間位置進行操作。空間混合MLP允許不同空間位置之間的通信；它們獨立地對每個通道上進行操作。在Mixer layer里面也應(yīng)用到跳躍連接。最后通過LayerNorm和全連接層進行輸出。

本文的工作主要將MLP作為卷積網(wǎng)絡(luò)的一種通用組件實現(xiàn)多種任務(wù)性能提升（例如，將ResNet50中的3x3卷積替換成只有一半通道數(shù)量的RepMLP，可以實現(xiàn)同等精度下超過一半速度提升），不追求拋棄卷積的純MLP（本文只試驗了CIFAR上的純MLP，只取得了接近卷積網(wǎng)絡(luò)的效果）；恰恰相反，本文利用了卷積去強化FC，使其具備局部性，因而更適用于視覺任務(wù)。

本文的方法可以在ImageNet、語義分割、人臉識別等數(shù)據(jù)集和相應(yīng)任務(wù)上實現(xiàn)漲點，這些任務(wù)輸入分辨率各不相同，有的具有平移不變性而有的不具備（本文認為FC和卷積主要的區(qū)別就在于是否平移不變）；而谷歌的論文只做了幾個固定分辨率輸入的圖像分類實驗。

本文提出了一種多層感知機（MLP）模式的圖像識別神經(jīng)網(wǎng)絡(luò)構(gòu)造塊RepMLP，它由一系列全連接層（FC）組成。

圖注：RepMLP的架構(gòu)圖

與卷積層相比，F(xiàn)C層效率更高，更適合于建模長程（long-range）依賴關(guān)系和位置模式，但不適合捕獲局部結(jié)構(gòu)，因此通常不太適合用于圖像識別。而本文提出了一種結(jié)構(gòu)重新參數(shù)化技術(shù)，可以將局部先驗加入到全連接層（FC）中，使其具有強大的圖像識別能力。

Facebook 也于近日提出了一種用于圖像分類的純 MLP 架構(gòu)，該架構(gòu)受 ViT 的啟發(fā)，但更加簡單：不采用任何形式的注意力機制，僅僅包含線性層與 GELU 非線性激活函數(shù)。

https://www./paper/906513635482cdda897acaf1860abef4

本文第一作者就是 DeiT 一作 Hugo Touvron 博士。他曾經(jīng)針對視覺 Transformer 模型 ViT 需要大量數(shù)據(jù)集訓(xùn)練的難題提出了DeiT模型，通過一組優(yōu)秀的超參數(shù)和蒸餾操作實現(xiàn)了僅僅使用 ImageNet 數(shù)據(jù)集就能達到很強的性能，詳見下面鏈接。現(xiàn)在他又按照這個思路寫了一篇，針對視覺 MLP 模型 MLP-Mixer 需要大量數(shù)據(jù)集訓(xùn)練的難題提出了 ResMLP 模型，通過殘差結(jié)構(gòu)和蒸餾操作實現(xiàn)了僅僅使用 ImageNet 數(shù)據(jù)集就能達到很強的性能。

參考鏈接：

https://mp.weixin.qq.com/s/6mUdc2N1jAlh0pW8QIknoA