【深度】從經(jīng)典深度學(xué)習(xí)模型探討圖像識別新方向

Yoke8 2018-02-14

展開全文

【學(xué)術(shù)plus】新添加號內(nèi)搜索功能！

進入公眾號→點擊菜單【智庫掃描】→【搜搜文章】

→輸入關(guān)鍵詞→一鍵檢索您需要的文章?？靵碓囋?！

【厚度】學(xué)術(shù)plus年終巨獻：2017年你不可以錯過的重磅報告?zhèn)儯。ㄈ拈喿x鏈接）

本文轉(zhuǎn)載自：專知，來源：專知內(nèi)容組（編）

【導(dǎo)讀】1月22日，深度學(xué)習(xí)工程師George Seif發(fā)布一篇文章，主要介紹了一些經(jīng)典的用于圖像識別的深度學(xué)習(xí)模型，包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網(wǎng)絡(luò)結(jié)構(gòu)及創(chuàng)新之處，并展示了其在ImageNet的圖像分類效果。這些經(jīng)典的模型其實在很多博文中早已被介紹過，作者的創(chuàng)新之處在于透過這些經(jīng)典的模型，討論未來圖像識別的新方向，并提出圖像識別無監(jiān)督學(xué)習(xí)的趨勢，并引出生成對抗網(wǎng)絡(luò)，以及討論了加速網(wǎng)絡(luò)訓(xùn)練的新挑戰(zhàn)。文章梳理了用于圖像識別的深度學(xué)習(xí)方法的脈絡(luò)，并對將來的挑戰(zhàn)和方法做了分析，非常值得一讀！專知內(nèi)容組編輯整理。

Deep Learning for Image Recognition: why it’s challenging, where we’ve been, and what’s next

用于圖像識別的深度學(xué)習(xí)：為什么這是一個挑戰(zhàn)，我們做過哪些工作，接下來要做哪些

在過去的幾年中，深度學(xué)習(xí)絕對主導(dǎo)了計算機視覺，在許多任務(wù)和相關(guān)競賽中取得了最好效果。這些計算機視覺競賽中最受歡迎、最知名的競賽是ImageNet。ImageNet競賽任務(wù)是：讓研究人員創(chuàng)建一個模型，對給定的圖像進行分類。

過去的幾年里，深度學(xué)習(xí)技術(shù)極大推進了這場比賽，甚至超越了人類的表現(xiàn)。

今天我們要回顧一下這方面的進展，從而了解深度學(xué)習(xí)是如何推動其發(fā)展的，了解我們可以從中學(xué)到什么，以及我們走到哪一步。

▌ImageNet的挑戰(zhàn)

那么ImageNet挑戰(zhàn)有什么難的呢？讓我們先看看數(shù)據(jù)。ImageNet分類任務(wù)的數(shù)據(jù)是從Flickr和其他搜索引擎收集的，由人類手動標記，總共有1000個類別，每個圖像屬于其中一個。

數(shù)據(jù)集的分布如下表所示。

ImageNet Dataset

到2012年，ImageNet擁有近130萬個訓(xùn)練圖像。這樣一個大規(guī)模的圖像分類任務(wù)的主要挑戰(zhàn)是圖像的多樣性。在這里我們可以看一下這個例子。

看看下面的圖片。在左側(cè)，我們看到來自另一個圖像分類challange的一些示例圖像：PASCAL。在PASCAL挑戰(zhàn)中，只有大約20,000個訓(xùn)練圖像和20個對象類別。這個挑戰(zhàn)的類別：如“鳥”，“狗”和“貓”，如下所示。說到ImageNet的挑戰(zhàn)，這是一個全新的比賽。 ImageNet并沒有一個叫做“狗”的普通類，它包含了各種各樣的狗。事實上，ImageNet并沒有PASCAL的“狗”類別，而是有120種不同品種的狗類（更加細粒度：如哈士奇、德國牧羊犬、秋田犬等，而不是統(tǒng)一的“狗”類）！因此，我們用于此任務(wù)的任何模型/算法都必須能夠處理這些非常“細粒度”和“特定”的類，即使它們看起來非常相似并且很難區(qū)分。

更技術(shù)性地講，我們希望最大化類間差異性。這意味著我們需要兩個圖像，每個圖像包含一種不同類型的鳥類，因此即使它們都是鳥類，但在我們的數(shù)據(jù)集中，它們都屬于不同的類別。

Inter-class Variability（類間差異性）

這是ImageNet的另一個具有挑戰(zhàn)性的特性：同一個類的對象可以看起來很不一樣。讓我們看看下面的圖片。左邊的兩個都來自“orange”類，右邊的兩個都來自“pool table”類。然而，每一對圖像看起來都不一樣！對于人類，我們可以看到其中一個桔子被切開，另一個桔子沒被切開。我們也可以看到一張桌子的圖片放大了，另一張沒有放大。這就是所謂的類內(nèi)差異性。我們希望盡量減少這種變化，因為我們希望在我們的深度學(xué)習(xí)模型中，同一類的兩幅圖像看起來是相似的。

Intra-class Variability（類內(nèi)差異性）

有了這些圖像分類的挑戰(zhàn)，讓我們來回顧一下深度學(xué)習(xí)是如何在這個任務(wù)上取得重大進展的。

▌深度學(xué)習(xí)在圖像分類方面的快速發(fā)展

自2012年以來，幾乎每年都在為圖像分類任務(wù)開發(fā)深度學(xué)習(xí)模式方面取得重大突破。由于數(shù)據(jù)規(guī)模龐大且具有挑戰(zhàn)性，ImageNet挑戰(zhàn)一直是衡量進展的主要標桿。在這里，我們要看看深度學(xué)習(xí)這個任務(wù)的進展，以及一些主要網(wǎng)絡(luò)結(jié)構(gòu)。

開始的一切：AlexNet

早在2012年，多倫多大學(xué)就在NIPS上發(fā)表一篇論文，效果則是令人震驚的。該論文是“ImageNet Classification with Deep Convolutional Neural Networks”。

（地址：

https://papers./paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf ）

在ImageNet挑戰(zhàn)中錯誤率降低了近50％，它成為“現(xiàn)有領(lǐng)域中最有潛力的論文之一”，這在當(dāng)時是前所未有的進展。

本文提出使用深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）進行圖像分類任務(wù)。與今天使用的相比，這是相對簡單的。這篇論文的主要貢獻是：

第一個成功使用深度卷及網(wǎng)絡(luò)進行大規(guī)模圖像分類。這是因為ImageNet提供了大量標記數(shù)據(jù)，以及在兩個GPU上使用并行計算來訓(xùn)練模型。
他們使用ReLU作為非線性激活函數(shù)，發(fā)現(xiàn)它們相對于tanh函數(shù)表現(xiàn)更好，訓(xùn)練時間更短。ReLU非線性激活函數(shù)現(xiàn)在幾乎成為深度網(wǎng)絡(luò)的默認激活函數(shù)。
他們使用數(shù)據(jù)增強技術(shù)，包括圖像翻轉(zhuǎn)，水平反射（horizontal reflections）和均值減法（mean subtraction）。這些技術(shù)如今被廣泛用于許多計算機視覺任務(wù)。
他們使用dropout層來解決訓(xùn)練數(shù)據(jù)過擬合的問題。
他們提出的連續(xù)卷積和pooling層的方式，最后是全連接層，仍然是當(dāng)今許多最先進網(wǎng)絡(luò)的基礎(chǔ)。

基本上，AlexNet提供的設(shè)置和baseline都稱為計算機視覺領(lǐng)域CNN的默認技術(shù)！

更深：VGGNet

VGGNet的論文“Very Deep Convolutional Neural Networks for Large-Scale Image Recognition”于2014年出版，進一步使用更多卷積和ReLU加深卷積網(wǎng)絡(luò)。他們的主要想法是，你并不需要任何花哨的技巧來提高高精度。只要有很多小的3x3卷積和非線性激活函數(shù)的更深層的網(wǎng)絡(luò)就可以做到這一點！ VGGNets的主要貢獻是：

只使用3x3大小的過濾器，而不是AlextNet中使用的11x11。他們表明，兩個連續(xù)的3×3卷積與單個5×5卷積具有等價的接受場或“視場”（即它所看到的像素）;相似地，三個連續(xù)的3×3卷積相當(dāng)于一個7×7卷積。這樣做的好處是可以模擬更大的過濾器，同時保持較小過濾器尺寸的好處。較小的過濾器的第一個好處是減少了參數(shù)的數(shù)量。其次是能夠在每個卷積之間使用ReLU函數(shù)，將更多的非線性引入到網(wǎng)絡(luò)中，使決策函數(shù)更具有判別力。

隨著每層輸入volumes（input volumes）的空間尺寸減?。ㄗ鳛閜ooling層的結(jié)果），volumes的深度增加。這背后的想法是，隨著空間信息的減少（從max pooling下采樣），它應(yīng)該被編碼為更多的可區(qū)分特征，以用于更準確的分類。因此，特征圖的數(shù)量隨著深度增加而增加，以便能夠捕獲這些用于分類的特征。
它引入了一種新的數(shù)據(jù)增強方式： scale jittering。
使用Caffe工具箱構(gòu)建模型。此時，深度學(xué)習(xí)庫越來越受歡迎。

VGGNet：https:///pdf/1409.1556.pdf

更深：GoogLeNet和Inception模塊

GoogLeNet架構(gòu)是第一個真正解決計算資源問題以及“Going Deeper with Convolutions”論文中的多尺度處理。隨著我們的分類網(wǎng)絡(luò)越來越深，我們必須得使用大量的內(nèi)存。另外，過去已經(jīng)提出了不同的計算濾波器尺寸：從1x1到11x11; 你怎么決定該用哪一個？inception模塊和GoogLeNet解決了所有這些問題，具體貢獻如下：

GoogLeNet：

https://www./openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

通過在每個3x3和5x5之前使用1x1卷積，初始模塊減少了通過每層的特征映射的數(shù)量，從而減少了計算量和內(nèi)存消耗！
初始模塊具有全部并行的1x1,3x3和5x5卷積。這背后的想法是通過訓(xùn)練讓網(wǎng)絡(luò)決定什么信息將被學(xué)習(xí)和使用。它還允許進行多尺度處理：模型可以通過較小的卷積和較大卷積的高抽象特征來恢復(fù)局部特征。
GoogLeNet是第一個提出CNN層并不總是必須按順序排列。本文的作者表示，您還可以增加網(wǎng)絡(luò)寬度而不僅僅是深度以獲得更好的性能。

跳過一條捷徑：ResNet

自2015年在“圖像識別的深度殘差學(xué)習(xí)”一文中發(fā)布以來，ResNet已經(jīng)在很多計算機視覺任務(wù)中提高了準確性。ResNet架構(gòu)是ImageNet上第一個超過人類級別的性能測試的模型，而他們在residual learning方面的主要貢獻在今天許多最先進的網(wǎng)絡(luò)中經(jīng)常被默認使用：

ResNet：https:///pdf/1512.03385.pdf

文章揭露了：將層進行簡單的堆疊，從而使網(wǎng)絡(luò)非常深并不總是有幫助，也可能取得相反的結(jié)果。
為了解決上述問題，他們引入了結(jié)合skip-connections的殘差學(xué)習(xí)（residual learning）。這個想法是，通過添加skip連接作為快捷方式，每一層層可以直接訪問前一層的函數(shù)，允許特征信息更容易地在網(wǎng)絡(luò)上進行傳播。它也有助于訓(xùn)練，因為梯度能更高效地反向傳播。
第一個“超深”網(wǎng)絡(luò)，通常使用超過100-200層。

▌把shortcuts做到極致：DenseNet

“Densely Connected Convolutional Networks”文章中引入DenseNets，Shortcut被發(fā)揮到了極致。DenseNets擴展了Shortcut的想法，但比ResNet具有更密集的連接：

DenseNet：https:///pdf/1608.06993.pdf

DenseNets中每層以前饋的方式連接到其他層。這允許每一層使用所有前面的層的所有特征圖作為輸入，并且它自己的特征圖被用作所有后續(xù)層的輸入。
這里通過串聯(lián)而不是在ResNets中使用的附加來完成的，這樣原始特征直接能流過每一層。
效果比ResNets更好。 DenseNets幫助緩解梯度消失問題，加強特征傳播，促進特征重用，大幅減少參數(shù)數(shù)量。

這些是在過去幾年中圖像分類領(lǐng)域的主要網(wǎng)絡(luò)架構(gòu)。目前已經(jīng)取得了很大的進展，這個新技術(shù)可以解決許多現(xiàn)實世界的問題，這是令人興奮的。現(xiàn)在只剩下一個問題了..

▌我們該何去何從

圖像分類的深度學(xué)習(xí)研究一直蓬勃發(fā)展！我們已經(jīng)采取了更多的步驟來改進這項任務(wù)的方法，其表現(xiàn)甚至超越了人類的表現(xiàn)。深度神經(jīng)網(wǎng)絡(luò)現(xiàn)在被廣泛用于許多企業(yè)的圖像分類，甚至是許多新的啟動技術(shù)的基礎(chǔ)。

所有這些進展非常令人鼓舞的，但我們必須始終努力改進。深度學(xué)習(xí)模型在圖像分類中仍然存在很多挑戰(zhàn)。如果我們想要向前發(fā)展，必須重視這些挑戰(zhàn)。在這里，我將回顧一些我認為重要的研究人員正在積極嘗試解決的問題：

從有監(jiān)督到無監(jiān)督學(xué)習(xí)

示例圖：有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

目前，大多數(shù)用于計算機視覺任務(wù)深度學(xué)習(xí)方法都是有監(jiān)督學(xué)習(xí)。這意味著我們需要大量標記的訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)既繁瑣又昂貴。想一想：ImageNet的挑戰(zhàn)有130萬個訓(xùn)練樣例，有1000個不同的類別！一個人需要獲取所有的數(shù)據(jù)，瀏覽每張圖片，然后貼上標簽; 這可是一個體力活。

大多數(shù)情況下，當(dāng)一個企業(yè)想為自己的特定應(yīng)用程序應(yīng)用圖像分類網(wǎng)絡(luò)時，他們必須使用遷移學(xué)習(xí)來微調(diào)預(yù)先訓(xùn)練好的ImageNet網(wǎng)絡(luò)。為了做到這一點，他們?nèi)匀恍枰占罅孔约旱臄?shù)據(jù)并打標簽; 這是很乏味和昂貴的工作。

研究人員正在努力解決這個問題。并取得了一系列進展，如快速有效的遷移學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和一次性學(xué)習(xí)等方法，越來越多的工作正在進行。我們可能不會直接跳到無監(jiān)督學(xué)習(xí)，但是這些方法的研究是朝著正確的方向邁出的重要一步。

Defending against our adversaries（防御對抗樣本）

使用生成對抗網(wǎng)絡(luò)（GANs）的日益流行已經(jīng)揭示了圖像分類的新挑戰(zhàn)：對抗圖像（Adversarial Images）。對抗圖像是一個簡單的圖像，其類別對人類看起來是很容易區(qū)分的，但在深度網(wǎng)絡(luò)中導(dǎo)致很大的失敗。看看上面的圖片。雖然只有輕微的扭曲（看起來），但是深度網(wǎng)絡(luò)卻把圖像從熊貓分類到長臂猿！

對我們?nèi)祟悂碚f，類別很明顯，形象仍然是一只熊貓，但由于某種原因，它會導(dǎo)致深層網(wǎng)絡(luò)的任務(wù)失敗。這在現(xiàn)實世界的應(yīng)用中可能是非常危險的：如果你的自動駕駛汽車不能識別行人，而是將其運行過來呢？部分問題可能源于我們對深度網(wǎng)絡(luò)內(nèi)部沒有充分理解。無論如何，研究人員正在積極研究這個具有挑戰(zhàn)性的問題。

加速處理過程

深度學(xué)習(xí)的進步很多是基于硬件進步，特別是GPU的改進所推動的。 GPU允許并行高速計算。深度學(xué)習(xí)需要大量的矩陣運算; GPU擅長執(zhí)行這些操作。這進步太棒了，但并不是任何地方都有GPU！

許多最先進的網(wǎng)絡(luò)，包括上面已經(jīng)討論過的網(wǎng)絡(luò)，只能在高端GPU上才能勉強運行。移動設(shè)備是一個巨大的市場，怎么服務(wù)于這個市場是很重要的。此外，隨著網(wǎng)絡(luò)越來越深，往往需要更多的內(nèi)存，這使更多的設(shè)備無法訓(xùn)練網(wǎng)絡(luò)！

這方面的研究最近實際上已經(jīng)有了很大的提高。MobileNets是一種在移動設(shè)備上直接運行深層網(wǎng)絡(luò)的結(jié)構(gòu)。他們使用不同的卷積風(fēng)格來減少內(nèi)存消耗和訓(xùn)練時間。

▌總結(jié)

我們看到了圖像分類的難點，并回顧了在深度學(xué)習(xí)領(lǐng)域取得的驚人進展，我們也看到了當(dāng)前的一些挑戰(zhàn)，以及如何用新的科學(xué)的方法來應(yīng)對這些挑戰(zhàn)。

參考鏈接：

https:///deep-learning-for-image-classification-why-its-challenging-where-we-ve-been-and-what-s-next-93b56948fcef

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

【深度】從經(jīng)典深度學(xué)習(xí)模型探討圖像識別新方向