CVPR 2018 | 伯克利等提出無(wú)監(jiān)督特征學(xué)習(xí)新方法，代碼已開(kāi)源

漢無(wú)為 2018-05-15

展開(kāi)全文

AI 前線導(dǎo)讀：本文編譯自伯克利、香港中文大學(xué)、亞馬遜聯(lián)合發(fā)表的論文《Unsupervised Feature Learning via Non-Parametric Instance Discrimination》，已經(jīng)被 CVPR 2018 接收，這是 AI 前線的第 31 篇論文導(dǎo)讀。

在有類(lèi)別標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類(lèi)器可以捕獲明顯的類(lèi)間視覺(jué)相似性，而不需要人為引導(dǎo)。這篇論文研究的是這種情況是否可以擴(kuò)展到傳統(tǒng)的監(jiān)督學(xué)習(xí)領(lǐng)域之外：可不可以僅僅通過(guò)讓單個(gè)實(shí)例的的特征具有判別性，來(lái)學(xué)習(xí)一個(gè)好的特征表示，捕捉實(shí)例間的相似性，而不是類(lèi)間的。

作者將這個(gè)想法描述成實(shí)例級(jí)別的非參數(shù)分類(lèi)問(wèn)題，使用噪聲對(duì)比估計(jì)來(lái)應(yīng)對(duì)大量實(shí)例類(lèi)別帶來(lái)的計(jì)算挑戰(zhàn)。實(shí)驗(yàn)結(jié)果顯示，在無(wú)監(jiān)督學(xué)習(xí)設(shè)置下，該方法在現(xiàn)有的 ImageNet 分類(lèi)問(wèn)題上的表現(xiàn)相比于其他方法得到了大幅提升。在訓(xùn)練數(shù)據(jù)更多，網(wǎng)絡(luò)架構(gòu)更好的情況下，該方法也可以不斷地顯著提高表現(xiàn)性能。通過(guò)微調(diào)學(xué)習(xí)到的特征，算法進(jìn)一步在半監(jiān)督學(xué)習(xí)和目標(biāo)識(shí)別任務(wù)上取得了更好的結(jié)果。非參數(shù)模型非常緊湊：每張圖片 128 維特征，對(duì)于 100 萬(wàn)張圖像，此方法只需要 600M 存儲(chǔ)空間，算法在運(yùn)行時(shí)可以進(jìn)行快速的最近鄰檢索。

更多干貨內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI 前線”，（ID：ai-front）

介紹

隨著深度神經(jīng)網(wǎng)絡(luò)的崛起，尤其是卷積神經(jīng)網(wǎng)絡(luò)，為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了重大突破。大多數(shù)模型是通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練的，需要完整標(biāo)注的大量數(shù)據(jù)集。然而，獲取標(biāo)注數(shù)據(jù)的代價(jià)是十分高的，在某些情況下甚至是不可行的。因此在近幾年，無(wú)監(jiān)督學(xué)習(xí)受到了越來(lái)越多的關(guān)注。

我們非監(jiān)督學(xué)習(xí)的想法源自于對(duì)目標(biāo)識(shí)別任務(wù)的監(jiān)督學(xué)習(xí)結(jié)果的觀察。在 ImageNet 數(shù)據(jù)集上，top-5 分類(lèi)誤差遠(yuǎn)遠(yuǎn)低于 top-1 分類(lèi)誤差，而 softmax 輸出的可能性第二高的結(jié)果與測(cè)試圖像視覺(jué)相關(guān)性極高。

圖 1 對(duì)于一張類(lèi)別為“美洲豹”的圖像，訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類(lèi)器中得分最高的幾類(lèi)往往是視覺(jué)相關(guān)的，例如“美洲虎”和“非洲獵豹”。數(shù)據(jù)中的明顯相似性拉近了這些類(lèi)之間的距離。我們的無(wú)監(jiān)督方法將類(lèi)標(biāo)級(jí)別的監(jiān)督信息應(yīng)用到極致，學(xué)習(xí)出能夠區(qū)分單個(gè)實(shí)例的特征。

我們提出了一個(gè)問(wèn)題：是否能夠通過(guò)純粹的判別學(xué)習(xí)來(lái)得到一個(gè)能夠反應(yīng)實(shí)例間明顯相似性的度量？如果我們學(xué)習(xí)判別不同的實(shí)例，即使沒(méi)有語(yǔ)義類(lèi)別的標(biāo)注，我們也能得到能捕捉實(shí)例間明顯相似性的表示。

然而我們面臨一個(gè)主要的挑戰(zhàn)，即我們現(xiàn)在的“類(lèi)別”數(shù)目，變成了整個(gè)訓(xùn)練集。例如 ImageNet，會(huì)成為 120 萬(wàn)類(lèi)而不是 1000 類(lèi)。單純?cè)?softmax 層擴(kuò)展到更多類(lèi)是不可取的。我們通過(guò)用噪聲對(duì)比估計(jì)（NCE）估計(jì)完整的 softmax 分布，然后通過(guò)近似正則化方法來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。

過(guò)去衡量非監(jiān)督學(xué)習(xí)的有效性通常依賴線性分類(lèi)器，例如 SVM。然而如何能保證通過(guò)訓(xùn)練學(xué)習(xí)到的特征在未知的測(cè)試任務(wù)上是線性可分的呢？

我們認(rèn)為對(duì)于訓(xùn)練和測(cè)試任務(wù)都應(yīng)該采用非參數(shù)的方法。我們將實(shí)例級(jí)判別視作度量學(xué)習(xí)問(wèn)題，其中實(shí)例之間的距離（相似度）以非參數(shù)的方式由特征直接計(jì)算。也就是說(shuō)，每個(gè)實(shí)例的特征被存儲(chǔ)在離散的存儲(chǔ)組中，而不是網(wǎng)絡(luò)中的權(quán)重。在測(cè)試時(shí)，我們使用基于 K- 近鄰（KNN）對(duì)學(xué)習(xí)到的度量進(jìn)行分類(lèi)。我們的訓(xùn)練和測(cè)試是一致的，因?yàn)槟Ｐ偷膶W(xué)習(xí)和評(píng)價(jià)都涉及圖像之間的相同度量空間。實(shí)驗(yàn)結(jié)果顯示，我們的方法在 ImageNet 1K 數(shù)據(jù)庫(kù)上的 top-1 準(zhǔn)確率達(dá)到了 46.5%，在 Places205 數(shù)據(jù)庫(kù)上達(dá)到了 41.6%。

算法模型

我們的目標(biāo)是學(xué)習(xí)一個(gè)無(wú)監(jiān)督內(nèi)嵌函數(shù)：

f 是深度神經(jīng)網(wǎng)絡(luò)，參數(shù)為θ，將圖片 x 映射為特征 v。這一內(nèi)嵌函數(shù)為圖像 x 和 y 的空間引入一個(gè)度量：

一個(gè)好的內(nèi)嵌函數(shù)應(yīng)該能將具有視覺(jué)相似性的圖像映射到度量空間相近的位置。

我們的無(wú)監(jiān)督特征學(xué)習(xí)方法為“實(shí)例級(jí)別判別”。我們將每張圖片實(shí)例視作屬于它自己的一類(lèi)，然后訓(xùn)練分類(lèi)器來(lái)區(qū)分不同的實(shí)例類(lèi)別。

??圖 2 非監(jiān)督特征學(xué)習(xí)方法框圖。我們使用 CNN 的骨干結(jié)構(gòu)將每張圖像編碼成一個(gè)特征矢量，隨后被投影到一個(gè) 128 維的空間，并進(jìn)行 L2 正則化。最優(yōu)特征內(nèi)嵌函數(shù)通過(guò)實(shí)例級(jí)判別學(xué)習(xí)得到，通過(guò)嘗試在 128 維的單位球面上最大程度地分散訓(xùn)練樣本的特征。

非參數(shù) softmax 分類(lèi)器

參數(shù)分類(lèi)器

假設(shè)我們有 n 張圖，屬于 n 類(lèi)，以及它們的特征 v1,…vn。在傳統(tǒng)的參數(shù) softmax 中，對(duì)于圖像 x 的特征 v，它被歸為 i 類(lèi)的概率為： ??

其中 wj 是類(lèi)別 j 的權(quán)重向量，wTv 衡量 v 與 j 類(lèi)實(shí)例的匹配程度。

非參數(shù)分類(lèi)器

公式（1）中，問(wèn)題在于權(quán)重向量 w 作為類(lèi)別原型，阻礙了實(shí)例間的對(duì)比。

我們提出公式（1）的非參數(shù)變體，用 vTv 取代 wTv。那么 v 屬于 i 類(lèi)的概率為： ?

學(xué)習(xí)目標(biāo)就變成了最大化聯(lián)合概率：

?或等同于最小化它的負(fù)對(duì)數(shù)似然值：

存儲(chǔ)組

要計(jì)算（2）式中的概率，需要用到所有圖像的特征。如果每次都對(duì)這些特征進(jìn)行計(jì)算，計(jì)算量太大，我們采取一個(gè)特征存儲(chǔ)組 V 來(lái)存儲(chǔ)特征。假設(shè) fi 為圖像 xi 輸入網(wǎng)絡(luò) fθ的特征，在每一次學(xué)習(xí)迭代中，fi 和網(wǎng)絡(luò)參數(shù)θ通過(guò)隨機(jī)梯度下降優(yōu)化。隨后更新 V 中對(duì)應(yīng)實(shí)例的特征，將 vi 更新為 fi。我們將存儲(chǔ)組 V 中的所有表示初始化為單元隨機(jī)矢量。

從類(lèi)別權(quán)重矢量 wj 到特征表示 vj 的概念變化是很重要的。原始的 softmax 方程中的{wj}只對(duì)訓(xùn)練類(lèi)別有效。因此它們無(wú)法泛化到新類(lèi)別，或者新的實(shí)例。當(dāng)我們?nèi)サ暨@些權(quán)重矢量后，我們的學(xué)習(xí)目標(biāo)完全關(guān)注于特征表示和它所引入的度量，可以在測(cè)試時(shí)用于任何新的實(shí)例。在計(jì)算方面，我們的非參數(shù)方法消除了計(jì)算和存儲(chǔ)權(quán)重矢量梯度的需求，使模型更易擴(kuò)展至大型數(shù)據(jù)應(yīng)用場(chǎng)景。

噪聲對(duì)比估計(jì)

計(jì)算公式（2）中的非參數(shù) softmax 的成本十分高，尤其是類(lèi)別數(shù)量很大時(shí)。因此我們采用噪聲對(duì)比估計(jì)（noise-contrastive estimation，NCE）來(lái)估計(jì)全部的 softmax。

我們將 NCE 進(jìn)行一定的修改，使其更適合我們的模型。為了解決需要與訓(xùn)練集中所有實(shí)例計(jì)算相似度這一難題，我們將多類(lèi)別分類(lèi)問(wèn)題變成一系列二分類(lèi)問(wèn)題，二分類(lèi)任務(wù)需要判別數(shù)據(jù)樣本和噪聲樣本。在我們的模型中，存儲(chǔ)組中的特征 v 對(duì)應(yīng)第 i 個(gè)樣例的概率為：

其中 Zi 是正則化常數(shù)。我們將噪聲分布設(shè)置為均勻分布：

我們假設(shè)噪聲樣本比數(shù)據(jù)樣本要多 m 倍，那么樣本 i 的特征是 v 的后驗(yàn)概率則為：

我們估測(cè)的訓(xùn)練目標(biāo)是最小化數(shù)據(jù)樣本和噪聲樣本的負(fù)對(duì)數(shù)似然分布：

其中 Pd 代表實(shí)際數(shù)據(jù)分布。對(duì)于 Pd，v 是對(duì)應(yīng)圖像 xi 的特征，而對(duì)于 Pn，v’是另外一張圖像的特征，根據(jù)噪聲分布 Pn 隨機(jī)采樣得到。在我們的模型中，v 和 v’都從無(wú)參數(shù)存儲(chǔ)組 V 中采樣得到。

我們將 Zi 視作常數(shù)，通過(guò)蒙特卡洛估計(jì)來(lái)計(jì)算它，以減少計(jì)算量：

NCE 方法將計(jì)算復(fù)雜度從每樣本 O(n) 降到了 O(1)。雖然降低幅度很大，但是我們的實(shí)驗(yàn)依然能夠產(chǎn)生不錯(cuò)的結(jié)果。

近端正則化

與傳統(tǒng)的分類(lèi)不同，我們的每一個(gè)類(lèi)別下只有一個(gè)實(shí)例。因此每一個(gè)訓(xùn)練 epoch 每一類(lèi)都只訪問(wèn)一次。因此，學(xué)習(xí)過(guò)程由于隨機(jī)采樣波動(dòng)會(huì)產(chǎn)生大幅震蕩。我們采用近段優(yōu)化方法并且引入一個(gè)額外項(xiàng)鼓勵(lì)訓(xùn)練機(jī)制的平滑性。在第 t 次迭代時(shí)，數(shù)據(jù) xi 的特征表示從網(wǎng)絡(luò)中計(jì)算得到：

所有表示的存儲(chǔ)組存儲(chǔ)在上一次迭代中：

對(duì)于 Pd 中的正樣本，損失函數(shù)為：

隨著學(xué)習(xí)收斂，不同迭代之間的差距逐漸消失，增加的損失減少至最原始的一個(gè)。通過(guò)近段正則化，我們最終的目標(biāo)函數(shù)變?yōu)椋?/p>

圖 3 近段正則化的效果。原始的目標(biāo)函數(shù)值震蕩幅度很大，并且收斂很慢，而正則化的目標(biāo)函數(shù)則有更平滑的學(xué)習(xí)動(dòng)態(tài)。

加權(quán) k- 最近鄰分類(lèi)器

要分類(lèi)測(cè)試圖像 x，我們首先計(jì)算它的特征 f=fθ(x)，然后將它和存儲(chǔ)組中的所有圖像的內(nèi)嵌函數(shù)對(duì)比，使用余弦相似度 si=cos(vi, f)。前 k 個(gè)近鄰，用 Nk 表示，隨后被用于加權(quán)投票進(jìn)行預(yù)測(cè)。類(lèi)別 c 會(huì)獲得一個(gè)總權(quán)重：

其中αi 是近鄰 xi 的貢獻(xiàn)權(quán)重，與相似度相關(guān)。

實(shí)驗(yàn)

我們通過(guò) 4 組實(shí)驗(yàn)來(lái)驗(yàn)證我們的方法。第一組是在 CIFAR-10 數(shù)據(jù)庫(kù)上，對(duì)比我們的非參數(shù) softmax 和參數(shù) softmax。第二組在 ImageNet 上，與其他無(wú)監(jiān)督學(xué)習(xí)方法對(duì)比。最后兩組實(shí)驗(yàn)分別進(jìn)行半監(jiān)督學(xué)習(xí)和目標(biāo)檢測(cè)任務(wù)，以證明我們的方法學(xué)習(xí)到的特征的泛化能力。

參數(shù) vs. 非參數(shù) softmax

我們?cè)?CIFAR-10 數(shù)據(jù)庫(kù)上對(duì)比參數(shù)和非參數(shù)方法，CIFAR-10 含有 50000 個(gè)訓(xùn)練實(shí)例，一共 10 類(lèi)。我們使用 ResNet18 作為主干網(wǎng)絡(luò)，將其輸出特征映射成 128 維矢量。我們基于學(xué)習(xí)到的特征表示來(lái)評(píng)價(jià)分類(lèi)有效性。常用方法是用學(xué)習(xí)到的特征訓(xùn)練一個(gè) SVM 分類(lèi)器，然后通過(guò)對(duì)網(wǎng)絡(luò)提取的特征進(jìn)行分類(lèi)來(lái)對(duì)測(cè)試實(shí)例進(jìn)行分類(lèi)。除此之外，我們使用最近鄰分類(lèi)器來(lái)評(píng)測(cè)學(xué)習(xí)到的特征。后者直接依賴于特征度量，因此能更好地反映特征表示的質(zhì)量。

??表 1 CIFAR-10 數(shù)據(jù)庫(kù)的 top-1 準(zhǔn)確率，通過(guò)對(duì)學(xué)習(xí)到的特征應(yīng)用線性 SVM 和 kNN 分類(lèi)器。我們的非參數(shù) softmax 方法的分類(lèi)效果遠(yuǎn)遠(yuǎn)超過(guò)了參數(shù) softmax 方法，并且隨著 m 的增加，NCE 的估計(jì)也越來(lái)越準(zhǔn)確。

圖像分類(lèi)

方法對(duì)比

我們?cè)?ImageNet ILSVRC 數(shù)據(jù)庫(kù)上學(xué)習(xí)特征表示，然后將我們的方法和其他無(wú)監(jiān)督學(xué)習(xí)代表方法進(jìn)行對(duì)比。

我們選取一個(gè)隨機(jī)初始化的網(wǎng)絡(luò)，和其他無(wú)監(jiān)督學(xué)習(xí)方法，包括自監(jiān)督學(xué)習(xí)、對(duì)抗學(xué)習(xí)、樣例 CNN。由于網(wǎng)絡(luò)結(jié)構(gòu)對(duì)算法表現(xiàn)有很大影響，我們考慮了幾個(gè)經(jīng)典的結(jié)構(gòu)：AlexNet、VGG16、ResNet-18 和 ResNet-50。

我們?cè)u(píng)測(cè)了兩個(gè)不同的方案：（1）對(duì)中層特征用線性 SVM 分類(lèi)。（2）對(duì)輸出特征用 kNN 分類(lèi)器分類(lèi)。

??表 2 ImageNet 數(shù)據(jù)庫(kù) top-1 分類(lèi)準(zhǔn)確率。

從表中可以看出：

利用線性分類(lèi)器對(duì) AlexNet 的中層特征進(jìn)行分類(lèi)時(shí)，我們的方法準(zhǔn)確率達(dá)到了 35%，超過(guò)了所有方法。并且我們的方法隨網(wǎng)絡(luò)深度增加，可以很好的擴(kuò)展。當(dāng)網(wǎng)絡(luò)從 AlexNet 變成 ResNet-50 時(shí)，我們的準(zhǔn)確率達(dá)到了 54%，而用樣例 CNN 結(jié)合 ResNet-101 時(shí)，準(zhǔn)確率也僅有 31.5%。
使用最近鄰分類(lèi)器對(duì)最后的 128 維特征進(jìn)行分類(lèi)時(shí)，我們的方法在 AlexNet、VGG16、ResNet-18 和 ResNet-50 上識(shí)別率分別為 31.3%,、33.9%、41.0% 和 46.5%，與線性分類(lèi)結(jié)果相近，表明了我們學(xué)習(xí)到的特征引入了合理的度量。

特征泛化

我們也研究了學(xué)習(xí)到的特征表示應(yīng)該如何泛化到其他數(shù)據(jù)集。我們?cè)?Places 數(shù)據(jù)庫(kù)上做了另一個(gè)大型實(shí)驗(yàn)。Places 時(shí)場(chǎng)景分類(lèi)數(shù)據(jù)集，包含 2.45M 張訓(xùn)練圖片，共 205 類(lèi)。表 3 對(duì)比了不同方法和不同評(píng)價(jià)策略的結(jié)果。

??表 3 Places 數(shù)據(jù)庫(kù) top-1 分類(lèi)準(zhǔn)確率，直接基于在 ImageNet 上學(xué)習(xí)到的特征，沒(méi)有進(jìn)行任何微調(diào)。

對(duì) conv5 的特征利用線性分類(lèi)器，我們的方法結(jié)合 AlexNet 得到的 top-1 準(zhǔn)確率達(dá)到了 34.5%，用 ResNet-50 準(zhǔn)確率達(dá)到了 45.5%。利用最近鄰分類(lèi)器對(duì) ResNet-50 的最后一層分類(lèi)，得到的準(zhǔn)確率達(dá)到了 41.6%。結(jié)果顯示了我們的方法學(xué)習(xí)到的特征具有良好的泛化能力。

訓(xùn)練和測(cè)試目標(biāo)的連續(xù)性

無(wú)監(jiān)督特征學(xué)習(xí)一直是難點(diǎn)，因?yàn)闇y(cè)試目標(biāo)對(duì)于訓(xùn)練目標(biāo)來(lái)說(shuō)時(shí)不可知的。一個(gè)好的訓(xùn)練目標(biāo)在測(cè)試中會(huì)連續(xù)提升。我們研究了訓(xùn)練損失和測(cè)試準(zhǔn)確率隨迭代次數(shù)的關(guān)系。

圖 4 我們的 kNN 測(cè)試準(zhǔn)確率在 ImageNet 數(shù)據(jù)集上隨訓(xùn)練損失下降而持續(xù)增加，表明我們的無(wú)監(jiān)督學(xué)習(xí)目標(biāo)函數(shù)捕捉到了明顯的相似性，與數(shù)據(jù)的語(yǔ)義標(biāo)注能夠良好匹配。

內(nèi)嵌特征維度

我們研究了內(nèi)嵌特征維度從 32 到 256，算法效果的變化。表 4 顯示，從 32 維開(kāi)始，算法效果持續(xù)上升，在 128 維達(dá)到峰值，在 256 維趨于飽和。

??表 4 ResNet-18 不同內(nèi)嵌特征維度在 ImageNet 數(shù)據(jù)集上對(duì)算法分類(lèi)效果的影響。

訓(xùn)練集大小

我們用 ImageNet 的不同比例的數(shù)據(jù)集訓(xùn)練了不同的特征表示，然后用 kNN 分類(lèi)器在全類(lèi)標(biāo)數(shù)據(jù)集上進(jìn)行驗(yàn)證，研究我們的方法隨數(shù)據(jù)集大小擴(kuò)展的效果。表 5 顯示了我們的特征學(xué)習(xí)方法在更大的數(shù)據(jù)集上效果更好，測(cè)試準(zhǔn)確率隨訓(xùn)練集增大而提高。這一特性對(duì)于有效的非監(jiān)督學(xué)習(xí)方法十分重要，因?yàn)樽匀唤缱畈蝗钡木褪菬o(wú)標(biāo)注數(shù)據(jù)。

??表 5 用 ResNet-18 網(wǎng)絡(luò)在不同大小的訓(xùn)練集上進(jìn)行訓(xùn)練后的分類(lèi)準(zhǔn)確率。

定性樣例研究

??圖 5 展示了用學(xué)習(xí)得到的特征進(jìn)行圖像檢索的結(jié)果。上面 4 行顯示的是最好情況：前 10 個(gè)檢索結(jié)果都與查詢圖片屬于同一類(lèi)。下面 4 行顯示的是最壞的情況：前 10 個(gè)檢索結(jié)果中沒(méi)有一個(gè)與查詢圖片屬于同類(lèi)。然而，即使對(duì)于失敗案例，檢索結(jié)果依然與查詢圖片具有很高的視覺(jué)相似性，這也證明了我們無(wú)監(jiān)督學(xué)習(xí)目標(biāo)函數(shù)的能力。

半監(jiān)督學(xué)習(xí)

我們研究了學(xué)習(xí)到的特征提取網(wǎng)絡(luò)是否可以應(yīng)用于其他任務(wù)，以及它是否可以作為遷移學(xué)習(xí)的一個(gè)好的基礎(chǔ)。一般的半監(jiān)督學(xué)習(xí)方法是首先從大量無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)然后在少量有標(biāo)注類(lèi)標(biāo)上進(jìn)行微調(diào)。我們從 ImageNet 中隨機(jī)選擇一個(gè)子集作為標(biāo)注數(shù)據(jù)，剩下的作為無(wú)標(biāo)注數(shù)據(jù)。我們進(jìn)行半監(jiān)督學(xué)習(xí)，然后在驗(yàn)證集上測(cè)量分類(lèi)準(zhǔn)確率。

我們與 3 個(gè)基準(zhǔn)方法做比較：（1）Scratch，在少量標(biāo)注數(shù)據(jù)上進(jìn)行全監(jiān)督訓(xùn)練。（2）用 Split-brain 進(jìn)行預(yù)訓(xùn)練。（3）用 Colorization 進(jìn)行預(yù)訓(xùn)練。

圖 6 顯示了我們的方法性能明顯優(yōu)于其他方法，并且我們的方法是唯一一個(gè)超過(guò)監(jiān)督學(xué)習(xí)的。當(dāng)標(biāo)注數(shù)據(jù)僅占 1% 時(shí)，我們超過(guò)其他方法 10%，證明了我們從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)到的特征對(duì)于任務(wù)遷移是有效的。

?圖 6 標(biāo)注數(shù)據(jù)比例增加的半監(jiān)督學(xué)習(xí)結(jié)果。我們的方法增加更連貫并且明顯更好。

目標(biāo)檢測(cè)

為了進(jìn)一步評(píng)測(cè)學(xué)習(xí)到的特征的泛化能力，我們將學(xué)習(xí)的網(wǎng)絡(luò)遷移至 PASCAL 目標(biāo)識(shí)別任務(wù)上。從零開(kāi)始訓(xùn)練目標(biāo)識(shí)別網(wǎng)絡(luò)十分困難，常用的方法是在 ImageNet 上預(yù)訓(xùn)練 CNN，然后對(duì)其進(jìn)行微調(diào)。

我們對(duì)比了 3 種設(shè)置（1）直接從頭開(kāi)始訓(xùn)練（2）在 ImageNet 上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練（3）在 ImageNet 或其他數(shù)據(jù)上用各種無(wú)監(jiān)督方法預(yù)訓(xùn)練。

表 6 列出了目標(biāo)檢測(cè)的 mAP。對(duì)于 AlexNet 和 VGG-16，我們的方法 mAP 分別達(dá)到了 48.1% 和 60.5%，與最好的無(wú)監(jiān)督方法不相上下。用 ResNet-50，我們的方法 mAP 達(dá)到了 65.4%，超過(guò)了所有的無(wú)監(jiān)督學(xué)習(xí)方法。這也證明了網(wǎng)絡(luò)變深的時(shí)候，我們的方法可以很好的適應(yīng)。

表 6 目標(biāo)檢測(cè)準(zhǔn)確性，PASCAL VOC 2007 測(cè)試集。

總結(jié)

我們提出了一種無(wú)監(jiān)督的特征學(xué)習(xí)方法，通過(guò)一個(gè)新的非參數(shù) softmax 公式來(lái)最大化實(shí)例之間的區(qū)別。它的動(dòng)機(jī)來(lái)自于監(jiān)督學(xué)習(xí)的能夠得到明顯的圖像相似性這一觀察。我們的實(shí)驗(yàn)結(jié)果表明，我們的方法在 ImageNet 和 Places 上的圖像分類(lèi)效果優(yōu)于目前最先進(jìn)的方法。特征用緊湊的 128 維表示，對(duì)更多的數(shù)據(jù)和更深的網(wǎng)絡(luò)適應(yīng)良好。在半監(jiān)督學(xué)習(xí)和目標(biāo)檢測(cè)任務(wù)上，它也顯示了良好的泛化能力。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：漢無(wú)為 > 《機(jī)器學(xué)習(xí)基礎(chǔ)》

舉報(bào)/認(rèn)領(lǐng)