何愷明團(tuán)隊(duì)新作ResNext：Instagram圖片預(yù)訓(xùn)練，挑戰(zhàn)ImageNet新精度

工農(nóng)子弟兵 2019-06-25

展開(kāi)全文

【導(dǎo)讀】近日，何愷明團(tuán)隊(duì)所在的Facebook AI推出ResNeXt-101模型，利用Instagram上的用戶(hù)標(biāo)記圖片作為預(yù)訓(xùn)練數(shù)據(jù)集，省去了人工標(biāo)記數(shù)據(jù)的巨額成本，而且使用中只需微調(diào)，性能即超越了ImageNet任務(wù)的SOTA水平。

目前，幾乎所有最先進(jìn)的視覺(jué)感知算法都依賴(lài)于相同的范式：（1）在手動(dòng)注釋的大型圖像分類(lèi)數(shù)據(jù)集上預(yù)訓(xùn)練卷積網(wǎng)絡(luò)，（2）在較小的特定任務(wù)的數(shù)據(jù)集上微調(diào)網(wǎng)絡(luò)。這個(gè)模式已經(jīng)廣泛使用了好多年，并取得了明顯的進(jìn)展。比如：物體檢測(cè)，語(yǔ)義分割，人體姿勢(shì)估計(jì)，視頻識(shí)別，單眼深度估計(jì)等。

事實(shí)上，如果沒(méi)有有監(jiān)督式預(yù)訓(xùn)練，很多方法現(xiàn)在還被認(rèn)為是一種蠻干 ImageNet數(shù)據(jù)集實(shí)際上是預(yù)訓(xùn)練數(shù)據(jù)集。我們現(xiàn)在實(shí)際上對(duì)數(shù)據(jù)集的預(yù)訓(xùn)練了解相對(duì)較少。其原因很多：比如現(xiàn)存的預(yù)訓(xùn)練數(shù)據(jù)集數(shù)量很少，構(gòu)建新數(shù)據(jù)集是勞動(dòng)密集型的工作，需要大量的計(jì)算資源來(lái)進(jìn)行實(shí)驗(yàn)。然而，鑒于預(yù)訓(xùn)練過(guò)程在機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的核心作用，擴(kuò)大我們?cè)谶@一領(lǐng)域的科學(xué)知識(shí)是非常重要的。

本文試圖通過(guò)研究一個(gè)未開(kāi)發(fā)的數(shù)據(jù)體系來(lái)解決這個(gè)復(fù)雜的問(wèn)題：使用外部社交媒體上數(shù)十億的帶有標(biāo)簽的圖像作為數(shù)據(jù)源。該數(shù)據(jù)源具有大而且不斷增長(zhǎng)的優(yōu)點(diǎn)，而且是“免費(fèi)”注釋的，因?yàn)閿?shù)據(jù)不需要手動(dòng)標(biāo)記。顯而易見(jiàn)，對(duì)這些數(shù)據(jù)的訓(xùn)練將產(chǎn)生良好的遷移學(xué)習(xí)結(jié)果。

本文的主要成果是，在不使用手動(dòng)數(shù)據(jù)集管理或復(fù)雜的數(shù)據(jù)清理的情況下，利用數(shù)千個(gè)不同主題標(biāo)簽作為標(biāo)記的數(shù)十億幅Instagram圖像進(jìn)行訓(xùn)練的模型，表現(xiàn)出了優(yōu)異的傳輸學(xué)習(xí)性能。在目標(biāo)檢測(cè)和圖像分類(lèi)任務(wù)上實(shí)現(xiàn)了對(duì)當(dāng)前SOTA性能的提升。在ImageNet-1k圖像分類(lèi)數(shù)據(jù)集上獲得single-crop 最高準(zhǔn)確率達(dá)到了85.4%，AP達(dá)到了45.2%。當(dāng)在ImageNet-1k上訓(xùn)練（或預(yù)訓(xùn)練）相同模型時(shí)，分?jǐn)?shù)分別為79.8％和43.7％。然而，我們的主要目標(biāo)是提供關(guān)于此前未開(kāi)發(fā)的制度的新實(shí)驗(yàn)數(shù)據(jù)。為此，我們進(jìn)行了大量實(shí)驗(yàn)，揭示了一些有趣的趨勢(shì)。

表1：圖像分類(lèi)數(shù)據(jù)集的摘要。每個(gè)數(shù)據(jù)集標(biāo)明數(shù)據(jù)來(lái)源和功能（訓(xùn)練集，驗(yàn)證集，測(cè)試集），圖像數(shù)量I和標(biāo)簽數(shù)量L。

ImageNet數(shù)據(jù)集和模型

除了標(biāo)準(zhǔn)的IN-1k數(shù)據(jù)集之外，我們還嘗試了包含1420萬(wàn)幅圖像和22000標(biāo)簽的完整ImageNet2011完整版本的更大子集。我們構(gòu)建了包含5k和9k標(biāo)簽的訓(xùn)練集和驗(yàn)證集。

對(duì)于5k標(biāo)簽集組，我們使用現(xiàn)在標(biāo)準(zhǔn)的IN-5k（6.6M訓(xùn)練圖像）。對(duì)于9k標(biāo)簽集，我們遵循用于構(gòu)建IN-5k數(shù)據(jù)集的相同協(xié)議，采用下一個(gè)最頻繁的4k標(biāo)簽和所有相關(guān)圖像（10.5M訓(xùn)練圖像）。在兩種情況下，均使用50個(gè)圖像進(jìn)行驗(yàn)證。

我們使用具有分組卷積層的殘差網(wǎng)絡(luò)ResNeXt 。實(shí)驗(yàn)中使用ResNeXt-101 32×Cd，它有101層，32組，組寬分別為：4（8B乘加FLOPs，43M參數(shù)），8（16B，88M），16（36B，193M）， 32（87B，466M）和48（153B，829M）。我們認(rèn)為實(shí)驗(yàn)結(jié)果可以推廣到其他架構(gòu)。

與ImageNet相比，我們使用的Instagram數(shù)據(jù)集可能包含每個(gè)圖像的多個(gè)標(biāo)簽（因?yàn)橛脩?hù)指定了多個(gè)主題標(biāo)簽）。每個(gè)圖像的平均標(biāo)簽數(shù)量因數(shù)據(jù)集而異;例如，train-IG-1B-17k每個(gè)圖像最多包含2個(gè)主題標(biāo)簽。

實(shí)驗(yàn)結(jié)果與性能

表2：使用不同規(guī)模、不同參數(shù)配置的ResNeXt-101模型獲得的不同性能結(jié)果比較

圖1：使用不同規(guī)模和參數(shù)配置的ResNeXt-101模型在ImageNet和Instagram標(biāo)記數(shù)據(jù)集的分類(lèi)性能的比較

運(yùn)行實(shí)例及相關(guān)代碼

# Download an example image from the pytorch website
import urllib
url, filename = ('https://github.com/pytorch/hub/raw/master/dog.jpg', 'dog.jpg')
try: urllib.URLopener().retrieve(url, filename)
except: urllib.request.urlretrieve(url, filename)

# sample execution (requires torchvision)
from PIL import Image
from torchvision import transforms
input_image = Image.open(filename)
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
input_tensor = preprocess(input_image)
input_batch = input_tensor.unsqueeze(0) # create a mini-batch as expected by the model

# move the input and model to GPU for speed if available
if torch.cuda.is_available():
    input_batch = input_batch.to('cuda')
    model.to('cuda')

with torch.no_grad():
    output = model(input_batch)
# Tensor of shape 1000, with confidence scores over Imagenet's 1000 classes
print(output[0])
# The output has unnormalized scores. To get probabilities, you can run a softmax on it.
print(torch.nn.functional.softmax(output[0], dim=0))

參考鏈接：

https://pytorch.org/hub/facebookresearch_WSL-Images_resnext/

論文：

https:///pdf/1805.00932.pdf

來(lái)源：PyTorch,arxiv,新智元

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：工農(nóng)子弟兵 > 《文件夾1》

舉報(bào)/認(rèn)領(lǐng)