|
選自Science 作者:D. George等 機(jī)器之心編譯 參與:蔣思源
論文:A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs 論文鏈接:http://science./content/early/2017/10/25/science.aag2612 摘要:從少數(shù)樣本學(xué)習(xí)并泛化至截然不同的情況是人類視覺智能所擁有的能力,這種能力尚未被先進(jìn)的機(jī)器學(xué)習(xí)模型所學(xué)習(xí)到。通過系統(tǒng)神經(jīng)科學(xué)的啟示,我們引入了視覺的概率生成模型,其中基于消息傳送(message-passing)的推斷以統(tǒng)一的方式處理識(shí)別、分割和推理(Reasoning)。該模型表現(xiàn)出優(yōu)秀的泛化和遮擋推理(occlusion-reasoning)能力,并在困難的場(chǎng)景文字識(shí)別基準(zhǔn)任務(wù)上優(yōu)于深度神經(jīng)網(wǎng)絡(luò),且更具有 300 倍的數(shù)據(jù)效率(data efficient)優(yōu)勢(shì)。此外,該模型基本上打破了現(xiàn)代基于文本的驗(yàn)證碼生成方案,即在沒有具體驗(yàn)證碼的啟發(fā)式方法下分割目標(biāo)。我們的模型在通向通用人工智能的路上可能是非常重要的,因?yàn)樗鼜?qiáng)調(diào)了數(shù)據(jù)效率和語(yǔ)意合成性等特性。 圖 1:人類在字母形式感知上的靈活性。(A)人類擅長(zhǎng)解析不熟悉的驗(yàn)證碼。(B)相同的字母可以有非常多的表現(xiàn)形式,上圖都是「A」。(C)對(duì)形狀的感知可以有助于將其解析為相近的目標(biāo)。 圖 2:RCN(Recursive Cortical Network)的結(jié)構(gòu)。 上圖(A)層級(jí)結(jié)構(gòu)生成對(duì)象的輪廓,條件隨機(jī)場(chǎng)(CRF)生成表面外觀。(B)輪廓層級(jí)相同的兩個(gè)子網(wǎng)絡(luò)通過復(fù)制特定父結(jié)點(diǎn)的子結(jié)點(diǎn)特征并連接它們到該父結(jié)點(diǎn)的旁邊分支(laterals)而保持獨(dú)立的分支連接。圖中綠色矩形的結(jié)點(diǎn)是特征「e」的復(fù)制。(C)表征正方形輪廓的三級(jí) RCN,第二級(jí)特征表征著四個(gè)角,而每個(gè)角都使用四個(gè)線段的連接表示。(D)表征字母「A」的四級(jí)網(wǎng)絡(luò)。 圖 4:傳播與特征學(xué)習(xí)的過程。 上圖(A)中的 i 為前向傳播(包括了側(cè)面?zhèn)鞑ィ?,生成多個(gè)字母的假設(shè)展示在輸入圖像中。PreProc 是一組類 Gabor 的濾波器,可以將像素轉(zhuǎn)化為邊緣似然度。ii 為后向傳播和側(cè)面?zhèn)鞑ィ╨ateral propagation)創(chuàng)建的分割掩碼,它可用來(lái)挑選前向傳播的假設(shè),上圖掩碼為「A」。iii 是錯(cuò)誤的假設(shè)「V」正好擬合「A」和「K」的交叉點(diǎn),錯(cuò)誤的假設(shè)需要通過解析來(lái)解決。(iv)可以激活多個(gè)假設(shè)以產(chǎn)生聯(lián)合解釋來(lái)避免字母遮擋情況。(B)第二級(jí)特征上學(xué)習(xí)各種特征。彩色的圓圈表示特征激活,虛線圓圈表示提出的特征。(C)從輪廓領(lǐng)域?qū)W習(xí)邊緣(laterals)。 圖 5:用 RCN 解析驗(yàn)證碼。 上圖(A)為代表性的 ReCAPTCHA 解析方法所給出的前兩個(gè)預(yù)測(cè)結(jié)果,它們的分割與標(biāo)注由兩個(gè)不同的標(biāo)注者完成。(B)在受限的 CAPTCHA 數(shù)據(jù)集上 RCN 和 CNN 的詞準(zhǔn)率。在修改字符間距后,CNN 相比于 RCN 沒有那么多的魯棒性。(C)為不同 CAPTCHA 風(fēng)格的準(zhǔn)確率。(D)為代表性 BotDetect 解析和分割結(jié)果(使用不同顏色表示)。 圖 6:使用少量樣本進(jìn)行訓(xùn)練的 MNIST 分類結(jié)果。 上圖(A)為 RCN、CNN 和 CPM 的 MNIST 分類準(zhǔn)確度。(B)為有損 MNIST 測(cè)試集上的分類準(zhǔn)確度,圖例展示了訓(xùn)練樣本的總數(shù)。(C)為不同 RCN 配置的的 MNIST 分類準(zhǔn)確度。 圖 7:通過 RCN 生成、遮擋推理和場(chǎng)景文字解析。 本文為機(jī)器之心編譯,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。 ?------------------------------------------------ 加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@jiqizhixin.com 投稿或?qū)で髨?bào)道:content@jiqizhixin.com 廣告&商務(wù)合作:bd@jiqizhixin.com |
|
|