學(xué)界 | Vicarious發(fā)表Science論文：概率生成模型超越神經(jīng)網(wǎng)絡(luò)

自然大道張 2017-10-28 發(fā)布于天津

展開全文

選自Science

作者：D. George等

機(jī)器之心編譯

參與：蔣思源

當(dāng)前人工智能的興起主要基于深度學(xué)習(xí)的發(fā)展，但是這種方法并不能讓計(jì)算機(jī)像人類一樣通過學(xué)習(xí)少量樣本就能將知識(shí)泛化到很多種問題中去，這也意味著系統(tǒng)應(yīng)用范圍受限。最近，知名人工智能創(chuàng)業(yè)公司 Vicarious 在 Science 上發(fā)表的研究提出了一種全新概率生成模型。新的模型具有識(shí)別、分割和推理能力，在場(chǎng)景文字識(shí)別等任務(wù)上超過了深度神經(jīng)網(wǎng)絡(luò)。研究人員稱，這種方法或許會(huì)將我們帶向通用人工智能。

論文：A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs

論文鏈接：http://science./content/early/2017/10/25/science.aag2612

摘要：從少數(shù)樣本學(xué)習(xí)并泛化至截然不同的情況是人類視覺智能所擁有的能力，這種能力尚未被先進(jìn)的機(jī)器學(xué)習(xí)模型所學(xué)習(xí)到。通過系統(tǒng)神經(jīng)科學(xué)的啟示，我們引入了視覺的概率生成模型，其中基于消息傳送（message-passing）的推斷以統(tǒng)一的方式處理識(shí)別、分割和推理（Reasoning）。該模型表現(xiàn)出優(yōu)秀的泛化和遮擋推理（occlusion-reasoning）能力，并在困難的場(chǎng)景文字識(shí)別基準(zhǔn)任務(wù)上優(yōu)于深度神經(jīng)網(wǎng)絡(luò)，且更具有 300 倍的數(shù)據(jù)效率（data efficient）優(yōu)勢(shì)。此外，該模型基本上打破了現(xiàn)代基于文本的驗(yàn)證碼生成方案，即在沒有具體驗(yàn)證碼的啟發(fā)式方法下分割目標(biāo)。我們的模型在通向通用人工智能的路上可能是非常重要的，因?yàn)樗鼜?qiáng)調(diào)了數(shù)據(jù)效率和語(yǔ)意合成性等特性。

圖 1：人類在字母形式感知上的靈活性。（A）人類擅長(zhǎng)解析不熟悉的驗(yàn)證碼。（B）相同的字母可以有非常多的表現(xiàn)形式，上圖都是「A」。（C）對(duì)形狀的感知可以有助于將其解析為相近的目標(biāo)。

圖 2：RCN（Recursive Cortical Network）的結(jié)構(gòu)。

上圖（A）層級(jí)結(jié)構(gòu)生成對(duì)象的輪廓，條件隨機(jī)場(chǎng)（CRF）生成表面外觀。（B）輪廓層級(jí)相同的兩個(gè)子網(wǎng)絡(luò)通過復(fù)制特定父結(jié)點(diǎn)的子結(jié)點(diǎn)特征并連接它們到該父結(jié)點(diǎn)的旁邊分支（laterals）而保持獨(dú)立的分支連接。圖中綠色矩形的結(jié)點(diǎn)是特征「e」的復(fù)制。（C）表征正方形輪廓的三級(jí) RCN，第二級(jí)特征表征著四個(gè)角，而每個(gè)角都使用四個(gè)線段的連接表示。（D）表征字母「A」的四級(jí)網(wǎng)絡(luò)。

圖 4：傳播與特征學(xué)習(xí)的過程。

上圖（A）中的 i 為前向傳播（包括了側(cè)面?zhèn)鞑ィ?，生成多個(gè)字母的假設(shè)展示在輸入圖像中。PreProc 是一組類 Gabor 的濾波器，可以將像素轉(zhuǎn)化為邊緣似然度。ii 為后向傳播和側(cè)面?zhèn)鞑ィ╨ateral propagation）創(chuàng)建的分割掩碼，它可用來(lái)挑選前向傳播的假設(shè)，上圖掩碼為「A」。iii 是錯(cuò)誤的假設(shè)「V」正好擬合「A」和「K」的交叉點(diǎn)，錯(cuò)誤的假設(shè)需要通過解析來(lái)解決。（iv）可以激活多個(gè)假設(shè)以產(chǎn)生聯(lián)合解釋來(lái)避免字母遮擋情況。（B）第二級(jí)特征上學(xué)習(xí)各種特征。彩色的圓圈表示特征激活，虛線圓圈表示提出的特征。（C）從輪廓領(lǐng)域?qū)W習(xí)邊緣（laterals）。

圖 5：用 RCN 解析驗(yàn)證碼。

上圖（A）為代表性的 ReCAPTCHA 解析方法所給出的前兩個(gè)預(yù)測(cè)結(jié)果，它們的分割與標(biāo)注由兩個(gè)不同的標(biāo)注者完成。（B）在受限的 CAPTCHA 數(shù)據(jù)集上 RCN 和 CNN 的詞準(zhǔn)率。在修改字符間距后，CNN 相比于 RCN 沒有那么多的魯棒性。（C）為不同 CAPTCHA 風(fēng)格的準(zhǔn)確率。（D）為代表性 BotDetect 解析和分割結(jié)果（使用不同顏色表示）。

圖 6：使用少量樣本進(jìn)行訓(xùn)練的 MNIST 分類結(jié)果。

上圖（A）為 RCN、CNN 和 CPM 的 MNIST 分類準(zhǔn)確度。（B）為有損 MNIST 測(cè)試集上的分類準(zhǔn)確度，圖例展示了訓(xùn)練樣本的總數(shù)。（C）為不同 RCN 配置的的 MNIST 分類準(zhǔn)確度。

圖 7：通過 RCN 生成、遮擋推理和場(chǎng)景文字解析。

本文為機(jī)器之心編譯，轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。

?------------------------------------------------

加入機(jī)器之心（全職記者/實(shí)習(xí)生）：hr@jiqizhixin.com

投稿或?qū)で髨?bào)道：content@jiqizhixin.com

廣告&商務(wù)合作：bd@jiqizhixin.com

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：自然大道張 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)