腦極體：用AlphaGo退役后的兩個月，讀懂DeepMind的陽謀

葉老師YP 2017-07-26

展開全文

一般來說，某個企業(yè)在推出一個特別成功的產(chǎn)品后，CEO都會冠冕堂皇風(fēng)輕云淡的說一句“這只是一個開始”。大家也知道，這基本是套話。

但培養(yǎng)出AlphaGo這個年度人工智能標(biāo)簽的DeepMind好像有點實誠。按理來說，AlphaGo贏了柯潔之后，DeepMind應(yīng)該好好休養(yǎng)生息一陣，融融資招招人，過一陣再憋個大招出來——贏了李世乭之后他們確實就是這么干的。

但DeepMind這種氣質(zhì)奇特的公司顯然不能讓你猜中套路。他們的CEO在AlphaGo退役時表示”這只是個開始“，然后居然就誠實地開動了。

從五月末AlphaGo退役到現(xiàn)在，正好經(jīng)過了兩個月，這兩個月里DeepMind發(fā)表論文、公開新技術(shù)和討論AI未來的次數(shù)都創(chuàng)下了記錄，差不多每五天就會有一篇新論文面世。而且其中干貨很多，涉及到不少AI的關(guān)鍵領(lǐng)域和空白領(lǐng)域。

在腦極體小伙伴們經(jīng)歷了痛苦（真的非常痛苦）的學(xué)習(xí)過程之后，得出結(jié)論是大部分AI關(guān)注者篇篇不落地閱讀這些內(nèi)容近乎不可能。所以我們希望能用這篇文章總結(jié)一下DeepMind兩個月中都做了哪些事，并且用相對容易理解的方式把這些事串起來。

當(dāng)然，更重要的是，我們注意到DeepMind在涉及眾多領(lǐng)域的論文背后，似乎蘊藏著一定的關(guān)聯(lián)性和核心目標(biāo)。這有點像圍棋里的布局，每個棋子都是獨立的，但他們合在一起卻是一個局。

大部分棋類游戲都是一種陽謀，一切信息都是公開的，計算藏在更深的地方。DeepMind今天在做的，好像也有點這個意思。

復(fù)雜環(huán)境處理：AI走出論文的第一步

任何技術(shù)都有其目的。按照目標(biāo)差異來分類，可以把DeepMind最近公布的新技術(shù)分為兩種（當(dāng)然不可能特別準(zhǔn)確）：一是復(fù)雜環(huán)境處理，二是AI對人類大腦獨有能力的模仿。

DeepMind最新一篇論文，是剛剛發(fā)表在ICML 2017上的。這篇名叫《強化學(xué)習(xí)的一個分布視角》的論文（這還屬于比較友善的論文名）中，DeepMind提出了在強化學(xué)習(xí)系統(tǒng)的訓(xùn)練中加入一個新的變量：隨機性。

此前的強化學(xué)習(xí)訓(xùn)練，基本是讓強化學(xué)習(xí)來預(yù)測平均值。比如基于你玩游戲的數(shù)據(jù)，來預(yù)測你這一次游戲什么時候會輸?shù)?。但在游戲中，更多時候出現(xiàn)的是隨機情況來影響結(jié)果：操作失誤、忘記某些要素，甚至停電....針對這些隨機現(xiàn)象，顯然平均值的預(yù)測就沒用了。這篇論文里，DeepMind提出讓強化學(xué)習(xí)來預(yù)測變體的所有可能。比如預(yù)測出行時間時，正常情況要多久、下雨了要多久、車輛出現(xiàn)事故要多久。一旦出現(xiàn)隨機事件帶來的峰值，AI就會針對性建模，強化學(xué)習(xí)系統(tǒng)也就可以重新預(yù)測結(jié)果。

點擊播放GIF/1006K

（強化學(xué)習(xí)系統(tǒng)測算各種輸?shù)粲螒虻目赡苄裕?/p>

這種被稱為“價值分布”算法的最大啟發(fā)，是將強化學(xué)習(xí)放置在了充滿可能性的環(huán)境里，根據(jù)每一種變化來開啟不同的對應(yīng)訓(xùn)練。而這種模式指向的核心問題就是：AI在面對復(fù)雜環(huán)境時如何應(yīng)對。

相較于剛剛這篇論文，不久前DeepMind還發(fā)布了另一篇更知名的論文。之所以出名，是因為這篇名叫《豐富環(huán)境下運動行為的出現(xiàn)》的論文，干了一件很有意思的事：讓AI學(xué)跑酷。

說是跑酷，結(jié)果卻不怎么酷。根據(jù)論文中給出的結(jié)果，這些AI小人兒跑的有點像《進擊的巨人》，因此有不少媒體嘲笑其結(jié)果不理想，或者說勉強湊合。

點擊播放GIF/1361K

（進擊的強化學(xué)習(xí)君）

但這種評價有點站在人類立場的想當(dāng)然。根據(jù)DeepMind給出的資料，他們在實驗中沒有給出復(fù)雜的獎勵機制：比如挺胸抬頭加分、姿勢優(yōu)美加分等等，而是制定了以通過為唯一目標(biāo)的簡單獎勵機制。在布滿了落崖、障礙物，甚至墻壁的關(guān)卡里，強化學(xué)習(xí)系統(tǒng)完全憑借自己的分析能力來制定應(yīng)對策略。結(jié)果證明，簡單指令下AI也可以應(yīng)對復(fù)雜的環(huán)境并且完成目標(biāo)。

這個實驗的目的，在于測試強化學(xué)習(xí)如何適應(yīng)陌生的復(fù)雜環(huán)境。如果說上面介紹的那篇論文在于應(yīng)對過程中的復(fù)雜性，這篇就是在應(yīng)對瞬間出現(xiàn)的復(fù)雜情況。

這里面運用的一個核心技術(shù)，是多任務(wù)強化學(xué)習(xí)。而有意思的是，DeepMind也在不久前公布了新的多任務(wù)學(xué)習(xí)框架Distral。這個系統(tǒng)的原理是利用提取學(xué)習(xí)和遷移學(xué)習(xí)相結(jié)合，在不共享參數(shù)的前提下提取多個任務(wù)之間的共同點，然后利用遷移學(xué)習(xí)來同步處理。多任務(wù)學(xué)習(xí)是AI應(yīng)對復(fù)雜環(huán)境的基礎(chǔ)。這個新系統(tǒng)可以說是復(fù)雜環(huán)境處理的底層基石。

從以上內(nèi)容不難看出，DeepMind目前主攻方向之一就是AI如何處理復(fù)雜的問題和環(huán)境。兩個月中，他們討論了多種復(fù)雜環(huán)境的算法和技術(shù)支撐。

這么做的意義在于，真實世界中的AI應(yīng)用，是很難出現(xiàn)簡單環(huán)境和簡單目標(biāo)的。AI處理復(fù)雜問題，是強化學(xué)習(xí)這種深度AI從論文走向現(xiàn)實的第一步。

認(rèn)知、推理和想象：不像人叫什么人工智能？

上周，DeepMind老大哈薩比斯親自出馬發(fā)表了一篇論文。有意思的是該文章并不是發(fā)表在人工智能領(lǐng)域的期刊上，而是發(fā)表在神經(jīng)醫(yī)學(xué)領(lǐng)域的最高規(guī)格刊物《神經(jīng)》當(dāng)中。

這篇文章哈薩比斯討論的核心問題是，人工智能想要發(fā)揮最大可能性，唯一的方法是回到神經(jīng)科學(xué)領(lǐng)域，深入鉆研人類大腦。

這個不妨回到那個本原命題：到底什么是人工智能？有人說機器學(xué)習(xí)是人工智能，有人說人機交互是人工智能，但這顯然都是從結(jié)果去逆推初衷。從這個名字就知道，只有一種東西是人工智能，那就是模仿人類智能的智能。

哈薩比斯認(rèn)為，現(xiàn)在雖然人工智能成果大量爆發(fā)，但這些算法和技術(shù)大多只能解決一個問題：機器學(xué)習(xí)只能承擔(dān)一個任務(wù)、自然語言處理只能完成語音方面的交互、機器視覺只能辨認(rèn)單一目標(biāo)，這些能力水平絕不是類人的智能體。

這些所謂的人工智能，距離真正像人類大腦一樣去感知、思考、分析、想象，還差著十萬八千里，甚至根本還沒上路。

哈薩比斯在文章中感嘆，兼具神經(jīng)科學(xué)和人工智能特長的人才太難得了。顯然展示了DeepMind的一個核心思路：回到人類大腦，制造像人一樣的人工智能。

而他們確實也是這樣做的。比如在6月初，DeepMind公布了兩篇論文。雖然這兩篇文章研究的領(lǐng)域差別非常大，一篇是大體可以歸于計算機視覺的《視覺互動網(wǎng)絡(luò)》，一篇是神經(jīng)網(wǎng)絡(luò)領(lǐng)域的《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡(luò)模塊》，但這兩篇文章指向的核心卻是一個：讓AI學(xué)會推理。

推理能力，尤其是基于人類感知方式（比如視覺資料）的推理能力，是機器培養(yǎng)類人智能的核心方向。

《視覺互動網(wǎng)絡(luò)》中提出了同名網(wǎng)絡(luò)模型 VIN，這種神經(jīng)網(wǎng)絡(luò)由一個視覺模塊和一個現(xiàn)實推理模塊組成。前者能夠接受并處理視覺信息，而后者可以預(yù)測不同物體在物理規(guī)律下會發(fā)生的情況。就像人腦能夠根據(jù)車輛距離的遠(yuǎn)近和行駛快慢來推理避讓方式一樣，VIN也能達到類似的效果。

點擊播放GIF/986K

（左邊是真實結(jié)果，右邊是VIN的預(yù)測）

《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡(luò)模塊》則描述了模塊化的、具有關(guān)系推理能力的神經(jīng)網(wǎng)絡(luò)架構(gòu) RN（關(guān)系網(wǎng)絡(luò)）。這種神經(jīng)網(wǎng)絡(luò)算法可以模擬大腦推理的過程，可以處理例如“在一堆幾何圖形中，灰色圖形和形狀相同的圖形有幾個？”這一類涉及關(guān)系推理的問題。更強大的地方在于，RN可以適配到其他神經(jīng)網(wǎng)絡(luò)算法中，也就是說它像游戲中的一個裝備，裝備它可以給其他AI提升推理能力。

在推理能力以上，人類更高級的能力叫做想象。而DeepMind也沒有放過這個領(lǐng)域。前不久，DeepMind又又又有兩篇論文，分別是《深度強化學(xué)習(xí)中的想象力增強劑》和《從零開始的學(xué)習(xí)模型規(guī)劃》，這兩篇論文里，DeepMind按照其不可救藥的玩游戲傳統(tǒng)。在推箱子等游戲中展示了讓深度學(xué)習(xí)系統(tǒng)通過簡單數(shù)據(jù)進行抽象推理和長期規(guī)劃的能力——基本也就是人類所說的想象力。

（借助想象增強能力，AI系統(tǒng)可以一次性規(guī)劃出推箱子的步驟）

這種解決方案的原理，是讓深度學(xué)習(xí)系統(tǒng)通過對環(huán)境信息的內(nèi)部模擬，進行粗淺的策略判斷。然后通過多條想象軌跡來構(gòu)思解決策略，最終選擇最優(yōu)解決方式。

事實上，AlphaGo在下圍棋的時候就是用類似的方式來進行局面判斷。但相對于圍棋的規(guī)則嚴(yán)謹(jǐn)性，在游戲里關(guān)卡是隨機生成的，規(guī)則自然也是相對開放和變化的，給AI想象力帶來的挑戰(zhàn)也就更大。

除了鉆研推理、想象這種讓AI學(xué)習(xí)人類解決問題的能力。DeepMind還借助于心理學(xué)，探索起了讓AI模仿人類認(rèn)知的可能性。6月末的一篇論文里，DeepMind提出利用名叫“匹配網(wǎng)絡(luò)”（Matching Network）的神經(jīng)網(wǎng)絡(luò)模型，記憶并且提煉出AI是如何進行判斷的。

這個實驗的意義在于，未來可能會利用成熟的技術(shù)，讓AI去解釋甚至理解自己的行為，甚至闡述自身在做選擇時表現(xiàn)出的偏好。

這種技術(shù)的未來想象空間可就厲害了，只知道能完成任務(wù)的是機器和奴隸。會思考自己為什么完成任務(wù)，甚至解釋自己完成任務(wù)的方法，可就距離獨立思考的人類不遠(yuǎn)了。

在認(rèn)知能力之外，DeepMind還在這個月提出了名叫SCAN（符號概念關(guān)聯(lián)網(wǎng)絡(luò)）的神經(jīng)網(wǎng)絡(luò)。它的作用是模仿人類的感官，讓AI從真實世界接受信息。這個網(wǎng)絡(luò)模型有哈薩比斯親自參與，重要程度也可見一斑。

短短兩個月里，DeepMind在模擬人類大腦與神經(jīng)系統(tǒng)工作當(dāng)中，先后發(fā)布了對應(yīng)感官、認(rèn)知心理、推理能力、想象力的技術(shù)和算法。模擬人類大腦和神經(jīng)系統(tǒng)，估計已經(jīng)成為了這家公司一個全面戰(zhàn)略目標(biāo)。

而無論是第一步的復(fù)雜環(huán)境處理，還是升級版的類人智能，都指向著唯一的目標(biāo)：通用。

通用，一切為了通用

我們知道，人工智能的最高階形式被稱為通用智能。這種形態(tài)的智能，不是解決單一目標(biāo)：比如語音處理、圖像處理、駕駛輔助，而是像人一樣全面思考和反作用于真實世界。

這種說法可能過于科幻，但從非?，F(xiàn)實的角度出發(fā)，人工智能想要擺脫其他智能硬件的附屬者身份，走向獨立完成任務(wù)，并且比人類操作機器更有優(yōu)勢，就必須能夠像人一樣判斷真實世界的復(fù)雜環(huán)境，進行各種各樣的判斷、推理、規(guī)劃和想象。

這些能力進化的終點，也許是人工智能開始質(zhì)疑和思考。

但這些能力才是真正有無限商業(yè)潛力的機會。否則人工智能的作用永遠(yuǎn)是提升效率，而不是改變世界的運行規(guī)則和運行結(jié)構(gòu)。

綜合來看，DeepMind應(yīng)該有非常復(fù)雜而且分工明細(xì)的目標(biāo)規(guī)劃。在多個領(lǐng)域同時探索人工智能進一步擬人的可能性。這些能力集合起來，就是一個完整的智能體。

就像AlphaGo其實綜合了DeepMind的大量技術(shù)，才最終達成了超越所有人類棋手的目標(biāo)。將大量擬人的神經(jīng)網(wǎng)絡(luò)能力進行綜合，可能會得到更出色的智能體。這個智能體一定是在DeepMind另一個關(guān)注的核心領(lǐng)域“復(fù)雜環(huán)境”中發(fā)揮作用的——也就是現(xiàn)實世界當(dāng)中。

總之，DeepMind在拆解和逐個攻克通用智能的達成條件，這應(yīng)該是一場陽謀。雖然這場賽跑還很漫長，不知道何時才有結(jié)果面世。但它的結(jié)果，很可能是AI銀行家、AI律師，甚至AI首席執(zhí)行官這種可以全面應(yīng)對多元環(huán)境，并且能夠推理、計劃、深度分析現(xiàn)實世界的“狠角色”，甚至可能是能夠自己發(fā)明AI的AI。

到那時我們或許就會發(fā)現(xiàn)，人類不僅僅是在圍棋上沒有勝算。而是就像哈薩比斯說的：“這只是開始”。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

腦極體：用AlphaGo退役后的兩個月，讀懂DeepMind的陽謀

腦極體：用AlphaGo退役后的兩個月，讀懂DeepMind的陽謀