|
一般來說,某個企業(yè)在推出一個特別成功的產(chǎn)品后,CEO都會冠冕堂皇風(fēng)輕云淡的說一句“這只是一個開始”。大家也知道,這基本是套話。 但培養(yǎng)出AlphaGo這個年度人工智能標(biāo)簽的DeepMind好像有點實誠。按理來說,AlphaGo贏了柯潔之后,DeepMind應(yīng)該好好休養(yǎng)生息一陣,融融資招招人,過一陣再憋個大招出來——贏了李世乭之后他們確實就是這么干的。 但DeepMind這種氣質(zhì)奇特的公司顯然不能讓你猜中套路。他們的CEO在AlphaGo退役時表示”這只是個開始“,然后居然就誠實地開動了。 從五月末AlphaGo退役到現(xiàn)在,正好經(jīng)過了兩個月,這兩個月里DeepMind發(fā)表論文、公開新技術(shù)和討論AI未來的次數(shù)都創(chuàng)下了記錄,差不多每五天就會有一篇新論文面世。而且其中干貨很多,涉及到不少AI的關(guān)鍵領(lǐng)域和空白領(lǐng)域。 在腦極體小伙伴們經(jīng)歷了痛苦(真的非常痛苦)的學(xué)習(xí)過程之后,得出結(jié)論是大部分AI關(guān)注者篇篇不落地閱讀這些內(nèi)容近乎不可能。所以我們希望能用這篇文章總結(jié)一下DeepMind兩個月中都做了哪些事,并且用相對容易理解的方式把這些事串起來。 當(dāng)然,更重要的是,我們注意到DeepMind在涉及眾多領(lǐng)域的論文背后,似乎蘊藏著一定的關(guān)聯(lián)性和核心目標(biāo)。這有點像圍棋里的布局,每個棋子都是獨立的,但他們合在一起卻是一個局。 大部分棋類游戲都是一種陽謀,一切信息都是公開的,計算藏在更深的地方。DeepMind今天在做的,好像也有點這個意思。 復(fù)雜環(huán)境處理:AI走出論文的第一步 任何技術(shù)都有其目的。按照目標(biāo)差異來分類,可以把DeepMind最近公布的新技術(shù)分為兩種(當(dāng)然不可能特別準(zhǔn)確):一是復(fù)雜環(huán)境處理,二是AI對人類大腦獨有能力的模仿。 DeepMind最新一篇論文,是剛剛發(fā)表在ICML 2017上的。這篇名叫《強化學(xué)習(xí)的一個分布視角》的論文(這還屬于比較友善的論文名)中,DeepMind提出了在強化學(xué)習(xí)系統(tǒng)的訓(xùn)練中加入一個新的變量:隨機性。 此前的強化學(xué)習(xí)訓(xùn)練,基本是讓強化學(xué)習(xí)來預(yù)測平均值。比如基于你玩游戲的數(shù)據(jù),來預(yù)測你這一次游戲什么時候會輸?shù)?。但在游戲中,更多時候出現(xiàn)的是隨機情況來影響結(jié)果:操作失誤、忘記某些要素,甚至停電....針對這些隨機現(xiàn)象,顯然平均值的預(yù)測就沒用了。這篇論文里,DeepMind提出讓強化學(xué)習(xí)來預(yù)測變體的所有可能。比如預(yù)測出行時間時,正常情況要多久、下雨了要多久、車輛出現(xiàn)事故要多久。一旦出現(xiàn)隨機事件帶來的峰值,AI就會針對性建模,強化學(xué)習(xí)系統(tǒng)也就可以重新預(yù)測結(jié)果。
(強化學(xué)習(xí)系統(tǒng)測算各種輸?shù)粲螒虻目赡苄裕?/p> 這種被稱為“價值分布”算法的最大啟發(fā),是將強化學(xué)習(xí)放置在了充滿可能性的環(huán)境里,根據(jù)每一種變化來開啟不同的對應(yīng)訓(xùn)練。而這種模式指向的核心問題就是:AI在面對復(fù)雜環(huán)境時如何應(yīng)對。 相較于剛剛這篇論文,不久前DeepMind還發(fā)布了另一篇更知名的論文。之所以出名,是因為這篇名叫《豐富環(huán)境下運動行為的出現(xiàn)》的論文,干了一件很有意思的事:讓AI學(xué)跑酷。 說是跑酷,結(jié)果卻不怎么酷。根據(jù)論文中給出的結(jié)果,這些AI小人兒跑的有點像《進擊的巨人》,因此有不少媒體嘲笑其結(jié)果不理想,或者說勉強湊合。
(進擊的強化學(xué)習(xí)君) 但這種評價有點站在人類立場的想當(dāng)然。根據(jù)DeepMind給出的資料,他們在實驗中沒有給出復(fù)雜的獎勵機制:比如挺胸抬頭加分、姿勢優(yōu)美加分等等,而是制定了以通過為唯一目標(biāo)的簡單獎勵機制。在布滿了落崖、障礙物,甚至墻壁的關(guān)卡里,強化學(xué)習(xí)系統(tǒng)完全憑借自己的分析能力來制定應(yīng)對策略。結(jié)果證明,簡單指令下AI也可以應(yīng)對復(fù)雜的環(huán)境并且完成目標(biāo)。 這個實驗的目的,在于測試強化學(xué)習(xí)如何適應(yīng)陌生的復(fù)雜環(huán)境。如果說上面介紹的那篇論文在于應(yīng)對過程中的復(fù)雜性,這篇就是在應(yīng)對瞬間出現(xiàn)的復(fù)雜情況。 這里面運用的一個核心技術(shù),是多任務(wù)強化學(xué)習(xí)。而有意思的是,DeepMind也在不久前公布了新的多任務(wù)學(xué)習(xí)框架Distral。這個系統(tǒng)的原理是利用提取學(xué)習(xí)和遷移學(xué)習(xí)相結(jié)合,在不共享參數(shù)的前提下提取多個任務(wù)之間的共同點,然后利用遷移學(xué)習(xí)來同步處理。多任務(wù)學(xué)習(xí)是AI應(yīng)對復(fù)雜環(huán)境的基礎(chǔ)。這個新系統(tǒng)可以說是復(fù)雜環(huán)境處理的底層基石。 從以上內(nèi)容不難看出,DeepMind目前主攻方向之一就是AI如何處理復(fù)雜的問題和環(huán)境。兩個月中,他們討論了多種復(fù)雜環(huán)境的算法和技術(shù)支撐。 這么做的意義在于,真實世界中的AI應(yīng)用,是很難出現(xiàn)簡單環(huán)境和簡單目標(biāo)的。AI處理復(fù)雜問題,是強化學(xué)習(xí)這種深度AI從論文走向現(xiàn)實的第一步。 認(rèn)知、推理和想象:不像人叫什么人工智能? 上周,DeepMind老大哈薩比斯親自出馬發(fā)表了一篇論文。有意思的是該文章并不是發(fā)表在人工智能領(lǐng)域的期刊上,而是發(fā)表在神經(jīng)醫(yī)學(xué)領(lǐng)域的最高規(guī)格刊物《神經(jīng)》當(dāng)中。 這篇文章哈薩比斯討論的核心問題是,人工智能想要發(fā)揮最大可能性,唯一的方法是回到神經(jīng)科學(xué)領(lǐng)域,深入鉆研人類大腦。 這個不妨回到那個本原命題:到底什么是人工智能?有人說機器學(xué)習(xí)是人工智能,有人說人機交互是人工智能,但這顯然都是從結(jié)果去逆推初衷。從這個名字就知道,只有一種東西是人工智能,那就是模仿人類智能的智能。 哈薩比斯認(rèn)為,現(xiàn)在雖然人工智能成果大量爆發(fā),但這些算法和技術(shù)大多只能解決一個問題:機器學(xué)習(xí)只能承擔(dān)一個任務(wù)、自然語言處理只能完成語音方面的交互、機器視覺只能辨認(rèn)單一目標(biāo),這些能力水平絕不是類人的智能體。 這些所謂的人工智能,距離真正像人類大腦一樣去感知、思考、分析、想象,還差著十萬八千里,甚至根本還沒上路。 哈薩比斯在文章中感嘆,兼具神經(jīng)科學(xué)和人工智能特長的人才太難得了。顯然展示了DeepMind的一個核心思路:回到人類大腦,制造像人一樣的人工智能。 而他們確實也是這樣做的。比如在6月初,DeepMind公布了兩篇論文。雖然這兩篇文章研究的領(lǐng)域差別非常大,一篇是大體可以歸于計算機視覺的《視覺互動網(wǎng)絡(luò)》,一篇是神經(jīng)網(wǎng)絡(luò)領(lǐng)域的《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡(luò)模塊》,但這兩篇文章指向的核心卻是一個:讓AI學(xué)會推理。 推理能力,尤其是基于人類感知方式(比如視覺資料)的推理能力,是機器培養(yǎng)類人智能的核心方向。 《視覺互動網(wǎng)絡(luò)》中提出了同名網(wǎng)絡(luò)模型 VIN,這種神經(jīng)網(wǎng)絡(luò)由一個視覺模塊和一個現(xiàn)實推理模塊組成。前者能夠接受并處理視覺信息,而后者可以預(yù)測不同物體在物理規(guī)律下會發(fā)生的情況。就像人腦能夠根據(jù)車輛距離的遠(yuǎn)近和行駛快慢來推理避讓方式一樣,VIN也能達到類似的效果。
(左邊是真實結(jié)果,右邊是VIN的預(yù)測) 《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡(luò)模塊》則描述了模塊化的、具有關(guān)系推理能力的神經(jīng)網(wǎng)絡(luò)架構(gòu) RN(關(guān)系網(wǎng)絡(luò))。這種神經(jīng)網(wǎng)絡(luò)算法可以模擬大腦推理的過程,可以處理例如“在一堆幾何圖形中,灰色圖形和形狀相同的圖形有幾個?”這一類涉及關(guān)系推理的問題。更強大的地方在于,RN可以適配到其他神經(jīng)網(wǎng)絡(luò)算法中,也就是說它像游戲中的一個裝備,裝備它可以給其他AI提升推理能力。 在推理能力以上,人類更高級的能力叫做想象。而DeepMind也沒有放過這個領(lǐng)域。前不久,DeepMind又又又有兩篇論文,分別是《深度強化學(xué)習(xí)中的想象力增強劑》和《從零開始的學(xué)習(xí)模型規(guī)劃》,這兩篇論文里,DeepMind按照其不可救藥的玩游戲傳統(tǒng)。在推箱子等游戲中展示了讓深度學(xué)習(xí)系統(tǒng)通過簡單數(shù)據(jù)進行抽象推理和長期規(guī)劃的能力——基本也就是人類所說的想象力。 (借助想象增強能力,AI系統(tǒng)可以一次性規(guī)劃出推箱子的步驟) 這種解決方案的原理,是讓深度學(xué)習(xí)系統(tǒng)通過對環(huán)境信息的內(nèi)部模擬,進行粗淺的策略判斷。然后通過多條想象軌跡來構(gòu)思解決策略,最終選擇最優(yōu)解決方式。 事實上,AlphaGo在下圍棋的時候就是用類似的方式來進行局面判斷。但相對于圍棋的規(guī)則嚴(yán)謹(jǐn)性,在游戲里關(guān)卡是隨機生成的,規(guī)則自然也是相對開放和變化的,給AI想象力帶來的挑戰(zhàn)也就更大。 除了鉆研推理、想象這種讓AI學(xué)習(xí)人類解決問題的能力。DeepMind還借助于心理學(xué),探索起了讓AI模仿人類認(rèn)知的可能性。6月末的一篇論文里,DeepMind提出利用名叫“匹配網(wǎng)絡(luò)”(Matching Network)的神經(jīng)網(wǎng)絡(luò)模型,記憶并且提煉出AI是如何進行判斷的。 這個實驗的意義在于,未來可能會利用成熟的技術(shù),讓AI去解釋甚至理解自己的行為,甚至闡述自身在做選擇時表現(xiàn)出的偏好。 這種技術(shù)的未來想象空間可就厲害了,只知道能完成任務(wù)的是機器和奴隸。會思考自己為什么完成任務(wù),甚至解釋自己完成任務(wù)的方法,可就距離獨立思考的人類不遠(yuǎn)了。 在認(rèn)知能力之外,DeepMind還在這個月提出了名叫SCAN(符號概念關(guān)聯(lián)網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò)。它的作用是模仿人類的感官,讓AI從真實世界接受信息。這個網(wǎng)絡(luò)模型有哈薩比斯親自參與,重要程度也可見一斑。 短短兩個月里,DeepMind在模擬人類大腦與神經(jīng)系統(tǒng)工作當(dāng)中,先后發(fā)布了對應(yīng)感官、認(rèn)知心理、推理能力、想象力的技術(shù)和算法。模擬人類大腦和神經(jīng)系統(tǒng),估計已經(jīng)成為了這家公司一個全面戰(zhàn)略目標(biāo)。 而無論是第一步的復(fù)雜環(huán)境處理,還是升級版的類人智能,都指向著唯一的目標(biāo):通用。 通用,一切為了通用 我們知道,人工智能的最高階形式被稱為通用智能。這種形態(tài)的智能,不是解決單一目標(biāo):比如語音處理、圖像處理、駕駛輔助,而是像人一樣全面思考和反作用于真實世界。 這種說法可能過于科幻,但從非?,F(xiàn)實的角度出發(fā),人工智能想要擺脫其他智能硬件的附屬者身份,走向獨立完成任務(wù),并且比人類操作機器更有優(yōu)勢,就必須能夠像人一樣判斷真實世界的復(fù)雜環(huán)境,進行各種各樣的判斷、推理、規(guī)劃和想象。 這些能力進化的終點,也許是人工智能開始質(zhì)疑和思考。 但這些能力才是真正有無限商業(yè)潛力的機會。否則人工智能的作用永遠(yuǎn)是提升效率,而不是改變世界的運行規(guī)則和運行結(jié)構(gòu)。 綜合來看,DeepMind應(yīng)該有非常復(fù)雜而且分工明細(xì)的目標(biāo)規(guī)劃。在多個領(lǐng)域同時探索人工智能進一步擬人的可能性。這些能力集合起來,就是一個完整的智能體。 就像AlphaGo其實綜合了DeepMind的大量技術(shù),才最終達成了超越所有人類棋手的目標(biāo)。將大量擬人的神經(jīng)網(wǎng)絡(luò)能力進行綜合,可能會得到更出色的智能體。這個智能體一定是在DeepMind另一個關(guān)注的核心領(lǐng)域“復(fù)雜環(huán)境”中發(fā)揮作用的——也就是現(xiàn)實世界當(dāng)中。 總之,DeepMind在拆解和逐個攻克通用智能的達成條件,這應(yīng)該是一場陽謀。雖然這場賽跑還很漫長,不知道何時才有結(jié)果面世。但它的結(jié)果,很可能是AI銀行家、AI律師,甚至AI首席執(zhí)行官這種可以全面應(yīng)對多元環(huán)境,并且能夠推理、計劃、深度分析現(xiàn)實世界的“狠角色”,甚至可能是能夠自己發(fā)明AI的AI。 到那時我們或許就會發(fā)現(xiàn),人類不僅僅是在圍棋上沒有勝算。而是就像哈薩比斯說的:“這只是開始”。 |
|
|