|
前言:最近朋友圈再一次被Google Deepmind刷屏。他們推出了一個(gè)新的圍棋程序AlphaGo Zero [1],改進(jìn)了之前打敗世界冠軍的程序AlphaGo [2]。AlphaGo Zero號(hào)稱(chēng)完全不需要人類(lèi)先驗(yàn)知識(shí),可以以較短的時(shí)間和較少的計(jì)算資源通過(guò)強(qiáng)化學(xué)習(xí)的方法,從零開(kāi)始,學(xué)習(xí)出一個(gè)新的圍棋界“獨(dú)孤求敗”,再次震驚了學(xué)界和大眾。 作為人工智能領(lǐng)域的同行,雖然我不屬于深度學(xué)習(xí)領(lǐng)域,但仍然為他們?nèi)〉玫某煽?jī)感到歡欣鼓舞。同時(shí),我也希望從人工智能其他領(lǐng)域科研人員的視角,解讀一下AlphaGo Zero的前世、今生及未來(lái)。
本文主要作用是給非計(jì)算機(jī)專(zhuān)業(yè)的讀者們科普,非常歡迎專(zhuān)家們批評(píng)指正。 作者 | 周熠 為什么圍棋對(duì)人工智能很重要? 自人工智能誕生以來(lái),讓機(jī)器自動(dòng)玩智力游戲并尋求戰(zhàn)勝人類(lèi),就一直是人工智能領(lǐng)域追求的重要目標(biāo)之一。因?yàn)橹橇τ螒虮还J(rèn)為是智能的一種具體表現(xiàn),而人工智能的終極目的就是用機(jī)器實(shí)現(xiàn)人類(lèi)(部分)智能。人工智能正式誕生的元年,即1956年,阿瑟·薩繆爾(Arthur Samuel, 1901—1990)就編寫(xiě)一個(gè)程序下西洋跳棋戰(zhàn)勝了他自己;1962年,這個(gè)程序擊敗了一個(gè)美國(guó)的西洋跳棋州冠軍;1994年,一個(gè)新的西洋跳棋程序Chinook戰(zhàn)勝了人類(lèi)總冠軍 [3]。1997年,IBM開(kāi)發(fā)的深藍(lán)擊敗了國(guó)際象棋世界冠軍卡斯帕羅夫,當(dāng)時(shí)也引起了巨大轟動(dòng) [4]。
圖1 阿瑟·薩繆爾 圖片來(lái)源:google 圖2 被Chinook打敗的人類(lèi)冠軍Marion Tinsley 圖片來(lái)源:wikipedia 圖3 深藍(lán)與卡斯帕羅夫?qū)?zhàn)現(xiàn)場(chǎng) 圖片來(lái)源:google 為什么在已經(jīng)證明了機(jī)器下西洋跳棋和國(guó)際象棋比所有人類(lèi)都要厲害的情況下,還要做圍棋?為什么圍棋最受關(guān)注,而不是其他智力游戲,比如五子棋呢?這里最關(guān)鍵的原因在于圍棋的復(fù)雜性。更確切來(lái)講,圍棋是所有大家熟知的智力游戲中,搜索空間最大的,所需要的計(jì)算量也是最大的。 簡(jiǎn)單估算一下,從棋盤(pán)狀態(tài)來(lái)看,圍棋棋盤(pán)是有19*19=361的格子,每個(gè)格子有3種可能性(黑、白、空),所以總共有361^3,將近5千萬(wàn)個(gè)狀態(tài);從下棋步驟角度來(lái)看,即使不算吃子和打劫,第n步有361-n種選擇,所以至少有361!——超過(guò)10^200種可能性,比宇宙原子的總量還要多,也遠(yuǎn)比其他智力游戲(諸如國(guó)際象棋、五子棋等)的搜索空間大很多。所以,圍棋被公認(rèn)為這類(lèi)問(wèn)題中的皇冠,很難被人工智能解決。 圖4 一個(gè)圍棋棋盤(pán)狀態(tài) 圖片來(lái)源:google AlphaGo Zero的前世 AlphaGo Zero并不是石頭里面蹦出來(lái)的孫悟空。在此之前,人工智能界做過(guò)很多努力,也總結(jié)出了很多有效的思路、經(jīng)驗(yàn)和技術(shù)。用機(jī)器來(lái)玩智力游戲,首先的步驟是建模,即把這個(gè)游戲表示成一個(gè)機(jī)器可以處理的問(wèn)題。同西洋跳棋和國(guó)際象棋一樣,圍棋可以被建模成一個(gè)搜索問(wèn)題。更具體一點(diǎn),下棋的步驟可以表示成一個(gè)搜索樹(shù),其中每個(gè)節(jié)點(diǎn)代表一個(gè)棋盤(pán)狀態(tài)。根節(jié)點(diǎn)是空白棋盤(pán),每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)是在當(dāng)前的棋盤(pán)下采取一個(gè)行動(dòng),即再多下一個(gè)棋子,而每一個(gè)葉子節(jié)點(diǎn)是一個(gè)下滿了棋子的棋盤(pán)狀態(tài)。而機(jī)器要做的事情,就是從當(dāng)前節(jié)點(diǎn)中,盡量找到一條路徑,到達(dá)能夠使己方贏的一個(gè)葉子節(jié)點(diǎn)。 圖5 圖片來(lái)源:google 圖6 搜索樹(shù)模型 圖片來(lái)源:google 為了找到路徑,人工智能傳統(tǒng)的解決方案是“搜索”。所使用的技術(shù)包括經(jīng)典的深度優(yōu)先搜索、啟發(fā)式搜索、剪枝等等。這個(gè)方案能解決很多簡(jiǎn)單智力游戲,如八皇后、數(shù)獨(dú)等,但由于計(jì)算量太大,并不能解決復(fù)雜問(wèn)題比如國(guó)際象棋和圍棋。所以,只能退而求其次,在當(dāng)前節(jié)點(diǎn)(即棋盤(pán)狀態(tài))中,找到一個(gè)最優(yōu)或較優(yōu)的子節(jié)點(diǎn)。因此,研究者們提出一個(gè)新的方案——“評(píng)價(jià)”。在這個(gè)方案里面,不再苛求搜索到一條最佳路徑到達(dá)贏的葉子節(jié)點(diǎn),而是對(duì)每一個(gè)節(jié)點(diǎn),估算出一個(gè)最佳的子節(jié)點(diǎn)。也就是說(shuō),對(duì)每一個(gè)當(dāng)前的棋盤(pán)狀態(tài),評(píng)價(jià)出最佳的下一步行動(dòng)。
評(píng)價(jià)的對(duì)象主要有兩種:一是棋盤(pán)狀態(tài)的“策略”,即遇到當(dāng)前狀態(tài),高手(包括人類(lèi)和電腦)都是怎么下的,選擇每一個(gè)子節(jié)點(diǎn)的概率分布如何。其輸入是一個(gè)棋盤(pán)狀態(tài)外加一個(gè)可選的行動(dòng),而其輸出是在當(dāng)前狀態(tài)下選擇該行動(dòng)的概率;二是棋盤(pán)狀態(tài)的“贏面估算”,即每個(gè)子節(jié)點(diǎn)贏的概率有多大。其輸入是一個(gè)棋盤(pán)狀態(tài),而其輸出是這個(gè)狀態(tài)能贏的可能性。在理想的情況下,這兩者應(yīng)該是一致的,即選擇概率高的子節(jié)點(diǎn)贏面就大,反之亦然。然而,實(shí)際上這兩者往往有些差別。
評(píng)價(jià)的方法就五花八門(mén)了,啟發(fā)式函數(shù)、貝葉斯、蒙特卡洛方法、深度學(xué)習(xí)等等,不一而足。這里簡(jiǎn)略介紹一下蒙特卡洛樹(shù)搜索方法 [5]。在AlphaGo Zero中,該方法和深度學(xué)習(xí)至少同樣重要。蒙特卡洛樹(shù)搜索在每個(gè)節(jié)點(diǎn)上做很多次隨機(jī)游戲。每次隨機(jī)游戲隨機(jī)選取一條到達(dá)葉子節(jié)點(diǎn)的路徑,也就是每一步都隨機(jī)落一個(gè)子。最后,該節(jié)點(diǎn)的贏面就可以被估算為這么多次隨機(jī)游戲中贏的百分比。雖然簡(jiǎn)單,但蒙特卡洛樹(shù)搜索方法卻相當(dāng)有效,一個(gè)基于該方法的圍棋程序能夠達(dá)到業(yè)余段位的水準(zhǔn),比大部分普通人強(qiáng)。
圖7 蒙特卡洛樹(shù)搜索方法 圖片來(lái)源:google 基于評(píng)價(jià)的方案對(duì)很多智力游戲都行之有效,包括西洋跳棋、五子棋、國(guó)際象棋等。事實(shí)上,這個(gè)方案也能完美解決5*5,7*7的圍棋。然而,正如前面提到的,19*19的正規(guī)圍棋搜索空間太大。所以,受限于計(jì)算能力,在AlphaGo Zero出來(lái)之前,基于評(píng)價(jià)的方案還無(wú)法摘取這個(gè)皇冠。大部分人都認(rèn)為19*19圍棋對(duì)現(xiàn)階段人工智能技術(shù)來(lái)說(shuō),基本不可能被解決。 AlphaGo Zero的今生 然而,AlphaGo Zero橫空出世,顛覆了人們的認(rèn)知。2015年10月,AlphaGo 5:0擊敗了歐洲圍棋冠軍樊麾。2016年3月,AlphaGo 4:1擊敗了前世界冠軍李世石。2017年5月,AlphaGo 3:0擊敗了世界排名第一的中國(guó)選手柯潔。在這段期間,一個(gè)AlphaGo的改版程序Master在各大圍棋平臺(tái)上以60:0不敗戰(zhàn)績(jī)橫掃各路圍棋英豪。然而,更驚奇的是,2017年10月,AlphaGo自我創(chuàng)新,提出了一個(gè)新的變種AlphaGo Zero。該程序完全不依賴人類(lèi)專(zhuān)家的對(duì)局,從零開(kāi)始,使用強(qiáng)化學(xué)習(xí)的方法;僅用一臺(tái)帶有4個(gè)TPU的機(jī)器,40天下了兩千九百萬(wàn)局棋;從中自我進(jìn)化成了一個(gè)新的圍棋界的“獨(dú)孤求敗”;100:0吊打李世石版本AlphaGo,89:11痛毆Master。至此,基本可以論斷,在圍棋領(lǐng)域,機(jī)器已經(jīng)完勝人類(lèi)了。
圖8 AlphaGo與柯潔對(duì)戰(zhàn)現(xiàn)場(chǎng) 圖片來(lái)源:google 從技術(shù)角度來(lái)看,AlphaGo Zero繼承并改進(jìn)了之前的框架。AlphaGo Zero依然把圍棋建模成一個(gè)搜索問(wèn)題,依然采用基于評(píng)價(jià)的方案來(lái)做決策。其主要的學(xué)術(shù)貢獻(xiàn)在于提出了一套新的估算評(píng)價(jià)函數(shù)的方法,更好地融合并改善了已有的兩種重要的方法(即蒙特卡洛樹(shù)搜索方法和基于深度學(xué)習(xí)的方法),從而達(dá)到了驚人的效果。 大致上來(lái)說(shuō),AlphaGo的評(píng)價(jià)方法分成四步 [2]。第一,AlphaGo以大量人類(lèi)專(zhuān)家對(duì)局為數(shù)據(jù),采用有監(jiān)督學(xué)習(xí)的方法學(xué)習(xí)了一個(gè)深度神經(jīng)網(wǎng)絡(luò)SL來(lái)估算策略;第二,在SL的基礎(chǔ)上,AlphaGo和自己左右互博,采用強(qiáng)化學(xué)習(xí)的方法把這個(gè)策略神經(jīng)網(wǎng)絡(luò)改進(jìn)成一個(gè)新的深度神經(jīng)網(wǎng)絡(luò)RL;第三,AlphaGo再在RL的基礎(chǔ)上,還是和自己左右互博,還是采用強(qiáng)化學(xué)習(xí)的方法學(xué)習(xí)了另一個(gè)深度神經(jīng)網(wǎng)絡(luò)V來(lái)估算每個(gè)棋盤(pán)狀態(tài)的贏面;第四,再使用基于蒙特卡洛樹(shù)搜索方法的算法,巧妙加權(quán)融合了策略網(wǎng)絡(luò)SL/RL和贏面估算網(wǎng)絡(luò)V,來(lái)做最終的決策。
同AlphaGo相比,AlphaGo Zero作出了很多重要的調(diào)整 [1]。簡(jiǎn)而言之,去掉了第一步,而把剩下的三步合并成為一步“基于蒙特卡洛樹(shù)搜索的強(qiáng)化學(xué)習(xí)”。AlphaGo Zero把AlphaGo中間的策略網(wǎng)絡(luò)SL/RL和贏面估算網(wǎng)絡(luò)V合并成了一個(gè)深度神經(jīng)網(wǎng)絡(luò),減少了評(píng)價(jià)方法的復(fù)雜程度。同時(shí),AlphaGo Zero改進(jìn)了蒙特卡洛樹(shù)搜索方法,在每一步隨機(jī)選取行動(dòng)的時(shí)候,不再是完全隨機(jī),而是根據(jù)已經(jīng)學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò),盡量選取贏面大的行動(dòng)。然后,強(qiáng)化學(xué)習(xí)又反過(guò)來(lái)使用了改進(jìn)版本的蒙特卡洛樹(shù)搜索方法得到的結(jié)果來(lái)調(diào)整自身參數(shù)。這樣,蒙特卡洛樹(shù)搜索和強(qiáng)化學(xué)習(xí)就很好地結(jié)合到了一起。
此外,由于去掉了AlphaGo中的第一步有監(jiān)督學(xué)習(xí),AlphaGo Zero完全不需要使用人類(lèi)專(zhuān)家對(duì)局作為數(shù)據(jù)輸入。從而,某種意義上,AlphaGo Zero可以被認(rèn)為是完全從零開(kāi)始學(xué)習(xí),從“白丁”到“鴻儒”,所需要的只是對(duì)其輸入圍棋基本規(guī)則,這一點(diǎn),對(duì)于當(dāng)前機(jī)器學(xué)習(xí)和人工智能有非常重要的意義。
為了更好地弄明白這點(diǎn),需要解釋一下機(jī)器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的含義以及差別。 廣義上來(lái)講,所有的問(wèn)題都可以表示成一個(gè)抽象函數(shù),有著輸入和輸出。比如圖像識(shí)別:輸入是一張張圖片,輸出是不同的識(shí)別物體;句子的句法分析:輸入是句子,輸出是句法分析樹(shù);新聞分類(lèi):輸入是新聞,輸出是新聞之間的相似度;而下棋,輸入是棋盤(pán)狀態(tài),輸出是當(dāng)前狀態(tài)的最佳行動(dòng)。機(jī)器學(xué)習(xí)的任務(wù)就是從數(shù)據(jù)中學(xué)出來(lái)這個(gè)函數(shù),至少越來(lái)越近似這個(gè)函數(shù)。 其中,最核心的問(wèn)題就是數(shù)據(jù)是長(zhǎng)什么樣的?在理想的情況下,我們期望這個(gè)數(shù)據(jù)是完整的<輸入,輸出>對(duì),也就是說(shuō)(近似)正確的輸出在數(shù)據(jù)中被“標(biāo)注”出來(lái)了。標(biāo)注就是所謂的監(jiān)督;而在這種情況下的學(xué)習(xí),就是有監(jiān)督學(xué)習(xí)。而在另外一種情況下,數(shù)據(jù)只包含輸入,而不包含輸出。也就是說(shuō)完全沒(méi)有標(biāo)注,這種情況下的學(xué)習(xí),就是無(wú)監(jiān)督學(xué)習(xí)。 但還有一些情況介于這兩者之間,其中包括強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)類(lèi)似,數(shù)據(jù)中并不包含輸出。但是,和無(wú)監(jiān)督學(xué)習(xí)不同的是,強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)也不只包含輸入,它還包括了一個(gè)數(shù)據(jù)迭代運(yùn)行多步之后的獎(jiǎng)懲機(jī)制。比如踢足球,每一步的輸入是當(dāng)前狀態(tài),而輸出是可能選擇的行動(dòng),如傳球、射門(mén)等。然而,很多情況并不能夠直接給出在當(dāng)前狀態(tài)下最好的輸出是什么。但是,一旦進(jìn)球了,我們就能夠給出一個(gè)獎(jiǎng)懲機(jī)制。進(jìn)球就是獎(jiǎng)勵(lì),被進(jìn)球就是懲罰。 又比如在下棋中,雖然每個(gè)棋盤(pán)狀態(tài)下的最佳行動(dòng)很難給出,但下完之后的輸贏很容易判定。這就是獎(jiǎng)懲機(jī)制,這就是一個(gè)典型的強(qiáng)化學(xué)習(xí)問(wèn)題。注意,強(qiáng)化學(xué)習(xí)中的獎(jiǎng)懲機(jī)制一般是在多步迭代后給出,如果只是一步的話,強(qiáng)化學(xué)習(xí)就變成了有監(jiān)督學(xué)習(xí)。所以,從數(shù)據(jù)的角度來(lái)看,可以大致認(rèn)為有監(jiān)督學(xué)習(xí)就是一步獎(jiǎng)懲的強(qiáng)化學(xué)習(xí)。
對(duì)于某個(gè)具體的問(wèn)題,該用哪種學(xué)習(xí)呢?答案是,都可以用,取決于有什么樣的數(shù)據(jù)。例如下圍棋,原則上應(yīng)該是一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,因?yàn)橹挥凶詈筝斱A的獎(jiǎng)懲機(jī)制才是無(wú)異議的。但是,(人類(lèi)和電腦)高手們?cè)谟龅侥硞€(gè)棋盤(pán)狀態(tài)時(shí),會(huì)有自己的選擇。這些選擇雖然不一定是最佳的,但總歸大體上都是很好的選擇。所以,(人類(lèi)和電腦)高手們的棋譜就提供了很多這樣的<輸入,輸出>對(duì)(即<棋盤(pán)狀態(tài),選擇>對(duì))。這些,可以作為有監(jiān)督學(xué)習(xí)的數(shù)據(jù)。
直觀上,數(shù)據(jù)給的越好越多,那么學(xué)習(xí)的效果就應(yīng)該越好。所以有監(jiān)督學(xué)習(xí)應(yīng)該比強(qiáng)化學(xué)習(xí)奏效,而強(qiáng)化學(xué)習(xí)應(yīng)該比無(wú)監(jiān)督學(xué)習(xí)奏效。這點(diǎn)在實(shí)際上也得到了驗(yàn)證。事實(shí)上,當(dāng)前在商業(yè)領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用,包括語(yǔ)音識(shí)別、圖像識(shí)別、句法分析、機(jī)器翻譯等,絕大部分都采用的是有監(jiān)督學(xué)習(xí)。然而,有監(jiān)督學(xué)習(xí)需要用到的數(shù)據(jù)(即<輸入,輸出>對(duì))從哪里來(lái)?輸入好辦,但是(近似)正確的輸出卻很難得到。為了得到正確的輸出,往往需要人工來(lái)“標(biāo)注”。機(jī)器學(xué)習(xí)在近十年內(nèi)取得的巨大成功,離不開(kāi)相當(dāng)多在背后默默做標(biāo)注的人。高質(zhì)量大規(guī)模標(biāo)注好的數(shù)據(jù)集,比如圖像處理中的ImageNet [6],自然語(yǔ)言處理中的Treebank [7],極大地帶動(dòng)了機(jī)器學(xué)習(xí)的發(fā)展和突破。但是,標(biāo)注往往極為耗時(shí)耗力耗財(cái),很多時(shí)候只有大機(jī)構(gòu)長(zhǎng)期投入才能完成。為了解決“數(shù)據(jù)”來(lái)源的問(wèn)題,人工智能界主要提出了兩條思路。一條就是依靠機(jī)器某種方式自動(dòng)生成和標(biāo)注數(shù)據(jù),如最近很流行的生成對(duì)抗網(wǎng)絡(luò)。另一條就是考慮有監(jiān)督學(xué)習(xí)之外的其他機(jī)器學(xué)習(xí)手段,比如強(qiáng)化學(xué)習(xí)。
圖9 ImageNet 圖片來(lái)源:google AlphaGo Zero證明了后者是完全可行的,至少在機(jī)器下圍棋這個(gè)領(lǐng)域。AlphaGo Zero甚至比AlphaGo還厲害,這是不是這意味著強(qiáng)化學(xué)習(xí)比有監(jiān)督學(xué)習(xí)厲害呢?并不是。除了算法上的改進(jìn)之外,AlphaGo所用到從高手棋譜中得到的數(shù)據(jù),即<輸入,輸出>對(duì)(<棋盤(pán)狀態(tài),選擇>對(duì)),并不一定是最優(yōu)解。這是關(guān)于數(shù)據(jù)質(zhì)量的問(wèn)題。對(duì)于復(fù)雜問(wèn)題(如圍棋)的標(biāo)注,人類(lèi)的標(biāo)注有時(shí)并不一定是最佳選擇。很多時(shí)候,人類(lèi)高手容易出現(xiàn)盲點(diǎn)。而強(qiáng)化學(xué)習(xí)算法,因?yàn)椴灰蕾囂嘞闰?yàn)知識(shí),反而能夠跳出窠臼。所以, AlphaGo Zero的有些落子,出現(xiàn)了一些“神之一手”,人類(lèi)頂級(jí)選手都想不到的招數(shù)。
除了為強(qiáng)化學(xué)習(xí)注了一劑強(qiáng)心針之外,Alpha Zero還號(hào)稱(chēng),通過(guò)這種從零開(kāi)始的強(qiáng)化學(xué)習(xí),它可以學(xué)習(xí)到已有的和新的圍棋定式,也就是說(shuō)學(xué)習(xí)到了新的知識(shí)。而定式是通過(guò)出現(xiàn)頻率來(lái)判斷的。這點(diǎn)也非常有意義,因?yàn)檫@再次表明了顯式的知識(shí)可以通過(guò)隱式的(學(xué)習(xí))過(guò)程來(lái)得到,而且這種過(guò)程能得到以前從未有過(guò)的知識(shí)。雖然這很振奮人心,但目前還需要持辯證的觀點(diǎn)。例如,基于出現(xiàn)頻率來(lái)判斷知識(shí)是不是靠譜(如有些頻率出現(xiàn)高的未必就能稱(chēng)為知識(shí))?以及這些新得到的定式是否真的很有用?這兩點(diǎn)在文章中并沒(méi)有詳細(xì)分析。
總而言之,AlphaGo Zero攻克了智力游戲中的皇冠——圍棋;提出了一個(gè)新的“基于蒙特卡洛樹(shù)搜索的強(qiáng)化學(xué)習(xí)”方法來(lái)估算搜索中的評(píng)價(jià)函數(shù);驗(yàn)證了強(qiáng)化學(xué)習(xí)的有效性;進(jìn)一步表明用隱式的方法能夠獲取顯式的知識(shí),當(dāng)之無(wú)愧是人工智能史上一個(gè)里程碑。 最后,在祝賀AlphaGo Zero團(tuán)隊(duì)成功的同時(shí),嘗試分析一下其成功的原因。首先,不積跬步,無(wú)以至千里,AlphaGo Zero的主要成功在于長(zhǎng)期的積累。其主要作者們長(zhǎng)期致力于圍棋程序,并在蒙特卡洛樹(shù)搜索和深度學(xué)習(xí)下圍棋兩方面都有建樹(shù),把這兩者結(jié)合起來(lái)是一個(gè)水到渠成的事情。其次,該團(tuán)隊(duì)敢想敢做,敢于去挑戰(zhàn)圍棋這個(gè)皇冠,這點(diǎn)非常值得學(xué)習(xí)和敬佩。因?yàn)檫@類(lèi)工作往往風(fēng)險(xiǎn)很大,至少?gòu)陌l(fā)文章的角度來(lái)講,遠(yuǎn)不如修修補(bǔ)補(bǔ)的改進(jìn)工作來(lái)的容易。再者,該團(tuán)隊(duì)工程能力相當(dāng)強(qiáng)大。對(duì)于這樣的工作,寫(xiě)在文章里的只是背地里汗水的滄海一粟。在實(shí)現(xiàn)上,一定趟過(guò)了相當(dāng)多的坑。當(dāng)然,Google Deepmind的鼎力支持也是不可或缺的因素。 [1] Mastering the game of Go without human knowledge. D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis. Nature 550 (7676): 354--359. 2017. [2] Mastering the game of Go with deep neural networks and tree search. D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N.Kalchbrenner, I. Sutskever, Ti. P. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis. Nature 529(7587): 484-489. 2016. [3] https://en./wiki/Chinook_(draughts_player). [4] https://en./wiki/Deep_Blue_(chess_computer) [5] Monte-Carlo tree search and rapid action value estimation in computer Go. S. Gelly, D. Silver. Artificial Intelligence. 175(11): 1856-1875. 2011. [6] http://www./ [7] https://catalog.ldc./ldc2012t13 墨子原創(chuàng) | 人工智能 作者介紹 周熠,現(xiàn)任澳大利亞西悉尼大學(xué)高級(jí)講師,天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院兼職教授。2001年、2006年分獲中國(guó)科技大學(xué)學(xué)士和博士學(xué)位。在人工智 能、特別是知識(shí)表示與推理領(lǐng)域做出了重要貢獻(xiàn)。是一階回答集程序設(shè)計(jì)的奠基人及主要推動(dòng)人之一,提出了首個(gè)刻畫(huà)遺忘的公理系統(tǒng)等。在人工智能頂級(jí)期刊Artificial Intelligence上發(fā)表6篇長(zhǎng)文。長(zhǎng)期擔(dān)任人工智能頂級(jí)會(huì)議程序設(shè)計(jì)委員會(huì)委員,包括IJCAI、AAAI、KR等等。 |
|
|