小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Google 的人工智能擊敗了人類圍棋冠軍,這事為什么如此重要?

 石 林 2016-06-25

北京時間 1 月 28 日,Google DeepMind 宣布在人工智能(Artificial Intelligence,以下簡稱 AI)方面取得重大突破,他們名為 AlphaGo 的人工智能在沒有任何讓子的情況下以 5:0 完勝歐洲冠軍、職業(yè)圍棋二段樊麾(完整論文點這里)。

這是 AI 第一次在全尺寸(19X19)的棋盤上擊敗了人類專業(yè)選手,在 AlphaGo 之前,業(yè)界普遍認(rèn)為 AI 戰(zhàn)勝人類圍棋冠軍的時間點至少還要等上十年。當(dāng)下,AlphaGo 借助深度學(xué)習(xí)技術(shù)實現(xiàn)了,描述 AlphaGo 研究成果的論文也成為了 1 月 28 日《自然》雜志的封面文章。

Google 的人工智能擊敗了人類圍棋冠軍,這事為什么如此重要?

接下來的 3 月份,Google 還會讓 AlphaGo 與世界冠軍李世乭對戰(zhàn),贏家將獲得 Google 提供的 100 萬美金。李世乭是最近 10 年中獲得世界第一頭銜最多的棋手。

AI 戰(zhàn)勝圍棋為什么比象棋難?

在歐美傳統(tǒng)里,棋類游戲被視為頂級人類智力試金石,人工智能挑戰(zhàn)棋類大師的好戲也接連上演。

1997 年,IBM 的深藍(lán)在正常時限的比賽中首次擊敗了當(dāng)時排名世界第一的棋手加里 · 卡斯帕羅夫。2006 年,人類最后一次打敗頂尖的國際象棋 AI。

然而,圍棋卻一直被視為 AI 的強(qiáng)敵。國際象棋中,平均每回合有 35 種可能,一盤棋可以有 80 回合;而圍棋每回合有 250 種可能,一盤棋可以長達(dá) 150 回合。同時,圍棋有 3^361 種局面,而可觀測到的宇宙,原子數(shù)量才 10^80。

據(jù)卡耐基梅隆大學(xué)機(jī)器人系博士、Facebook 人工智能組研究員田淵棟解釋,圍棋難的地方在于它的估值函數(shù)非常不平滑,差一個子盤面就可能天翻地覆,同時狀態(tài)空間大,也沒有全局的結(jié)構(gòu)。這兩點加起來,迫使目前計算機(jī)只能用窮舉法并且因此進(jìn)展緩慢。

在之前圍棋 AI 和人類選手的比賽中,人類選手都會讓子,而且 AI 主要和業(yè)余段位的棋手比賽。而 AlphaGo 這次的對手樊麾是法國國家圍棋隊總教練,已經(jīng)連續(xù)三年贏得歐洲圍棋冠軍的稱號。

另外,在與其他圍棋 AI 的比賽中,AlphaGo 總計 495 局中只輸了一局,勝率是 99.8%。

AlphaGo 是如何做到的?

傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹 ,但這種方法對于走法如此之多的圍棋并不適用。AlphaGo 基于 Google 和 DeepMind 一直專研的深度學(xué)習(xí)技術(shù),將高級搜索樹與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支。機(jī)器學(xué)習(xí)這個概念認(rèn)為,對于待解問題,無需編寫任何專門的程序代碼,只需要輸入數(shù)據(jù),算法會在數(shù)據(jù)之上建立起它自己的邏輯。深度學(xué)習(xí)強(qiáng)調(diào)的是使用的模型,最流行的是被用在大規(guī)模圖像識別任務(wù)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Nets,CNN),簡稱 ConvNets。

AlphaGo 運用到的深度神經(jīng)網(wǎng)絡(luò)是 Policy Network(策略網(wǎng)絡(luò))以及 Value Network(值網(wǎng)絡(luò))。

Google 的人工智能擊敗了人類圍棋冠軍,這事為什么如此重要?

據(jù)果殼網(wǎng)作者開明的文章,策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)任務(wù)在于合作挑選出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機(jī)可以完成的范圍里,本質(zhì)上和人類棋手所做的一樣。

策略網(wǎng)絡(luò)負(fù)責(zé)減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。這樣 AI 就不用給每一步以同樣的重視程度,可以重點分析那些有戲的棋著。

值網(wǎng)絡(luò)負(fù)責(zé)減少搜索的深度——AI 會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑。

更通俗的解釋是,策略網(wǎng)絡(luò)著眼于當(dāng)下,選擇下一步走法。值網(wǎng)絡(luò)思考得更加長遠(yuǎn),預(yù)測棋局的走向。

DeepMind 用人類圍棋高手的兩千萬步圍棋走法訓(xùn)練 AI,這種方法稱為監(jiān)督學(xué)習(xí)(supervised learning),然后讓 AI 和自己對弈,這個流程稱之為強(qiáng)化學(xué)習(xí)(reinforcement learning)。

征服圍棋最重要的意義在于,AlphaGo 不僅是遵循人工規(guī)則的“專家”系統(tǒng),它還通過深度學(xué)習(xí)技術(shù)自行掌握了如何贏得圍棋比賽。

DeepMind 什么來頭?

DeepMind 是一間英國人工智能初創(chuàng)企業(yè),創(chuàng)立之初主要業(yè)務(wù)是為游戲、電商等服務(wù)提供機(jī)器學(xué)習(xí)的智能算法。換句話說,DeepMind 是一家面向商用市場的技術(shù)提供商。

Google 的人工智能擊敗了人類圍棋冠軍,這事為什么如此重要?

創(chuàng)始人 Demis Hassabis(德米斯 · 哈薩比斯)小時候是象棋神童,17 歲就達(dá)到了 A-level,比其編程銷售過百萬的模擬游戲“主題公園”的事跡還要早兩年。

Google 的人工智能擊敗了人類圍棋冠軍,這事為什么如此重要?

(Demis Hassabis)

以優(yōu)異的成績畢業(yè)于劍橋大學(xué)計算機(jī)系之后,Demis 創(chuàng)立了具有開創(chuàng)性意義的電子游戲公司 Elixir Studios,為全球出版商如 Vivendi Universal 制作了許多獲獎游戲。

擁有十年成功的技術(shù)創(chuàng)業(yè)公司經(jīng)驗后, Demis 重新回到校園,在倫敦大學(xué)完成認(rèn)知神經(jīng)科學(xué)博士學(xué)位,并在麻省理工和哈佛大學(xué)拿到博士后學(xué)位。

2011 年,Demis Hassabis 聯(lián)合 Shane Legg 以及 Mustafa Suleyman 一同創(chuàng)立了 DeepMind Technologies,專注于機(jī)器學(xué)習(xí)研究。

2014 年 1 月 DeepMind 被 Google 收購,Demis Hassabis 領(lǐng)導(dǎo) Google 在人工智能方面的全方位工作。

在被 Google 收購后,DeepMind 一直保持低調(diào)。2015 年 11 月,DeepMind 發(fā)布了幾篇關(guān)于利用人工智能算法打敗 Atari 游戲的論文,獲得了不錯的反響。

當(dāng)時,在和倫敦皇家學(xué)會的一次視頻會議中,與會者問及是否在進(jìn)行圍棋相關(guān)研究,Demis Hassabis 透露,我們現(xiàn)在還不能講太多,但幾個月后會有太驚喜?,F(xiàn)在看來,這個大驚喜就是 AlphaGo 了。Demis Hassabis 描述道:

圍棋是人類發(fā)明的最復(fù)雜也是最美的游戲。通過戰(zhàn)勝樊麾,我們的程序贏得了長期以來一項重大人工智能挑戰(zhàn)的勝利。而這項技術(shù)在 Google 的首個用途將是開發(fā)更好的個人助理軟件。這樣的個人助理能夠從用戶在線行為中學(xué)習(xí)用戶偏好,并對產(chǎn)品和事件作出更符合直覺的建議。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多