小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

5名頂級(jí)人類職業(yè)選手不敵2個(gè)CPU的AI,多人德州撲克也被拿下了

 板橋胡同37號(hào) 2019-07-18

原文作者:Douglas Heaven

德州撲克人工智能(AI)擊敗了五名人類對(duì)手,這讓AI距離解決現(xiàn)實(shí)問(wèn)題更近了一步。

人工智能(AI)再次提高了賭注。德州撲克機(jī)器玩家Pluribus在德州撲克最流行的一種變體——六人無(wú)限注中擊敗了頂級(jí)人類職業(yè)選手。這是AI首次在玩家人數(shù)超過(guò)兩人的游戲中擊敗頂級(jí)人類選手。

多人德州撲克也被AI征服了。

來(lái)源:Alexandre Rotenberg/Alamy

雖然從二人增加到六人看起來(lái)只是多了幾個(gè)人,但實(shí)際上卻有本質(zhì)差別。”紐約大學(xué)研究博弈和AI的Julian Togelius說(shuō),“‘多人’是至今為止未曾研究過(guò)的游戲要素?!?/p>

此前,Pluribus背后的團(tuán)隊(duì)構(gòu)建過(guò)一臺(tái)叫做“Libratus”的 AI,并在一對(duì)一的德州撲克中擊敗了職業(yè)選手。Pluribus是基于Libratus的升級(jí),并且它打比賽需要的計(jì)算力要少很多。在連續(xù)12天超過(guò)10000手的比賽中,它擊敗了15名頂級(jí)人類玩家?!昂芏郃I研究者原本認(rèn)為我們的技術(shù)是不可能做到的?!眮?lái)自卡內(nèi)基·梅隆大學(xué)和Facebook人工智能研究院的Noam Brown說(shuō)。他與其卡內(nèi)基大學(xué)的同事Tuomas Sandholm一起開(kāi)發(fā)了Pluribus。

其他AI也擊敗過(guò)人類選手,例如Libratus和DeepMind的圍棋AI。它們證明了在二人零和游戲中,人類無(wú)法戰(zhàn)勝機(jī)器。在這些場(chǎng)景中,一定是一人贏一人輸,而博弈論提供了一種良定義的最優(yōu)策略。

但是在有多位玩家,利益互相沖突,缺乏明確的輸贏條件的時(shí)候,博弈論就沒(méi)那么有效了——而現(xiàn)實(shí)生活中的難題大多屬于這一類。Brown說(shuō),征服多人德州撲克就意味著Pluribus為未來(lái)AI解決這類復(fù)雜問(wèn)題奠定了基礎(chǔ)。他認(rèn)為這一成果有助于推動(dòng)其他應(yīng)用發(fā)展,例如機(jī)器談判、偵查欺詐以及自動(dòng)駕駛。

多一個(gè)玩家,多一層復(fù)雜性

為了玩好六人德州撲克,Brown和Sandholm大幅改變了Libratus的搜索算法。大部分游戲AI都是沿著決策樹(shù)向前搜索,尋找給定局面下的最優(yōu)行動(dòng)。Libratus會(huì)搜索到游戲終局,才會(huì)選擇某個(gè)行動(dòng)。

但是玩家數(shù)量增加所帶來(lái)的復(fù)雜性讓這種策略變得不再可行。德州撲克要求使用隱藏信息進(jìn)行推理——玩家必須根據(jù)此前的下注來(lái)思考對(duì)方可能會(huì)有什么牌,對(duì)方又認(rèn)為自己有什么牌,然后才能制定策略。但是增加玩家會(huì)讓選擇行動(dòng)變得更為困難,因?yàn)檫@樣就必須思考更多的可能性。

關(guān)鍵突破在于開(kāi)發(fā)一種算法,讓Pluribus可以只向前看為數(shù)不多的幾步就做出決策,而不需要看到游戲終局。

和DeepMind的圍棋AI AlphaZero一樣,Pluribus使用了一種強(qiáng)化學(xué)習(xí)算法從零開(kāi)始自學(xué)。它先隨機(jī)打,等發(fā)現(xiàn)哪些行動(dòng)可以贏更多錢(qián)之后就會(huì)不斷優(yōu)化。每手之后,它會(huì)回顧自己打得如何,并檢查哪些地方采用不同的行動(dòng)就可以賺更多的錢(qián),例如某處跟注應(yīng)該改成加注。如果更改策略會(huì)帶來(lái)更好的結(jié)果,之后它就更可能采取更優(yōu)的行動(dòng)。

和自己打了上萬(wàn)億手牌之后,Pluribus就訓(xùn)練出了一種可以在比賽中使用的基本策略。在每個(gè)決策點(diǎn),它會(huì)將牌局和手中的基本策略進(jìn)行比較,并向前搜索幾步看各個(gè)行動(dòng)會(huì)導(dǎo)致什么結(jié)果。之后它會(huì)檢測(cè)是否能有更優(yōu)的策略。由于Pluribus是自我訓(xùn)練,沒(méi)有人類輸入,因此它會(huì)用一些人類玩家不太可能使用的策略。

AI的玩具箱

Pluribus的成功很大程度上是因?yàn)樗母咝?。它打牌的時(shí)候只使用2個(gè)CPU。與之相比,DeepMind最早的圍棋AI在首次擊敗頂級(jí)人類玩家的時(shí)候使用了將近2000個(gè)CPU,而Libratus使用了100個(gè)CPU。自己對(duì)戰(zhàn)的時(shí)候,Pluribus一手只需大約20秒——這比人類職業(yè)玩家大約要快一倍。

游戲是一種公認(rèn)的可以有效檢測(cè)AI進(jìn)展的方式,因?yàn)锳I可以和人類頂級(jí)玩家直接對(duì)決。如果獲勝的話,就可以名正言順地被譽(yù)為“超人”。但是Brown認(rèn)為,AI已經(jīng)要離開(kāi)自己的玩具箱了?!斑@是德州撲克里面最后的一項(xiàng)挑戰(zhàn)?!彼f(shuō)。

但Togelius認(rèn)為AI研究者和游戲還有一段路要走?!?strong>還有很多未被探索的領(lǐng)域。”他說(shuō)。掌握了超過(guò)一種游戲的AI并不多——這要求AI有某種綜合能力,而非專精一技。此外, AI也不應(yīng)局限于當(dāng)玩家,“還可以設(shè)計(jì)游戲,這對(duì)AI會(huì)是一項(xiàng)很不錯(cuò)的挑戰(zhàn)。”Togelius說(shuō)。

原文以No limit: AI poker bot is first to beat professionals at multiplayer game為標(biāo)題

發(fā)布在2019年7月11日《自然》新聞上

?

Nature|doi:10.1038/d41586-019-02156-9

版權(quán)聲明:

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多