5名頂級(jí)人類職業(yè)選手不敵2個(gè)CPU的AI，多人德州撲克也被拿下了

板橋胡同37號(hào) 2019-07-18

展開(kāi)全文

原文作者：Douglas Heaven

德州撲克人工智能（AI）擊敗了五名人類對(duì)手，這讓AI距離解決現(xiàn)實(shí)問(wèn)題更近了一步。

人工智能（AI）再次提高了賭注。德州撲克機(jī)器玩家Pluribus在德州撲克最流行的一種變體——六人無(wú)限注中擊敗了頂級(jí)人類職業(yè)選手。這是AI首次在玩家人數(shù)超過(guò)兩人的游戲中擊敗頂級(jí)人類選手。

多人德州撲克也被AI征服了。

來(lái)源：Alexandre Rotenberg/Alamy

“雖然從二人增加到六人看起來(lái)只是多了幾個(gè)人，但實(shí)際上卻有本質(zhì)差別。”紐約大學(xué)研究博弈和AI的Julian Togelius說(shuō)，“‘多人’是至今為止未曾研究過(guò)的游戲要素?！?/p>

此前，Pluribus背后的團(tuán)隊(duì)構(gòu)建過(guò)一臺(tái)叫做“Libratus”的 AI，并在一對(duì)一的德州撲克中擊敗了職業(yè)選手。Pluribus是基于Libratus的升級(jí)，并且它打比賽需要的計(jì)算力要少很多。在連續(xù)12天超過(guò)10000手的比賽中，它擊敗了15名頂級(jí)人類玩家?！昂芏郃I研究者原本認(rèn)為我們的技術(shù)是不可能做到的?！眮?lái)自卡內(nèi)基·梅隆大學(xué)和Facebook人工智能研究院的Noam Brown說(shuō)。他與其卡內(nèi)基大學(xué)的同事Tuomas Sandholm一起開(kāi)發(fā)了Pluribus。

其他AI也擊敗過(guò)人類選手，例如Libratus和DeepMind的圍棋AI。它們證明了在二人零和游戲中，人類無(wú)法戰(zhàn)勝機(jī)器。在這些場(chǎng)景中，一定是一人贏一人輸，而博弈論提供了一種良定義的最優(yōu)策略。

但是在有多位玩家，利益互相沖突，缺乏明確的輸贏條件的時(shí)候，博弈論就沒(méi)那么有效了——而現(xiàn)實(shí)生活中的難題大多屬于這一類。Brown說(shuō)，征服多人德州撲克就意味著Pluribus為未來(lái)AI解決這類復(fù)雜問(wèn)題奠定了基礎(chǔ)。他認(rèn)為這一成果有助于推動(dòng)其他應(yīng)用發(fā)展，例如機(jī)器談判、偵查欺詐以及自動(dòng)駕駛。

多一個(gè)玩家，多一層復(fù)雜性

為了玩好六人德州撲克，Brown和Sandholm大幅改變了Libratus的搜索算法。大部分游戲AI都是沿著決策樹(shù)向前搜索，尋找給定局面下的最優(yōu)行動(dòng)。Libratus會(huì)搜索到游戲終局，才會(huì)選擇某個(gè)行動(dòng)。

但是玩家數(shù)量增加所帶來(lái)的復(fù)雜性讓這種策略變得不再可行。德州撲克要求使用隱藏信息進(jìn)行推理——玩家必須根據(jù)此前的下注來(lái)思考對(duì)方可能會(huì)有什么牌，對(duì)方又認(rèn)為自己有什么牌，然后才能制定策略。但是增加玩家會(huì)讓選擇行動(dòng)變得更為困難，因?yàn)檫@樣就必須思考更多的可能性。

關(guān)鍵突破在于開(kāi)發(fā)一種算法，讓Pluribus可以只向前看為數(shù)不多的幾步就做出決策，而不需要看到游戲終局。

和DeepMind的圍棋AI AlphaZero一樣，Pluribus使用了一種強(qiáng)化學(xué)習(xí)算法從零開(kāi)始自學(xué)。它先隨機(jī)打，等發(fā)現(xiàn)哪些行動(dòng)可以贏更多錢(qián)之后就會(huì)不斷優(yōu)化。每手之后，它會(huì)回顧自己打得如何，并檢查哪些地方采用不同的行動(dòng)就可以賺更多的錢(qián)，例如某處跟注應(yīng)該改成加注。如果更改策略會(huì)帶來(lái)更好的結(jié)果，之后它就更可能采取更優(yōu)的行動(dòng)。

和自己打了上萬(wàn)億手牌之后，Pluribus就訓(xùn)練出了一種可以在比賽中使用的基本策略。在每個(gè)決策點(diǎn)，它會(huì)將牌局和手中的基本策略進(jìn)行比較，并向前搜索幾步看各個(gè)行動(dòng)會(huì)導(dǎo)致什么結(jié)果。之后它會(huì)檢測(cè)是否能有更優(yōu)的策略。由于Pluribus是自我訓(xùn)練，沒(méi)有人類輸入，因此它會(huì)用一些人類玩家不太可能使用的策略。

AI的玩具箱

Pluribus的成功很大程度上是因?yàn)樗母咝?。它打牌的時(shí)候只使用2個(gè)CPU。與之相比，DeepMind最早的圍棋AI在首次擊敗頂級(jí)人類玩家的時(shí)候使用了將近2000個(gè)CPU，而Libratus使用了100個(gè)CPU。自己對(duì)戰(zhàn)的時(shí)候，Pluribus一手只需大約20秒——這比人類職業(yè)玩家大約要快一倍。

游戲是一種公認(rèn)的可以有效檢測(cè)AI進(jìn)展的方式，因?yàn)锳I可以和人類頂級(jí)玩家直接對(duì)決。如果獲勝的話，就可以名正言順地被譽(yù)為“超人”。但是Brown認(rèn)為，AI已經(jīng)要離開(kāi)自己的玩具箱了?！斑@是德州撲克里面最后的一項(xiàng)挑戰(zhàn)?！彼f(shuō)。

但Togelius認(rèn)為AI研究者和游戲還有一段路要走?！?strong>還有很多未被探索的領(lǐng)域。”他說(shuō)。掌握了超過(guò)一種游戲的AI并不多——這要求AI有某種綜合能力，而非專精一技。此外， AI也不應(yīng)局限于當(dāng)玩家，“還可以設(shè)計(jì)游戲，這對(duì)AI會(huì)是一項(xiàng)很不錯(cuò)的挑戰(zhàn)。”Togelius說(shuō)。

原文以No limit: AI poker bot is first to beat professionals at multiplayer game為標(biāo)題

發(fā)布在2019年7月11日《自然》新聞上

Nature|doi:10.1038/d41586-019-02156-9

版權(quán)聲明：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：板橋胡同37號(hào) > 《芯科》

舉報(bào)/認(rèn)領(lǐng)