小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

從碼農(nóng)以及星際愛好者視角看AlphaStar完勝人類職業(yè)玩家

 歐盟IT那些事 2021-04-13

今年一月份AlphaStar剛登場時(shí)寫的文章,翻出來給大家掃盲什么是星際爭霸,什么是人工智智能。

AlphaStar

北京時(shí)間2019年01.24凌晨2:00,DeepMind的倫敦總部,《星際爭霸2》游戲人工智能AlphaStar首秀。DeepMind是全球人工智能領(lǐng)軍,AlphaGo和AlphaZero的創(chuàng)造者,這里就不多介紹了。星際2作為一款當(dāng)今世界最復(fù)雜的即時(shí)戰(zhàn)略游戲,含經(jīng)濟(jì)運(yùn)營,兵伐詭道,戰(zhàn)爭迷霧以及瞬息萬變的策略,自2016年起,就被DP當(dāng)做一個(gè)攻克目標(biāo)。相比之下,圍棋棋盤是固定的,雙方是攤開了局面戰(zhàn)斗;而星際2類似于真實(shí)戰(zhàn)爭,作戰(zhàn)雙方不知道對方的經(jīng)濟(jì)詳細(xì)情況和所有戰(zhàn)略戰(zhàn)術(shù)—-一句話,戰(zhàn)場無法預(yù)測,沒有套路!

星際2解說 Artosis 與 Rotterda全程解說。首先問了暴雪的游戲總監(jiān)Tim Morten:“為什么那么熱切和DeepMind合作?”

答:“星際2是當(dāng)今水平最高競技游戲,也是人工智能研究的里程碑?!?/p>

“暴雪作為合作伙伴意味著什么?”

答:“我們團(tuán)隊(duì)非常困難地開發(fā)了一款特殊版本的星際2,作為工具公開發(fā)布,同時(shí)也和SP緊密合作。這個(gè)特殊版本和普通版不同,但是規(guī)則相同,適合SP研究。最大的不同就是,我們在游戲研究中必須大量預(yù)先設(shè)置比如live surfing,所以我們今天將觀看的都是比賽回放錄播,你知道,實(shí)時(shí)比賽必須從選手視角直播?!?/p>

Artosis接著問了DP的研究合作領(lǐng)導(dǎo)Oriol Vinyals:“為什么選擇星際作為AI研究目標(biāo)?”

答:“DP的研究任務(wù)就是人工智能,所以找一個(gè)檢驗(yàn)標(biāo)準(zhǔn)很重要,在開展任務(wù)之前,用來檢驗(yàn)算法和Agent。這是我們研究的第一個(gè)電腦游戲,就像圍棋那樣 。但星際和其它游戲相比它最突出的挑戰(zhàn)就是,很明顯下一步對我們的AI Agent來說,挑戰(zhàn)的等級(jí)很高,我在這個(gè)圖里高光標(biāo)注了?!?/p>

首先是“信息類型”不完美,意思是Agent不知道也無法預(yù)測人類選手現(xiàn)在在做什么。不像圍棋,如果你不是大師,將容易輸?shù)舯荣?。正如我展示的,這對我們是個(gè)很大的挑戰(zhàn)。”

Oriol接著說了過去兩年DP做了什么樣的研究。他們并不是第一個(gè)意識(shí)到星際是AI中一個(gè)重要研究領(lǐng)域的團(tuán)隊(duì),下面圖中可以看到過去15年AI發(fā)展歷程。2003年即時(shí)戰(zhàn)略游戲RTS就被視作AI研究方向,2009年就有開源機(jī)構(gòu)研究第一版星際Blood War。過去八年取得不少進(jìn)展,許多團(tuán)隊(duì)開發(fā)了Bot和Agent玩游戲,并且玩得不錯(cuò)。他也親自參與了早期的游戲競賽AIIDE,甚至被要求作為職業(yè)玩家和其他Bot對抗,還因此發(fā)現(xiàn)了bug。

PS:2015年已有關(guān)于星際Bot的論文 StarCraft Bots and Competitions。

https://www./publication/304919439_StarCraft_Bots_and_Competitions

AlphaStar早期就公開資源和工具,每個(gè)人都能參與。整個(gè)團(tuán)隊(duì)做了巨大的努力,才開發(fā)了能全程完整玩星際的第一個(gè)版本。

接下來Rotterda對Oriol的訪問,就是今天比賽錄像的相關(guān)科普了。

比賽都是2018年12月進(jìn)行的,只有一張1v1地圖上:Catalyst LE。神族VS神族。賽制五局三勝。

接著第一個(gè)人類玩家Dario Wünsch(TLO )出場,來自暴雪推薦給DP做合作的職業(yè)戰(zhàn)隊(duì)Liquid。他是個(gè)德國職業(yè)蟲族玩家。

TLO說了下他和DP合作的起因,并和Oriol討論過如何讓比賽公平。Rotterda也問了我們觀眾要問的:“作為蟲族玩家,比賽中用神族什么感覺?”

答:“我做了大量的賽前準(zhǔn)備,玩了100多場神族,不算專業(yè)級(jí)別,但在星際天梯賽里也算Top 1%水平了?!?/p>

今天將播放TLO和AlphaStar之間五場比賽中的兩場,人類捍衛(wèi)尊嚴(yán)的比賽回放正式開始!

TLO vs AlphaStar

第一場

作為星際愛好者,我看不出AI開局和人類玩家有什么不同:造水晶,建筑,probe探路,偵查敵情,前期小騷擾。前五分鐘,雙方資源人口以及兵力相差不大,AI略為優(yōu)勢。

第五分鐘開始,AI開始追獵正面壓制TLO的第二基地,雙方互秀了一波微操作。但AI的造兵能力這時(shí)開始顯現(xiàn),第六分鐘兵力已是TLO近乎三倍(28:10)。AI持續(xù)優(yōu)勢兵力壓制,TLO開始拉上probe抵抗,開局7:06時(shí),TLO打出了gg。

解說員驚詫了,請出DP的研究合作領(lǐng)導(dǎo)David Silver,他說DP是經(jīng)過幾個(gè)月研究后才第一次打敗人類職業(yè)選手。TLO吐槽自己都不知怎么回事,但作為神族的確犯了一些錯(cuò)誤。但即使第一場失敗,他當(dāng)時(shí)還是非常自信能贏下一場。

APM

解說員 Artosis開始詢問APM(Action Per Minute),玩家操作手速–這也是觀眾的的疑問,萬一比賽規(guī)則不對等怎么辦,畢竟電腦的APM可以每秒無上限啊。David 解釋,他們做了公平性處理,讓AI模擬人類玩家手速。從下圖可以看出,AI的APM中數(shù)平均值是低于人類選手的。況且星際并不是靠手速獲勝的,而是靠策略。

有的觀眾抓圖說AI的APM有時(shí)遠(yuǎn)超人類,比如下圖。

但我仔細(xì)看了回放,戰(zhàn)斗時(shí)雙方APM幾乎是持平的,而且人類也會(huì)高于AI,這一塊是相對公平的。

AI游戲視角(戰(zhàn)爭迷霧)

David 接著解釋AI是以什么樣的視角來玩游戲的,并不是我們想的地圖全開的模式。類似于上帝視角模式,AI會(huì)鳥瞰整個(gè)地圖,但它的所有視覺只限于它的移動(dòng)單位所能看到的當(dāng)前視野的合集,其它地區(qū)還是被戰(zhàn)爭迷霧所覆蓋。

人類玩家在操作單位并展現(xiàn)其可視區(qū)域時(shí),會(huì)做其它的區(qū)域點(diǎn)擊操作,比如資源掌控,兵力生產(chǎn)時(shí)會(huì)移動(dòng)玩家的可視區(qū)域。DP分析了這些,模擬了人類這些視覺切換操作,最終設(shè)置了AI現(xiàn)有的APM。

Oriol說AI不關(guān)心當(dāng)下發(fā)生了什么,不像人類有輸贏的概念以及心情變化,所以五場比賽對AI來說都是獨(dú)立的。TLO接著說了他第二場比賽失利的過程,他采取的防御式打法未能奏效。

第三場

這局TLO堅(jiān)持到了中前期間,比賽中AI用裂光球神乎其神,幾乎彈無虛發(fā),非常有效地大量殺傷了TLO的部隊(duì)。雙方在路口拉鋸式作戰(zhàn),AI的操作非常強(qiáng),稍有劣勢就后撤,稍有優(yōu)勢就壓制,經(jīng)常有神操作出現(xiàn)。TLO也采取了空投騷擾,小股部隊(duì)潛入等戰(zhàn)術(shù),對戰(zhàn)局未產(chǎn)生影響。AI的總?cè)丝冢Y源,兵力,始終都是壓制TLO的,14分鐘是,AI的兵力幾乎是TLO的兩倍,勝利天平很明顯傾向AI。兩分鐘后TLO打出gg。

AlphaStar League

DP是如何訓(xùn)練AI的,David 做了解釋。DP稱此訓(xùn)練過程為AlphaStar聯(lián)賽,第一步,學(xué)習(xí)數(shù)據(jù)來自人類在星際聯(lián)賽里的比賽數(shù)據(jù)。用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些數(shù)據(jù),然后每一個(gè)子狀況,新的Agent會(huì)fork它,包括之前的Agent,加入到AlphaStar聯(lián)賽內(nèi)。

聯(lián)賽之間的Agent再互相PK,學(xué)習(xí)。

這樣神經(jīng)網(wǎng)絡(luò)就會(huì)持續(xù)升級(jí)。

神經(jīng)網(wǎng)絡(luò)升級(jí)到最終選出某個(gè)階段,某個(gè)策略可以打敗其它所有策略。

神經(jīng)網(wǎng)絡(luò) 繼續(xù)升級(jí)。

過程中加上額外配置Personal Learning Ojbect 個(gè)人學(xué)習(xí)模塊,比如某些特殊的操作,生產(chǎn)某些特殊兵種,最終學(xué)習(xí)得出最優(yōu)策略。

最后產(chǎn)生五個(gè)Agent用于比賽,TLO等于是在和五個(gè)不同的頂級(jí)選手在打比賽。

AlphaStar學(xué)習(xí)了大量人類選手各類奇特打法,比如農(nóng)民快攻,炮臺(tái)快攻。每場比賽的Agent都是預(yù)先設(shè)置好的,不會(huì)隨著比賽動(dòng)態(tài)適應(yīng)并變化。相當(dāng)于一個(gè)人在一場比賽中用固定戰(zhàn)術(shù)在和TLO打。AlphaStar總共花了七天學(xué)習(xí)人類聯(lián)賽,第一階段學(xué)了三天,學(xué)習(xí)的是聯(lián)賽白金選手的比賽。這七天的學(xué)習(xí)數(shù)據(jù)量,相當(dāng)于人類學(xué)習(xí)200年!

MaNa vs AlphaStar

Oriol分享了DP開發(fā)團(tuán)隊(duì)的對此站勝利喜悅,他表示團(tuán)隊(duì)在短暫慶祝之后將再接再厲。接著頂級(jí)玩家MaNa上場,波蘭人,真正的神族玩家。

但作為神族選手,他好像也沒有占什么優(yōu)勢,先輸了兩局(沒有播出)。DP團(tuán)隊(duì)做了個(gè)視覺流程圖來解釋神經(jīng)網(wǎng)絡(luò)激活原理,對原理感興趣的最好去看這一段原視頻解說或者DP科普文。

https:///blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

第三局

前期MaNa發(fā)展正常,但硬抗AI的兵力壓制非常辛苦,雙方實(shí)力差不多持平。但五分鐘后AI的空軍出現(xiàn)后,占局就逐漸向AI有利的方向發(fā)展了,人類幾乎之后被按著在地上摩擦,8:02 MaNa打出gg。

第四局

MaNa這局表現(xiàn)得很強(qiáng)勢,但是短兵相接時(shí),AI對追獵的微操作太強(qiáng)了,紅血的追獵被不停地瞬移到陣型后方,人類很難對AI的部隊(duì)造成戰(zhàn)斗減員。導(dǎo)致AI兵力越來越多,人類兵力越打越少,12:48,人類gg。

不出所料,MaNa也輸了之后的最后一局。

至此人類10:0全軍覆沒。

看到這我有點(diǎn)糾結(jié),從人類玩家角度,非常沮喪,我還不愿相信AI能在星際這種策略無窮的游戲中獲勝;但做為程序員,我又很高興看到AI技術(shù)發(fā)展的這一個(gè)巨大的里程碑。

這時(shí)直播中間插播了一段DP開發(fā)團(tuán)隊(duì)的采訪記錄,以及日常開發(fā)視頻,很有熱血感染力。

人類挽回一點(diǎn)顏面

直播最后,加賽一場,DP更改了AI的之前的上帝視角模式,改成游戲玩家視角模式。就是說AI模擬Agent“看到”的視覺范圍和人類類似,只是面前這個(gè)屏幕大小而已。還特別強(qiáng)調(diào)了這個(gè)技術(shù)還未成熟,處于測試階段(可能意思是就算輸了,人類也別高興)。

MaNa終于在這局為人類挽回了一點(diǎn)顏面,通過大量偷襲一步步占據(jù)優(yōu)勢,最終大獲全勝。但比賽中明顯看出AI在調(diào)兵遣將上出現(xiàn)了很大的失誤,很可能因?yàn)檫@是測試版?

我和同是星際愛好者的碼農(nóng)朋友討論了下。

  1. AI的APM設(shè)置可以說公平。

    AI上帝視角對于頂級(jí)玩家來說也不算太大優(yōu)勢,因?yàn)樗麄兎浅jP(guān)注左下角鳥瞰地圖[下圖]和游戲中的聲音預(yù)警。但也有朋友認(rèn)為最后一場的AI游戲玩家視角,才算真正公平,因?yàn)閬砘厍袚Q視角很費(fèi)時(shí)。

  1. 這十盤比賽前期ai都是靠微操作碾壓人類,人類由于生理極限不能長期維持亢奮狀態(tài),無法撐到發(fā)揮人類戰(zhàn)略大局觀的優(yōu)勢的中后期。

  2. 比賽二位選手都是歐洲玩家,與亞洲玩家比,歐洲玩家大多勝在資源掌控和大局觀,歐亞對抗賽中歐洲玩家經(jīng)常后期翻盤。如果換成亞洲玩家,可能第3點(diǎn)上前期AI不占優(yōu)勢。

  3. 比賽五局中,人類每局都相當(dāng)于在和不同的Agent打,這也算公平,畢竟職業(yè)玩家都有私藏多種殺手锏,相當(dāng)于一個(gè)人用了五種打法。

賽后

DeepMind創(chuàng)始人,AlphaGo之父Demis Hassabis在推特上發(fā)文,滿是掩飾不住的驕傲:這是游戲人工智能的一個(gè)里程碑,第一個(gè)干掉人類頂級(jí)選手的系統(tǒng),這展示了我們的牛逼,我們也測試了新的產(chǎn)品原型:游戲玩家視角接口。謝謝選手MaNa,我們將繼續(xù)努力。星際是個(gè)非常復(fù)雜的游戲,我很激動(dòng),因?yàn)锳lphaStar背后的技術(shù)可以應(yīng)用于很多場景,比如天氣預(yù)報(bào)以及天氣模型等…….相關(guān)論文將很快發(fā)布

期待

WCS星際爭霸2全球總冠軍芬蘭選手Serral將于2月15日,為了人類尊嚴(yán)與AlphaStar決戰(zhàn)。誰勝誰負(fù),我們拭目以待。

所有比賽錄像可以下載:https:///research/alphastar-resources/

關(guān)于AlphaStar的研究資料:https:///blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多