|
大數(shù)據(jù)文摘編輯部出品 從足球競技到戰(zhàn)爭,團(tuán)隊(duì)合作一直被認(rèn)為是人類社會(huì)進(jìn)步的基石。基于長遠(yuǎn)的共同目標(biāo),弱化甚至犧牲個(gè)人利益,促成了人類作為共同體的最大利益。 DeepMind也正嘗試讓人工智能學(xué)會(huì)這一點(diǎn),并且選擇了最有可能顯示團(tuán)隊(duì)合作的考核方式——足球比賽。 今天凌晨,DeepMind發(fā)布了最新研究:證明了在足球環(huán)境下,一種基于分布式代理的連續(xù)控制培訓(xùn)框架,結(jié)合獎(jiǎng)勵(lì)渠道的自動(dòng)優(yōu)化,可以實(shí)現(xiàn)多智能體端到端的學(xué)習(xí)。 簡單來說就是,DeepMind設(shè)置了環(huán)境,讓多個(gè)AI一起踢足球賽。并且提前設(shè)置了規(guī)則,獎(jiǎng)勵(lì)整只“足球隊(duì)”而不去鼓勵(lì)某個(gè)'AI球員”的個(gè)人成績,以促成整個(gè)球隊(duì)的進(jìn)步。用這種方式證明了,AI也是可以相互合作的! 先附上論文鏈接: https:///pdf/1902.07151.pdf 這篇論文被ICLP 2019收錄。
通過競爭,實(shí)現(xiàn)緊急協(xié)調(diào)的多方協(xié)作 多智能體通過協(xié)作,完成團(tuán)隊(duì)最優(yōu)目標(biāo)并不是一個(gè)陌生的話題,去年,OpenAI就曾發(fā)布了由五個(gè)神經(jīng)網(wǎng)絡(luò)組成的DOTA團(tuán)戰(zhàn)AI團(tuán)隊(duì)——OpenAI Five ,并在5v5中擊敗了頂級人類玩家團(tuán)隊(duì)。比賽中,OpenAI Five也展示了,在勝利是以摧毀防御塔為前提的游戲中,犧牲“小兵”利益是可以被接受的,也就是說,AI是可以朝著長期目標(biāo)進(jìn)行優(yōu)化的。 DeepMind的最新研究進(jìn)一步專注于多智能體(multi-agent)這一領(lǐng)域。 他們組織了無數(shù)場2v2的AI足球比賽,并設(shè)定了規(guī)則,一旦有一方得分或者比賽超過45秒,比賽就結(jié)束。 DeepMind稱,通過去中心化的、基于群體的訓(xùn)練可以使得代理人的行為不斷發(fā)展:從隨機(jī),簡單的追球,到最后的簡單“合作”。他們的研究還強(qiáng)調(diào)了在連續(xù)控制的大規(guī)模多智能體訓(xùn)練中遇到的幾個(gè)挑戰(zhàn)。 值得一提的是,DeepMind通過設(shè)置自動(dòng)優(yōu)化的簡單獎(jiǎng)勵(lì),不鼓勵(lì)個(gè)體,而去鼓勵(lì)合作行為和團(tuán)隊(duì)整體的成績,可以促成長期的團(tuán)隊(duì)行為。 在研究中通過引入一種“基于單獨(dú)折扣因子來形成自動(dòng)優(yōu)化獎(jiǎng)勵(lì)的思想”,可以幫助他們的代理從一種短視的訓(xùn)練方式,過渡到一種長時(shí)間但更傾向于團(tuán)隊(duì)合作的訓(xùn)練模式當(dāng)中。 DeepMind也進(jìn)一步提出了一個(gè)以博弈論原理為基礎(chǔ)的評估方案,可以在沒有預(yù)定義的評估任務(wù)或人類基線的情況下評估代理的表現(xiàn)。
具體思想 將足球比賽看做一個(gè)多智能體強(qiáng)化學(xué)習(xí)(MARL)的過程,模擬一個(gè)可交互的環(huán)境,智能主體通過學(xué)習(xí)與環(huán)境互動(dòng),然后優(yōu)化自己累計(jì)獎(jiǎng)勵(lì)。MARL的主題思想是協(xié)作或競爭,亦或兩者皆有。選擇什么樣的行為,完全取決于“報(bào)酬獎(jiǎng)勵(lì)”的設(shè)置。MARL的目標(biāo)是典型的馬爾科夫完美均衡。大致意思是尋找隨機(jī)博弈中達(dá)到均衡條件的混合策略集合。 具體意思是:博弈參與者的行動(dòng)策略有馬爾科夫特點(diǎn),這意味著每個(gè)玩家的下一個(gè)動(dòng)作是根據(jù)另一個(gè)玩家的最后一個(gè)動(dòng)作來預(yù)測的,而不是根據(jù)先前的行動(dòng)歷史來預(yù)測的。馬爾科夫完美均衡是:基于這些玩家的動(dòng)作尋找動(dòng)態(tài)均衡。 DeepMind在github上發(fā)布了他們使用的MuJoCo Soccer環(huán)境,這是一個(gè)競爭協(xié)作多智能體交互的開源研究平臺(tái),在機(jī)器學(xué)習(xí)社區(qū)已經(jīng)得到了相當(dāng)廣泛的使用。 github地址: https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer
評估 相關(guān)比賽視頻鏈接: https:///wPtF_ygW2ss 為了有效地評估學(xué)習(xí)團(tuán)隊(duì),DeepMind選擇優(yōu)化評估方法,所選團(tuán)隊(duì)都是以前由不同評估方法產(chǎn)生的10個(gè)團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)擁有250億次的學(xué)習(xí)經(jīng)驗(yàn)。他們在10個(gè)團(tuán)隊(duì)中收集了一百萬種比賽情況。 上圖顯示了支持團(tuán)隊(duì)的3個(gè)智能體顯示的成對預(yù)期目標(biāo)差異。納什均衡要求3個(gè)團(tuán)隊(duì)的權(quán)重都是非零的,這些團(tuán)隊(duì)協(xié)作展示了具有非傳遞性能的不同策略,這是評估方案中并不存在的:團(tuán)隊(duì)A在59.7%的比賽中贏得或打平團(tuán)隊(duì)B; 團(tuán)隊(duì)B在71.1%的比賽中贏得或打平團(tuán)隊(duì)C,團(tuán)隊(duì)C在65.3%的比賽中贏得或打平團(tuán)隊(duì)A.,他們展示了團(tuán)隊(duì)A,B和C之間的示例比賽的記錄,可以定性地量化其策略的多樣性。 在上圖中,DeepMind展示了代理行為的典型軌跡:在5B步驟中,當(dāng)代理更個(gè)性化地行動(dòng)時(shí),我們觀察到無論blue1的位置如何,blue0總是試圖自己運(yùn)球。但在訓(xùn)練的后期,blue0則積極尋求團(tuán)隊(duì)合作,其行為呈現(xiàn)出由其隊(duì)友驅(qū)動(dòng)的特點(diǎn),顯示出高水平的協(xié)調(diào)精神。特別是在“8e10_left”這一場比賽中中,DeepMind稱他們觀察到了兩次連續(xù)傳球(blue0到blue1和后衛(wèi)),這是在人類足球比賽中經(jīng)常出現(xiàn)的2對1撞墻式配合。
未來研究 DeepMind此項(xiàng)研究意義重大,將2v2足球領(lǐng)域引入多智能體協(xié)作是以前沒有過的研究,通過強(qiáng)化學(xué)習(xí)研究,利用競爭與合作來訓(xùn)練獨(dú)立智能個(gè)體,展示了團(tuán)隊(duì)的協(xié)調(diào)行為。 這篇論文也證明了一種基于連續(xù)控制的分布式集群訓(xùn)練框架,可以結(jié)合獎(jiǎng)勵(lì)路徑自動(dòng)優(yōu)化,因此,在這種環(huán)境下可以進(jìn)行進(jìn)行端到端的學(xué)習(xí)。 其引入了一種思想,將獎(jiǎng)勵(lì)方向從單策略行為轉(zhuǎn)變?yōu)殚L期團(tuán)隊(duì)合作。引入了一種新的反事實(shí)政策評估來分析主題策略行為。評估強(qiáng)調(diào)了匹配結(jié)果中的非傳遞性和對穩(wěn)健性的實(shí)際需求。 DeepMind開源的訓(xùn)練環(huán)境可以作為多智能體研究的平臺(tái),也可以根據(jù)需要擴(kuò)展到更復(fù)雜的智能體行為研究,這為未來的研究打下堅(jiān)實(shí)的基礎(chǔ)。 實(shí)習(xí)/全職編輯記者招聘ing 加入我們,親身體驗(yàn)一家專業(yè)科技媒體采寫的每個(gè)細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標(biāo)北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復(fù)“招聘”了解詳情。簡歷請直接發(fā)送至zz@bigdatadigest.cn 志愿者介紹 |
|
|