整個(gè)調(diào)研報(bào)告非常豐富,包含大量圖例,看不完全完的,可以跳讀只看圖。論文目錄如下,需要源文件可在后臺回復(fù):1024 即可獲取
1.1 Motivation1956年的達(dá)特茅斯會議上定義了AI系統(tǒng)為可以從環(huán)境中收集信息并以有用的方式與之相互作用的人工生命形態(tài)。受此定義的鼓勵,1970年Minsky的麻省理工學(xué)院小組建造了一個(gè)名為“復(fù)印演示”的機(jī)器人系統(tǒng),該系統(tǒng)觀察了積木世界的場景,并成功的重構(gòu)了觀察到的多面體積木結(jié)構(gòu)。該系統(tǒng)包括觀察,計(jì)劃和操縱模塊,揭示了這些子問題都具有很高的挑戰(zhàn)性,需要進(jìn)一步的研究。從而,AI領(lǐng)域分化為專門的子領(lǐng)域,這些子領(lǐng)域在處理這些問題以及其它問題上取得了很大的獨(dú)立進(jìn)展,但是過度的還原主義模糊了AI研究的總體目標(biāo)。 要超越現(xiàn)狀,需要回歸到由亞里士多德的整體主義所激發(fā)的AI基礎(chǔ)。幸運(yùn)的是,最近大型語言模型(LLMs)和視覺語言模型(VLMs)的革命使得創(chuàng)建與整體理想一致的新型AI代理成為可能。抓住這個(gè)機(jī)會,本文探索了集成語言熟練度,視覺認(rèn)知,情境記憶,直覺推理及適應(yīng)性的模型。利用LLMs和VLMs可能完成這種整體綜合。同時(shí),我們也重溫了基于亞里士多德的目的原因的系統(tǒng)設(shè)計(jì),這可能在先前的AI發(fā)展中被忽視。 隨著強(qiáng)大的預(yù)訓(xùn)練LLMs和VLMs的出現(xiàn),催生了自然語言處理和計(jì)算機(jī)視覺的復(fù)興。LLMs現(xiàn)在展示了解密現(xiàn)實(shí)世界語言數(shù)據(jù)細(xì)微之處的令人印象深刻的能力,經(jīng)常實(shí)現(xiàn)與人類專家平行甚至超越的能力。近期,研究者已經(jīng)表明,LLMs可以擴(kuò)展為在各種環(huán)境中作為代理人,當(dāng)與特定領(lǐng)域的知識和模塊相配對時(shí),可以執(zhí)行復(fù)雜的行動和任務(wù)。這些場景需要代理人理解其角色和環(huán)境,進(jìn)行多步計(jì)劃,測試了代理人在其環(huán)境約束中做出微妙和復(fù)雜決策的能力。 基于這些初步工作,AI社區(qū)正處于一個(gè)重大的典范轉(zhuǎn)變的邊緣,從為被動,結(jié)構(gòu)化的任務(wù)創(chuàng)建AI模型,轉(zhuǎn)變?yōu)槟軌蛟诟鞣N復(fù)雜環(huán)境中扮演動態(tài)角色的模型。在這個(gè)背景下,本文調(diào)查了使用LLMs和VLMs作為代理人的巨大潛力,強(qiáng)調(diào)了具有語言熟練度,視覺認(rèn)知,情景記憶,直覺推理和適應(yīng)性的模型。以游戲,機(jī)器人,醫(yī)療保健等領(lǐng)域的代理人特別是利用LLMs和VLMs,不僅承諾了對最先進(jìn)AI系統(tǒng)的嚴(yán)格評估平臺,還預(yù)示了以代理為中心的AI將對社會和行業(yè)產(chǎn)生的變革性影響。當(dāng)代理模型被充分利用時(shí),可以重新定義人類的體驗(yàn)并提升運(yùn)營標(biāo)準(zhǔn)。 1.2 Background研究者們在本部分介紹了支持Agent AI概念、理論背景和現(xiàn)代實(shí)現(xiàn)的相關(guān)研究論文。 大型基礎(chǔ)模型(Large Foundation Models): 大型語言模型(LLMs)和巨型語言模型(VLMs)一直在推動開發(fā)通用智能機(jī)器的努力。盡管它們是通過大規(guī)模文本語料進(jìn)行訓(xùn)練的,但其卓越的問題解決能力并不局限于傳統(tǒng)的語言處理領(lǐng)域。LLMs潛在地可以應(yīng)對從人類專家或領(lǐng)域特定算法獨(dú)有的復(fù)雜任務(wù),包括數(shù)學(xué)推理[imani2023mathprompter, wei2022chain, zhu2022solving]到回答專業(yè)法律問題[blair2023can, choi2023chatgpt, nay2022law]。近期的研究已經(jīng)顯示出使用LLMs為機(jī)器人和游戲AI生成復(fù)雜計(jì)劃的可能性[codeaspolicies2022, wang2023describe, wang2023voyager, yao2023react, huang2023ark],這標(biāo)志著LLMs作為通用智能代理的重要里程碑。 具體化的AI(Embodied AI): 許多工作利用LLMs進(jìn)行任務(wù)規(guī)劃[pmlr-v162-huang22a, wang2023voyager, yao2023react, li2023camel],尤其是利用LLMs的WWW級別的領(lǐng)域知識和緊急的零射擊具體化能力執(zhí)行復(fù)雜任務(wù)規(guī)劃和推理。近期的機(jī)器人研究也利用LLMs進(jìn)行任務(wù)規(guī)劃[saycan2022arxiv, huang2022inner, codeaspolicies2022],通過將自然語言指令分解為子任務(wù)序列,無論是自然語言形式還是Python代碼形式,然后使用低級控制器執(zhí)行這些子任務(wù)。此外,它們還結(jié)合了環(huán)境反饋以提高任務(wù)性能[huang2022inner, codeaspolicies2022, wang2023describe, ikeuchi2023applying]。 交互式學(xué)習(xí)(Interactive Learning): 為交互式學(xué)習(xí)設(shè)計(jì)的AI代理采用機(jī)器學(xué)習(xí)技術(shù)和用戶交互的組合運(yùn)作。最初,AI代理在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。這個(gè)數(shù)據(jù)集包含各種類型的信息,取決于代理的預(yù)期功能。例如,為語言任務(wù)設(shè)計(jì)的AI將在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練。訓(xùn)練涉及使用機(jī)器學(xué)習(xí)算法,這可能包括深度學(xué)習(xí)模型如神經(jīng)網(wǎng)絡(luò)。這些訓(xùn)練模型使AI能夠識別模式、進(jìn)行預(yù)測,并根據(jù)其訓(xùn)練的數(shù)據(jù)生成響應(yīng)。AI代理還可以從與用戶的實(shí)時(shí)互動中學(xué)習(xí)。這種交互式學(xué)習(xí)可以通過各種方式進(jìn)行:1)基于反饋的學(xué)習(xí):AI根據(jù)用戶直接反饋調(diào)整其響應(yīng)。例如,如果用戶糾正了AI的響應(yīng),AI可以使用這個(gè)信息來改進(jìn)未來的響應(yīng)。2)觀察學(xué)習(xí):AI觀察用戶交互并隱性學(xué)習(xí)。例如,如果用戶經(jīng)常提問相類似的問題或特定方式與AI進(jìn)行交互,AI可能會調(diào)整其響應(yīng)以更好地適應(yīng)這些模式。它允許AI代理理解和處理人類語言、多模式設(shè)置,解釋跨現(xiàn)實(shí)上下文,并生成人類用戶的響應(yīng)。隨著更多的用戶交互和反饋,AI代理的性能通常會持續(xù)改進(jìn)。這個(gè)過程通常由人類操作員或開發(fā)者監(jiān)督,確保AI正在適當(dāng)?shù)貙W(xué)習(xí),而不是發(fā)展出偏見或錯(cuò)誤的模式。 1.3 Overview多模態(tài)智能體AI(Multimodal Agent AI: MAA)是一類基于理解多模態(tài)感知輸入在特定環(huán)境中生成有效行為的系統(tǒng)。隨著大型語言模型(LLMs)和視覺語言模型(VLMs)的出現(xiàn),許多不同領(lǐng)域的MAA系統(tǒng)已經(jīng)被開發(fā)出來,這些領(lǐng)域包括基礎(chǔ)研究和應(yīng)用。雖然這些研究領(lǐng)域通過與各自領(lǐng)域的傳統(tǒng)技術(shù)(例如,視覺問題回答和視覺語言導(dǎo)航)整合,迅速發(fā)展,但它們都關(guān)注如數(shù)據(jù)收集、基準(zhǔn)測試和道德視角等共同的問題。本文將重點(diǎn)關(guān)注幾個(gè)代表性的MAA研究領(lǐng)域,包括多模態(tài)、游戲(VR/AR/MR)、機(jī)器人技術(shù)和醫(yī)療保健,并對這些領(lǐng)域討論的共同問題提供全面的知識。我們希望通過此次研究,理解MAA的基礎(chǔ)原理,并推動研究者進(jìn)一步發(fā)展他們的研究。具體的學(xué)習(xí)成果包括:
無論是計(jì)算機(jī)系統(tǒng)中的普適代理(GA),或是專業(yè)性代理,他們在許多任務(wù)中都非常有效。真正有價(jià)值的GA,可以自然地與用戶進(jìn)行交互,并泛化至各種情境和模態(tài)。我們的目標(biāo)是培育一個(gè)活躍的研究生態(tài)系統(tǒng),營造出整個(gè)智能體AI社區(qū)的共享身份和目標(biāo)感。MAA具有廣泛應(yīng)用于各種情境和模態(tài)的潛力,包括人類輸入。因此,我們相信這個(gè)智能體AI領(lǐng)域可以吸引各種研究人員的參與,促成一個(gè)充滿活力的智能體AI社區(qū)和共享的目標(biāo)。由學(xué)界和業(yè)界的專家領(lǐng)導(dǎo),我們期望本文能為所有研究者提供一個(gè)包含智能體指導(dǎo)、案例研究、任務(wù)會議和實(shí)驗(yàn)討論的互動豐富的學(xué)習(xí)體驗(yàn)。 本文旨在對智能體AI領(lǐng)域的當(dāng)前研究提供全面和深入的知識。為此,本文的剩余部分將按照如下順序組織:首先介紹智能體AI如何從與相關(guān)新興技術(shù)的整合中受益,尤其是大型基礎(chǔ)模型。接著描述我們提出的訓(xùn)練智能體AI的新范式和框架。然后概述在訓(xùn)練智能體AI中廣泛使用的方法。分析和討論了各種類型的代理。之后介紹智能體AI在游戲、機(jī)器人技術(shù)和醫(yī)療保健中的應(yīng)用。探討研究社區(qū)開發(fā)能夠應(yīng)用于各種模態(tài)、領(lǐng)域的多功能智能體AI的努力,并彌合模擬到真實(shí)的間隙。然后探討智能體AI的潛力,它不僅依賴預(yù)訓(xùn)練的基礎(chǔ)模型,還可以通過與環(huán)境和用戶的交互進(jìn)行持續(xù)的學(xué)習(xí)和自我提升。接著介紹我們?yōu)橛?xùn)練多模態(tài)智能體AI設(shè)計(jì)的新數(shù)據(jù)集。最后,討論智能體AI的倫理問題、限制和我們的論文對社會的影響。 2 Agent AI Integration在過去的研究中,基于LLMs和VLMs的基礎(chǔ)模型在具象化AI領(lǐng)域的表現(xiàn)依然有限,特別是對未知環(huán)境或場景的理解、生成、編輯和交互方面。因此,這些限制導(dǎo)致AI代理的產(chǎn)出不盡如人意。 現(xiàn)有以代理為中心的AI建模方法主要關(guān)注直接可獲取且定義清晰的數(shù)據(jù)(如世界狀態(tài)的文本或字符串表示),并通常使用從大規(guī)模預(yù)訓(xùn)練中學(xué)習(xí)到的、與領(lǐng)域和環(huán)境無關(guān)的模式來預(yù)測每個(gè)環(huán)境的行動輸出。 在huang2023ark的研究中,我們通過結(jié)合大型基礎(chǔ)模型,探索了知識引導(dǎo)的協(xié)作和交互式場景生成任務(wù),結(jié)果顯示知識依賴型LLM代理能夠改進(jìn)2D和3D場景理解、生成和編輯的表現(xiàn),以及其他人類-代理交互(huang2023ark)。通過整合一個(gè)AI Agent框架,大型基礎(chǔ)模型能夠更深入地理解用戶輸入,形成一個(gè)復(fù)雜的、自適應(yīng)的HCI系統(tǒng)。LLM和VLM的出現(xiàn)能力在生成型AI、具象化AI、多模型學(xué)習(xí)的知識擴(kuò)充、混合現(xiàn)實(shí)生成、文本視覺編輯,以及游戲或機(jī)器人任務(wù)中的2D/3D模擬的人類交互中都發(fā)揮了作用。AI Agent在基礎(chǔ)模型的最新進(jìn)展為解鎖具象化代理中的一般智能提供了即將發(fā)生的催化劑。大型行動模型,或代理-視覺-語言模型為通用性的具象化系統(tǒng)如在復(fù)雜環(huán)境中的規(guī)劃、問題解決和學(xué)習(xí)提供了新的可能性。AI Agent在元宇宙中的測試進(jìn)一步邁向AGI的早期版本。 最后,研究者們在元宇宙中進(jìn)一步測試了AI Agent,并提出了早期AGI版本的思路。 如圖所示,這是一個(gè)多模型AI Agent,用于跨現(xiàn)實(shí)環(huán)境中的2D/3D具象化生成和編輯交互。
2.1 Infinite AI agent研究者們一直在探索AI代理機(jī)制的底層功能和局限性。AI代理機(jī)器具備以下功能: 1)預(yù)測建模:依靠歷史數(shù)據(jù)和趨勢,AI代理可以預(yù)測可能的結(jié)果或提出下一步的建議。比如,它們可以預(yù)測文本的繼續(xù),問題的答案,機(jī)器人的下一步行動,或者情境的解決方案。 2)決策制定:AI代理在一些應(yīng)用中可以根據(jù)所得出的推理進(jìn)行決策。大多數(shù)情況下,代理會根據(jù)最有可能完成指定目標(biāo)的選項(xiàng)進(jìn)行決策。在像推薦系統(tǒng)這樣的AI應(yīng)用中,代理可以根據(jù)對用戶喜好的推斷來決定推薦哪些產(chǎn)品或內(nèi)容。 3)處理模糊性:AI代理通常通過基于上下文和訓(xùn)練數(shù)據(jù)推斷最可能的解釋來處理模糊的輸入。然而,這種能力受到訓(xùn)練數(shù)據(jù)和算法應(yīng)用范圍的限制。 4)持續(xù)改進(jìn):雖然一些AI代理具有從新數(shù)據(jù)和交互中學(xué)習(xí)的能力,但許多大型語言模型在訓(xùn)練后不會持續(xù)更新他們的知識庫或內(nèi)部表示。他們的推理通常僅基于到最后一次訓(xùn)練更新時(shí)點(diǎn)的可用數(shù)據(jù)。 研究者們在下圖中展示了增強(qiáng)交互代理與多模態(tài)和跨現(xiàn)實(shí)融合的新興機(jī)制。一個(gè)AI代理需要為每一項(xiàng)新任務(wù)收集大量的訓(xùn)練數(shù)據(jù),這在許多領(lǐng)域可能會昂貴甚至無法實(shí)現(xiàn)。在這項(xiàng)研究中,研究者們開發(fā)了一個(gè)無限代理,它能夠從通用基礎(chǔ)模型(如GPT-X,DALL-E)中傳遞記憶信息到新的領(lǐng)域或情境,以理解,生成,以及在物理或虛擬世界提供交互編輯。 無限代理在機(jī)器人學(xué)中的一個(gè)應(yīng)用案例是RoboGen。在這項(xiàng)研究中,作者提出了一個(gè)自動執(zhí)行任務(wù)提議,環(huán)境生成,和技能學(xué)習(xí)周期的流程。RoboGen是一個(gè)努力將大型模型中嵌入的知識應(yīng)用到機(jī)器人學(xué)的項(xiàng)目。 2.2 Agent AI with Large Foundation Models近期的研究表明大型基礎(chǔ)模型在生成作為基準(zhǔn)數(shù)據(jù)方面發(fā)揮了關(guān)鍵作用,這些數(shù)據(jù)用于決定在環(huán)境制約下代理行為。例如,用基礎(chǔ)模型進(jìn)行機(jī)器人操作、學(xué)習(xí)和導(dǎo)航等應(yīng)用。具體來說,Black等人利用一種圖像編輯模型作為高級規(guī)劃器,生成未來子目標(biāo)的圖像,從而引導(dǎo)低級政策。對于機(jī)器人導(dǎo)航,Shah等人提出了一個(gè)系統(tǒng),該系統(tǒng)使用LLM從文本中識別地標(biāo),使用VLM將這些地標(biāo)與視覺輸入關(guān)聯(lián)起來,通過自然語言指令提高導(dǎo)航能力。 人們對生成有條件的人類運(yùn)動產(chǎn)生了日益濃厚的興趣,這些運(yùn)動是對語言和環(huán)境因素的反應(yīng)。已有幾種AI系統(tǒng)被提出,生成的運(yùn)動和動作被特定的語言指令定制,適應(yīng)各種3D場景。這些研究強(qiáng)調(diào)了生成模型在增強(qiáng)AI代理在廣泛情境下適應(yīng)性和反應(yīng)性方面的能力。 在這些具體的研究實(shí)例中,基礎(chǔ)模型起著注意力引導(dǎo)的作用??醋魇怯?jì)算機(jī)的'思想',他們閱讀輸入的信息(例如圖像或者文本),策劃步驟然后生成出一系列的子目標(biāo)。這些子目標(biāo)就像是一種行動藍(lán)圖,指引著機(jī)器或者AI代理執(zhí)行任務(wù)。以機(jī)器人導(dǎo)航為例,先由LLM讀取自然語言指令,從中提取出有的放矢的地標(biāo)信息。然后,這些地標(biāo)信息被VLM與獲取到的視覺輸入相結(jié)合,進(jìn)行識別和定位,從而使得機(jī)器人能夠更精確地行動。如果將這個(gè)過程類比為駕車旅行,那么基礎(chǔ)模型就是GPS導(dǎo)航,指示出一條清晰的前進(jìn)路徑。 對于生成有條件的人類運(yùn)動,研究者們已經(jīng)提出了一些AI系統(tǒng)。這些系統(tǒng)能夠根據(jù)特定的語言指令,生成適應(yīng)不同環(huán)境的人類運(yùn)動。這個(gè)過程就像AI系統(tǒng)是一個(gè)卓越的舞蹈指導(dǎo)者,它聽取語言指令,然后創(chuàng)作出一系列適合于特定環(huán)境的動作,比如在梅林公園跳舞,然后挑選合適的動作和方案,指導(dǎo)人類完成表演。 2.3 Hallucinations文本生成的代理程序常常容易產(chǎn)生幻覺,這種情況下,生成的文本可能毫無意義,或者對原始內(nèi)容的忠誠度不足?;糜X可以分為內(nèi)在性幻覺和外在性幻覺兩種類型。內(nèi)在性幻覺是指生成的文本與原始內(nèi)容矛盾,而外在性幻覺是指生成的文本包含了原始內(nèi)容中沒有的額外信息。 為了降低語言生成中產(chǎn)生幻覺的頻率,有一些有前景的方法,包括使用檢索增強(qiáng)生成或者其他通過外部知識檢索將自然語言輸出接地的方法。總的來說,這些方法試圖通過獲取更多的原始材料來增強(qiáng)語言生成,并提供機(jī)制來檢查生成的回答和原始材料之間是否存在矛盾。 在多模態(tài)代理系統(tǒng)的背景下,視覺語言模型(VLMs)也被發(fā)現(xiàn)存在幻覺的現(xiàn)象。對于基于視覺的語言生成,幻覺產(chǎn)生的一個(gè)常見原因是過度依賴訓(xùn)練數(shù)據(jù)中的物體和視覺提示的共現(xiàn)。那些完全依賴預(yù)訓(xùn)練的語言模型或視覺語言模型,并且只使用有限的特定環(huán)境微調(diào)的AI代理,尤其容易產(chǎn)生幻覺,因?yàn)樗鼈円蕾囶A(yù)訓(xùn)練模型的內(nèi)部知識庫來生成行為,可能無法準(zhǔn)確理解他們所部署的世界狀態(tài)的動態(tài)。 2.4 Biases and Inclusivity基于大型語言模型(LLMs)或大型多模態(tài)模型(LMMs)的人工智能代理存在偏見,這是由于它們的設(shè)計(jì)和訓(xùn)練過程中固有的多個(gè)因素所造成的。在設(shè)計(jì)這些人工智能代理時(shí),我們必須注意包容所有的最終用戶和利益相關(guān)者,并理解他們的需求。在人工智能代理的背景下,包容性是指采取的措施和旨在確保代理的響應(yīng)和交互包容、尊重,并對來自各種背景的大量用戶敏感的原則。
盡管采取了這些措施,人工智能代理仍然表現(xiàn)出偏見。人工智能代理的研究和開發(fā)的工作正在繼續(xù),以進(jìn)一步減少這些偏見,并增強(qiáng)代理人工智能系統(tǒng)的包容性和公平性。 2.5 Interpretability and Explainability模仿學(xué)習(xí)與解耦 在強(qiáng)化學(xué)習(xí)(RL)或模仿學(xué)習(xí)(IL)中,智能體通常會經(jīng)過連續(xù)的反饋循環(huán)進(jìn)行訓(xùn)練,起初的數(shù)據(jù)策略都由隨機(jī)初始化得到。然而,這種方法在面對不熟悉環(huán)境下獲取初始獎勵時(shí)受到阻礙,尤其是在獎勵稀少或需要長期交互才能獲得的情況下。因此,一個(gè)更好的解決方案是使用通過IL訓(xùn)練的無限記憶智能體,這樣的智能體可以從專家數(shù)據(jù)中學(xué)習(xí)策略,提升探索未知環(huán)境的能力,并利用新出現(xiàn)的基礎(chǔ)設(shè)施更好地享用這些以前看不見的環(huán)境空間。這種具有專家特性的智能體可以更好地進(jìn)行探索,并利用看不見的環(huán)境空間。這種AI智能體,可以直接從專家數(shù)據(jù)中學(xué)習(xí)策略和新的范式流程。
傳統(tǒng)的模仿學(xué)習(xí)方法是讓智能體模仿專家示范的行為來學(xué)習(xí)策略。然而,直接學(xué)習(xí)專家策略可能并不總是最好的方法,智能體可能無法很好地推廣到未見過的情況。為了解決這個(gè)問題,我們提出一個(gè)新的學(xué)習(xí)策略,該策略采用了內(nèi)在情境提示或一個(gè)隱含的獎勵函數(shù),這個(gè)函數(shù)可以捕捉到專家行為的關(guān)鍵特點(diǎn)。這種策略賦予無限記憶智能體一種物理世界行為數(shù)據(jù)的學(xué)習(xí)能力,這種數(shù)據(jù)來自于專家的示范,可以幫助智能體克服現(xiàn)有的模仿學(xué)習(xí)方法的缺點(diǎn),如需要大量的專家數(shù)據(jù),以及在復(fù)雜任務(wù)中可能出現(xiàn)的錯(cuò)誤。Agent AI的關(guān)鍵思路有兩個(gè)部分:1) 收集物理世界專家示范的狀態(tài)-行動對的無限智能體;2) 模仿智能體生成器的虛擬環(huán)境。模仿的智能體可以產(chǎn)生類似于專家行為的動作,同時(shí),通過減少專家行為與由學(xué)習(xí)策略產(chǎn)生的行為之間的差距這一損失函數(shù),智能體學(xué)習(xí)了一個(gè)從狀態(tài)映射到動作的策略。 解耦與泛化 智能體不依賴于特定任務(wù)的獎勵函數(shù),而是從專家示范中學(xué)習(xí),這為其提供了包含各種任務(wù)方面的狀態(tài)-動作對的多樣性集合。智能體通過模仿專家行為來學(xué)習(xí)一個(gè)將狀態(tài)映射到動作的策略。在模仿學(xué)習(xí)中,解耦指的是將學(xué)習(xí)過程與特定任務(wù)的獎勵函數(shù)相分離,使策略能夠在不同的任務(wù)中進(jìn)行泛化,而無需顯式依賴于特定的任務(wù)獎勵函數(shù)。通過解耦,智能體可以從專家示范中學(xué)習(xí),并學(xué)習(xí)一個(gè)能夠適應(yīng)各種情況的策略。解耦使得智能體有能力進(jìn)行遷移學(xué)習(xí),在一個(gè)領(lǐng)域中學(xué)到的策略可以以最小的調(diào)整適應(yīng)到其他領(lǐng)域。通過學(xué)習(xí)一個(gè)不與特定獎勵函數(shù)綁定的通用策略,智能體可以利用在一個(gè)任務(wù)中獲得的知識在其他相關(guān)任務(wù)中表現(xiàn)良好。智能體由于不依賴于特定的獎勵函數(shù),因此可以在獎勵函數(shù)或環(huán)境發(fā)生變化時(shí),不需要大規(guī)模的再訓(xùn)練即可進(jìn)行適應(yīng)。這使得學(xué)習(xí)到的策略在不同環(huán)境中更具有強(qiáng)韌性和泛化能力。本文中的解耦泛指學(xué)習(xí)過程中的兩項(xiàng)任務(wù):學(xué)習(xí)獎勵函數(shù)和學(xué)習(xí)最優(yōu)策略。 泛化與出現(xiàn)性行為 泛化解釋了如何從更簡單的組件或規(guī)則中產(chǎn)生出現(xiàn)性屬性或行為。關(guān)鍵想法在于識別控制系統(tǒng)行為的基本元素或規(guī)則,如單個(gè)神經(jīng)元或基本算法。然后,通過觀察這些簡單組件或規(guī)則是如何相互交互的。這些組件的交互通常會導(dǎo)致復(fù)雜行為的出現(xiàn),這些行為無法通過單獨(dú)檢查單個(gè)組件來預(yù)測。在不同復(fù)雜性級別上進(jìn)行泛化,可以使系統(tǒng)學(xué)習(xí)適用于這些級別的一般原則,從而產(chǎn)生出現(xiàn)性質(zhì)。這使得系統(tǒng)能夠適應(yīng)新的情況,展示出由更簡單的規(guī)則產(chǎn)生的更復(fù)雜的行為。此外,跨不同復(fù)雜性級別進(jìn)行泛化的能力有助于知識從一個(gè)領(lǐng)域轉(zhuǎn)移到另一個(gè)領(lǐng)域,這種轉(zhuǎn)移促成在系統(tǒng)適應(yīng)新環(huán)境時(shí)出現(xiàn)復(fù)雜行為的產(chǎn)生。 2.6 Inference Augmentation人工智能代理的推理能力在于其解釋、預(yù)測和基于其訓(xùn)練及輸入數(shù)據(jù)進(jìn)行響應(yīng)的能力。雖然這些能力在不斷改進(jìn)和提高,但還是需要注意其局限性以及它們所依賴的訓(xùn)練數(shù)據(jù)的影響。尤其在大型語言模型的背景下,引用它們根據(jù)其訓(xùn)練數(shù)據(jù)和接收的輸入數(shù)據(jù)進(jìn)行推理、預(yù)測和生成回應(yīng)的能力。人工智能的推理增強(qiáng)是指使用其他工具、技術(shù)或數(shù)據(jù)來增強(qiáng)AI的自然推理能力,以提高其性能、準(zhǔn)確性和實(shí)用性。在復(fù)雜的決策制定場景或處理細(xì)微或?qū)I(yè)內(nèi)容時(shí),這非常重要。下面將特別注意推理調(diào)增強(qiáng)的主要來源: 數(shù)據(jù)豐富化。引入額外的,經(jīng)常是外部的,數(shù)據(jù)源可以提供更多的上下文或背景信息,幫助AI代理做出更有根據(jù)的推斷,尤其是其訓(xùn)練數(shù)據(jù)可能有限的領(lǐng)域。例如,AI代理可以從對話或文本的上下文中推斷出含義。它們分析給定信息,并用其理解用戶查詢的意圖和相關(guān)細(xì)節(jié)。這些模型擅長于識別數(shù)據(jù)中的模式。他們利用這種能力,基于訓(xùn)練中學(xué)到的模式,對語言、用戶行為或其他相關(guān)現(xiàn)象進(jìn)行推斷。 算法增強(qiáng)。改進(jìn)AI的底層算法以做出更好的推析。這可能涉及到使用更先進(jìn)的機(jī)器學(xué)習(xí)模型,整合不同類型的AI(如結(jié)合自然語言處理和圖像識別),或者更新算法以更好地處理復(fù)雜任務(wù)。語言模型的推理包括理解和生成人類語言,包括掌握像語氣、意圖和不同語言結(jié)構(gòu)的微妙之處。 Human-in-the-Loop(HITL)。加入人的輸入來增強(qiáng)AI的推斷在某些領(lǐng)域特別有用,如倫理考慮、創(chuàng)造性任務(wù)或模糊的場景。人可以提供指導(dǎo),糾正錯(cuò)誤或提供代理可能無法自行推斷出的見解。 實(shí)時(shí)反饋集成。使用用戶或環(huán)境的實(shí)時(shí)反饋來增強(qiáng)推斷是另一種在推斷過程中提高性能的有前景的方法。例如,AI可能會根據(jù)使用者的實(shí)時(shí)反饋或在動態(tài)系統(tǒng)中改變的條件調(diào)整其推薦。或者,如果代理在模擬環(huán)境中采取的行動違反了某些規(guī)則,可以動態(tài)地給予代理反饋以幫助其糾正自身。 跨領(lǐng)域知識轉(zhuǎn)移。利用一個(gè)領(lǐng)域的知識或模型來改進(jìn)另一個(gè)領(lǐng)域的推斷在生成專業(yè)化領(lǐng)域的輸出時(shí)特別有幫助。例如,為語言翻譯開發(fā)的技術(shù)可能會應(yīng)用于代碼生成,或者從醫(yī)學(xué)診斷中得到的見解可以增強(qiáng)機(jī)器的預(yù)測性維護(hù)。 針對特定用例的定制。根據(jù)特定應(yīng)用或產(chǎn)業(yè)來調(diào)整AI的推理能力可能包括對AI在專業(yè)化的數(shù)據(jù)集上的訓(xùn)練,或者微調(diào)其模型以更好地適應(yīng)特定任務(wù),如法律分析、醫(yī)學(xué)診斷或金融預(yù)測。由于一個(gè)領(lǐng)域內(nèi)的特殊語言或信息與其他領(lǐng)域的語言有很大的對比,因此對代理進(jìn)行領(lǐng)域特定信息的微調(diào)可能有益。 倫理和偏見的考慮。我們應(yīng)確保增強(qiáng)過程不引入新的偏見或倫理問題。這需要仔細(xì)考慮額外數(shù)據(jù)的來源,或者新的推理增強(qiáng)算法對公平性和透明度的影響。在進(jìn)行推理,尤其是關(guān)于敏感話題時(shí),AI代理必須有時(shí)避開倫理考慮,這涉及到避免傷害性的刻板印象,尊重隱私,和確保公平。 持續(xù)的學(xué)習(xí)和適應(yīng)。定期更新和優(yōu)化AI的能力,以跟上新的發(fā)展、變化的數(shù)據(jù)環(huán)境和演變的用戶需求。 總的來說,人工智能代理的推理增強(qiáng)涉及可以通過額外的數(shù)據(jù)、改進(jìn)的算法、人的輸入和其他技術(shù)增強(qiáng)其自然推理能力的方法。根據(jù)使用情況,這種增強(qiáng)對處理復(fù)雜任務(wù)和保證代理輸出的準(zhǔn)確性經(jīng)常至關(guān)重要。
2.7 Regulation近期,Agent AI(智能體AI)技術(shù)取得了顯著進(jìn)展,并且其應(yīng)用于實(shí)體系統(tǒng)中開啟了以更沉浸式、動態(tài)且引人入勝的體驗(yàn)與代理人進(jìn)行交互的新可能性。為了加快進(jìn)程并簡化Agent AI開發(fā)中的繁瑣工作,研究者們正在計(jì)劃開發(fā)下一代AI賦能的智能體交互流程。研究者們正在開發(fā)一個(gè)人機(jī)協(xié)作系統(tǒng),人和機(jī)器可以在其中有意義地交流和互動。該系統(tǒng)可以利用LLM(語言模型)或VLM(視覺語言模型)的對話能力和廣泛的應(yīng)對行為,與人類玩家進(jìn)行交談并識別人類的需求。然后,它將根據(jù)請求來執(zhí)行適當(dāng)?shù)男袆右詭椭斯ね婕摇?/p> 當(dāng)為人機(jī)協(xié)作系統(tǒng)服務(wù)時(shí),LLM/VLM常常扮演一個(gè)黑匣子的角色,并產(chǎn)生無法預(yù)測的輸出。這種不確定性在實(shí)體設(shè)備,如實(shí)際操作機(jī)器人的情況下可能變得非常重要。解決這個(gè)問題的一種方法是通過提示工程把LLM/VLM的焦點(diǎn)限制在一定范圍內(nèi)。例如,在從指示進(jìn)行機(jī)器人任務(wù)計(jì)劃時(shí),將環(huán)境信息包含在內(nèi)的提示已被報(bào)道能比僅依賴文本產(chǎn)生更穩(wěn)定的輸出。這個(gè)觀點(diǎn)得到了Minsky的AI框架理論的支持,該理論認(rèn)為LLM/VLM需要解決的問題空間是由所給的提示定義的。另一種方法是設(shè)計(jì)出能讓LLM/VLM包含解釋性文本的提示,以讓用戶理解模型的關(guān)注焦點(diǎn)或識別內(nèi)容。此外,在人類的指導(dǎo)下加入一個(gè)能用于執(zhí)行前的驗(yàn)證和修改的更高層次,可以使得在此類指導(dǎo)下工作的系統(tǒng)的操作更為便利。 在以ChatGPT開發(fā)的機(jī)器人教學(xué)系統(tǒng)中,這種方法顯得尤為有效(如下圖所示)。該系統(tǒng)的工作流程包括了三個(gè)步驟:任務(wù)規(guī)劃,其中ChatGPT從指示和環(huán)境信息中計(jì)劃機(jī)器人的任務(wù);示范,用戶將動作序列以視覺形式展示出來。所有步驟都要經(jīng)過用戶審查,如果有任何步驟失敗或有不足,都可以根據(jù)需要回顧前面的步驟。此外,還有一個(gè)網(wǎng)絡(luò)應(yīng)用,用戶可以上傳演示數(shù)據(jù),且可以實(shí)現(xiàn)用戶與ChatGPT間的互動。 2.8 Agent AI for Emergent Abilities盡管交互式人工智能代理系統(tǒng)的應(yīng)用越來越廣泛,但大多數(shù)提出的方法在面對未曾遇見過的環(huán)境或情景時(shí),其泛化性能仍面臨挑戰(zhàn)。當(dāng)前的建模實(shí)踐需要開發(fā)者為每個(gè)領(lǐng)域準(zhǔn)備大量數(shù)據(jù)集以微調(diào)/預(yù)訓(xùn)練模型,然而這個(gè)過程既昂貴又復(fù)雜,如果領(lǐng)域是全新的,這甚至可能是不可能的。為了解決這個(gè)問題,研究者們構(gòu)建了可以利用通用基礎(chǔ)模型(如ChatGPT、Dall-E、GPT-4等)知識存儲的交互式代理,以生成一個(gè)新的應(yīng)用場景,專門為人和代理之間的協(xié)作空間設(shè)計(jì)。 研究者們發(fā)現(xiàn)了一種新的機(jī)制,我們稱之為'混合現(xiàn)實(shí)與知識推理交互',它能在處理現(xiàn)實(shí)世界中的復(fù)雜任務(wù)時(shí),和人進(jìn)行有效的協(xié)作,同時(shí)還能探索未知環(huán)境以適應(yīng)虛擬現(xiàn)實(shí)。在這種機(jī)制下,代理學(xué)習(xí)到: i) 橫跨多種模態(tài)的微觀反應(yīng):為每個(gè)交互任務(wù)收集相關(guān)個(gè)體知識(如理解未見過的場景),這些知識既可以從明確的網(wǎng)絡(luò)來源獲取,也可以通過隱式地從預(yù)訓(xùn)練模型的輸出中推斷出來。 ii) 對現(xiàn)實(shí)無知識約束的宏觀行為:改進(jìn)語言和多模態(tài)領(lǐng)域中的交互維度和模式,并根據(jù)明確定義的角色、特定目標(biāo)變量、混合現(xiàn)實(shí)和語言模型中協(xié)作信息的多樣性影響,進(jìn)行操作。 研究者們研究了將各種OpenAI模型組合起來,通過知識引導(dǎo)完成協(xié)同場景生成的任務(wù),并展示了交互式代理系統(tǒng)如何能進(jìn)一步提升我們環(huán)境中的大型基礎(chǔ)模型的性能。它集成并提高了泛化的深度、意識和可解釋性的復(fù)雜自適應(yīng)AI系統(tǒng)。
3 Agent AI Paradigm本節(jié)中,研究者們討論了一種新的人工智能代理(Agent AI)訓(xùn)練模式和框架。該新框架主要包含以下幾個(gè)目標(biāo):
3.1 LLMs and VLMs研究者們利用LLM(大型語言模型)或者VLM(視覺語言模型)為智能體(Agent)構(gòu)建組件如圖fig:AgentParadigm所示。尤其是,LLMs已經(jīng)在任務(wù)規(guī)劃上表現(xiàn)出色,包含了大量的世界知識,并能展示出深厚的邏輯推理能力。另外,像CLIP這種VLM提供了一個(gè)與語言對齊的通用視覺編碼器,并且擁有零樣本視覺識別能力。例如,最先進(jìn)的開源多模態(tài)模型如LLaVA和InstructBLIP,它們依賴凍結(jié)的CLIP模型作為視覺編碼器。
3.2 Agent Transformer Definition在AI代理方面,研究者們不再僅僅使用凍結(jié)的LLMs和VLMs(語言和視覺模型),他們嘗試采用一個(gè)綜合的轉(zhuǎn)換模型,這個(gè)模型可以接受視覺令牌和語言令牌作為輸入,這種方式類似于Gato reed2022generalist的工作。除了視覺和語言,模型的輸入還增加了第三種類型——代理令牌。從概念上來講,代理令牌被用來在模型的輸入和輸出空間中保留一個(gè)特定的子空間,用以展示代理行為。在機(jī)器人或者游戲玩家的行為中,這可以被視為控制器的輸入動作空間。在訓(xùn)練代理使用特定工具,如圖像生成或圖像編輯模型,或其他API調(diào)用時(shí),也會使用到代理令牌。 研究者們可以將代理令牌與視覺和語言令牌進(jìn)行結(jié)合,這樣就能為訓(xùn)練多模態(tài)AI代理創(chuàng)建一個(gè)統(tǒng)一的接口。相比使用大型私有語言模型作為代理,使用代理轉(zhuǎn)換器有以下幾個(gè)優(yōu)勢:首先,模型可以被輕松地定制到特定的代理任務(wù),這些任務(wù)可能通過自然語言難以描述(如控制器輸入或其他特定動作)。因此,代理可以通過學(xué)習(xí)環(huán)境互動和領(lǐng)域特定的數(shù)據(jù)來提高性能。其次,通過獲取代理令牌的可能性,更容易理解模型為何采取特定行動或?yàn)楹尾徊扇?。第三,有些領(lǐng)域,如醫(yī)療和法律,有嚴(yán)格的數(shù)據(jù)隱私要求。最后,相對較小的代理轉(zhuǎn)換器可能比大型專有語言模型更為經(jīng)濟(jì)。 研究者們提出的代理多模態(tài)轉(zhuǎn)換模型,不再是連接凍結(jié)的子模塊和使用存在的基礎(chǔ)模型作為構(gòu)建塊,而是為代理系統(tǒng)提出了一個(gè)統(tǒng)一的、端到端的訓(xùn)練范式。雖然在初始化子模塊時(shí),研究者們可以像在圖fig:LLMAgent中那樣使用LLMs和LVMs,但是他們也會利用代理令牌,這是一種專門用于訓(xùn)練模型在特定領(lǐng)域。 3.3 Agent Transformer Creation研究者們可以采用新的代理人范例,運(yùn)用LLM和VLM引導(dǎo)代理人,同時(shí)利用大型基礎(chǔ)模型生成的數(shù)據(jù)來訓(xùn)練代理人變壓器模型,使其學(xué)會執(zhí)行特定目標(biāo)。在這個(gè)過程中,代理人模型被訓(xùn)練為對特定任務(wù)和領(lǐng)域有專業(yè)和精細(xì)的配備。這種方法允許你利用現(xiàn)有的基礎(chǔ)模型的學(xué)習(xí)特征和知識。我們在下面簡化了這個(gè)過程的概述,分為兩個(gè)步驟: 定義領(lǐng)域內(nèi)的目標(biāo)。為了訓(xùn)練代理人變壓器,需要明確定義代理人在每個(gè)特定環(huán)境中的目標(biāo)和行動空間。這包括確定代理人需要執(zhí)行哪些特定任務(wù)或動作,并為每個(gè)任務(wù)或動作分配唯一的代理人標(biāo)記。此外,可以用來標(biāo)識任務(wù)成功完成的任何自動規(guī)則或程序都可以顯著增加可用于訓(xùn)練的數(shù)據(jù)量。否則,將需要用基礎(chǔ)模型生成的數(shù)據(jù)或人類注釋的數(shù)據(jù)來訓(xùn)練模型。在收集到數(shù)據(jù)并能夠評估代理人的性能后,就可以開始持續(xù)改進(jìn)的過程。 持續(xù)改進(jìn)。持續(xù)監(jiān)測模型的性能和收集反饋是這個(gè)過程中的關(guān)鍵步驟。反饋應(yīng)該用于進(jìn)一步的微調(diào)和更新。也很重要的是要確保模型不會繼續(xù)傳播偏見或不道德的結(jié)果。這需要對訓(xùn)練數(shù)據(jù)進(jìn)行仔細(xì)的檢查,定期檢查輸出中的偏見,如果需要的話,訓(xùn)練模型識別和避免偏見。一旦模型達(dá)到滿意的性能,就可以將其部署到預(yù)期的應(yīng)用中。持續(xù)監(jiān)測仍然很重要,以確保模型如預(yù)期那樣執(zhí)行,并進(jìn)行必要的調(diào)整。 4 Agent AI Learning4.1 Strategy and Mechanism這一策略是以一種主動收集用戶反饋、行動信息、用于生成和交互的有用知識的訓(xùn)練過的代理,來擴(kuò)展在不同領(lǐng)域的交互式AI的范式。有時(shí)候,不需要再次訓(xùn)練LLM/VLM模型,只需在測試時(shí)為代理提供改進(jìn)的上下文提示,就能提高它們的性能。 另一方面,這一策略總是涉及到借助三重系統(tǒng)的知識/推理/常識/推斷的交互式建模,其中一個(gè)系統(tǒng)負(fù)責(zé)從多模型查詢中獲取知識,第二個(gè)系統(tǒng)負(fù)責(zé)從相關(guān)代理中進(jìn)行交互式生成,最后一個(gè)系統(tǒng)則負(fù)責(zé)以改進(jìn)方式進(jìn)行有益的自我監(jiān)督訓(xùn)練或強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)的預(yù)訓(xùn)練。 這里的三重系統(tǒng)就像三個(gè)專家團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)都有自己的專長和任務(wù):一個(gè)團(tuán)隊(duì)負(fù)責(zé)從海量的信息中尋找并提取有用的知識,這就像是在不斷更新的圖書館里找到我們需要的書;第二個(gè)團(tuán)隊(duì)負(fù)責(zé)根據(jù)第一個(gè)團(tuán)隊(duì)找到的知識進(jìn)行產(chǎn)品的創(chuàng)建和優(yōu)化,就像是用找到的書寫一篇論文;最后一個(gè)團(tuán)隊(duì)則負(fù)責(zé)讓AI系統(tǒng)通過學(xué)習(xí)進(jìn)步,就像是用論文獲取好成績,然后反過來優(yōu)化寫作技巧和知識。 4.1.1 Reinforcement Learning (RL)采用強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練具備智能行為的交互式代理者有著豐富的歷史。強(qiáng)化學(xué)習(xí)是一種根據(jù)其行動產(chǎn)生的獎勵(或懲罰)學(xué)習(xí)狀態(tài)和行動之間最優(yōu)關(guān)系的方法。其最核心的應(yīng)用廣泛,如機(jī)器人技術(shù)等,但要克服幾個(gè)困難:獎勵設(shè)計(jì),數(shù)據(jù)收集與效率以及長期步驟。 獎勵設(shè)計(jì)是政策學(xué)習(xí)效率的一個(gè)重要因素。設(shè)計(jì)獎勵函數(shù)不僅需要了解RL算法,更需要深入了解任務(wù)的本質(zhì),因此通常需要根據(jù)專家的經(jīng)驗(yàn)來調(diào)整函數(shù)。近期的一些研究開始探索了使用LLM/VLM模型設(shè)計(jì)獎勵函數(shù)。 在數(shù)據(jù)收集和效率方面,由于RL基于策略學(xué)習(xí)具有探索性,需要大量的數(shù)據(jù)。特別是在對長序列或復(fù)雜動作進(jìn)行處理時(shí),這種需求尤其明顯,因?yàn)檫@些場景要求更加細(xì)致的決策和從更廣泛情況中學(xué)習(xí)。因此,新近的研究致力于增強(qiáng)數(shù)據(jù)生成以支持策略學(xué)習(xí),同時(shí),將這些模型整合到獎勵函數(shù)中可提高策略學(xué)習(xí)方面,有些研究已經(jīng)支持應(yīng)用。 對于長程步驟來說,隨著動作序列長度增加,RL將變得更具挑戰(zhàn)性。這是由于動作和獎勵之間關(guān)系的模糊性(即信用分配問題)以及要探索的狀態(tài)數(shù)量增加,需要大量的時(shí)間和數(shù)據(jù)。解決長程和復(fù)雜任務(wù)的一個(gè)典型方法是將它們拆分為一系列子目標(biāo),并應(yīng)用預(yù)訓(xùn)練的策略來解決每個(gè)子目標(biāo)。 最近的研究越來越多地采用一種方法,即使用LLM執(zhí)行高級任務(wù)規(guī)劃,而將低級控制用RL-based計(jì)策略解決。LLM的先進(jìn)功能使它們能夠有效地將甚至是抽象的指令分解為子目標(biāo),從而增強(qiáng)了機(jī)器人系統(tǒng)中的語言理解能力。 4.1.2 Imitation Learning (IL)強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是基于探索性行為和通過與環(huán)境互動來最大化獎勵來訓(xùn)練一個(gè)策略,而模仿學(xué)習(xí)(IL)則尋求利用專家數(shù)據(jù)來模仿經(jīng)驗(yàn)豐富的代理或?qū)<业男袆印?/span>以機(jī)器人技術(shù)為例,基于IL的主要框架之一就是行為克?。˙C)。BC是一種讓機(jī)器人通過直接復(fù)制來模仿專家行動的方法。在這個(gè)方法中,記錄了專家在執(zhí)行特定任務(wù)時(shí)的行動,然后訓(xùn)練機(jī)器人在類似的情況下復(fù)制這些行動。最近基于BC的方法常常結(jié)合LLM/VLM技術(shù),從而能夠?qū)崿F(xiàn)更進(jìn)階的端對端模型。例如,Brohan等人提出了RT-1brohan2022rt和RT-2brohan2023rt,這些以圖像和語言為輸入,輸出基座和臂部動作序列的變壓器模型。據(jù)報(bào)道,這些模型由于在大量訓(xùn)練數(shù)據(jù)上的訓(xùn)練,顯示出了高度的泛化性能。 要以第一性原理來總結(jié),RL和IL的區(qū)別在于RL是通過與環(huán)境交互,并以獎勵為導(dǎo)向進(jìn)行學(xué)習(xí)。而IL則是通過觀察和復(fù)制專家的行為來學(xué)習(xí)。這就像RL是一個(gè)人獨(dú)立完成任務(wù)并從錯(cuò)誤中學(xué)習(xí),而IL像是復(fù)制專家的行為模式進(jìn)行學(xué)習(xí)。BC是IL的一種極端形式,通過復(fù)制專家的精確動作來學(xué)習(xí),這就像一個(gè)手工藝制作者復(fù)制一個(gè)細(xì)致的工藝流程一樣。最新的BC方法則更進(jìn)一步地引入了LLM/VLM技術(shù),以此實(shí)現(xiàn)更先進(jìn)的端對端模型,就像是一個(gè)藝術(shù)家不僅復(fù)制大師的畫作,還復(fù)制了他們的創(chuàng)作過程。 4.1.3 Traditional RGB研究者們于多年來一直對利用圖像輸入來學(xué)習(xí)智能代理行為表現(xiàn)出巨大興趣。然而,使用RGB輸入的固有挑戰(zhàn)在于'維度的詛咒'。為了解決這個(gè)問題,研究者們或者采用更多的數(shù)據(jù),或者引入歸納偏差到模型設(shè)計(jì)中以提高樣本效率。特別是,作者將3D結(jié)構(gòu)融入到模型架構(gòu)中進(jìn)行操作。對于機(jī)器人導(dǎo)航,作者使用地圖作為表示。地圖可以通過一個(gè)聚合所有之前RGB輸入的神經(jīng)網(wǎng)絡(luò)或通過3D重建方法如神經(jīng)輻射場來學(xué)習(xí)得到。 為了獲得更多的數(shù)據(jù),研究者們合成了使用圖形模擬器的合成數(shù)據(jù),試圖關(guān)閉模擬到真實(shí)的差距。最近,有一些共同努力致力于策劃大規(guī)模數(shù)據(jù)集,目的是解決數(shù)據(jù)稀缺問題。另一方面,為了提高樣本復(fù)雜性,數(shù)據(jù)增強(qiáng)技術(shù)也得到了廣泛的研究。 首先,讓我們理解'維度的詛咒',這個(gè)概念是指,當(dāng)我們考慮一個(gè)問題的維度(特征)數(shù)量增加時(shí),數(shù)據(jù)的量需要以指數(shù)級增長,才能有效地覆蓋所有的可能性??梢韵胂?,對于一款以RGB輸入的游戲來說,嘗試遍歷所有可能的圖像輸入將是非常耗時(shí)和低效的。 在此基礎(chǔ)上,研究者們的一種解決方案是獲得更多的數(shù)據(jù)。例如,他們使用圖形模擬器生成合成數(shù)據(jù),并嘗試縮小模擬器生成的數(shù)據(jù)與真實(shí)世界數(shù)據(jù)之間的差距,這個(gè)過程被稱為'模擬到真實(shí)的差距'。同時(shí),他們也在盡力策劃大規(guī)模數(shù)據(jù)集,以解決數(shù)據(jù)稀缺問題。 另一種解決方案是改進(jìn)樣本的復(fù)雜性。他們通過引入歸納偏差到模型設(shè)計(jì)中以提高樣本效率,如將3D結(jié)構(gòu)融入到模型架構(gòu)中進(jìn)行操作。同時(shí),數(shù)據(jù)增強(qiáng)作為另一種提高樣本復(fù)雜性的方法也得到了廣泛的研究。 4.1.4 In-context Learning在大型語言模型如GPT-3(brown2020language, min2022rethinking)的推動下,情境學(xué)習(xí)被證明是解決自然語言處理(NLP)任務(wù)的有效方法。將少量示例融入到語言模型的提示中,即使用少量語境提示,被視為是讓模型在自然語言處理任務(wù)中具備情境化輸出的有效方式。例如,對于情境示范,研究者們發(fā)現(xiàn),示例的多樣性和質(zhì)量可能會提高模型輸出的質(zhì)量(an2023context, dong2022survey)。 在多模態(tài)基礎(chǔ)模型的情境中,像Flamingo和BLIP-2(alayrac2022flamingo, li2023blip)這樣的模型被證實(shí)在只給予少量示例的情況下,能有效地完成各種視覺理解任務(wù)。這可以類比為,就像人類在只看過幾次的情況下,就能夠理解和識別物體一樣。 而且,當(dāng)采取某些行動時(shí),通過將環(huán)境特定的反饋融入其中,可以進(jìn)一步改善環(huán)境中的實(shí)體的情境學(xué)習(xí)(gong2023mindagent)。這可以理解為,當(dāng)某個(gè)行動產(chǎn)生某個(gè)結(jié)果時(shí),環(huán)境會給出反饋。實(shí)體記住這個(gè)反饋,從而改善自身行為,這就是情境學(xué)習(xí)的一種改進(jìn)方式。 4.1.5 Optimization in the Agent System優(yōu)化智能體系統(tǒng)可分為空間優(yōu)化和時(shí)間優(yōu)化兩個(gè)方面??臻g優(yōu)化關(guān)注的是智能體如何在實(shí)體空間中操作以執(zhí)行任務(wù),包括機(jī)器人之間的協(xié)調(diào)、資源分配和保持有序空間。 為了有效地優(yōu)化大量并行操作的智能體AI系統(tǒng),研究者們之前的工作主要集中在使用大批量強(qiáng)化學(xué)習(xí)。由于針對特定任務(wù)的多主體互動數(shù)據(jù)集很少,自我對弈強(qiáng)化學(xué)習(xí)使得一組智能體得以隨著時(shí)間推移而進(jìn)步。但是,這也可能導(dǎo)致產(chǎn)生非常脆弱的智能體,這些智能體只能在自我對弈的環(huán)境下工作,不能與人類或其他獨(dú)立的智能體一起工作,因?yàn)樗鼈冞^度適應(yīng)了自我對弈的訓(xùn)練模式。為了解決這個(gè)問題,研究者們可以選擇發(fā)現(xiàn)一個(gè)多樣化的約定集和訓(xùn)練一個(gè)能夠理解各種約定的智能體。基礎(chǔ)模型可以進(jìn)一步幫助智能體建立與人類或其他獨(dú)立智能體的約定,使得新的智能體能夠順利地協(xié)調(diào)。 另一方面,時(shí)間優(yōu)化關(guān)注的是智能體如何隨著時(shí)間的推移執(zhí)行任務(wù)。這涵蓋了任務(wù)計(jì)劃、序列和時(shí)間線效率。例如,優(yōu)化機(jī)器人手臂的軌跡就是連續(xù)任務(wù)間高效優(yōu)化運(yùn)動的一個(gè)例子。在任務(wù)調(diào)度層面,如LLM-DP和ReAct這樣的方法被提出來通過互動式地考慮環(huán)境因素來解決高效任務(wù)計(jì)劃的問題。 4.2 Agent Systems (zero-shot and few-shot level)4.2.1 Agent Modules研究者們深入探索了代理人范例,發(fā)展了以LLMs或VLMs為基礎(chǔ)的Agent AI '模塊',它是交互式多模態(tài)代理人的體現(xiàn)。他們最初的Agent模塊易于訓(xùn)練和在上下文中學(xué)習(xí),并采用了極簡主義的設(shè)計(jì),以顯示代理人有效地安排和協(xié)調(diào)的能力。他們還探索了最初基于提示的記憶技巧,這種技巧可以更好地進(jìn)行規(guī)劃,并指導(dǎo)領(lǐng)域內(nèi)未來的行動方法。 以“MindAgent'基礎(chǔ)設(shè)施為例,它主要包括五個(gè)模塊:1)環(huán)境感知和任務(wù)規(guī)劃,2)代理學(xué)習(xí),3)記憶,4)一般代理行為預(yù)測,以及5)認(rèn)知(如圖fig:AgentParadigm所示)。這就好像是一個(gè)人的大腦,每個(gè)模塊都扮演著特定的角色,環(huán)境感知和任務(wù)規(guī)劃就是人的眼睛,幫助我們觀察環(huán)境和設(shè)定目標(biāo),代理學(xué)習(xí)就是學(xué)習(xí)過程,記憶儲存了我們的知識,行為預(yù)測就像是我們基于知識和經(jīng)驗(yàn)對未來的預(yù)測,而認(rèn)知則是對所有輸入和輸出的全面理解。 4.2.2 Agent Infrastructure基于代理人的人工智能(Agent-based AI)在娛樂、研究和工業(yè)等領(lǐng)域迅速發(fā)展,如同許多種類的生物群落在各自的領(lǐng)域中繁榮壯大。大型基礎(chǔ)模型的開發(fā)顯著地提升了代理人AI系統(tǒng)的性能,但是,高質(zhì)量數(shù)據(jù)集的創(chuàng)建以及費(fèi)用的增長已經(jīng)限制了在這個(gè)領(lǐng)域中的創(chuàng)新。如同高昂的維護(hù)費(fèi)用制約了生物種群數(shù)量的增長。 在微軟,通過使用先進(jìn)的硬件、多元的數(shù)據(jù)源和強(qiáng)大的軟件庫,高質(zhì)量代理人基礎(chǔ)設(shè)施的建設(shè),使得多模態(tài)代理人副駕駛(multi-modal agent copilots)受益頗多。隨著微軟繼續(xù)推動代理人技術(shù)的界限,AI代理人平臺有望在未來幾年繼續(xù)在多模態(tài)智能領(lǐng)域占據(jù)主導(dǎo)地位。 然而,代理人AI的交互仍然是一個(gè)需要結(jié)合多項(xiàng)技能的復(fù)雜過程,如同高水平的烹飪需要掌握各種烹飪技法。大型生成AI模型的先進(jìn)技術(shù)有可能大大降低當(dāng)前互動內(nèi)容的高昂成本和所需時(shí)間,這不僅對大型工作室有利,也能賦能更多的獨(dú)立內(nèi)容創(chuàng)作者設(shè)計(jì)出超過當(dāng)前能力的高質(zhì)量體驗(yàn)。 目前,多模態(tài)代理人中的人機(jī)交互系統(tǒng)主要是基于規(guī)則的,它們對人類/用戶的反應(yīng)有一定的智能化行為,也一定程度上掌握了網(wǎng)絡(luò)知識,如同寵物狗對主人指令的反應(yīng)和記憶。然而,它們的交互往往受到制定系統(tǒng)特定行為的軟件開發(fā)成本的限制。此外,現(xiàn)有模型并未設(shè)計(jì)為在用戶無法完成特定任務(wù)時(shí)幫助其實(shí)現(xiàn)目標(biāo)。因此,我們需要一個(gè)能夠分析用戶行為并在需要時(shí)提供恰當(dāng)支持的代理人AI系統(tǒng)基礎(chǔ)設(shè)施。如同我們需要一個(gè)能隨時(shí)幫助我們解決難題的秘書或私人助理。 4.3 Agentic Foundation Models (pretraining and finetune level)預(yù)訓(xùn)練的基礎(chǔ)模型廣泛適用于各種不同的用例,為各種應(yīng)用開發(fā)定制解決方案提供了巨大的優(yōu)勢,繞過了針對每個(gè)特定任務(wù)需求大量標(biāo)簽數(shù)據(jù)集的問題。 在導(dǎo)航領(lǐng)域,一個(gè)值得注意的例子是LM-Nav系統(tǒng),該系統(tǒng)采用了一種新穎的方法,結(jié)合了GPT-3和CLIP。該方法有效地使用語言模型生成的文本地標(biāo),并將其錨定在用于導(dǎo)航的機(jī)器人獲取的圖像中。這種方法展示了文本與視覺數(shù)據(jù)的無縫融合,大大提高了機(jī)器人導(dǎo)航的能力,同時(shí)保持了廣泛的適用性。 在機(jī)器人操作中,一些研究建議使用現(xiàn)成的LLM(例如ChatGPT)并使用開放詞匯的對象檢測器。LLM和先進(jìn)的對象檢測器(例如Detic)的結(jié)合有助于理解人類的指令,并將文本信息在實(shí)際場景中定位。此外,最新的進(jìn)展顯示出了使用提示工程與像GPT-4V(ision)這樣的先進(jìn)多模態(tài)模型的潛力。這種技術(shù)為多模態(tài)任務(wù)規(guī)劃打開了新的道路,突出了預(yù)訓(xùn)練模型在各種情況下的多樣性和適應(yīng)性。 以一種類比的方式來理解,預(yù)訓(xùn)練模型就像是一個(gè)經(jīng)驗(yàn)豐富的'全能工人',他們可以適應(yīng)各種工作環(huán)境,不同的任務(wù)只需要給出相應(yīng)的指示,就能夠利用他們的經(jīng)驗(yàn)來完成。正是由于這種廣泛的適用性和多樣性,預(yù)訓(xùn)練模型在實(shí)際應(yīng)用中展現(xiàn)出了極大的優(yōu)勢和價(jià)值。 5 Agent AI Categorization此章節(jié)屬于分類介紹,不太重要,暫不贅述,可以直接看原文 6 Agent AI Application Tasks對于這段文本的理解,主要描述的是一種基于GPT-4V的游戲行為預(yù)測與多交互編輯的實(shí)體代理,在《我的世界:地牢(Minecraft Dungeons)》游戲中模擬和生成游戲感知。
在這個(gè)場景中,研究者們將GPT-4V引入到游戲的動作預(yù)測和交互式編輯上。他們這樣做的目標(biāo)是使游戲的體驗(yàn)更加真實(shí)。 這里的'GPT-4V'可以理解為是一種強(qiáng)大的人工智能算法,就像是一個(gè)超級智能的“棋手”,可以預(yù)測玩家的下一步動作,并且進(jìn)行互動?!段业氖澜纾旱乩巍穭t是一款著名的電子游戲,可以想象為這個(gè)“棋盤”。 '實(shí)體代理'則是一種代表玩家在虛擬游戲世界中行動和交互的角色。類似于控制“棋子”的手,在游戲世界中為玩家提供操作場景。 '游戲感知模擬和生成',則是通過GPT-4V這個(gè)“棋手”對游戲環(huán)境和動作進(jìn)行分析,模擬發(fā)生事情的可能性,并試圖生成最有可能的游戲路徑。類似于預(yù)測“棋盤”上可能發(fā)生的情況,并試圖找到最好的走法。 總的來說,研究者們在這項(xiàng)研究中,通過結(jié)合GPT-4V和虛擬游戲環(huán)境,在游戲行動預(yù)測和交互編輯方向上進(jìn)行研究和嘗試,最終完成一種在《我的世界:地牢》游戲中感知生成和模擬的實(shí)體代理。 6.1 Agents for Gaming游戲?yàn)闇y試LLMs(低層次模型)和VLMs(高層次模型)的主體行為提供了一個(gè)獨(dú)特的沙盒環(huán)境,這挑戰(zhàn)了他們在合作和決策能力方面的界限。研究者們特別描述了三個(gè)方面,突出了代理人與人類玩家以及其他代理人的交互能力,以及他們在環(huán)境中采取有意義行動的能力。 首先,代理人與人類玩家和其他代理人的互動。這里的'代理人'可以理解為游戲中的人工智能角色,與人類玩家或其他AI角色的互動就像是兩個(gè)人在棋盤上互相出招,互動的方式和規(guī)則都被預(yù)設(shè)在了游戲之中。 其次,代理人的決策能力。就像下棋的人需要評估每一步的利弊,選擇最佳的行動方案一樣,代理人的決策能力是衡量其智能程度的重要標(biāo)準(zhǔn)。這不僅需要理解其當(dāng)前的環(huán)境狀態(tài),還需要預(yù)測可能的未來趨勢,甚至需要對其他玩家的行為有一定的預(yù)判。 最后,代理人在環(huán)境中采取有意義的行動的能力。這意味著,代理人不僅需要做出決策,還需要將決策轉(zhuǎn)化為實(shí)際的行動。這種行動不僅需要在當(dāng)前環(huán)境中可行,還需對整個(gè)游戲環(huán)境產(chǎn)生積極的影響。 總的來說,游戲?yàn)檠芯空邆兲峁┝艘粋€(gè)理想的平臺,不僅可以測試代理人的互動能力,還可以觀察他們的決策過程和行動結(jié)果,為人工智能領(lǐng)域帶來了新的研究視角和方法。 6.1.1 NPC Behavior在現(xiàn)代游戲系統(tǒng)中,非玩家角色(NPCs)的行為主要由開發(fā)人員精心編寫的預(yù)定義腳本控制。這些腳本包含了基于各種觸發(fā)器或玩家在游戲環(huán)境中的行為所產(chǎn)生的各種反應(yīng)和互動。然而,這種腳本化的性質(zhì)往往會導(dǎo)致NPC的行為變得可以預(yù)測或者重復(fù),無法根據(jù)玩家的行為或游戲的動態(tài)環(huán)境進(jìn)行適應(yīng)性變化。這種刻板性限制了游戲環(huán)境的沉浸式體驗(yàn)。因此,人們對于利用大型語言模型(LLMs)來賦予NPC行為自主性和適應(yīng)性,使互動更加細(xì)膩和引人入勝的需求日益增強(qiáng)。由AI驅(qū)動的NPC可以學(xué)習(xí)玩家的行為,適應(yīng)不同的策略,并提供更具挑戰(zhàn)性和不可預(yù)見性的游戲體驗(yàn)。 大型語言模型(LLMs)可以大大促進(jìn)游戲中NPC行為的發(fā)展。通過處理大量的文本,LLMs能夠?qū)W習(xí)模式,并生成更多樣的、類似人類的反應(yīng)??梢岳盟鼈儊韯?chuàng)建動態(tài)的對話系統(tǒng),使得與NPC的互動變得更令人投入,更不可預(yù)見。此外,LLMs還可以針對玩家反饋和游戲數(shù)據(jù)進(jìn)行訓(xùn)練,不斷優(yōu)化NPC的行為,使其更符合玩家的期望和游戲的動態(tài)。 這就好比,NPC是安裝了預(yù)設(shè)程序的機(jī)器人,原先無論環(huán)境如何變化,都按照預(yù)設(shè)的程序行動?,F(xiàn)在,LLMs就如同給NPC裝上了一個(gè)能學(xué)習(xí)和理解環(huán)境變化的'大腦',讓NPC能夠調(diào)整行為,顯得更加自然,也更有趣。 ![]() 6.1.2 Human-NPC Interaction在游戲體驗(yàn)中,人類玩家與非玩家角色(NPC)的互動是至關(guān)重要的一部分。傳統(tǒng)的互動范式主要是一種單向的互動形式,NPC對玩家的輸入采取預(yù)設(shè)的響應(yīng)。這種限制阻礙了更自然且豐富的互動潛力的實(shí)現(xiàn),這種互動類似于虛擬領(lǐng)域內(nèi)的人與人的互動。長短記憶(LLM)和視覺LM(VLM)技術(shù)的出現(xiàn)有可能改變這樣的范式。通過應(yīng)用這些技術(shù),游戲系統(tǒng)可以分析并從人類行為中學(xué)習(xí),以提供更像人類的互動。這不僅增強(qiáng)了游戲的真實(shí)性和參與感,也為探索和理解人機(jī)交互提供了一個(gè)在受控而復(fù)雜的環(huán)境下進(jìn)行的平臺。 GPT-4V在給定“動作歷史”和“游戲目標(biāo)”時(shí),可以有效地預(yù)測未來的高級動作。此外,GPT-4V能準(zhǔn)確識別出玩家正在手中持有木頭原料,并能將這些被感知到的信息納入到未來的動作計(jì)劃中。盡管GPT-4V看起來能預(yù)測一些低級動作(例如按'E'鍵打開背包),但模型的輸出并不固有地適用于預(yù)測原生的低級動作(包括鼠標(biāo)移動),并可能需要額外的模塊來進(jìn)行輔助,以控制低級別的動作。 6.1.3 Agent-based Analysis of Gaming游戲是日常生活的重要組成部分,據(jù)估計(jì),全球一半的人口都參與其中。此外,它對精神健康也有積極影響。然而,現(xiàn)代游戲系統(tǒng)在與人玩家的互動方面存在缺陷,因?yàn)樗麄兊男袨橹饕捎螒蜷_發(fā)者手動設(shè)計(jì)。這些預(yù)設(shè)定的行為常常無法適應(yīng)玩家的需求。因此,有必要在游戲中使用新的AI系統(tǒng)來分析玩家行為,然后在需要時(shí)提供適當(dāng)?shù)闹С帧V悄芑酉到y(tǒng)有可能徹底改變玩家與游戲系統(tǒng)的互動方式。NPC(游戲中的非玩家角色)與玩家的互動不再局限于游戲開發(fā)者設(shè)計(jì)的局限性規(guī)則。NPC有潛力無縫適應(yīng)玩家的體驗(yàn),提供及時(shí)的反饋,以豐富游戲體驗(yàn),提升人機(jī)交互的協(xié)同效應(yīng)。 長距離語言模型(LLMs)可以作為分析游戲內(nèi)文本數(shù)據(jù)(包括聊天記錄、玩家反饋和敘述內(nèi)容)的強(qiáng)大工具。它們可以幫助識別玩家行為、偏好和互動的模式,這對游戲開發(fā)者改進(jìn)游戲機(jī)制和敘述是無價(jià)的。此外,視覺語言模型(VLMs)可解析來自游戲會話的大量圖像和視頻數(shù)據(jù),有助于分析游戲世界內(nèi)用戶的意圖和行動。而且,LLMs和VLMs可以便于開發(fā)能以復(fù)雜而類人的方式與玩家和其他智能代理交流的游戲代理,從而提升整體的游戲體驗(yàn)。除了LLMs和VLMs,用戶輸入數(shù)據(jù)提供了一個(gè)有前景的途徑,通過模仿人類玩家對游戲的感知、玩游戲和理解游戲,可以創(chuàng)建扮演游戲角色的代理。通過集成玩家互動和反饋的組合、像素輸入以及自然語言計(jì)劃和理解等方面,代理模型可以協(xié)助持續(xù)改進(jìn)游戲動態(tài),推動更以玩家為中心的游戲環(huán)境演進(jìn)。 6.1.4 Scene Synthesis for Gaming場景合成是游戲環(huán)境創(chuàng)建和增強(qiáng)的重要組成部分,涵蓋了游戲內(nèi)三維場景和環(huán)境的自動生成或半自動生成。這個(gè)過程包括地形生成、物體放置、真實(shí)光照的創(chuàng)建,甚至包括動態(tài)天氣系統(tǒng)的生成。
現(xiàn)代游戲通常具有廣闊的開放世界環(huán)境,手動設(shè)計(jì)這些景觀既耗時(shí)又耗資源。自動地形生成技術(shù),常常借助程序化或人工智能驅(qū)動的技術(shù),可以減少人工努力,生產(chǎn)出復(fù)雜、真實(shí)的景觀。言語模型(LLMs)和視覺言語模型(VLMs)可以利用互聯(lián)網(wǎng)的大規(guī)模知識,生成規(guī)則,設(shè)計(jì)出既獨(dú)特又視覺震撼的非重復(fù)性景觀。此外,LLMs和VLMs還可以確保生成資產(chǎn)的語義一致性和可變性。將建筑、植被和其他元素逼真而富有美感地放置在一個(gè)場景中,對于沉浸感至關(guān)重要。 LLMs和VLMs在物體放置方面可以幫助,它們遵循預(yù)定義或?qū)W習(xí)的規(guī)則和美學(xué),從而加快了關(guān)卡設(shè)計(jì)的流程。經(jīng)過進(jìn)一步訓(xùn)練后,這些模型能理解設(shè)計(jì)和美學(xué)的原理,輔助程序化生成內(nèi)容。它們可以幫助制定規(guī)則指南,以便程序算法生成既視覺吸引力又符合上下文的物體和場景。
真實(shí)的光照和大氣效果對于創(chuàng)建富有吸引力的游戲環(huán)境至關(guān)重要。先進(jìn)的算法可以模擬自然光照條件和動態(tài)天氣效果,提高場景的真實(shí)性和情感氛圍。LLMs可以幫助以創(chuàng)新方式開發(fā)系統(tǒng),實(shí)現(xiàn)更真實(shí)的光照和大氣效果。VLMs可以分析來自現(xiàn)實(shí)世界光照和大氣條件的大規(guī)模數(shù)據(jù)集,幫助開發(fā)更真實(shí)的游戲模擬效果算法。通過理解自然光照和天氣的模式和復(fù)雜性,這些模型可以為開發(fā)更接近現(xiàn)實(shí)的算法做出貢獻(xiàn)。LLMs和VLMs還可以用于開發(fā)基于玩家動作、游戲狀態(tài)或外部輸入實(shí)時(shí)調(diào)整光照和大氣效果的系統(tǒng)。它們可以處理來自玩家的自然語言命令,修改游戲環(huán)境,提供更互動和沉浸的體驗(yàn)。
6.1.5 Experiments and Results研究者們使用了GPT-4V模型,用來生成與游戲視頻相對應(yīng)的高級描述和動作預(yù)測(如圖:GPT4Vgamediog和GPT4Vminecraft)。佳能增強(qiáng)文本開創(chuàng)了一種新的方法,用游戲動作先驗(yàn)生成3D場景,以幫助改善場景的自然性。在這種情況下,GPT-4V能生成與視頻游戲相關(guān)的適當(dāng)高級描述。 極簡Agent預(yù)訓(xùn)練模型 為了展示視覺-語言架構(gòu),研究者們首先研究了預(yù)訓(xùn)練Minecraft數(shù)據(jù)中其應(yīng)用的效果。如圖:AMT所示,給定動作Agent、視頻關(guān)鍵幀和對應(yīng)的文本,可以用標(biāo)準(zhǔn)的編碼器-解碼器將Agent動作和圖像轉(zhuǎn)化為動作文本token和圖像patch token,然后使用視覺-語言解碼器將其轉(zhuǎn)化為預(yù)測動作的句子。整體架構(gòu)如圖:AMT所示。他們使用了幾個(gè)Minecraft演示來評估方法的效果。Minecraft的視頻數(shù)據(jù)包括5分鐘的剪輯,預(yù)訓(xùn)練所用的包含78K個(gè)視頻,第一輪預(yù)訓(xùn)練使用了5K視頻(占預(yù)訓(xùn)練數(shù)據(jù)的6%)。在16個(gè)NVIDIA v100 GPUs上訓(xùn)練了一個(gè)250M參數(shù)的模型一整天,并在圖:Unseen和圖:Actionperdiction可視化模型輸出。圖:Unseen顯示,相對較小的agent架構(gòu)可以為訓(xùn)練中未見過的Minecraft場景生成合理的輸出。圖:Actionperdiction展示了模型預(yù)測與人類玩家真實(shí)動作的對比,表明我們的小型agent模型對游戲場景有一定的底層理解。多智能體基礎(chǔ)設(shè)施 研究者們設(shè)計(jì)了一個(gè)新的基礎(chǔ)設(shè)施,用于一個(gè)新的名為'餐飲世界'的游戲場景(如圖:AgentParadigm和圖:mindagentmodel)。基礎(chǔ)設(shè)施能夠利用GPT-4作為中心計(jì)劃者,實(shí)現(xiàn)多Agent間的協(xié)作,并能跨游戲領(lǐng)域工作。他們研究了系統(tǒng)的多智能體規(guī)劃能力,并將基礎(chǔ)設(shè)施部署到真實(shí)的視頻游戲中,以證明其多智能體和人工智能的協(xié)作效能。此外,他們還展示了'餐飲世界',這是一個(gè)基于文本的多智能體協(xié)作基準(zhǔn),提供了一個(gè)新的自動度量協(xié)作分?jǐn)?shù)(CoS)以量化協(xié)作的效率。 6.2 Robotics機(jī)器人是需要與環(huán)境有效交互的代表性代理。這個(gè)部分,研究者們將介紹對于高效機(jī)器人操作至關(guān)重要的關(guān)鍵元素,回顧最新的LLM/VLM技術(shù)被應(yīng)用到的研究領(lǐng)域,并分享我們最近的研究成果。
視覺運(yùn)動控制。視覺運(yùn)動控制指的是視覺感知和運(yùn)動行為在機(jī)器人系統(tǒng)中的整合,以有效地執(zhí)行任務(wù)。這個(gè)整合至關(guān)重要,因?yàn)樗寵C(jī)器人能夠解讀來自環(huán)境的視覺數(shù)據(jù),并相應(yīng)地調(diào)整它們的運(yùn)動行為,以準(zhǔn)確地與環(huán)境交互。例如,在裝配線上,一個(gè)配備有視覺運(yùn)動控制的機(jī)器人可以感知對象的位置和方向,并精確地調(diào)整其操作器與這些對象交互。這個(gè)能力對于保證機(jī)器人在從工業(yè)自動化到協(xié)助老年人做日常工作等各種應(yīng)用中的精度和效率至關(guān)重要。此外,視覺運(yùn)動控制可以幫助機(jī)器人適應(yīng)動態(tài)環(huán)境,這里環(huán)境的狀態(tài)可能會迅速變化,需要根據(jù)視覺反饋進(jìn)行實(shí)時(shí)的運(yùn)動行為調(diào)整。 此外,在安全操作的場合中,視覺信息對于檢測執(zhí)行錯(cuò)誤和確認(rèn)每個(gè)機(jī)器人動作的前后條件至關(guān)重要。在無法控制的環(huán)境中,比如未知的家庭環(huán)境,機(jī)器人更有可能因?yàn)椴豢深A(yù)測的因素,比如變化的家具形狀、多變的光線和滑動,而面臨不預(yù)期的結(jié)果。在這些情況下,僅僅通過前饋方式執(zhí)行預(yù)計(jì)劃的動作可能帶來明顯的風(fēng)險(xiǎn)。因此,使用視覺反饋在每個(gè)步驟中持續(xù)驗(yàn)證結(jié)果,是保證機(jī)器人系統(tǒng)的穩(wěn)健和可靠操作的關(guān)鍵。 基于語言的操作。基于語言的操作意味著機(jī)器人系統(tǒng)能夠依據(jù)語言指令解讀和執(zhí)行任務(wù)。這一點(diǎn)對于創(chuàng)建直觀的、用戶友好的人機(jī)交互界面特別重要。通過自然語言命令,用戶可以給機(jī)器人指定目標(biāo)和任務(wù),這種方式類似于人與人之間的交流,從而降低了操作機(jī)器人系統(tǒng)的難度。在實(shí)際場景中,例如,用戶可以指示服務(wù)機(jī)器人從桌子上拿起紅蘋果,機(jī)器人就會解析這個(gè)指示,識別所述的對象,并執(zhí)行拿起它的任務(wù)。核心的挑戰(zhàn)在于開發(fā)魯棒的自然語言處理和理解算法,能夠準(zhǔn)確解讀各種各樣的指示,從直接的命令到更抽象的指示,并讓機(jī)器人可以將這些指示轉(zhuǎn)化為可行的任務(wù)。此外,確保機(jī)器人可以將這些指示推廣到各種不同的任務(wù)和環(huán)境,是提高其在現(xiàn)實(shí)世界應(yīng)用中的通用性和實(shí)用性的關(guān)鍵。
在被稱為任務(wù)和運(yùn)動規(guī)劃的機(jī)器人框架中,使用語言輸入來指導(dǎo)機(jī)器人任務(wù)規(guī)劃已經(jīng)引起了人們的關(guān)注。 技能優(yōu)化 最新的研究表明,LLMs在機(jī)器人任務(wù)規(guī)劃中的效果顯著。然而,有效的執(zhí)行任務(wù),特別是那些涉及到物理交互的任務(wù),比如抓握,需要對環(huán)境有深度的理解,而這超過了單純的解讀人類指示的范圍。例如,機(jī)器人抓取需要精確的接觸點(diǎn)和手臂姿勢,以便高效執(zhí)行后續(xù)動作。而這些元素——精確的接觸點(diǎn)和手臂姿勢——對人來說是直觀的,但通過語言描述它們卻是有挑戰(zhàn)性的。盡管在互聯(lián)網(wǎng)規(guī)模的VLMs方面取得了進(jìn)展,但從場景中捕捉這些微妙的間接線索,并有效地將它們轉(zhuǎn)化為機(jī)器人技能,仍然是一個(gè)重要的挑戰(zhàn)。為了應(yīng)對這個(gè)挑戰(zhàn),機(jī)器人學(xué)社區(qū)越來越多地集中在收集增強(qiáng)數(shù)據(jù)集,或者從人類示范中直接獲取技能的方法論的開發(fā)上。這些包括從示范學(xué)習(xí)和仿真學(xué)習(xí)的框架,它們在優(yōu)化物理技能中起著關(guān)鍵的作用。 6.2.1 LLM/VLM Agent for Robotics.近期的研究表明,涉及機(jī)器人與環(huán)境中的人類互動的LLM/VLM有巨大的潛力。試圖利用最新LLM/VLM技術(shù)的研究主題包括: 多模態(tài)系統(tǒng):近期的研究熱點(diǎn)在于開發(fā)將最新的LLM和VLM技術(shù)作為輸入信息編碼器的端到端系統(tǒng)。特別的,修改這些基礎(chǔ)模型以處理多模態(tài)信息的趨勢非常明顯。這種改適旨在基于語言指令和視覺線索引導(dǎo)機(jī)器人行動,從而實(shí)現(xiàn)有效的實(shí)體化。
任務(wù)規(guī)劃和技能訓(xùn)練:與端到端系統(tǒng)相反,任務(wù)和動作規(guī)劃(TAMP)基礎(chǔ)系統(tǒng)首先計(jì)算高層次的任務(wù)計(jì)劃,然后使用被稱為技能的低層次機(jī)器人控制來實(shí)現(xiàn)它們。LLM的先進(jìn)語言處理能力已經(jīng)證明了能夠解釋指令并將其分解為機(jī)器人的行動步驟的能力,極大地推進(jìn)了任務(wù)規(guī)劃技術(shù)。在技能訓(xùn)練方面,有一些研究探索了將LLM/VLM用于設(shè)計(jì)獎勵功能,生成數(shù)據(jù)以促進(jìn)政策學(xué)習(xí),或作為獎勵函數(shù)的一部分。這些努力將促進(jìn)高效機(jī)器人控制器的開發(fā)。
現(xiàn)場優(yōu)化:在機(jī)器人領(lǐng)域執(zhí)行長期任務(wù)步驟可能會非常困難,因?yàn)榄h(huán)境條件可能會出現(xiàn)意外和不可預(yù)測的情況。因此,在機(jī)器人領(lǐng)域的一個(gè)重大挑戰(zhàn)涉及通過將任務(wù)計(jì)劃與實(shí)時(shí)環(huán)境數(shù)據(jù)集成,動態(tài)地調(diào)整和優(yōu)化機(jī)器人技能。例如,有一種方法提出了計(jì)算行動(即,便利性)的可行性的方法,并將其與已計(jì)劃的任務(wù)進(jìn)行比較。此外,也有一些方法專注于使LLM能夠輸出任務(wù)計(jì)劃的前提條件和后續(xù)情況(例如,對象的狀態(tài)和它們之間的關(guān)系),以優(yōu)化任務(wù)步驟的執(zhí)行,和檢測預(yù)設(shè)條件錯(cuò)誤,從而對任務(wù)計(jì)劃進(jìn)行必要的修訂。這些策略試圖通過整合環(huán)境信息以及調(diào)整任務(wù)計(jì)劃或控制器水平的機(jī)器人行動來實(shí)現(xiàn)環(huán)境基礎(chǔ)的機(jī)器人實(shí)施。
交談代理:在創(chuàng)建對話機(jī)器人時(shí),LLM可以為機(jī)器人與人類的自然、環(huán)境敏感的互動做出貢獻(xiàn)。這些模型處理和生成仿照人類對話的回應(yīng),使機(jī)器人能夠參與有意義的對話。此外,LLM在估計(jì)概念和情感特性的表述方面發(fā)揮著重要的作用。這些屬性有助于理解人類意圖和產(chǎn)生有意義的姿勢,因此有助于提高人機(jī)交流的自然度和有效性。 導(dǎo)航代理:機(jī)器人導(dǎo)航有著悠久的研究歷史,主要關(guān)注諸如基于地圖的路徑規(guī)劃和同時(shí)定位和繪圖(SLAM)等核心研究,以用于創(chuàng)建環(huán)境地圖。這些功能已經(jīng)成為ROS等廣泛使用的機(jī)器人中間件的標(biāo)準(zhǔn)功能。然而,盡管經(jīng)典的導(dǎo)航技術(shù)在許多機(jī)器人應(yīng)用中仍然普遍存在,但是它們通常依賴于靜態(tài)或預(yù)創(chuàng)建的地圖。最近,人們越來越感興趣的是能夠使機(jī)器人在更具挑戰(zhàn)性的環(huán)境中導(dǎo)航的先進(jìn)技術(shù),這些環(huán)境利用了計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域的突破性成果。一個(gè)代表性的任務(wù)是對象導(dǎo)航,其中機(jī)器人使用對象名稱進(jìn)行導(dǎo)航,而不是地圖坐標(biāo),這需要對環(huán)境中的對象名稱進(jìn)行視覺基礎(chǔ)定位。此外,最近還關(guān)注了利用視覺語言導(dǎo)航(VLN)技術(shù)引導(dǎo)機(jī)器人在完全陌生的新環(huán)境中進(jìn)行即時(shí)導(dǎo)航的技術(shù),這被稱為零射擊對象導(dǎo)航。此外,視覺語言導(dǎo)航(VLN)是一項(xiàng)典型的任務(wù),任務(wù)涉及到在以前未見過的實(shí)際環(huán)境中通過自然語言指令導(dǎo)航代理。VLN解讀句子而非對象名稱,如'去你左邊的浴室',因此需要一個(gè)更高功能的解析輸入文本?;A(chǔ)模型的出現(xiàn)有助于通過增強(qiáng)對人類語言指令的理解以及環(huán)境信息的視覺解釋來發(fā)展這種適應(yīng)性的、即時(shí)的導(dǎo)航技術(shù)。更詳細(xì)的代表性VLN研究說明將在導(dǎo)航中給出。
6.2.2 Experiments and Results.研究者們提出了一個(gè)集成了ChatGPT的機(jī)器人教學(xué)系統(tǒng),目標(biāo)是通過多模態(tài)輸入實(shí)現(xiàn)更有效和精準(zhǔn)的執(zhí)行任務(wù)計(jì)劃。該系統(tǒng)包括兩個(gè)步驟:任務(wù)計(jì)劃和演示。在任務(wù)計(jì)劃環(huán)節(jié),用戶使用任務(wù)計(jì)劃器來創(chuàng)建一個(gè)動作序列,并可通過反饋進(jìn)行相應(yīng)調(diào)整;然后,在演示環(huán)節(jié),用戶通過視覺方式演示動作序列,以提供機(jī)器人運(yùn)行所需的信息。然后,視覺系統(tǒng)收集這些會在機(jī)器人執(zhí)行時(shí)使用的視覺參數(shù)。 盡管最近的VLMs和LLMs在符號任務(wù)計(jì)劃方面表現(xiàn)出了潛力,但每個(gè)任務(wù)都需要低級的控制策略,如何通過強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)等數(shù)據(jù)驅(qū)動的方式進(jìn)行策略學(xué)習(xí)尚待探索。兩者均需要人在現(xiàn)場直接演示以便機(jī)器人獲取策略。這種方法稱為Learning-from-Observation。系統(tǒng)將語言指令和工作環(huán)境的描述輸入到ChatGPT,它會生成一個(gè)任務(wù)序列和相應(yīng)的文本描述。我們使用少量示例的方式,這意味著并沒有針對此任務(wù)訓(xùn)練ChatGPT,從而在適用性上具有一定的優(yōu)勢,因?yàn)樗藢τ布嚓P(guān)的數(shù)據(jù)收集和模型訓(xùn)練的需要。此外,結(jié)果中的文本描述使用戶能夠檢查和調(diào)整結(jié)果,這對于確保操作的安全性和穩(wěn)健性至關(guān)重要。 當(dāng)然,任務(wù)計(jì)劃員可以保證任務(wù)序列的連貫性,但在現(xiàn)實(shí)中成功操作則需要詳細(xì)的參數(shù)。例如,握取類型對于避免傾倒箱子中的內(nèi)容至關(guān)重要,此類參數(shù)往往在仿真器中被忽視。因此,在我們的機(jī)器人系統(tǒng)中,用戶需要視覺地演示每個(gè)動作,任務(wù)上預(yù)定義了執(zhí)行所必需的參數(shù),我們的視覺系統(tǒng)從視頻中提取出這些參數(shù)。需要明確的我,我們的機(jī)器人系統(tǒng)并非設(shè)計(jì)用來精確復(fù)制人類的動作,而是為了應(yīng)對真實(shí)世界條件的變化,如物體位置的變化。因此,從人類演示中提取的參數(shù)并不包括精確的運(yùn)動路徑,而包括指導(dǎo)環(huán)境運(yùn)動的可供性信息、用于避免碰撞的路徑點(diǎn)、握取類型和上肢姿勢。 同時(shí),研究者們還將GPT-4V的任務(wù)計(jì)劃器擴(kuò)展到實(shí)現(xiàn)多模輸入語境下的機(jī)器人系統(tǒng)。在這個(gè)概念示例中,用戶會執(zhí)行需要機(jī)器人復(fù)制的動作。系統(tǒng)獲取演示視頻和文本,然后輸出一系列機(jī)器人動作。視覺分析器旨在理解視頻中人類執(zhí)行的動作。我們使用GPT-4V并提供一個(gè)提示,以生成典型的人對人交流風(fēng)格的文本指令。然后,場景分析器將預(yù)期的工作環(huán)境編譯成文本信息,這些信息包括由GPT-4V識別的物體名稱列表、對象的可抓取屬性以及對象之間的空間關(guān)系。我們用一個(gè)提示告訴GPT-4V解釋對象選擇過程的結(jié)果以及這些選擇背后的理由。實(shí)踐中,我們發(fā)現(xiàn)這種方法產(chǎn)生了合理的輸出。最后,基于給定的文本指令和環(huán)境信息,任務(wù)計(jì)劃器輸出一系列任務(wù)。 此外,研究者們也探索了視覺語言導(dǎo)航(VLN)的問題,即在真實(shí)3D環(huán)境中,導(dǎo)航一個(gè)具象代理以執(zhí)行自然語言指令。研究者們提出了一個(gè)新的增強(qiáng)跨模態(tài)匹配方法。這種方法通過強(qiáng)化學(xué)習(xí)在本地和全局強(qiáng)化跨模態(tài)基礎(chǔ)上,例如,通過使用匹配批評家來提供內(nèi)在獎勵鼓勵指令與軌跡的全局匹配,并通過使用推理導(dǎo)航器在本地視覺場景中執(zhí)行跨模態(tài)基礎(chǔ)。在VLN基準(zhǔn)數(shù)據(jù)集的評估中,我們的RCM模型明顯優(yōu)于以前的方法,并在SPL上提高了10分,實(shí)現(xiàn)了新的最佳性能。通過自我監(jiān)督模仿學(xué)習(xí)的方法,可以更好地探索未見到的環(huán)境,這將成功率性能在看到的環(huán)境和未見到的環(huán)境之間的差距盡可能地縮小從30.7到11.7。同時(shí),我們首次提出探索用于VLN任務(wù)的未接觸環(huán)境。 6.3 Healthcare在醫(yī)療領(lǐng)域,語言模型(LLM)和視覺語言模型(VLM)可以充當(dāng)診斷代理、病人護(hù)理助手,甚至是治療輔助工具,然而這些工具在具備潛在的優(yōu)勢的同時(shí),也帶來了獨(dú)特的挑戰(zhàn)和責(zé)任。隨著AI代理在改善病人護(hù)理和挽救生命上的巨大潛力,其誤用或倉促部署的風(fēng)險(xiǎn)也隨之顯現(xiàn),可能會危及全球數(shù)以千萬計(jì)的人。研究者們在醫(yī)療背景下討論了AI代理的一些有前景的應(yīng)用路徑,同時(shí)也分析了面臨的主要挑戰(zhàn)。 診斷代理。近期,由于醫(yī)療專家的高需求,以及LLM幫助分診和診斷病人的潛力,利用LLM作為病人診斷的醫(yī)療聊天機(jī)器人受到了大量關(guān)注。能有效傳達(dá)重要醫(yī)療信息給來自各種病人群體的對話代理,有可能為歷史上處于劣勢或被邊緣化的群體提供公平的醫(yī)療服務(wù)。此外,全球的醫(yī)生和醫(yī)療系統(tǒng)在很大程度上都承受著過重的工作負(fù)擔(dān),而資源卻不足,導(dǎo)致全球數(shù)億人無法獲得足夠的醫(yī)療照顧。診斷代理為百萬人提供了改善醫(yī)療照顧的優(yōu)勢途徑,因?yàn)樗鼈兛梢越⑵鹄斫飧鞣N語言、文化和健康狀況的能力。初步結(jié)果表明,利用大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練可以使得醫(yī)療知識豐富的LMM得以實(shí)現(xiàn)。盡管這是一個(gè)令人興奮的方向,但診斷代理的希望并非沒有風(fēng)險(xiǎn)。研究者們在以下部分中突出了在醫(yī)療語境中的錯(cuò)誤混淆風(fēng)險(xiǎn),以及可能的解決路徑。 知識檢索代理。在醫(yī)療背景下,模型的錯(cuò)誤混淆特別危險(xiǎn),可能會導(dǎo)致病人嚴(yán)重受傷或甚至死亡,具體取決于錯(cuò)誤的嚴(yán)重程度。例如,如果一個(gè)病人錯(cuò)收到一個(gè)診斷,暗示他們沒有他們實(shí)際上患有的情況,這可能導(dǎo)致災(zāi)難性的結(jié)果。如,延誤或不適當(dāng)?shù)闹委?,或在某些情況下,完全缺乏必要的醫(yī)療干預(yù)。未被診斷或誤診的疾病可能導(dǎo)致醫(yī)療費(fèi)用增加,治療期延長引發(fā)進(jìn)一步的身體負(fù)擔(dān),并在極端情況下,造成嚴(yán)重的傷害甚至死亡。因此,能利用代理更可靠地檢索知識或以檢索為基礎(chǔ)生成文本的方法,是有前景的方向。將診斷代理與醫(yī)療知識檢索代理配對有可能顯著減少錯(cuò)誤混淆,同時(shí)提高診斷對話代理的回應(yīng)質(zhì)量和準(zhǔn)確性。 遠(yuǎn)程醫(yī)學(xué)和遠(yuǎn)程監(jiān)測?;贏I的代理在遠(yuǎn)程醫(yī)療和遠(yuǎn)程監(jiān)控領(lǐng)域也有巨大的潛力,可以提高醫(yī)療服務(wù)的可獲得性,改善醫(yī)療服務(wù)提供者和患者之間的溝通,同時(shí)提高醫(yī)生和病人頻繁互動的效率,降低成本?;A(chǔ)護(hù)理醫(yī)師花費(fèi)大量的時(shí)間來篩選病人的消息、報(bào)告和電子郵件,這些大多數(shù)對他們來說是無關(guān)緊要或不必要的。為護(hù)理代理開啟篩選醫(yī)生、病人和其他醫(yī)療服務(wù)提供者的信息,并突出重要消息的潛力是存在的。通過賦予AI系統(tǒng)與患者、臨床醫(yī)生和其他AI代理的協(xié)作能力,有巨大潛力來革新遠(yuǎn)程醫(yī)療和數(shù)字健康行業(yè)。
Current Healthcare Capabilities在健康和醫(yī)療影像理解領(lǐng)域,當(dāng)使用像GPT-4V這樣的多模態(tài)智能體,如圖fig:gpt4v-medical-image所示,研究者們進(jìn)行了一些用例和響應(yīng)示例。首先,研究者們展示了一個(gè)護(hù)士和醫(yī)生正在進(jìn)行CT掃描的圖像,其次,一個(gè)合成的不規(guī)則的EKG掃描圖像,以及一個(gè)來自ISIC isic膚病圖像數(shù)據(jù)集的圖像。從這些例子中可以看出,GPT-4V具備了不少醫(yī)療知識,能夠?qū)︶t(yī)療圖片進(jìn)行合理推理。然而,由于安全性培訓(xùn)的原因,對于某些醫(yī)療圖像,GPT-4V無法做出診斷。
在健康和醫(yī)療視頻理解領(lǐng)域,對于GPT-4V這樣的多模態(tài)智能體,如圖fig:healthcare_videos所示,研究者們提供了一些例子和響應(yīng)。研究者們將需要分析的視頻以2x2的網(wǎng)格布局并有字幕標(biāo)注幀順序。在前兩個(gè)例子中,研究者們引導(dǎo)GPT-4V觀察視頻中的幀來檢測志愿者患者接受的臨床病床活動。對于最后一個(gè)例子,研究者們嘗試引導(dǎo)GPT-4V評估心臟超聲波視頻,但由于GPT-4V的安全訓(xùn)練,它沒有提供詳細(xì)的反饋。為了保證清晰度,研究者們用粗體表示感興趣的活動,并簡化不必要的模型反饋。同時(shí),他們對個(gè)體的臉部進(jìn)行了灰度處理以保護(hù)他們的隱私。 總的來說,雖然這些多模態(tài)智能體如GPT-4V在識別醫(yī)療設(shè)備和流程方面具有高顯著度的內(nèi)部知識,但對于用戶更具指導(dǎo)性或診斷性的查詢,它并不總是回應(yīng)。而且,盡管在醫(yī)療視頻理解上具備了一定的能力,比如識別臨床環(huán)境中的重要患者護(hù)理活動,或者分析更技術(shù)性的視頻如超聲圖像,但仍然存在一定的局限性。 6.4 Multimodal Agents多模態(tài)代理主要包括四大支柱:交互、語音、視覺和語言。這四個(gè)部分可以類比成人類的四種基礎(chǔ)能力,交互代表著自主決策,彷如大腦的決策中心;語音則可比作聽覺和口語表達(dá)能力;視覺好似人的眼睛,有識別和分析圖像、視屏和數(shù)字墨跡的功能;而語言則代表理解和抽象出來的含義,類似人的語言理解和文字表達(dá)能力。
復(fù)雜的多模態(tài)AI代理的開發(fā),其關(guān)鍵在于視覺和語言理解的整合。這其中包括了像圖像字幕、視覺問題答案、視頻語言生成和視頻理解等任務(wù)。就好比我們?nèi)祟愒谀玫揭环嫽蛘咭欢我曨l時(shí),能夠通過觀察理解其代表的含義,甚至做出回答。 這些任務(wù)可以看作是挑戰(zhàn)和機(jī)會并存的領(lǐng)域,在AI代理的語境中,科技主編們則將這些視為未來的發(fā)展方向和探索空間。 6.4.1 Image-Language Understanding and Generation圖像語言理解是一項(xiàng)涉及對給定圖像中的視覺內(nèi)容進(jìn)行解釋,并生成相關(guān)語言描述的任務(wù)。這項(xiàng)任務(wù)對于開發(fā)能以更人性化的方式與世界互動的AI代理至關(guān)重要。一些最受歡迎的任務(wù)包括圖像標(biāo)注(如 mscoco、conceptual-caption、flckr30、krishnavisualgenome等),指代表達(dá)(如 yu2016modeling、karpathy2014deep等)以及視覺問題回答(如 antol2015vqa、ren2015exploring、singh2019towards等)。 最近,研究者們引入了一些更加知識密集的視覺問題回答任務(wù),例如 OKVQA (marino2019ok)、KB-VQA (wang2015explicit)、FVQA (wang2017fvqa) 以及 WebQA (chang2021webqa)。多模態(tài)代理應(yīng)具備識別圖像中物體、理解它們的空間關(guān)系、生成關(guān)于場景的準(zhǔn)確描述句子,并使用推理技巧處理知識密集視覺推理的能力。這不僅需要物體識別能力,還需要對空間關(guān)系、視覺語義的深入理解,以及將這些視覺元素映射到語言結(jié)構(gòu)并整合世界知識的能力。 類比地,這就好像是要求一個(gè)人不但要能認(rèn)識物體,還要能準(zhǔn)確描述物體之間的關(guān)系,理解它們在整個(gè)場景中的意義,甚至可以根據(jù)已有的知識對物體進(jìn)行深入的推理。 6.4.2 Video and Language Understanding and Generation視頻-語言生成. 在一系列視頻幀中生成連貫的句子序列的任務(wù)被稱為視頻字幕或視頻講述。受到在視頻和語言任務(wù)中大型基礎(chǔ)模型的成功運(yùn)用啟發(fā),一些派生的、由代理驅(qū)動的強(qiáng)化模型在視頻-語言生成任務(wù)上顯示出了有前景的結(jié)果。但是,神經(jīng)編碼-解碼模型表現(xiàn)強(qiáng)勁的的挑戰(zhàn)在視頻講述中并沒有得到良好的推廣,因?yàn)檫@項(xiàng)任務(wù)需要對每幅圖片的內(nèi)容以及不同幀之間的關(guān)系有全面理解。這個(gè)領(lǐng)域的一項(xiàng)重要目標(biāo)就是創(chuàng)建一個(gè)能夠有效地編碼幀序列并生成主題連貫的多句段落的代理感知文本合成模型。 視頻理解. 視頻理解將圖像理解的范圍擴(kuò)展到動態(tài)視覺內(nèi)容,涉及對視頻序列的解釋和推理,同時(shí)常常與伴隨的音頻或文本信息結(jié)合。代理應(yīng)該能夠與視覺、文本,以及音頻多模態(tài)交互,以展示他們對視頻內(nèi)容的深度理解。此領(lǐng)域任務(wù)包括視頻字幕,視頻問題回答,和活動識別等等。視頻理解的前沿領(lǐng)域則包括視覺和語言內(nèi)容的時(shí)間對齊,處理長的幀序列,以及解釋隨著時(shí)間展開的復(fù)雜活動等。關(guān)于音頻方面,代理可以處理語音,背景噪音,音樂,以及聲音的音調(diào),通過這些來理解視頻內(nèi)容的情緒,環(huán)境,以及微妙之處。
之前的研究主要集中在使用在線現(xiàn)有的視頻-語言訓(xùn)練數(shù)據(jù)來創(chuàng)建視頻基礎(chǔ)模型,如li2020hero,li2021value,fu2022violet,bain2021frozen,zellers2021merlot,zellers2022merlot,fu2023empirical。然而,這樣的訓(xùn)練流程和功能支持由于數(shù)據(jù)集的有限性和通常的不一致性,變得十分困難。視頻基礎(chǔ)模型設(shè)計(jì)為具有屏蔽和對比性的預(yù)訓(xùn)練目標(biāo),并在各自的任務(wù)上進(jìn)行調(diào)優(yōu)。盡管在多模態(tài)基準(zhǔn)上顯示出了顯著的結(jié)果,但這些模型在僅依賴視頻任務(wù)如動作識別上遇到了困難,因?yàn)樗鼈円蕾囉趶脑肼曇纛l轉(zhuǎn)錄生成的有限的視頻-文本數(shù)據(jù)。這個(gè)限制也導(dǎo)致了大語言模型可能擁有的強(qiáng)大和細(xì)膩的推理技能的缺失。 其他方法借鑒大型語言模型強(qiáng)大的推理技能和廣闊的知識,來改善視頻解釋的不同方面。視頻理解的任務(wù)通過只需要語言的模型如ChatGPT和GPT4或需要圖像-語言模型GPT4-V來簡化,這些模型將音頻,視頻,和語言模態(tài)視為單獨(dú)可以解析的輸入數(shù)據(jù)類型,將代理定位為強(qiáng)大的開源模型。例如,dolphin,2023videochat將視頻理解轉(zhuǎn)化為自然語言處理(NLP)問題回答的形式,通過開源的視覺分類/偵測/字幕模型對視頻內(nèi)容進(jìn)行文本化。lin2023mmvid將GPT4-V和視覺,音頻,和語音的專業(yè)工具整合,以幫助復(fù)雜的視頻理解任務(wù),如在長視頻中編排角色的動作和活動。 同時(shí)進(jìn)行的研究考察了從大型模型生成的大小數(shù)據(jù)集,然后將視覺指令調(diào)整liu2023llava,li2023blip,zhu2023minigpt4應(yīng)用于生成的數(shù)據(jù)??紤]到音頻、語音、和視覺專家感知模型隨后被用來語言化視頻。語音被自動語音識別工具轉(zhuǎn)錄,并且使用各種標(biāo)簽,定位,和字幕模型,生成視頻描述和相關(guān)數(shù)據(jù)2023videochat,maaz2023videochatgpt,chen2023videollm,wang2023internvid。這些技巧展示了如何在生成的數(shù)據(jù)集上對指令調(diào)整視頻-語言模型,可能導(dǎo)致增強(qiáng)視頻推理和溝通能力。
6.4.3 Experiments and Results知識強(qiáng)化模型:正如INK模型(Intensive Neural Knowledge)和KAT模型(Knowledge Augmented Transformer)在park2022ink和gui2022kat中所介紹,這是一項(xiàng)需要人類注釋所需知識進(jìn)行支持的知識強(qiáng)化檢索任務(wù)。 多模態(tài)代理:如lu2023chameleon和yang2023mmreact所示,對多模態(tài)語言模型(如Chameleon和MM-React)的興趣正在逐漸增長。 視覺指導(dǎo)調(diào)整:VCL gui2022vlc、Mini-GPT4 zhu2023minigpt4、MPLUG-OWL ye2023mplugowl和LSKD park2023localized都可以生成圖像級別的指導(dǎo)調(diào)整數(shù)據(jù)集。 示例展示了INK任務(wù)是如何利用知識從一組文本候選者中識別出與圖像相關(guān)的文本的。我們的任務(wù)就是利用從網(wǎng)頁上以及人類注釋的知識中捕獲的視覺和文本知識。 知識強(qiáng)化代理:如圖fig:INK-knowledge和fig:KATframework所示,基于視覺的問題回答和視覺-語言檢索任務(wù)是多模態(tài)機(jī)器學(xué)習(xí)中具有挑戰(zhàn)性的任務(wù),它們需要去除圖像內(nèi)容以外的知識。最近對大規(guī)模變壓器的研究主要集中在最大限度地提高模型參數(shù)存儲信息的效率上。這一研究方向探討了不同的問題:多模態(tài)變壓器是否可以在其決策過程中使用顯式知識?;谧儔浩鞯念A(yù)訓(xùn)練方法已經(jīng)在隱式地學(xué)習(xí)跨多種模態(tài)的知識表示方面取得了顯著的成功。然而,傳統(tǒng)的主要是單模態(tài)的方法已經(jīng)研究了知識檢索和接下來的答案預(yù)測,這使人們對檢索出的知識的質(zhì)量和相關(guān)性以及使用隱式和顯式知識進(jìn)行推理的過程的整合產(chǎn)生了疑問。為了解決這些問題,我們引入了知識增強(qiáng)變壓器(KAT)。在查詢模態(tài)開放領(lǐng)域任務(wù)中,KAT是采用了編碼器-解碼器結(jié)構(gòu)的模型,它打敗了其他所有的模型,使得精度提高了6。KAT將來自GPT3的隱式知識與來自網(wǎng)站的顯式知識相結(jié)合,并在答案生成過程中同時(shí)推理這兩種知識類型。此外,引入顯式知識可以增強(qiáng)模型預(yù)測的可解釋性。 視覺-語言變壓器代理:接下來,我們將介紹VLC模型(Vision-Language Transformer)gui2022vlc,這是一個(gè)完全只使用圖像-標(biāo)題對進(jìn)行預(yù)訓(xùn)練的變壓器模型。盡管VLC只使用一個(gè)簡單的線性投影層進(jìn)行圖像嵌入,但是,對于各種視覺-語言任務(wù),它的表現(xiàn)和其他依賴于對象檢測器或有監(jiān)督的CNN/ViT網(wǎng)絡(luò)的方法一樣出色。通過大量的分析,我們探討了VLC作為視覺-語言變壓器代理的潛力。例如,我們展示了VLC的視覺表征對于ImageNet-1K分類任務(wù)非常有效,我們的可視化結(jié)果證實(shí)了VLC可以準(zhǔn)確地將圖像塊匹配到相應(yīng)的文本記號。性能隨訓(xùn)練數(shù)據(jù)量的增加而擴(kuò)展的可能性,突顯了開發(fā)大規(guī)模、弱監(jiān)督、開放領(lǐng)域視覺-語言模型的潛力。
6.5 Video-language Experiments為了理解預(yù)訓(xùn)練圖像語言模型(InstructBLIP)應(yīng)用于視頻理解的實(shí)用性,研究者們對其進(jìn)行了拓展和微調(diào),以實(shí)現(xiàn)視頻字幕生成。更具體地說,他們擴(kuò)展了InstructBLIP的視覺編碼器,使用了與'凍結(jié)的時(shí)光'相同的分割時(shí)空注意力方案,以及在訓(xùn)練中固化了Q-former和LLM (Flan-T5-XL) 。研究者們在字幕生成訓(xùn)練時(shí),固定了視覺編碼器的所有空間層,同時(shí)保持時(shí)間層處于未凍結(jié)狀態(tài),使得模型能夠接受圖片和視頻作為輸入,從而實(shí)現(xiàn)與InstructBLIP在圖片級別的性能匹配。該模型在WebVid10M的500萬部視頻字幕子集上進(jìn)行培訓(xùn)。 然而,現(xiàn)有的模型無法完全理解視頻內(nèi)容中精確、細(xì)微的視覺細(xì)節(jié)。視覺指令調(diào)整方法也存在類似的限制,它們?nèi)狈θ祟愃降耐ㄓ弥X能力,這仍然需要通過多模態(tài)模型和智能體來解決。盡管指令調(diào)諧模型成功地摘錄了視頻中的行動,并有效地識別出如'人坐在長凳上'的行動,但他們有時(shí)會添加錯(cuò)誤的細(xì)節(jié),比如'人向攝像頭微笑',這顯示出尚未抓住對話話題或視頻氛圍的細(xì)微之處,這些元素對人類觀察者來說是顯而易見的。這種不足突顯出另一項(xiàng)關(guān)鍵的限制:模型省略了豐富視覺理解的音頻和語音模態(tài),更準(zhǔn)確的解釋和防止誤解需要整合所有可用模態(tài),使多模態(tài)智能體接近人類的感知水平,確保實(shí)現(xiàn)全方位的視頻解釋。
之后,研究者們使用GPT-4V作為一個(gè)能整合視覺、音頻和語音的多模態(tài)智能體來準(zhǔn)確和詳細(xì)地理解視頻。他們發(fā)現(xiàn),僅有視覺模態(tài)的視頻總結(jié)可能會產(chǎn)生虛構(gòu)的事件,例如,在沒有音頻輸入的情況下,智能體誤以為人正在咬棍子。然而,當(dāng)我們對智能體提供音頻轉(zhuǎn)寫時(shí),智能體就能準(zhǔn)確刻畫內(nèi)容,都能捕獲詳細(xì)的物理動作,如'將掃帚垂直于身體并向下旋轉(zhuǎn)'。這種詳細(xì)程度明顯更具信息性,讓觀眾更清楚地了解視頻的目的和關(guān)鍵細(xì)節(jié)。這些發(fā)現(xiàn)凸顯了整合音頻、視頻和語言交互以開發(fā)高質(zhì)量多模態(tài)智能體的重要性。幸運(yùn)的是,GPT-4V正是這種先進(jìn)的多模態(tài)理解和交互的有力基礎(chǔ)。 最后,研究者們使用了名為GPT-4V的機(jī)器人,該機(jī)器人擁有堆棧的視聽模態(tài),并能從堆棧中獲取初始問題,隨后利用Bing搜索API檢索與問題相關(guān)的視頻和音頻,然后主要使用GPT-4V獲取相關(guān)的文本信息和高級視頻描述。另一方面,他們通過ASR將關(guān)鍵幀音頻轉(zhuǎn)化為關(guān)鍵幀的低級分段描述。最后,使用GPT-4V生成令人信服的'錯(cuò)覺',作為視頻問題和回答任務(wù)的艱難負(fù)面查詢。他們在推理過程中,還結(jié)合了通過網(wǎng)絡(luò)搜索獲得的外部知識信息,以提高問題回答能力。 6.6 Agent for NLP6.6.1 LLM agent在人工智能和自然語言處理的交互中,識別任務(wù)指令并采取動作一直是一個(gè)根本性的挑戰(zhàn),存在于這個(gè)領(lǐng)域幾十年的時(shí)間。然而,隨著深度學(xué)習(xí)的最新發(fā)展,學(xué)者們對于聯(lián)合研究這些區(qū)域以改善人機(jī)協(xié)作的興趣越來越濃厚。研究者們提出了三個(gè)特定的方向,以改善與語言相結(jié)合的AI代理:
6.6.2 General LLM agent在過去的幾十年里,識別和理解代理內(nèi)容與自然語言一直是交互式人工智能和自然語言處理的基本挑戰(zhàn)。隨著深度學(xué)習(xí)的最近進(jìn)步,人們越來越關(guān)注同時(shí)研究這兩個(gè)領(lǐng)域,以深入理解代理規(guī)劃或人類反饋對知識推理和自然語言生成的影響。這兩個(gè)部分是許多人機(jī)交互代理的關(guān)鍵組成部分,如AutoGen'wu2023autogen和Retrieve What You Need'wang2023retrieve。 從第一性原理出發(fā),研究者們通過深度學(xué)習(xí)這個(gè)強(qiáng)大的工具,深入挖掘代理規(guī)劃、人機(jī)交互反饋、自然語言理解與生成等復(fù)雜問題的內(nèi)在聯(lián)系和規(guī)律。這就好比研究者們手中拿著一把精巧的鑰匙,打開了了解人類和機(jī)器之間高效交互的大門。 代理規(guī)劃和人類反饋可以幫助理解知識推理的過程。比方說,一名商店的店員(代理)需要理解顧客的需求(人類反饋),并根據(jù)庫存(知識庫)提供相應(yīng)的商品推薦。而這個(gè)過程就類似于知識推理的過程。 自然語言生成則是這個(gè)過程的延伸和輸出。如同店員需要以清晰易懂的語言將商品推薦傳達(dá)給顧客,人工智能系統(tǒng)也需要以自然、流暢的語言呈現(xiàn)其推理結(jié)果,才能更好地實(shí)現(xiàn)人機(jī)交互。 這些元素都被運(yùn)用在AutoGen和Retrieve What You Need等人機(jī)交互系統(tǒng)中,以提高系統(tǒng)的交互效率和用戶體驗(yàn)。 總的來說,當(dāng)前的研究關(guān)注于如何聯(lián)合利用深度學(xué)習(xí),以實(shí)現(xiàn)更深入的理解代理規(guī)劃或人類反饋對知識推理和自然語言生成的影響,從而推動人工智能和人類交互的發(fā)展。
6.6.3 Instruction-following LLM agents在人工智能研究中,創(chuàng)建能有效遵循人類指示的語言模型代理(Language Model Agents,簡稱LLM代理)已成為一個(gè)重要的研究領(lǐng)域。早期模型采用人類反饋訓(xùn)練代理獎勵模型以模擬人類偏好,該過程被稱為基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback,簡稱RLHF)[1]。 此過程產(chǎn)生了像InstructGPT和ChatGPT這樣的模型。為了能更高效地訓(xùn)練指示遵循的LLM代理,而無需人力標(biāo)記,研究者們開發(fā)了一種更有效的指示調(diào)諧方法,直接基于指示/響應(yīng)對訓(xùn)練LLM代理。這些對可以由人類產(chǎn)生,如Dolly 2.0[2],也可以由LLM自動生成,如Alpaca[3]。
研究者們大致展示了Alpaca訓(xùn)練流程圖。簡單來說,現(xiàn)有的LLM用于從少量種子任務(wù)生成大量的遵循指示的示例,然后將生成的遵循指示示例用于調(diào)節(jié)具有底層模型權(quán)重的LLM。 研究者們還整合了邏輯推理模塊到基于Transformer的抽象概括模型中,以使邏輯智能代理具備了邏輯推理能力,可以通過自由文本和對話邏輯進(jìn)行推理,從而能產(chǎn)生更好的抽象概括并減少事實(shí)性錯(cuò)誤。
6.6.4 Experiments and Results在日益廣泛使用的對話反饋系統(tǒng)中,這種 AI 形式對于從自身的隱性知識生成事實(shí)性正確的響應(yīng)的性能還不足,因此它們在推理時(shí)常常借助諸如網(wǎng)頁搜索和知識檢索機(jī)制的外部工具來增強(qiáng)其響應(yīng)。應(yīng)對這一問題將有助于在許多實(shí)際應(yīng)用中為用戶創(chuàng)造更多引人入勝的體驗(yàn)。在社交對話中(如 Instagram 和 Facebook 等社交媒體平臺上的對話),或者在問答網(wǎng)站上(如 Ask 或 Quora),人們通常通過一系列評論和網(wǎng)頁搜索與他人進(jìn)行交互,并搜索與討論相關(guān)的信息和知識。因此,在這種環(huán)境下生成對話交換的任務(wù)并非僅僅基于傳統(tǒng)的 NLP 模型和任務(wù),而是需要用智能體通過反映知識搜索和獲取的智能行為來生成對話。這種方式的智能 NLP 任務(wù)智能體擴(kuò)展了任務(wù)描述,并通過在對話過程中增加一個(gè)明確的知識搜索和檢索步驟,提高了響應(yīng)的可解釋性。將這些網(wǎng)頁搜索和檢索智能體作為對話過程中的反饋,將有助于進(jìn)一步增強(qiáng)人與智能體之間的社交互動。 研究者們在論文 wang2023logical 中提出了一種新穎的模型,這種模型對變換器語言模型提出了新的建模范式,它可以檢測和提取輸入文本中的重要邏輯結(jié)構(gòu)和信息,然后通過精心設(shè)計(jì)的多層次邏輯映射,將這些信息整合到輸入嵌入中,從而將邏輯結(jié)構(gòu)融入到預(yù)訓(xùn)練的語言模型中,作為一種 NLP 智能體。然后他們開發(fā)出一種新的建模范式,可以將所有現(xiàn)有的變換器語言模型升級為邏輯變換器,以持續(xù)提升他們的性能。這種邏輯變換器智能體通過對文本邏輯結(jié)構(gòu)的更深入理解,始終在其基線變換器模型上獲得超越的性能。 對于人類用戶來說,通過智能主體對話和信息檢索的協(xié)調(diào),使對話更有意義和有趣的方面往往更為重要。 在深入研究自然語言處理的過程中,這個(gè)話題將探討如何使語言模型(LoLM)智能體,使其更適合進(jìn)行各種語言中心任務(wù)。 開放領(lǐng)域的問題回答(QA)系統(tǒng)通常遵循'先檢索后閱讀'的模式,即使用檢索器從大型語料庫中檢索相關(guān)文章,然后生成器根據(jù)檢索到的文章和原始問題生成答案。在wang2023retrieve中,我們提出了一個(gè)簡單而新穎的相互學(xué)習(xí)框架,通過引入中間模塊——知識選擇器智能體,并使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以此改進(jìn)'先檢索后閱讀'式模型的性能。知識選擇器的目標(biāo)是構(gòu)建一個(gè)包含與問題相關(guān)信息的小型文章子集。如Figurefig:TACLknowledge 所示,知識選擇器智能體作為我們新穎的相互學(xué)習(xí)框架的一個(gè)組成部分接受訓(xùn)練,該框架交替訓(xùn)練知識選擇器和閱讀器。我們采用了一種新穎的策略,使用策略梯度來優(yōu)化知識選擇器智能體,通過反饋閱讀器來進(jìn)行訓(xùn)練,以選擇一個(gè)小而有用的文章集。這種方法避免了蠻力搜索或人工設(shè)計(jì)的啟發(fā)式方法,無需任何標(biāo)注的查詢-文檔對數(shù)據(jù)進(jìn)行訓(xùn)練。我們發(fā)現(xiàn),迭代訓(xùn)練閱讀器和知識選擇器智能體可以在某些公開的開放領(lǐng)域問題回答基準(zhǔn)上得到更好的預(yù)測性能。 在如下的框架結(jié)構(gòu)圖中,每個(gè)周期內(nèi),執(zhí)行階段1與階段2互為交替。在階段1期間,閱讀模型的參數(shù)保持不變,只更新知識選擇器的權(quán)重。相反,階段2期間,調(diào)整閱讀模型的參數(shù),而知識選擇器的權(quán)重保持不變。 9 Agent Dataset and Leaderboard為了推動這一領(lǐng)域的研究,研究者們分別提出了多代理游戲和能動視覺語言任務(wù)的兩項(xiàng)基準(zhǔn)。他們將發(fā)布兩個(gè)新的數(shù)據(jù)集 - 'CuisineWorld'和'VideoAnalytica',以及一套基線模型,鼓勵參與者探索新的模型和系統(tǒng),并提交其在排行榜測試集的結(jié)果。 譬如,我們可以將“多代理游戲”比作一個(gè)家庭里的成員,每個(gè)人都有不同的角色和任務(wù),他們需要通過互動和合作達(dá)成共同目標(biāo)。這與多代理系統(tǒng)在複雜環(huán)境中的行為非常相似。 而“能動視覺語言任務(wù)”則可以理解為,像看電視新聞那樣,觀眾可以通過觀看視覺元素和聽取語言描述,來理解正在發(fā)生的事件。能動視覺語言任務(wù)便是讓計(jì)算機(jī)模型學(xué)會這樣的能力,識別視覺元素并理解其含義。 數(shù)據(jù)集'CuisineWorld'和'VideoAnalytica',則類似于研究者們?yōu)檫@兩類任務(wù)份別準(zhǔn)備的“試卷”或“練習(xí)冊”。這些數(shù)據(jù)集包含了豐富的情境和問題,用以測試和訓(xùn)練新的模型和系統(tǒng)。 研究者們也提供了一套基線模型,這就像是一位資深的教師,為參與者們提供了一套已經(jīng)驗(yàn)證過的解題方法。參與者們可以從這些基線模型學(xué)習(xí),也可以嘗試開發(fā)出超越它們的新模型和系統(tǒng)。 最后,參與者們的成果可以被提交到一個(gè)排行榜,也就是“試卷”的批改系統(tǒng)。通過這個(gè)系統(tǒng),參與者們可以看到他們的模型和系統(tǒng)在各類任務(wù)上的表現(xiàn),并與其他參與者比較。 Appendix研究者們正在審視AI代理模型在各種領(lǐng)域的適應(yīng)性,本質(zhì)上展現(xiàn)了各種排行榜、觀點(diǎn)和解決方案的多樣性。在此背景下,他們的項(xiàng)目旨在通過探索多模態(tài)和智能AI的廣泛主題來建構(gòu)一個(gè)多元化的社群。 考慮到這些原則,項(xiàng)目專注于研究能夠在實(shí)體及虛擬環(huán)境中有效交互,并促進(jìn)人與機(jī)器的有效溝通的先進(jìn)多模態(tài)系統(tǒng)。因此,他們打算邀請一批技術(shù)專業(yè)人員,來自各種文化、國家、學(xué)術(shù)領(lǐng)域的專家和實(shí)踐者,討論包括但不限于以下重要主題:
他們希望通過利用自身獨(dú)特且多元的視角,進(jìn)一步拓寬對智能AI潛力和限制的集體理解。他們堅(jiān)信,這種方式不僅可以豐富各自的視野,還能提升社區(qū)的集體知識,促進(jìn)對于多模態(tài)AI代理面臨的廣泛排行榜的更多元、更全面的理解。 ![]() ![]() ![]() ![]() ![]() 參考文獻(xiàn)Agent AI: Surveying the Horizons of Multimodal Interaction Zane Durante^1Equal Contribution. ^ Project Lead. ^ Work done while interning at Microsoft Research, Redmond., Qiuyuan Huang^2*, Naoki Wake^2*, Ran Gong^3, Jae Sung Park^4, Bidipta Sarkar^1, Rohan Taori^1, Yusuke Noda^5, Demetri Terzopoulos^3, Yejin Choi^4, Katsushi Ikeuchi^2, Hoi Vo^5, Li Fei-Fei^1, Jianfeng Gao^210pt ^1Stanford University; ^2Microsoft Research, Redmond; ^3University of California, Los Angeles; ^4University of Washington; ^5Microsoft Gaming 關(guān)于NatureAI
|
|
|