|
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規(guī)劃和推理能力,它們被用作自治智能體自動完成許多任務。最近,基于使用一個LLM作為單個規(guī)劃或決策智能體的發(fā)展,基于LLM的多智能體系統(tǒng)在復雜問題解決和世界模擬方面取得了可觀的進展。為了向社區(qū)提供這一動態(tài)領域的概述,我們提出了這項綜述,以便對基于LLM的多智能體系統(tǒng)的基本方面以及挑戰(zhàn)進行深入討論。目標是讓讀者對以下問題有實質(zhì)性的見解:LLM基礎的多智能體模擬哪些領域和環(huán)境?這些智能體是如何配置的,它們?nèi)绾瓮ㄐ??哪些機制促進了智能體能力的增長?對于那些有興趣深入研究這一領域的人們,我們還總結了常用的數(shù)據(jù)集或基準測試,以便他們方便地獲取。
1 引言 大型語言模型(LLMs)最近展示了在達到與人類相當水平的推理和規(guī)劃能力方面的顯著潛力。這種能力正好符合人類對自治智能體的期望,這些智能體能夠感知周圍環(huán)境,做出決策,并做出響應[Xi等人,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等人,2023;Liang等人,2023]。因此,基于LLM的智能體已經(jīng)被研究并迅速發(fā)展,以理解和生成類似人類的指令,促進在廣泛的情境中的復雜交互和決策[Yao等人,2023;Shinn等人,2023;Li等人,2023d]。及時的綜述論文系統(tǒng)地總結了基于LLM的智能體的進展,如[Xi等人,2023;Wang等人,2023b]所見到的。 基于單個基于LLM的智能體的啟發(fā)能力,提出了基于LLM的多智能體,以利用多個智能體的集體智能和專門的配置和技能。與使用單個LLM驅動的智能體的系統(tǒng)相比,多智能體系統(tǒng)通過: 1)將LLMs專業(yè)化為具有不同能力的各個不同的智能體,以及; 2)使這些多樣化的智能體之間進行互動,以有效地模擬復雜的現(xiàn)實世界環(huán)境,提供了先進的能力。 在這種背景下,多個自治智能體協(xié)作參與規(guī)劃、討論和決策,反映了人類群體工作在解決問題任務中的合作性質(zhì)。這種方法利用了LLMs的溝通能力,利用它們生成文本進行溝通并響應文本輸入的能力。此外,它還利用了LLMs在各個領域的廣泛知識和它們在特定任務上專業(yè)化的潛在能力。最近的研究已經(jīng)展示了利用基于LLM的多智能體解決各種任務的有希望的結果,例如軟件開發(fā)[Hong等人,2023;Qian等人,2023],多機器人系統(tǒng)[Mandi等人,2023;Zhang等人,2023c],社會模擬[Park等人,2023;Park等人,2022],政策模擬[Xiao等人,2023;Hua等人,2023]和游戲模擬[Xu等人,2023c;Wang等人,2023c]。由于這一領域的跨學科研究性質(zhì),它吸引了多樣化的研究人員,不僅限于AI專家,還包括來自社會科學、心理學和政策研究等領域的人員。
研究論文的數(shù)量正在迅速增加,如圖1所示(受到[Gao等人,2023b]設計的啟發(fā)),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的努力是獨立進行的,導致缺乏一個系統(tǒng)的回顧來總結它們,建立這一領域的全面藍圖,并審視未來的研究挑戰(zhàn)。這強調(diào)了我們工作的重要性,并成為我們提出這項調(diào)查論文的動機,專注于基于LLM的多智能體系統(tǒng)的研究。我們期望我們的調(diào)查能夠對LLMs的研究和開發(fā)以及使用LLMs的更廣泛的跨學科研究做出重大貢獻。讀者將獲得基于LLM的多智能體(LLM-MA)系統(tǒng)的全面概述,掌握建立基于LLMs的多智能體系統(tǒng)所涉及的基本概念,并掌握這一動態(tài)領域的最新研究趨勢和應用。我們認識到這一領域正處于早期階段,并且隨著新鮮的方法和應用的快速發(fā)展。我們希望我們的調(diào)查能夠激發(fā)這一領域的進一步探索和創(chuàng)新,以及廣泛的研究學科的應用。為了幫助來自不同背景的個人理解LLM-MA技術,并補充現(xiàn)有調(diào)查,解決未解決的問題,我們以以下方式組織了我們的調(diào)查論文。在第2節(jié)中介紹了背景知識之后,我們解決了一個關鍵問題:LLM-MA系統(tǒng)如何與協(xié)作問題解決環(huán)境相一致?為了回答這個問題,我們在第3節(jié)中提出了一個全面的框架,用于定位、區(qū)分和連接LLM-MA系統(tǒng)的各個方面。我們通過討論以下問題深入探討了這個問題: 1)智能體-環(huán)境接口,詳細說明了智能體如何與任務環(huán)境互動; 2)智能體配置,解釋了智能體是如何通過LLM以特定方式進行特征化的;3)智能體通信,檢查了智能體如何交換消息和協(xié)作; 4)智能體能力獲取,探討了智能體如何發(fā)展其有效解決問題的能力。從另一個角度審查關于LLM-MA的研究,是它們的應用。 在第4節(jié)中,我們將當前應用分為兩個主要流派:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別適當?shù)墓ぞ吆唾Y源,我們在第5節(jié)中介紹了用于研究LLM-MA的開源實現(xiàn)框架,以及可用的數(shù)據(jù)集和基準測試?;谥暗目偨Y,我們在第6節(jié)中開啟了對未來研究挑戰(zhàn)和機會的討論。結論在第7節(jié)中總結。 2 背景 2.1 基于LLM的單智能體系統(tǒng) 我們首先通過概述基于LLM的單智能體系統(tǒng)的能力來介紹背景,接著是[Weng,2023]中提出的討論。 決策思維:這個術語表示LLM基礎智能體的能力,通過提示引導,將復雜任務分解為較小的子目標[Khot等人,2023],對每個部分進行系統(tǒng)性的思考(有時探索多條路徑)[Yao等人,2023],并從過去的經(jīng)驗中學習[Shinn等人,2023],以更好地在復雜任務上做出決策。這種能力增強了單個基于LLM的智能體的自主性,并加強了其在問題解決中的有效性。 工具使用:基于LLM的智能體的工具使用能力允許它們利用外部工具和資源完成任務,增強了它們的功能性能力,并在多樣化和動態(tài)的環(huán)境中更有效地運作[Li等人,2023d;Ruan等人,2023;Gao等人,2023b]。 記憶:這種能力指的是LLM基礎智能體進行上下文學習的能力[Dong等人,2023a],作為短期記憶或外部向量數(shù)據(jù)庫[Lewis等人,2021]作為長期記憶,以在長時間內(nèi)保存和檢索信息[Wang等人,2023b]。這種能力使單個基于LLM的智能體能夠保持上下文的連貫性,并從交互中增強學習。 2.2 單智能體與多智能體系統(tǒng) 由LLM驅動的單智能體系統(tǒng)展示了鼓舞人心的認知能力[Sumers等人,2023]。這些系統(tǒng)的構建集中在制定其內(nèi)部機制和與外部環(huán)境的互動上。相反,LLM-MA系統(tǒng)強調(diào)多樣化的智能體配置、智能體間的互動和集體決策過程。從這個角度來看,通過多個自治智能體的協(xié)作,每個智能體都配備了獨特的策略和行為,并相互溝通,可以解決更動態(tài)和復雜的任務。 3 解析LLM-MA系統(tǒng):接口、配置、通信和能力 在本節(jié)中,我們將深入探討LLM-MA系統(tǒng)的復雜性,其中多個自治智能體參與協(xié)作活動,類似于人類群體在解決問題場景中的動態(tài)。我們解決的一個關鍵問題是這些LLM-MA系統(tǒng)如何與其操作環(huán)境和它們設計達成的集體目標保持一致。為了闡明這一點,我們在圖2中展示了這些系統(tǒng)的一般架構。我們的分析剖析了這些系統(tǒng)的運作框架,重點關注四個關鍵方面:智能體-環(huán)境接口、智能體配置、智能體通信和智能體能力獲取。
3.1 智能體-環(huán)境接口 操作環(huán)境定義了LLM-MA系統(tǒng)部署和互動的具體上下文或設置。例如,這些環(huán)境可以像軟件開發(fā)[Hong等人,2023]、游戲[Mao等人,2023]以及金融市場[Li等人,2023g]甚至社會行為建模[Park等人,2023]等各種領域。基于LLM的智能體在環(huán)境中感知并行動,而環(huán)境反過來影響它們的行為和決策。例如,在狼人游戲模擬中,沙盒環(huán)境設定了游戲的框架,包括從白天到夜晚的過渡、討論階段、投票機制和獎勵規(guī)則。智能體,如狼人和預言家,執(zhí)行特定行動,如殺人或檢查角色。在這些行動之后,智能體從環(huán)境中接收反饋,告知它們游戲的當前狀態(tài)。這種信息指導智能體隨時間調(diào)整它們的策略,響應不斷演變的游戲玩法和其他智能體的互動。智能體-環(huán)境接口指的是智能體與環(huán)境互動和感知的方式。正是通過這個接口,智能體理解它們的周圍環(huán)境,做出決策,并從它們的行動結果中學習。我們將LLM-MA系統(tǒng)中當前的接口分類為三種類型:沙盒、物理和無,詳細見表1。沙盒是由人類構建的模擬或虛擬環(huán)境,智能體可以在其中更自由地互動,并嘗試各種行動和策略。這種接口廣泛應用于軟件開發(fā)(代碼解釋器作為模擬環(huán)境)[Hong等人,2023]、游戲(使用游戲規(guī)則作為模擬環(huán)境)[Mao等人,2023]等。物理是指智能體與物理實體互動的真實世界環(huán)境,并遵守現(xiàn)實世界的物理和約束。在物理空間中,智能體通常需要采取可以產(chǎn)生直接物理結果的行動。例如,在掃地、做三明治、打包雜貨和整理櫥柜等任務中,機器人智能體需要迭代執(zhí)行行動,觀察物理環(huán)境,并不斷改進它們的行動[Mandi等人,2023]。最后,無指的是沒有特定外部環(huán)境的情況,智能體不與任何環(huán)境互動。例如,許多應用[Du等人,2023;Xiong等人,2023;Chan等人,2023]利用多個智能體辯論一個問題以達成共識。這些應用主要關注智能體之間的通信,不依賴于外部環(huán)境。
3.2 智能體配置 在LLM-MA系統(tǒng)中,智能體通過它們的特質(zhì)、行動和技能來定義,這些都是為了滿足特定目標而定制的。在不同的系統(tǒng)中,智能體承擔不同的角色,每個角色都有全面描述,包括特征、能力、行為和限制。例如,在游戲中的環(huán)境里,智能體可能被配置為具有不同角色和技能的玩家,每個角色都以不同的方式為游戲目標做出貢獻。在軟件開發(fā)中,智能體可能擔任產(chǎn)品經(jīng)理和工程師的角色,每個角色都有指導開發(fā)過程的責任和專業(yè)知識。同樣地,在辯論平臺上,智能體可能被指定為支持者、反對者或評委,每個角色都有獨特的功能和策略,以有效履行其角色。這些配置對于定義智能體之間的互動和在各自環(huán)境中的有效性至關重要。表1列出了近期LLM-MA作品中的智能體配置。關于智能體配置方法,我們將它們分為三種類型:預定義、模型生成和數(shù)據(jù)驅動。在預定義的情況下,智能體配置是由系統(tǒng)設計者明確定義的。模型生成方法通過模型(例如大型語言模型)創(chuàng)建智能體配置。數(shù)據(jù)驅動方法則基于預先存在的數(shù)據(jù)集構建智能體配置。 3.3 智能體通信 LLM-MA系統(tǒng)中智能體之間的通信是支持集體智能的關鍵基礎設施。我們從三個角度剖析智能體通信:1)通信范式:智能體之間互動的風格和方法;2)通信結構:多智能體系統(tǒng)內(nèi)通信網(wǎng)絡的組織和架構;以及3)智能體之間交換的通信內(nèi)容。 通信范式:當前的LLM-MA系統(tǒng)主要采用三種通信范式:合作、辯論和競爭。合作智能體共同努力實現(xiàn)共享的目標或目標,通常交換信息以增強集體解決方案。辯論范式在智能體進行爭論性互動時使用,提出并捍衛(wèi)自己的觀點或解決方案,并批評他人的。這種范式適合達成共識或更精煉的解決方案。競爭智能體則努力實現(xiàn)可能與其他智能體的目標相沖突的自己的目標。
通信結構:圖3展示了LLM-MA系統(tǒng)中的四種典型通信結構。分層通信是分層結構的,每個層級的智能體都有不同的角色,主要在自己的層級內(nèi)或與相鄰層級互動。[Liu等人,2023]引入了一個名為動態(tài)LLM-智能體網(wǎng)絡(DyLAN)的框架,它將智能體組織在一個多層前饋網(wǎng)絡中。這種設置促進了動態(tài)互動,包含了諸如推理時智能體選擇和早停機制等功能,共同提高了智能體之間合作的效率。去中心化通信在點對點網(wǎng)絡上運行,智能體直接相互通信,這種結構在世界模擬應用中常見。集中式通信涉及一個中央智能體或一組中央智能體協(xié)調(diào)系統(tǒng)的通信,其他智能體主要通過這個中心節(jié)點進行互動。共享消息池由MetaGPT[Hong等人,2023]提出,以提高通信效率。這種通信結構維護了一個共享的消息池,智能體在其中發(fā)布消息,并根據(jù)它們的配置訂閱相關消息,從而提高了通信效率。 通信內(nèi)容:在LLM-MA系統(tǒng)中,通信內(nèi)容通常以文本形式存在。具體內(nèi)容差異很大,取決于特定的應用。例如,在軟件開發(fā)中,智能體可能會就代碼段相互通信。在像狼人這樣的游戲模擬中,智能體可能會討論他們的分析、懷疑或策略。 3.4 智能體能力獲取 智能體能力獲取是LLM-MA中的一個重要過程,使智能體能夠動態(tài)學習和進化。在這種情況下,有兩個基本概念:智能體應該從哪些類型的反饋中學習以增強其能力,以及智能體為有效解決復雜問題而調(diào)整自身的策略。 反饋:反饋是智能體關于其行動結果收到的關鍵信息,幫助智能體了解其行動的潛在影響,并適應復雜和動態(tài)的問題。在大多數(shù)研究中,向智能體提供的反饋格式是文本。根據(jù)智能體接收此類反饋的來源,它可以被分類為四種類型。 1)來自環(huán)境的反饋,例如來自現(xiàn)實世界環(huán)境或虛擬環(huán)境[Wang等人,2023b]。這在大多數(shù)LLM-MA問題解決場景中都很普遍,包括軟件開發(fā)(智能體從代碼解釋器那里獲得反饋)和具身多智能體系統(tǒng)(機器人從現(xiàn)實世界或模擬環(huán)境中獲得反饋)。 2)來自智能體互動的反饋意味著反饋來自其他智能體的判斷或來自智能體之間的通信。這在像科學辯論這樣的問題解決場景中很常見,智能體通過通信學習批判性地評估和完善結論。在世界模擬場景(如游戲模擬)中,智能體根據(jù)其他智能體之間的先前互動學習完善策略。 3)來自人類的反饋直接來自人類,對于使多智能體系統(tǒng)與人類價值觀和偏好保持一致至關重要。這種反饋在大多數(shù)“人在循環(huán)中”的應用中被廣泛使用[Wang等人,2021]。 4)沒有反饋。在某些情況下,智能體沒有收到反饋。這通常發(fā)生在專注于分析模擬結果而不是智能體規(guī)劃能力的模擬工作中。在這種情況下,例如傳播模擬,重點是結果分析,因此反饋不是系統(tǒng)的一部分。 智能體對復雜問題的調(diào)整:為了增強其能力,LLM-MA系統(tǒng)中的智能體可以通過三種主要解決方案進行調(diào)整。 1)記憶。大多數(shù)LLM-MA系統(tǒng)利用記憶模塊來調(diào)整智能體的行為。智能體將來自先前互動和反饋的信息存儲在它們的記憶中。在執(zhí)行行動時,它們可以檢索相關的、有價值的記憶,特別是那些包含過去類似目標的成功行動的記憶,正如[Wang等人,2023b]所強調(diào)的。這個過程有助于提高它們當前的行動。 2)自我進化。智能體不僅僅依賴歷史記錄來決定后續(xù)行動,如在基于記憶的解決方案中所見,智能體可以通過修改自己(例如改變初始目標和規(guī)劃策略)并根據(jù)反饋或通信日志對自己進行訓練來動態(tài)自我進化。[Nascimento等人,2023]提出了一個自我控制循環(huán)過程,允許多智能體系統(tǒng)中的每個智能體自我管理和自我適應動態(tài)環(huán)境,從而提高多個智能體的合作效率。[Zhang等人,2023b]引入了ProAgent,它預測隊友的決策并根據(jù)智能體之間的通信日志動態(tài)調(diào)整每個智能體的策略,促進相互理解和提高協(xié)作規(guī)劃能力。[Wang等人,2023a]討論了一種通過通信學習(LTC)的范式,使用多智能體的通信日志生成數(shù)據(jù)集來訓練或微調(diào)LLM。LTC使智能體能夠通過與環(huán)境和其他智能體的互動持續(xù)適應和改進,打破了上下文學習或監(jiān)督微調(diào)的限制,這些限制沒有充分利用與環(huán)境和外部工具互動時收到的反饋進行持續(xù)訓練。自我進化使智能體能夠在其配置或目標上進行自主調(diào)整,而不僅僅是從歷史互動中學習。 3)動態(tài)生成。在某些場景中,系統(tǒng)可以在其運行期間即時生成新的智能體[Chen等人,2023a;Chen等人,2023c]。這種能力使系統(tǒng)能夠有效地擴展和適應,因為它可以引入專門設計來解決當前需求和挑戰(zhàn)的智能體。隨著LLM-MA系統(tǒng)擴展和智能體數(shù)量的增加,管理各種類型的智能體的復雜性已經(jīng)成為一個關鍵問題。智能體協(xié)同作用作為一項關鍵挑戰(zhàn)開始受到關注[Moura,2023;Dibia,2023]。我們將在第6.4節(jié)中進一步討論這個話題。 4 應用 LLM-MA系統(tǒng)已被用于廣泛的應用領域。我們在表1中總結了兩種應用類型:問題解決和世界模擬。我們在下面詳細闡述了這些應用。請注意,這是一個快速發(fā)展的研究領域,新的應用幾乎每天都在出現(xiàn)。我們維護一個開源倉庫來報告最新的工作。 4.1 LLM-MA用于問題解決 使用LLM-MA進行問題解決的主要動機是利用具有專業(yè)專長的智能體的集體能力。這些智能體作為個體,協(xié)作解決復雜問題,例如軟件開發(fā)、具身智能體、科學實驗和科學辯論。接下來將介紹這些應用示例。 4.1.1 軟件開發(fā) 考慮到軟件開發(fā)是一個復雜的任務,需要像產(chǎn)品經(jīng)理、程序員和測試員這樣的各種角色的協(xié)作,LLM-MA系統(tǒng)通常被設置為模仿這些不同的角色并協(xié)作解決復雜挑戰(zhàn)。遵循軟件開發(fā)的瀑布流或標準化操作程序(SOPs)的工作流程,智能體之間的通信結構通常是分層的。智能體通常與代碼解釋器、其他智能體或人類互動,以迭代地改進生成的代碼。[Li等人,2023b]首先提出了一個簡單的角色扮演智能體框架,它利用兩個角色之間的相互作用來實現(xiàn)基于一句用戶指令的自主編程。它為通信智能體的“認知”過程提供了見解。[Dong等人,2023b]使LLMs作為軟件開發(fā)子任務的“專家”,自主協(xié)作生成代碼。此外,[Qian等人,2023]提出了一個端到端的軟件開發(fā)框架,利用多個智能體進行軟件開發(fā),而不包含先進的人類團隊工作經(jīng)驗。[Hong等人,2023]首先將人類工作流程的見解納入更受控制和驗證的性能。它將SOPs編碼到提示中以增強結構化協(xié)調(diào)。[Huang等人,2023a]更深入地研究了基于多智能體的編程,解決了平衡代碼片段生成與有效的測試用例生成、執(zhí)行和優(yōu)化的問題。 4.1.2 具身智能體 大多數(shù)具身智能體應用本質(zhì)上利用多個機器人共同完成復雜的現(xiàn)實世界規(guī)劃和操作任務,如具有異構機器人能力的倉庫管理。因此,LLM-MA可用于模擬具有不同能力的機器人,并相互協(xié)作解決現(xiàn)實世界的物理任務。[Dasgupta等人,2023]首先探索了使用LLM作為嵌入式智能體的動作規(guī)劃器的潛力。[Mandi等人,2023]引入了RoCo,這是一種新穎的多機器人協(xié)作方法,使用LLM進行高級通信和低級路徑規(guī)劃。每個機器人臂都配備了一個LLM,與逆運動學和碰撞檢查合作。實驗結果證明了RoCo在協(xié)作任務中的適應性和成功。[Zhang等人,2023c]提出了CoELA,一種合作具身語言智能體,在LLM-MA環(huán)境中管理討論和任務規(guī)劃。這個具有挑戰(zhàn)性的設置以去中心化控制、復雜的部分觀察、昂貴的通信和多目標長視野任務為特征。[Chen等人,2023d]研究了涉及大量機器人的場景中的通信挑戰(zhàn),因為為每個機器人分配一個LLM將是昂貴和不切實際的,由于上下文的長度。該研究比較了四種通信框架,集中式、去中心化和兩種混合模型,以評估它們在協(xié)調(diào)復雜多智能體任務中的有效性。[Yu等人,2023]提出了CoNavGPT,用于多機器人協(xié)作視覺目標導航,將LLM集成作為全局規(guī)劃器,為每個機器人分配前沿目標。[Chen等人,2023b]提出了一個基于LLM的共識尋求框架,可作為多機器人聚合任務的協(xié)作規(guī)劃器。 4.1.3 科學實驗 與多個智能體扮演不同專家角色并合作解決軟件開發(fā)和具身智能體問題類似,多個智能體也可用于組建科學團隊進行科學實驗。與以往應用的一個主要區(qū)別在于人類監(jiān)督的關鍵作用,因為科學實驗的高昂成本和LLM智能體的幻覺問題。人類專家處于這些智能體的中心,處理智能體的信息并給智能體提供反饋。[Zheng等人,2023]利用多個基于LLM的智能體,每個專注于科學實驗的特定任務,包括策略規(guī)劃、文獻搜索、編碼、機器人操作和實驗器具設計。所有這些智能體與人類互動,共同協(xié)作優(yōu)化復雜材料的合成過程。 4.1.4 科學辯論 LLM-MA可以設置為科學辯論場景,其中智能體相互辯論以增強集體推理能力,處理諸如大規(guī)模多任務語言理解(MMLU)[Hendrycks等人,2020]、數(shù)學問題[Cobbe等人,2021]和StrategyQA[Geva等人,2021]等任務。主要思想是每個智能體最初提供自己對問題的分析,然后進行聯(lián)合辯論過程。通過多輪辯論,智能體達成單一的共識答案。[Du等人,2023]利用多智能體辯論過程在六種不同的推理和事實準確性任務上,并證明LLM-MA辯論可以提高事實性。[Xiong等人,2023]專注于常識推理任務,并制定了一個三階段的辯論,以符合現(xiàn)實世界場景,包括公平辯論、不匹配辯論和圓桌辯論。該論文還分析了不同LLM之間的內(nèi)部一致性,并聲稱辯論可以提高內(nèi)部一致性。[Tang等人,2023]也利用多個基于LLM的智能體作為不同領域專家進行協(xié)作討論,以就醫(yī)學報告達成共識,用于醫(yī)學診斷。 4.2 LLM-MA用于世界模擬 LLM-MA的另一個主要應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了社會科學、游戲、心理學、經(jīng)濟學、政策制定等多個領域。在世界模擬中使用LLM-MA的關鍵在于它們出色的角色扮演能力,這對于真實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環(huán)境通常是為了反映被模擬的特定場景而設計的,智能體設計有各種配置文件以匹配這個上下文。與側重于智能體合作的問題解決系統(tǒng)不同,世界模擬系統(tǒng)涉及多樣化的智能體管理和通信方法,反映了現(xiàn)實世界互動的復雜性和多樣性。接下來,我們將探索在不同領域進行的模擬。 4.2.1 社會模擬 在社會模擬中,LLM-MA模型被用來模擬社會行為,旨在探索潛在的社會動態(tài)和傳播,測試社會科學理論,以及用真實的社會現(xiàn)象填充虛擬空間和社區(qū)[Park等人,2023]。利用LLM的能力,具有獨特配置文件的智能體進行廣泛的溝通,為深入的社會科學分析生成豐富的行為數(shù)據(jù)。社會模擬的規(guī)模隨著時間的推移而擴大,從較小、更親密的設置開始,逐漸發(fā)展到更大、更復雜的環(huán)境。最初的工作由[Park等人,2023]引入,通過一個互動沙盒環(huán)境,讓人聯(lián)想到模擬人生游戲,允許最終用戶通過自然語言與一個由25個智能體組成的適度社區(qū)進行互動。同時,[Park等人,2022]開發(fā)了Social Simulacra,它構建了一個由1000個角色組成的模擬社區(qū)。該系統(tǒng)采用了設計師對社區(qū)的愿景——其目標、規(guī)則和成員角色——并將其模擬出來,生成了發(fā)布、回復甚至反社會行為等行為。在此基礎上,[Gao等人,2023a]將這一概念推向更高層次,構建了包含8,563和17,945個智能體的大型網(wǎng)絡,分別設計用于模擬關注性別歧視和核能話題的社交網(wǎng)絡。這一演變展示了最近研究中模擬環(huán)境的日益復雜性和規(guī)模的增長。最近的研究如[Chen等人,2023b;Kaiya等人,2023;Li等人,2023a;Li等人,2023f;Ziems等人,2023]突出了多智能體系統(tǒng)的復雜性、LLM對社會網(wǎng)絡的影響以及它們?nèi)谌肷鐣茖W研究的情況。 4.2.2 游戲 LLM-MA非常適合創(chuàng)建模擬游戲環(huán)境,允許智能體在游戲中扮演各種角色。這項技術使得開發(fā)可控、可擴展和動態(tài)的設置成為可能,這些設置緊密模仿人類互動,非常適合測試一系列游戲理論假設[Mao等人,2023;Xu等人,2023b]。大多數(shù)由LLM-MA模擬的游戲嚴重依賴于自然語言溝通,提供了不同游戲設置內(nèi)的沙盒環(huán)境,用于探索或測試包括推理、合作、說服、欺騙、領導等在內(nèi)的游戲理論假設。[Akata等人,2023]利用行為游戲理論來檢驗LLM在交互式社會設置中的行為,特別是它們在迭代囚徒困境和性別之戰(zhàn)等游戲中的表現(xiàn)。此外,[Xu等人,2023b]提出了一個使用ChatArena庫[Wu等人,2023b]的框架,讓LLM參與像狼人這樣的溝通游戲,使用檢索和對過去溝通的反思來改進,以及思維鏈機制[Wei等人,2022]。[Light等人,2023b]探索了LLM智能體在玩抵抗阿瓦隆游戲中的潛力,引入了AVALONBENCH,這是一個全面的游戲體驗和基準,用于進一步開發(fā)先進的LLM和多智能體框架。[Wang等人,2023c]也專注于LLM智能體在處理阿瓦隆游戲中的虛假信息的能力,提出了遞歸沉思(ReCon)框架,以增強LLM辨別和反擊欺騙信息的能力。[Xu等人,2023c]引入了一個將LLM與強化學習(RL)結合使用的框架,用于開發(fā)狼人游戲中的戰(zhàn)略語言智能體。它引入了一種新方法,在行動和狀態(tài)集不是預定義的,而是在自然語言設置中使用RL策略的情況下使用RL。[Mukobi等人,2023]設計了“福利外交”,這是一個與零和棋類游戲“外交”相對應的非零和變體,玩家必須在軍事征服和國內(nèi)福利之間取得平衡。它還提供了一個開源基準,旨在幫助提高多智能體AI系統(tǒng)的合作能力。除此之外,還有一項工作[Li等人,2023c]在多智能體合作文本游戲中測試了智能體的理論心智(ToM),即推理他人隱藏的心理狀態(tài)的能力,這對人類的社會互動、合作和溝通至關重要。[Fan等人,2023]全面評估了LLM作為理性玩家的能力,并確定了LLM基礎智能體的弱點,即使在明確的游戲過程中,智能體在采取行動時仍可能忽視或修改精細的信念。 4.2.3 心理學 在心理學模擬研究中,與社會模擬類似,多個智能體被用來模擬具有各種特征和思維過程的人類。然而,與社會模擬不同,心理學中的一個方法直接將心理學實驗應用于這些智能體。這種方法側重于通過統(tǒng)計方法觀察和分析它們的多樣化行為。在這里,每個智能體獨立運作,不與其他智能體互動,基本上代表了不同的個體。另一種方法更接近于社會模擬,其中多個智能體相互互動和溝通。在這種情況下,心理學理論被用來理解和分析出現(xiàn)的集體行為模式。這種方法促進了對人際動態(tài)和群體行為的研究,提供了關于個體心理特征如何影響集體行動的見解。[Ma等人,2023]探索了使用基于LLM的對話智能體進行心理健康支持的心理影響和結果。它強調(diào)了從心理學角度仔細評估在心理健康應用中使用基于LLM的智能體的必要性。[Kovac等人,2023]引入了一個名為SocialAI school的工具,用于創(chuàng)建模擬社會互動的互動環(huán)境。它借鑒發(fā)展心理學,了解智能體如何獲取、展示和發(fā)展社交技能,如共同注意、溝通和文化學習。[Zhang等人,2023d]探索了具有不同特征和思維模式的LLM智能體如何模仿類似人類的社會行為,如遵從和多數(shù)規(guī)則。這種將心理學融入智能體協(xié)作理解的方法為檢查和增強基于LLM的多智能體系統(tǒng)背后的機制提供了新的視角。[Aher等人,2023]通過LLM引入了圖靈實驗來評估不同人類行為方面的模擬程度。圖靈實驗使用問答格式復制心理學、經(jīng)濟學和社會學中的經(jīng)典實驗和現(xiàn)象,以模擬實驗條件。他們還設計了一個提示,通過改變名字來模擬多個不同個體的反應。通過LLM模擬各種類型的個體,他們表明更大的模型更忠實地復制了人類行為,但它們也揭示了一種超準確性失真,特別是在基于知識的工作中。 4.2.4 經(jīng)濟 LLM-MA被用來模擬經(jīng)濟和金融交易環(huán)境,主要是因為它可以作為人類的隱式計算模型。在這些模擬中,智能體被賦予了一定的資源和信息,并設定了預定義的偏好,允許探索它們在經(jīng)濟和金融背景下的行動。這類似于經(jīng)濟學家對“經(jīng)濟人”的建模,即在一些經(jīng)濟理論中將人描述為追求自身利益的理性人[Horton,2023]。有幾項研究展示了LLM-MA在模擬經(jīng)濟場景中的多樣化應用,包括宏觀經(jīng)濟活動、信息市場、金融交易和虛擬城鎮(zhèn)模擬。智能體在合作或辯論、去中心化環(huán)境中互動。[Li等人,2023e]利用LLM進行宏觀經(jīng)濟模擬,特點是提示驅動的智能體,模仿類似人類的決策制定,從而提高了經(jīng)濟模擬的真實性,相比基于規(guī)則或其他AI智能體。[Anonymous,2023]探索了信息市場中買家檢查悖論,揭示了當智能體在購買前暫時訪問信息時,決策制定和答案質(zhì)量得到改善。[Li等人,2023g]提出了一個LLM-MA框架,用于金融交易,強調(diào)了分層記憶系統(tǒng)、辯論機制和個性化交易角色,從而加強了決策制定的穩(wěn)健性。[Zhao等人,2023]利用基于LLM的智能體模擬了一個虛擬城鎮(zhèn),其中有餐廳和顧客智能體,得出了與社會學和經(jīng)濟理論一致的見解。這些研究共同闡明了在多樣化經(jīng)濟模擬場景中使用LLM的廣泛應用和進步。 4.2.5 推薦系統(tǒng) 在推薦系統(tǒng)中使用LLM-MA與在心理學中的使用類似,因為這兩個領域的研究都涉及到外在和內(nèi)在的人類因素,如認知過程和個性特征[Lex和Schedl,2022]。在推薦系統(tǒng)中使用LLM-MA的一種方式是直接將不同的LLM基于Agent引入到具有不同特征的Agent中,并進行不同Agent偏好的統(tǒng)計。另一種方式是將用戶和項目都視為Agent,并將用戶-項目通信視為互動,模擬偏好傳播。為了彌合離線指標和推薦系統(tǒng)中現(xiàn)實世界性能之間的差距,Agent4Rec[Zhang等人,2023a]引入了一個基于LLM-MA的模擬平臺。1000個生成Agent使用MovieLens-1M數(shù)據(jù)集初始化,以模擬推薦環(huán)境中復雜的用戶互動。Agent4Rec表明,LLM-MA可以有效模擬真實用戶偏好和行為,提供對過濾泡沫效應等現(xiàn)象的見解,并幫助揭示推薦任務中因果關系。在Agent4Rec工作中,Agent被用來模擬用戶,它們之間不進行通信。與Agent4Rec工作不同,[Zhang等人,2023e]將用戶和項目都視為Agent,共同優(yōu)化它們以反映和適應現(xiàn)實世界互動的差異。這項工作強調(diào)模擬用戶-項目互動,并在Agent之間傳播偏好,捕捉協(xié)作過濾的本質(zhì)。 4.2.6 政策制定 與游戲和經(jīng)濟場景中的模擬類似,政策制定需要強大的決策能力來應對真實和動態(tài)的復雜問題。LLM-MA可以用于通過模擬虛擬政府或模擬各種政策對不同社區(qū)的影響來進行政策制定的模擬。這些模擬為政策制定者提供了寶貴的洞察力,幫助他們理解和預見他們決策的后果[Farmer和Axtell,2022]。在[Xiao等人,2023]中概述的研究集中在模擬一個島嶼上的小鎮(zhèn)水污染危機。它模擬了一個位于島嶼上的小鎮(zhèn),包括不同Agent的人口結構和鎮(zhèn)長及顧問。在水污染危機模擬中,這項工作提供了一個深入分析,說明虛擬政府實體可能如何應對這樣的公共管理挑戰(zhàn),以及在這場危機中社交網(wǎng)絡中的信息傳遞。[Hua等人,2023]引入了WarAgent來模擬關鍵的歷史沖突,并為沖突解決和理解提供洞察力,可能應用于防止未來的國際沖突。 4.2.7 疾病傳播模擬 利用LLM-MA的社會模擬能力也可用于模擬疾病傳播。最新的研究[Williams等人,2023]深入探討了使用基于LLM的Agent進行疾病傳播模擬的用途。該研究通過各種模擬展示了這些基于LLM的Agent如何準確模擬人類對疾病爆發(fā)的反應,包括在病例數(shù)量增加時自我隔離和隔離等行為。這些Agent的集體行為反映了大流行中通??吹降亩嗖◤碗s模式,最終穩(wěn)定到地方性狀態(tài)。令人印象深刻的是,它們的行動有助于減輕流行病曲線。[Ghaffarzadegan等人,2023]也討論了疾病傳播模擬,并將模擬分解為兩部分:代表病毒信息或傳播的機械模型和代表面臨病毒時Agent決策過程的決策模型。 5 實施工具和資源 5.1 多智能體框架 我們詳細介紹了三個開源的多智能體框架:MetaGPT [Hong等人,2023]、CAMEL [Li等人,2023b] 和 Autogen [Wu等人,2023a]。它們都是利用語言模型進行復雜任務解決的框架,重點關注多智能體協(xié)作,但它們在方法和應用上有所不同。MetaGPT 設計用于將人類工作流程過程嵌入到語言模型Agent的操作中,從而減少在復雜任務中經(jīng)常出現(xiàn)的幻覺問題。它通過將標準操作程序編碼到系統(tǒng)中,并使用裝配線方法將特定角色分配給不同的Agent來實現(xiàn)這一點。CAMEL(交流Agent框架)旨在促進Agent之間的自主協(xié)作。它使用了一種稱為初始提示的新技術,引導對話Agent朝著符合人類目標的任務發(fā)展。這個框架還作為生成和研究對話數(shù)據(jù)的工具,幫助研究人員了解交流Agent的行為和互動。AutoGen 是一個多功能框架,允許使用語言模型創(chuàng)建應用程序。它以其高度的可定制性而著稱,使開發(fā)人員能夠使用自然語言和代碼編程Agent,定義這些Agent如何互動。這種多功能性使其在從技術領域(如編碼和數(shù)學)到以消費者為中心的領域(如娛樂)等多個領域中使用。最近,[Chen等人,2023c;Chen等人,2023a] 引入了用于動態(tài)多智能體協(xié)作的框架,而 [Zhou等人,2023a;Li等人,2023h;Xie等人,2023] 則提出了用于構建自治Agent的平臺和庫,強調(diào)它們在任務解決和社會模擬中的適應性。
5.2 數(shù)據(jù)集和基準 我們在表2中總結了LLM-MA研究常用的數(shù)據(jù)集或基準。我們觀察到,不同的研究應用使用不同的數(shù)據(jù)集和基準。在問題解決場景中,大多數(shù)數(shù)據(jù)集和基準用于評估多個Agent合作或辯論的規(guī)劃和推理能力。在世界模擬場景中,數(shù)據(jù)集和基準用于評估模擬世界與現(xiàn)實世界的一致性或分析不同Agent的行為。然而,在某些研究應用中,如科學團隊操作實驗和經(jīng)濟建模,仍然需要全面的基準。這種基準的發(fā)展將極大地增強評估LLM-MA在這些復雜和動態(tài)領域中的成功和適用性的能力。 6 挑戰(zhàn)和機遇 LLM-MA框架和應用的研究正在迅速發(fā)展,帶來了許多挑戰(zhàn)和機遇。我們確定了未來研究的幾個關鍵挑戰(zhàn)和潛在領域。 6.1 進入多模態(tài)環(huán)境 大多數(shù)以前的LLM-MA工作都集中在基于文本的環(huán)境中,擅長處理和生成文本。然而,在多模態(tài)環(huán)境中,智能體將與多種感官輸入進行交互,并生成多種輸出,如圖像、音頻、視頻和物理動作,這是一個明顯的空白。將LLM集成到多模態(tài)環(huán)境中帶來了額外的挑戰(zhàn),如處理不同類型的數(shù)據(jù),并使智能體能夠理解彼此并響應不僅僅是文本信息。 6.2 解決幻覺問題 幻覺問題在LLM和單個LLM基礎Agent系統(tǒng)中是一個重大挑戰(zhàn)。它指的是模型生成的文本在事實上是不正確的[Huang等人,2023b]。然而,在多智能體設置中,這個問題增加了一層復雜性。在這種情況下,一個Agent的幻覺可能會產(chǎn)生級聯(lián)效應。這是由于多智能體系統(tǒng)的相互連接性質(zhì),其中一個Agent的錯誤信息可以被網(wǎng)絡中的其他Agent接受并進一步傳播。因此,在LLM-MA中檢測和減輕幻覺不僅是一個關鍵任務,而且也提出了一組獨特的挑戰(zhàn)。它不僅涉及在個別Agent層面上糾正不準確性,還涉及管理Agent之間的信息流,以防止這些不準確性在整個系統(tǒng)中傳播。 6.3 獲得集體智能 在傳統(tǒng)的多智能體系統(tǒng)中,Agent通常使用強化學習從離線訓練數(shù)據(jù)集中學習。然而,LLM-MA系統(tǒng)主要從即時反饋中學習,例如與環(huán)境或人類的互動,正如我們在第3節(jié)中討論的。這種學習風格需要一個可靠的交互環(huán)境,而且為許多任務設計這樣的交互環(huán)境將是棘手的,限制了LLM-MA系統(tǒng)的可擴展性。此外,當前研究中流行的方法是使用記憶和自我進化技術根據(jù)反饋調(diào)整Agent。雖然對于個別Agent來說這些方法是有效的,但它們并沒有充分利用Agent網(wǎng)絡的潛在集體智能。它們孤立地調(diào)整Agent,忽視了從協(xié)調(diào)的多智能體互動中可能產(chǎn)生的協(xié)同效應。因此,共同調(diào)整多個Agent并實現(xiàn)最佳集體智能仍然是LLM-MA的一個關鍵挑戰(zhàn)。 6.4 擴展LLM-MA系統(tǒng) LLM-MA系統(tǒng)由許多個體LLM基礎Agent組成,提出了關于Agent數(shù)量的可擴展性的重大挑戰(zhàn)。從計算復雜性的角度來看,每個基于LLM的Agent,通常建立在像GPT-4這樣的大型語言模型上,需要大量的計算能力和內(nèi)存。在LLM-MA系統(tǒng)中增加這些Agent的數(shù)量顯著增加了資源需求。在計算資源有限的情況下,開發(fā)這些LLM-MA系統(tǒng)將是具有挑戰(zhàn)性的。此外,隨著LLM-MA系統(tǒng)中Agent數(shù)量的增加,出現(xiàn)了額外的復雜性和研究機會,特別是在有效的Agent協(xié)調(diào)、通信和理解多智能體的規(guī)模法則的領域。例如,隨著更多的基于LLM的Agent,確保有效協(xié)調(diào)和通信的復雜性顯著增加。正如[Dibia,2023]所強調(diào)的,設計先進的Agent編排方法越來越重要。這些方法旨在優(yōu)化Agent工作流程、針對不同Agent的任務分配和Agent之間的通信模式,如Agent之間的通信限制。有效的Agent編排促進了Agent之間的和諧運作,最小化了沖突和冗余。此外,探索和定義隨著多智能體系統(tǒng)規(guī)模增長而支配其行為和效率的規(guī)模法則仍然是一個重要的研究領域。這些方面突出了需要創(chuàng)新解決方案來優(yōu)化LLM-MA系統(tǒng),使其既有效又資源高效。 6.5 評估和基準 我們已經(jīng)在表2中總結了LLM-MA的常用數(shù)據(jù)集和基準。這是一個起點,遠非全面。我們確定了評估LLM-MA系統(tǒng)和比較其性能的兩個重大挑戰(zhàn)。首先,正如[Xu等人,2023a]所討論的,現(xiàn)有研究的大部分集中在評估個別Agent在狹義定義的場景中的理解和推理。這種關注點往往忽視了對多智能體系統(tǒng)至關重要的更廣泛和更復雜的新興行為。其次,在多個研究領域,如科學團隊實驗操作、經(jīng)濟分析和疾病傳播模擬等,缺乏全面的基準。這一差距阻礙了準確評估和基準LLM-MA系統(tǒng)在這些多樣化和關鍵領域中的全部能力。 6.6 應用及其延伸 LLM-MA系統(tǒng)的潛力遠遠超出了它們目前的應用程序,為金融、教育、醫(yī)療保健、環(huán)境科學、城市規(guī)劃等領域的先進計算問題解決提供了巨大的希望。正如我們所討論的,LLM-MA系統(tǒng)具有解決復雜問題和模擬現(xiàn)實世界各個方面的能力。雖然LLM目前的角色扮演能力可能有局限性,但LLM技術的持續(xù)進步預示著一個光明的未來。預計未來將有更復雜的方法、應用程序、數(shù)據(jù)集和基準專門針對多樣化的研究領域。此外,有機會從各種理論角度探索LLM-MA系統(tǒng),如認知科學[Sumers等人,2023]、符號人工智能、控制論、復雜系統(tǒng)和集體智能。這種多方面的研究方法可以為這個快速發(fā)展的領域提供更全面的理解,并在創(chuàng)新應用中做出貢獻。 7 結論 基于LLM的多智能體已經(jīng)展示了令人鼓舞的集體智能,并迅速在研究人員中引起了越來越多的興趣。在這項調(diào)查中,本文首先通過從各個角度定位、區(qū)分和連接LLM-MA系統(tǒng),系統(tǒng)地回顧了LLM-MA系統(tǒng)的發(fā)展,包括智能體-環(huán)境接口、LLM對智能體的表征、管理智能體通信的策略以及能力獲取的范例。文本還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數(shù)據(jù)集和基準,并討論挑戰(zhàn)和未來的機遇,希望這項調(diào)查能夠成為各個研究領域的研究人員的寶貴資源,激發(fā)未來的研究探索基于LLM的多智能體的潛力。 參考資料 標題:Large Language Model based Multi-Agents: A Survey of Progress and Challenges 作者:Taicheng Guo1, Xiuying Chen2, Yaqi Wang3*, Ruidi Chang4*, Shichao Pei5, Nitesh V. Chawla1, Olaf Wiest1, Xiangliang Zhang1? 單位:1圣母大學 2國王阿卜杜拉科技大學 3南方科技大學 4非附屬機構 5馬薩諸塞大學波士頓分校 鏈接:https:///abs/2402.01680
|
|
|