新智元報道 【新智元導(dǎo)讀】谷歌最新發(fā)布的76頁AI智能體白皮書,深入剖析了智能體的應(yīng)用前景。智能體通過感知環(huán)境、調(diào)用工具和自主規(guī)劃,能夠完成復(fù)雜任務(wù)并做出高級決策。從智能體運維(AgentOps)到多智能體協(xié)作,這份白皮書為AI智能體指明了方向。近日,谷歌發(fā)表了76頁的AI智能體白皮書! 智能體通過感知環(huán)境,并利用工具策略性地采取行動,實現(xiàn)特定目標。 其核心原理,是將推理能力、邏輯思維以及獲取外部信息的能力融合,完成一些基礎(chǔ)模型難以實現(xiàn)的任務(wù),做出更復(fù)雜的決策。 這些智能體具備自主運行的能力,它們可以追尋目標,主動規(guī)劃后續(xù)行動,無需明確指令就能行動。 ![]() 參考鏈接:https://www./whitepaper-agent-companion 白皮書深入探討了智能體的評估方法,介紹了谷歌智能體產(chǎn)品在實際應(yīng)用中的情況。 參與過生成式AI開發(fā)的人都知道,從一個創(chuàng)意發(fā)展到概念驗證階段并不難,但想保證最終成果的高質(zhì)量,并將其投入實際生產(chǎn),就沒那么簡單了。 在將智能體部署到生產(chǎn)環(huán)境時,質(zhì)量和可靠性是最大的問題,智能體運維(AgentOps)流程是優(yōu)化智能體構(gòu)建過程的有效方案。 ![]() 過去兩年,生成式AI(GenAI)發(fā)生了巨大變革,企業(yè)客戶越來越關(guān)注如何將解決方案真正應(yīng)用到實際業(yè)務(wù)中。 智能體與運維(AgentOps)屬于生成式AI運維的一個分支,重點關(guān)注如何讓智能體更高效地運行。 AgentOps新增了一些關(guān)鍵組件,包括對內(nèi)部和外部工具的管理、智能體核心提示(像目標、配置文件、操作指令)的設(shè)置與編排、記憶功能的實現(xiàn),任務(wù)分解等。 開發(fā)運維(DevOps)是整個技術(shù)運營體系的基石。 模型應(yīng)用開發(fā)在一定程度上繼承了DevOps的理念和方法,機器學(xué)習(xí)運維(MLOps)則是在DevOps的基礎(chǔ)上,針對模型的特點發(fā)展而來的。 ![]() 運維離不開版本控制、通過持續(xù)集成 / 持續(xù)交付(CI/CD)實現(xiàn)的自動化部署、測試、日志記錄、安全保障,以及指標衡量等能力。 每個系統(tǒng)通常會根據(jù)指標進行優(yōu)化,衡量系統(tǒng)的工作情況、評估結(jié)果和業(yè)務(wù)指標,然后通過自動化流程獲取更全面的指標,一步步提升系統(tǒng)性能。 不管叫「A/B測試」「機器學(xué)習(xí)運維」,還是「指標驅(qū)動開發(fā)」,本質(zhì)上都基于相同的理念,AgentOps中也會遵循這些原則。 ![]() 需要注意的是,新的技術(shù)實踐并不會完全取代舊的。 DevOps和MLOps中的優(yōu)秀實踐經(jīng)驗,對于AgentOps來說依然不可或缺,它們是AgentOps順利運行的基礎(chǔ)。 比如,智能體調(diào)用工具時會涉及API,而這個過程中用到的API,和非智能體軟件使用的API是一樣的。 ![]() 大多數(shù)智能體都是圍繞完成特定目標設(shè)計的,目標完成率是一個關(guān)鍵指標。 一個大目標往往可以細分成幾個關(guān)鍵任務(wù),或者涉及一些關(guān)鍵的用戶交互環(huán)節(jié)。這些關(guān)鍵任務(wù)和交互都應(yīng)單獨監(jiān)測和評估。 每個業(yè)務(wù)指標、目標,或者關(guān)鍵交互數(shù)據(jù),都會按照常見的方式進行匯總統(tǒng)計,比如計算嘗試次數(shù)、成功次數(shù)、成功率等。 另外,從應(yīng)用程序遙測系統(tǒng)獲取的指標,像延遲、錯誤率等,對智能體也非常重要。 監(jiān)測這些高級指標,是了解智能體運行狀況的重要手段。 ![]() 用戶反饋也是一個不可忽視的指標。 在智能體或任務(wù)執(zhí)行的過程中,一個簡單的反饋表,就能幫助了解智能體哪些地方表現(xiàn)得好,哪些地方還需要改進。 這些反饋可能來自普通用戶,也可能是企業(yè)員工、質(zhì)量檢測人員,或者是相關(guān)領(lǐng)域的專家。 ![]() 想把概念驗證階段的智能體,變成可以真正投入生產(chǎn)使用的產(chǎn)品,一個強大的自動化評估框架必不可少。
在評估特定的智能體應(yīng)用場景之前,可以先參考一些公開的基準測試和技術(shù)報告。 對很多基本能力,像模型性能、是否會產(chǎn)生幻覺、工具調(diào)用和規(guī)劃能力等,都有公開的基準測試。 例如,伯克利函數(shù)調(diào)用排行榜(BFCL)和τ-bench等基準測試,就能展示智能體的工具調(diào)用能力。 PlanBench基準測試,則專注于評估多個領(lǐng)域的規(guī)劃和推理能力。 工具調(diào)用和規(guī)劃只是智能體能力的一部分。智能體行為,會受到它所使用的LLM和其他組件的影響。 智能體和用戶的交互方式,在傳統(tǒng)的對話設(shè)計系統(tǒng)和工作流系統(tǒng)中也有跡可循,可以借鑒這些系統(tǒng)的評估指標和方法,來衡量智能體的表現(xiàn)。 AgentBench這樣的綜合智能體基準測試,會在多種場景下對智能體進行全面評估,測試從輸入到輸出的整體性能。 ![]() 現(xiàn)在,很多公司和組織針對特定的應(yīng)用場景,設(shè)立了專門的公開基準測試,如Adyen的數(shù)據(jù)分析排行榜DBAStep。 大多數(shù)基準測試報告中,都會討論智能體常見的失敗模式,這能為建立適合應(yīng)用場景的評估框架提供思路。 除了參考公開評估,還要在各種不同的場景中測試智能體的行為。 可以模擬用戶和智能體的交互過程,觀察它的回應(yīng),不僅要評估最終給出的答案,還要關(guān)注它得出答案的過程,也就是行動軌跡。 軟件工程師可以把智能體評估和代碼的自動化測試聯(lián)系起來。在代碼測試中,自動化測試能節(jié)省時間,還能讓開發(fā)者對軟件質(zhì)量更有信心。 對于智能體來說,自動化評估同樣如此。 精心準備評估數(shù)據(jù)集非常重要,它要能準確反映智能體在實際應(yīng)用中會遇到的情況,這點甚至比軟件測試中的數(shù)據(jù)集準備還要關(guān)鍵。
智能體在回復(fù)用戶之前,通常會執(zhí)行一系列操作。 比如,它可能會對比用戶輸入和會話歷史,消除某個術(shù)語的歧義;也可能查找政策文檔、搜索知識庫,或者調(diào)用API來保存票據(jù)。 這些操作中的每一個,都是其達成目標路徑上的一個步驟,也被稱為行動軌跡。 每次智能體執(zhí)行任務(wù)時,都存在這樣一條行動軌跡。 ![]() 對開發(fā)者來說,對比智能體實際采取的行動軌跡和預(yù)期的行動軌跡,非常有助于發(fā)現(xiàn)問題。 通過對比,能夠找出錯誤或效率低下的環(huán)節(jié),提升智能體的性能。 不過,并非所有指標都適用于每種情況。 有些應(yīng)用場景要求智能體必須嚴格按理想的行動軌跡執(zhí)行,而有些場景則允許一定的靈活性和偏差。 這種評估方法也存在明顯的局限性,那就是需要有一個參考行動軌跡作為對比依據(jù)。
最終響應(yīng)評估,其實核心是:智能體有沒有實現(xiàn)既定目標? 可以根據(jù)自身的需求,制定自定義的成功標準來衡量這一點。 比如,評估一個零售聊天機器人能否準確回答產(chǎn)品相關(guān)問題;或者判斷一個研究智能體,能不能用恰當?shù)恼Z氣和風(fēng)格,有效地總結(jié)研究成果。 為了實現(xiàn)評估過程的自動化,可以使用自動評分器。自動評分器本質(zhì)上是一個LLM,它扮演著評判者的角色。 給定輸入提示和智能體生成的響應(yīng)后,自動評分器會依據(jù)用戶預(yù)先設(shè)定的一組標準,對響應(yīng)進行評估,以此模擬人類的評估過程。 不過要注意,由于這種評估可能沒有絕對的事實依據(jù)作為參照,精確地定義評估標準就顯得尤為關(guān)鍵。
人機協(xié)同評估在一些需要主觀判斷、創(chuàng)造性解決問題的任務(wù)中,有很大的價值。 同時,它還能用來校準和檢驗自動化評估方法,看其是否真的有效,是否符合預(yù)期。 人機協(xié)同評估主要有以下優(yōu)點:
多模態(tài)生成(如圖像、音頻、視頻)的評估,則更為復(fù)雜,需要專門的評估方法和指標。 ![]() 如今,AI系統(tǒng)正朝著多智能體架構(gòu)方向發(fā)生變革。 在這種架構(gòu)中,多個具有專業(yè)能力的智能體相互協(xié)作,共同完成復(fù)雜的目標。 多智能體系統(tǒng)就好比是一個由專家組成的團隊,各自在擅長的領(lǐng)域發(fā)揮專長。 每個智能體都是一個獨立的個體,它們可能使用不同的LLM,承擔(dān)獨特的角色,并且有著不同的任務(wù)背景。 這些智能體通過相互溝通、協(xié)作,來實現(xiàn)共同的目標。 這和傳統(tǒng)的單智能體系統(tǒng)有很大區(qū)別,在單智能體系統(tǒng)中,所有任務(wù)都由一個LLM來處理。
多智能體架構(gòu)會把一個復(fù)雜問題拆解成不同的任務(wù),交給專門的智能體去處理。 每個智能體都有明確的角色,它們之間動態(tài)互動,以此優(yōu)化決策過程、提升知識檢索效率、確保任務(wù)順利執(zhí)行。 這種架構(gòu)實現(xiàn)了更有條理的推理方式、去中心化的問題解決模式,以及可擴展的任務(wù)自動化處理。 多智能體系統(tǒng)運用了模塊化、協(xié)作和分層的設(shè)計原則,構(gòu)建出一個強大的AI生態(tài)系統(tǒng)。 智能體可以根據(jù)功能分為不同類型,例如:
通過這些組件的協(xié)同工作,多智能體架構(gòu)不再局限于簡單的基于提示的交互方式,實現(xiàn)了自適應(yīng)、可解釋且高效的AI驅(qū)動工作流程。
多智能體系統(tǒng)評估是在單智能體系統(tǒng)評估的基礎(chǔ)上發(fā)展而來的。 智能體的成功指標在本質(zhì)上并沒有改變,業(yè)務(wù)指標依然是核心關(guān)注點,其中包括目標和關(guān)鍵任務(wù)的完成情況,以及應(yīng)用程序遙測指標,如延遲和錯誤率等。 通過對多智能體系統(tǒng)運行過程的跟蹤記錄,有助于在復(fù)雜的交互過程中發(fā)現(xiàn)問題、調(diào)試系統(tǒng)。 評估行動軌跡和評估最終響應(yīng)這兩種方法,同樣適用于多智能體系統(tǒng)。 在多智能體系統(tǒng)中,一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。 ![]() 即便多個智能體共同協(xié)作完成一個任務(wù),最終呈現(xiàn)給用戶的是一個單一的答案,這個答案可以單獨進行評估。 由于多智能體系統(tǒng)的任務(wù)流程通常更為復(fù)雜,步驟更多,所以可以深入到每個步驟進行細致評估。行動軌跡評估是一種可行的、可擴展的評估方法。 ![]() 在智能體增強檢索生成(Agentic RAG)中,智能體會通過多次搜索來獲取所需信息。 在醫(yī)療保健領(lǐng)域,智能體增強檢索生成可以幫助醫(yī)生瀏覽復(fù)雜的醫(yī)學(xué)數(shù)據(jù)庫、研究論文和患者記錄,為他們提供全面、準確的信息。 ![]() Vertex AI Search是一個完全托管的、具有谷歌品質(zhì)的搜索與檢索增強生成(RAG)服務(wù)提供商。涵蓋數(shù)據(jù)收集、處理、嵌入、索引 / 排序、生成、驗證和服務(wù)等流程。 ![]() Vertex AI Search擁有布局解析器、向量排序API等組件,還提供RAG引擎,通過Python SDK進行編排,支持眾多其他組件。 對于希望構(gòu)建自己搜索引擎的開發(fā)者,上述每個組件都作為獨立的API開放,RAG引擎能借助類似LlamaIndex的Python接口輕松編排整個流程。 ![]() 企業(yè)開發(fā)并使用智能體,協(xié)助員工執(zhí)行特定任務(wù),或在后臺自動化運行。 商業(yè)分析師借助AI生成的見解,能輕松挖掘行業(yè)趨勢,制作極具說服力的數(shù)據(jù)驅(qū)動型演示文稿;人力資源團隊可利用智能體優(yōu)化員工入職流程。 軟件工程師依靠智能體,能主動發(fā)現(xiàn)并修復(fù)漏洞,更高效地進行開發(fā)迭代,加快部署進程。 營銷人員利用智能體,能深入分析營銷效果,優(yōu)化內(nèi)容推薦,靈活調(diào)整營銷活動以提升業(yè)績。 目前,有兩類智能體嶄露頭角: 助手型智能體:這類智能體與用戶進行交互,接收任務(wù)并執(zhí)行,然后將結(jié)果反饋給用戶。 助手型智能體既可以是通用的,也可以專門針對特定領(lǐng)域或任務(wù)。 例如,幫助安排會議、分析數(shù)據(jù)、編寫代碼、撰寫營銷文稿、協(xié)助銷售人員把握銷售機會的智能體,甚至還有根據(jù)用戶要求對特定主題進行深入研究的智能體。 它們響應(yīng)方式不同,有些能快速同步返回信息或完成任務(wù),有些則需要較長時間運行(比如深度研究型智能體)。 自動化智能體:這類智能體在后臺運行,監(jiān)聽事件,監(jiān)測系統(tǒng)或數(shù)據(jù)的變化,然后做出合理決策并采取行動。 這些行動包括操作后端系統(tǒng)、進行測試驗證、解決問題、通知相關(guān)員工等。 如今,知識工作者不再只是簡單地調(diào)用智能體執(zhí)行任務(wù)并等待結(jié)果,他們正逐漸轉(zhuǎn)型為智能體的管理者。 為了便于管理,未來會出現(xiàn)新型用戶界面,實現(xiàn)對多智能體系統(tǒng)的編排、監(jiān)控和管理,這些智能體既能執(zhí)行任務(wù),還能調(diào)用甚至創(chuàng)建其他智能體。
NotebookLM是一款研究和學(xué)習(xí)工具,旨在簡化復(fù)雜信息的理解與整合流程。 用戶可以上傳各種源材料,如文檔、筆記和其他相關(guān)文件,NotebookLM借助AI技術(shù),助力用戶更深入地理解這些內(nèi)容。 想象一下,在研究復(fù)雜主題時,NotebookLM能把零散的資料整合到一個有序的工作空間。 本質(zhì)上,NotebookLM就像一個專屬研究助手,加速研究進程,幫助用戶從單純的信息收集邁向深度理解。 NotebookLM企業(yè)版將這些功能引入企業(yè)環(huán)境,簡化員工的數(shù)據(jù)交互方式,幫他們從中獲取有價值的見解。 ![]() 例如,AI生成的音頻摘要功能,用戶可以通過「聽」研究內(nèi)容來提升理解效率,促進知識吸收。 NotebookLM企業(yè)版融入了企業(yè)級的安全和隱私功能,嚴格保護敏感的公司數(shù)據(jù),符合相關(guān)政策要求。
Google Agentspace提供了一套由AI驅(qū)動的工具,旨在通過方便員工獲取信息,自動化復(fù)雜的智能體工作流程,提升企業(yè)生產(chǎn)力。 Agentspace有效解決了傳統(tǒng)知識管理系統(tǒng)的固有缺陷,通過整合分散的內(nèi)容源,生成有依據(jù)且個性化的回復(fù)、簡化業(yè)務(wù)流程,幫助員工高效獲取信息。 Agentspace企業(yè)版的架構(gòu)基于多個核心原則構(gòu)建。 安全性始終是Google Agentspace的首要關(guān)注點。 員工可以通過它獲取復(fù)雜問題的答案,還能統(tǒng)一訪問各類信息源,無論是文檔、郵件等非結(jié)構(gòu)化數(shù)據(jù),還是表格等結(jié)構(gòu)化數(shù)據(jù)。 企業(yè)可根據(jù)自身需求配置一系列智能體,用于深度研究、創(chuàng)意生成與優(yōu)化、數(shù)據(jù)分析等工作。 ![]() 智能體空間企業(yè)版還支持創(chuàng)建定制化的AI智能體,滿足特定業(yè)務(wù)需求。 該平臺能夠開發(fā)和部署具有上下文感知能力的智能體,幫助營銷、財務(wù)、法律、工程等各部門員工高效開展研究、快速生成內(nèi)容,并實現(xiàn)重復(fù)性任務(wù)(包括多步驟工作流程)的自動化。 定制智能體可連接內(nèi)外部系統(tǒng)和數(shù)據(jù),貼合公司業(yè)務(wù)領(lǐng)域和政策要求,甚至能基于專有業(yè)務(wù)數(shù)據(jù)訓(xùn)練模型。 ![]() 為了說明多智能體概念在實際中的應(yīng)用,來看一個專為汽車設(shè)計的綜合多智能體系統(tǒng)。 ![]() 在這個系統(tǒng)中,多個專用智能體協(xié)同工作,為用戶帶來便捷、流暢的車內(nèi)體驗。
多智能體系統(tǒng)將復(fù)雜任務(wù)拆解為多個專業(yè)子任務(wù)。 在這種架構(gòu)下,每個智能體專注于特定領(lǐng)域。這種專業(yè)化使整個系統(tǒng)更加高效。 導(dǎo)航智能體專注于定位和路線規(guī)劃;媒體搜索智能體精通音樂和播客資源查找;汽車手冊智能體擅長解決車輛相關(guān)問題。 系統(tǒng)會根據(jù)任務(wù)難度分配資源,簡單任務(wù)用低配置資源,復(fù)雜任務(wù)再調(diào)用高性能資源。 ![]() 關(guān)鍵功能(如調(diào)節(jié)溫度、開窗等)由設(shè)備端智能體快速響應(yīng),而像餐廳推薦這類非緊急任務(wù)則交給云端智能體。 這種設(shè)計還具備天然的容錯能力。網(wǎng)絡(luò)連接中斷時,設(shè)備端智能體仍能保證基本功能正常運行,比如溫度控制和基本媒體播放不受影響,只是暫時無法獲取餐廳推薦。
|
|
|