小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

50頁ppt,一起梳理AI Agent的關(guān)鍵技術(shù)進展

 mrjiangkai 2025-05-13 發(fā)布于上海

黃仁勛在英偉達GTC2025的主題演講中回顧了AI過去十幾年的發(fā)展。從2012AlexNet開始的深度學習,到近幾年大模型推動的生成式AI,再到當下正經(jīng)歷的Agentic AI,直到未來的Physical AI

Image

深度學習的十年里,AI進展超過了此前傳統(tǒng)機器學習三十年的積累。而ChatGPT上線后的短短兩年半,AI更是突飛猛進,取得的成果已經(jīng)遠超深度學習的十年。

“人間一天,AI一年”。從今天回望,深度學習像是上古時期的,傳統(tǒng)機器學習則是更遙遠的遠古技術(shù),而SVM之前的專家系統(tǒng),算是文明尚未開化的史前AI。
當前所處的Agentic AI有兩波標志性事件:第一波是去年9月開始的以OpenAI的o1和DeepSeek的R1為代表的推理模型逐漸成熟,第二波是今年初的o3模型上線和Deep Research、Operator、Manus等Agent應用的出現(xiàn)。
Image

在大模型之前,以專家系統(tǒng)、傳統(tǒng)機器學習和傳統(tǒng)深度學習為代表的AI,依賴專業(yè)界面和指令,解決專用任務。比如用Photoshop進行交互式摳圖。這一階段的AI和人類歷史上每次技術(shù)革命一樣,提供的是被人類使用的工具。

大模型帶來的通用任務解決能力和自然語言交互界面,使AI成為人機協(xié)作的副駕駛Co-Pilot。比如GPT-4o支持基于自然語言指令生成圖片、摳圖、風格遷移等。不過,此時仍需人類給出明確、具體的指令:人指揮一步,AI執(zhí)行一步。
Image

除了內(nèi)容理解和生成的感知能力,大模型逐步具備了任務規(guī)劃和工具使用的認知決策和行動能力AI可以直接理解和實現(xiàn)目標導向的高層需求。

比如提出“為某新產(chǎn)品設計海報并發(fā)布到小紅書”,Manus會自主進行任務規(guī)劃將復雜任務拆解為多個子任務,并在必要時使用外部工具/其他agent來執(zhí)行其中某個子任務。

此時,AI成為了主駕駛Auto-Pilot--AI Agent。根據(jù)OpenAI的定義:AI Agent是具備自主理解、規(guī)劃、記憶和工具調(diào)用能力的系統(tǒng),能自動化完成復雜任務。

Image

以上是從AI發(fā)展的角度看如何從Tool演變?yōu)?/span>AI Agent。從Agent這個術(shù)語本身出發(fā),哲學和AI有不同的定義。以技術(shù)實現(xiàn)為目的,我們更關(guān)注AI定義中的自主性、反應性和交互式,暫不討論尚未形成共識的哲學范疇的意識等問題。

實際上,Agent一直是AI發(fā)展中的核心概念。從技術(shù)路徑看,先后經(jīng)歷了基于規(guī)則和基于強化學習兩個階段。AlphaGoOpenAI早期的游戲Agent即基于強化學習訓練,在單一任務、封閉環(huán)境中達到了超過人類的水平。

今天的AI Agent建立在大模型的基礎上,通過預訓練獲得了世界知識先驗,并以語言作為處理不同任務的接口,使得AI Agent超越了僅依賴強化學習的局限,具備一定的泛化能力和通用性

根據(jù)行為發(fā)起主體,AI Agent又可以分為被動響應人類需求的autonomous agent,和具備類人格特征和主動行為模式的generative agent。

Image

以下從任務規(guī)劃和工具使用兩種核心能力、以及應用這三個方面,介紹前一種AI Agent -- autonomous agent的進展。

1.  任務規(guī)劃

任務規(guī)劃與人類的系統(tǒng)二能力緊密相關(guān)。按照心理學理論,系統(tǒng)一代表直覺,從Q直接到A,屬于“快思考”;系統(tǒng)二從QA之間增加了多步的邏輯推理,屬于“慢思考”。

(區(qū)分推理和推斷推理reasoning指模型通過多步驟、結(jié)構(gòu)化的中間過程來得出結(jié)論;而推斷inference泛指模型生成輸出結(jié)果的過程,可能基于推理、也可能不基于推理)。
Image

要讓大模型實現(xiàn)系統(tǒng)二的推理能力,第一種方法是提示詞。

比如思維鏈CoT、思維樹ToT等方法,提供少量包含推理過程的樣本示例,激發(fā)模型In-Context Learning上下文學習,在線調(diào)整其推斷行為。

Image

大模型從預訓練的多任務學習中學到了捕捉上下文關(guān)聯(lián)的自注意力,提示詞相當于在推斷階段增加了一個“條件層”,讓模型在進行推斷時參考示例中的推理結(jié)構(gòu),影響其生成結(jié)果。

Image

然而,互聯(lián)網(wǎng)語料主要是 (Q, A) 的形式,這意味著自注意力中學到的上下文關(guān)聯(lián)是在問題和答案之間的。而推理需要捕捉推理過程和答案之間的關(guān)聯(lián)。在推理過程上將p(A|Q)展開后,可以看得很清楚。

因此,最直接的方式還是構(gòu)造含有推理過程的數(shù)據(jù),通過學習將推理能力內(nèi)化進到模型里。

Image

主要有監(jiān)督學習和強化學習兩種學習路線。監(jiān)督學習類似師傅手把手教徒弟,像是大學之前的通識教育,提供標準解法和完整步驟。

強化學習則更像研究生教育,導師出了題目,學生自己探索,導師定期給反饋。從這個類比也可以理解強化學習中結(jié)果獎勵和過程獎勵的關(guān)系。

Image

以上是從老師的角度,監(jiān)督學習是“教”,強化學習是“育”

從學生的角度,監(jiān)督學習是“學”,強化學習是“習”。別人標注的推理路徑不一定適合你,在試錯中探索適合自己的路徑才是王道。

o1首次展示了基于學習的推理模型的潛力。

之后學術(shù)界和開源社區(qū)出現(xiàn)了大量復現(xiàn)工作。和預訓練需要大規(guī)模集群不同,推理模型的學習聚焦后訓練階段,算力資源的門檻相對較低。

而且,預訓練算法在GPT-3.5之前基本都開源了,加上ChatGPT發(fā)布后一年多的時間,大家摸索地七七八八了。但后訓練、特別是用強化學習訓練大語言模型,有大量待探索的工作。學術(shù)界覺得自己又行了。
Image
Image

再之后就是DeepSeek R1將推理模型的訓練秘籍公開,而且大幅壓縮了模型訓練和推斷成本。

o1驗證了推理模型的可行性R1極致優(yōu)化效率,降低技術(shù)應用門檻。從新技術(shù)的早期 demo 出現(xiàn),到成本降低后的規(guī)?;瘧茫堑湫偷募夹g(shù)演進路徑。

強化學習在推理模型訓練中的作用有兩點啟發(fā):(1)計算換數(shù)據(jù),(2)合成新數(shù)據(jù)。通過強化學習采樣出新的高質(zhì)量數(shù)據(jù),為突破人類數(shù)據(jù)局限、進一步提升模型能力提供了可能。
Image

2.  工具使用

AI Agent可調(diào)用的工具主要有API接口、數(shù)據(jù)庫和知識庫、外部模型等。對于無法API化的外部系統(tǒng),可以將圖形界面交互也封裝成工具供Agent調(diào)用。

Image
Image

使用工具的第一種方式是系統(tǒng)層的預設流程,即通過硬編碼方式定義Agent的行為邏輯。

優(yōu)點是確定性強、可靠,但缺乏靈活性、難以應對開放性和動態(tài)變化的環(huán)境。字節(jié)的Coze是典型的通過設計工作流搭建Agent的平臺。

Image

另一種實現(xiàn)方式模型層的提示詞觸發(fā)引導模型選擇合適的工具。這種方式更加靈活,適用于基于局部上下文的任務決策。AutoGPT是早期代表性的基于提示詞的Agent框架。

Image

Agent框架使用的提示詞方法包括ReActReflexion等。任務規(guī)劃使用的XoT關(guān)注模型內(nèi)部行為,ReAct通過使用工具與外部環(huán)境交互,Reflexion則進一步結(jié)合整個行為軌跡,支持Agent從錯誤中學習并改進行動策略。

Image
Image
Image
Image

Manus結(jié)合使用了預設流程和提示詞的方法:預設的任務解決流程是問題分析-任務規(guī)劃-調(diào)用子任務Agent-結(jié)果總結(jié)等,在每個子任務Agent內(nèi)部則設計了針對性的提示詞。

Image

與推理能力類似,工具使用(在推理鏈中使用工具,Chain-of-Action,CoA)也可以通過學習的方式內(nèi)化到模型中。

將預設流程和提示詞觸發(fā)兩種方式統(tǒng)稱為工作流。根據(jù)“更少的人工,更多的智能”的原則,基于學習得到的Agent模型應該具有更高的上限。

基于端到端學習的Agent模型o3416日正式上線。Greg Brockman在介紹時明確說o3學習“在思維鏈中使用工具”。

Image

3月初的論文給agent模型下了一個定義。

LLM和推理模型的人-模型二元結(jié)構(gòu)不同,agent模型要求能夠同時進行思考與行動,形成了由人、模型和環(huán)境構(gòu)成的三元結(jié)構(gòu):使用工具與環(huán)境進行交互以獲得反饋,經(jīng)過多輪的思考、行動和觀察后,最終生成回復。

推理模型已經(jīng)具備了通用推理能力和單點的工具使用能力。Agent模型訓練旨在面向任務目標,端到端訓練模型在推理過程中的鏈式工具使用能力。

如同研究生通過完成學位論文,才能掌握如何整合查閱文獻、做實驗、繪制圖表這些單個技能完成一個復雜的任務。

Image
Agent模型學習框架需要平衡思考與行動,并處理外部環(huán)境交互帶來的訓練不穩(wěn)定和效率低成本高的問題。
AutoCoA設計了分層SFT,將模型行動的whenhow兩個能力拆解;并提出了混合環(huán)境RL,訓練策略模型自己模擬環(huán)境反饋。
Image

端到端訓練的Agent模型,由于面向任務目標進行了策略優(yōu)化,其選擇的工具和工具使用參數(shù)是面向全局任務目標生成的。

相比之下,提示詞觸發(fā)的agentic工作流方法,模型雖然也有一定的自主靈活性,但行動是單步進行的,只能根據(jù)局部上下文做出選擇。

Image

Agent模型探索能力上限,Agentic工作流保證任務執(zhí)行下限,二者在很長時間內(nèi)將結(jié)合使用。

三種可能的結(jié)合方式:(1模塊化協(xié)作,確定性流程使用工作流,靈活性需求使用Agent模型;(2校驗模型結(jié)果,通過工作流對Agent模型的輸出進行校驗,減少模型的隨機性和幻覺不確定性等問題;(3框架+實現(xiàn),工作流搭建頂層確定框架,模型實現(xiàn)底層靈活和智能。

Image

隨著自主性進一步提高,工具也將由agent通過在線編程按需創(chuàng)建。一些全棧開發(fā)的agent,比如Devin、亞馬遜的Kiro都在實現(xiàn)類似的功能。

Image

3.  AI Agent應用
OperatorDeep Research代表了目前AI Agent的兩個主要應用方向:操作action agent信息information agent。
前者扮演眼和手的角色,擅長環(huán)境交互與自動化操作,適用于重復性強的操作密集型任務。后者扮演大腦的角色,擅長知識整合與復雜分析,適用于知識密集型任務
Image

實現(xiàn)方式上包括GUI Agent、API Agent和多Agent三種。

其中多Agent,比如榮耀的OS Agent YoYo”調(diào)用中移動的App Agent“靈犀”,目前看是使用大型App、兼顧通用性和效率的可選方案。

Image

GUI AgentAPI Agent代表了看待未來AI發(fā)展的兩種思維。GUI Agent代表的是讓AI適應人類的數(shù)字世界,人形機器人即是讓AI適應人類的物理世界。

Image

相比物理世界改造的困難,數(shù)字世界的改造要相對容易些。API Agent則希望為AI創(chuàng)建一個原生的世界,包括為AI專門設計的工具、交流語言等。

Image

AutoCoA的框架主要面向的是API Agent。從4月中旬開始,幾個大廠密集發(fā)布的工作,也證明端到端RLAPI Agent上是跑得通的。

但在GUI Agent上,強如字節(jié)的UI-TARS,RL也只能在單步行動上訓練。

問題可能出在是GUI context的理解上:截屏的方法增加了感知環(huán)節(jié),使得端到端訓練難以進行;可訪問樹的方法由于信息丟失,會影響上下文信息的利用。

Image

Action agent目前主要在各類終端上。Agent入口的層級從高到低有應用級、系統(tǒng)級和硬件級。

微信將元寶直接放到聯(lián)系人中,再次體現(xiàn)了騰訊作為連接器的定位:通過微信連接人和信息-公眾號,連接人和服務-小程序,甚至連接任何交易-微信支付。

終端agent應該具備自然交互、自動化、個性化三個特點。分別對應了感知、認知和記憶三方面主要能力。

Image
Image

Information agent從基于單次搜索的信息查詢,發(fā)展到基于多次搜索的知識服務。

OpenAIdeep research進一步實現(xiàn)了面向任務完成的多次搜索優(yōu)化,代表了未來AI Agent應用的重要方向。

人的信息處理能力,從查詢、總結(jié)到綜合分析,目前information agent已基本具備。更高級的創(chuàng)造能力,除了模型智能的提升,還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實現(xiàn)。

Image

關(guān)于AI Agent應該通用還是垂直的討論。

從任務特點看,agentchatbotreasoner不同,關(guān)注的是具體任務的執(zhí)行,這也是“AI下半場”的另一種解釋:從刷通用能力的benchmark到解決具體任務。

從實現(xiàn)方式看,工作流的方法需要面向任務設計具體的執(zhí)行邏輯;基于RL學習的方法,則需要根據(jù)任務目標,設定準確的環(huán)境獎勵。
Image

o3agent基礎模型微調(diào)獲得垂直agent的通用公式是:準備完成任務所需的專業(yè)工具集、受控環(huán)境內(nèi)可驗證的任務目標,然后進行強化微調(diào)。

隨著o3、Qwen3等Agent基礎模型成熟,就好像高素質(zhì)的研究生畢業(yè)生供應增加。企業(yè)需要接下來結(jié)合具體任務繼續(xù)培養(yǎng),在特定工作上訓練成為業(yè)務專家。

端到端訓練垂直Agent,已經(jīng)在廣告(ICON)、網(wǎng)絡安全(XBOW)、軟件開發(fā)(Traversal)等領域有了成功案例。

Image

OpenAI開始用可替代的人類專家工時評估模型的能力,這表明agent逐步作為一種服務成為生產(chǎn)力。

Agent的生產(chǎn)力由模型智能、工具多樣性和數(shù)據(jù)專業(yè)性三個因素決定。應用層不僅要承接最新模型成果,還需要從工具和數(shù)據(jù)兩個方面向下優(yōu)化模型。

chatbot失效的數(shù)據(jù)飛輪不同,在agent階段,普通用戶的行動流數(shù)據(jù)對于提升模型能力還是有用的,所以AI Agent產(chǎn)品目前仍然存在數(shù)據(jù)飛輪。OpenAI收購Windsurf,很大程度上是看重其豐富的開發(fā)者agentic行為數(shù)據(jù)。

對比傳統(tǒng)軟件通過需求分析確定高頻、標準、靜態(tài)的需求,基于Agent的服務可以滿足長尾、個性化、動態(tài)的需求?;?/span>Agent的新一代軟件的界面可能被高度簡化為一個對話框,傳統(tǒng)復雜的操作過程被隱藏,成為面向目標的服務交付。
Image
Image

如喬布斯40年前的預言,how to do、what to do,到what I want,用戶只需描述我想要什么Agent自動完成怎么做。AI Agent代表了新的抽象層,已經(jīng)無限接近人類思維。

正如網(wǎng)頁和App是互聯(lián)網(wǎng)信息的應用載體,agent是智能服務的載體。Agent的設計,因此應該更充分地發(fā)揮AI整合底層數(shù)據(jù)資源和工具生態(tài)效率和能力。

Image

這需要action agentinformation agent的深度融合。馬斯克曾說:電腦和手機是人的數(shù)字延伸,其帶來的無限信息訪問能力已經(jīng)可以讓我們成為超人了。

讓AI像人一樣操縱電腦,從而接管一切人類在屏幕前完成的工作,是OpenAI成立時就定下的目標。

隨著action agent接入更多I/O,information agent可使用更多工具,AI Agent正在突破人類肉身的物理限制,可以以無限帶寬連接世界。這不僅是完成人類的任務,更是讓agent自主、持續(xù)地從人類世界學習和進化的方式。

Agent OS將成為AI Agent的運行基礎。

任務規(guī)劃、工具使用和記憶是AI Agent的三個基礎能力。關(guān)于記憶,“大海撈針”評估的主要是單點信息檢索的能力,agent解決復雜任務需要的是上下文理解和全局推理能力。

最近一年已經(jīng)看到了任務規(guī)劃和工具使用能力的發(fā)展,期待記憶機制的突破。

Image
                                      

回到黃仁勛的主題演講。

預訓練、后訓練、推斷三階段的scaling law,支撐著目前生成式AI和Agentic AI的發(fā)展。

Image
這背后是從算力到智能的sweet lesson。
隨著算力每年增長4-5倍,近十年的算力已經(jīng)提升了百萬倍。當算力資源成為主要的推動因素,AI發(fā)展的一條暗線是:如何將越來越多的算力以最高的效率轉(zhuǎn)化為智能的提升。
這一過程分成了三個階段。早期從SVM到DNN再到Transformer,是從算法側(cè)消化算力,能在大量數(shù)據(jù)上訓練大規(guī)模參數(shù)的模型,可以說到Transformer已基本收斂了。
接下來解決的是如何提供源源不斷的數(shù)據(jù)。這包括了預訓練基于自監(jiān)督學習可以吃掉整個互聯(lián)網(wǎng)的數(shù)據(jù),以及后訓練結(jié)合強化學習將算力轉(zhuǎn)化為高質(zhì)量的合成數(shù)據(jù)。
AI Agent是這一線索的延續(xù):在推斷階段,用更多時間消耗更多算力,進一步提升智能水平。
Image
進一步,從預訓練到后訓練再到推斷的三個scaling law,不是簡單的單向關(guān)系。
后訓練中采樣獲得的高質(zhì)量推理數(shù)據(jù),推斷階段通過工具與外部環(huán)境交互獲得的行為數(shù)據(jù),可以反哺預訓練,形成正向循環(huán),實現(xiàn)智能的持續(xù)提升。
Image

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多