小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

從 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自進(jìn)化的必要解?

 天承辦公室 2025-10-25

引言:在業(yè)內(nèi)關(guān)于智能體自進(jìn)化的探討中,記憶系統(tǒng)的相關(guān)改進(jìn)使智能體能夠在任務(wù)間積累經(jīng)驗(yàn)、復(fù)用推理,從而呈現(xiàn)出持續(xù)成長的特征。但是記憶并非自進(jìn)化的全部,隨著研究者在智能體元認(rèn)知、自我診斷和架構(gòu)重構(gòu)等方向有了進(jìn)一步思考,智能體自進(jìn)化開啟了多路線的探索模式。

目錄

01. 當(dāng) RL 不再是自進(jìn)化智能體的唯一答案,記憶工程是否有可能獨(dú)挑大梁?

RL 優(yōu)化智能體自進(jìn)化之外,記憶系統(tǒng)帶來了哪些新的實(shí)踐應(yīng)用突破?從無記憶到工作流記憶,再到 ReasoningBank,智能體記憶系統(tǒng)進(jìn)化到了哪一步?...

02. 記憶系統(tǒng)不是終點(diǎn),智能體自進(jìn)化還藏著哪些被忽視的技術(shù)方向?

IML 能否讓智能體真正實(shí)現(xiàn)「自我完善」?從 MetaAgent 到 POAD,目前智能體自進(jìn)化擺脫人類設(shè)計(jì)的程度有多高?...

當(dāng) RL 不再是自進(jìn)化智能體的唯一答案,記憶工程是否有可能獨(dú)挑大梁?

1、近年來,人工智能領(lǐng)域不僅關(guān)注大語言模型的基礎(chǔ)能力,也逐步開始探索能夠在開放、動(dòng)態(tài)環(huán)境中持續(xù)執(zhí)行復(fù)雜任務(wù)的自進(jìn)化智能體。

① 這要求 LLM Agent 在擁有較強(qiáng)的感知、推理和規(guī)劃能力之外,還要具備終身學(xué)習(xí)和適應(yīng)的能力,從而能夠在真實(shí)世界部署中保持穩(wěn)健性。

2、過去業(yè)內(nèi)對(duì)于智能體自進(jìn)化的探索主要圍繞 RL 的相關(guān)優(yōu)化展開,但目前越來越多的工作開始轉(zhuǎn)向工程側(cè)的記憶機(jī)制改進(jìn),嘗試通過高效簡易地設(shè)計(jì)記憶系統(tǒng)來促進(jìn)智能體將推理轉(zhuǎn)成可復(fù)用的記憶。

① 智能體可能在每個(gè)新任務(wù)中重復(fù)過去的錯(cuò)誤,存在「經(jīng)驗(yàn)遺忘」的情況,這限制了其在長期、復(fù)雜任務(wù)中的泛化能力和可靠性。

② 要實(shí)現(xiàn)智能體的自進(jìn)化,就要讓智能體不僅會(huì)「思考」,還能記得自己「如何思考」。

3、從記憶系統(tǒng)著手,將瞬時(shí)「思考」轉(zhuǎn)化為可累積、可遷移的長期經(jīng)驗(yàn),這不僅讓智能體會(huì)「思考」,還能記得自己「如何思考」。

4、今年 9 月,來自谷歌、UIUC 和耶魯大學(xué)的研究者發(fā)表了主題為 ReasoningBank 的相關(guān)論文,其中將智能體的「記憶」本質(zhì)上概括為從過去經(jīng)驗(yàn)中學(xué)習(xí)和應(yīng)用知識(shí)的方式,并將其發(fā)展進(jìn)程劃分為無記憶智能體(No Memory Agent)、軌跡記憶(Trajectory Memory)和工作流記憶(Workflow Memory)。[2-1]

① 無記憶智能體階段,智能體在處理每個(gè)任務(wù)時(shí),都會(huì)從一個(gè)「空白」?fàn)顟B(tài)開始,僅依賴預(yù)訓(xùn)練模型中固化的知識(shí)和當(dāng)前任務(wù)的上下文信息。這會(huì)導(dǎo)致一些重復(fù)錯(cuò)誤以及任務(wù)連貫性的缺失。

② 軌跡記憶階段則將智能體與環(huán)境的完整交互序列,也就是「軌跡」存儲(chǔ)下來。當(dāng)遇到新任務(wù)時(shí),系統(tǒng)會(huì)檢索歷史上相似的軌跡,并將其作為上下文信息(In-context Learning)提供給模型。這種機(jī)制的局限在于知識(shí)抽象層次較低,檢索成本隨著軌跡數(shù)量增加而指數(shù)級(jí)上升,且難以將經(jīng)驗(yàn)泛化到結(jié)構(gòu)不同的新任務(wù)。

③ 工作流記憶階段則不再存儲(chǔ)原始軌跡,而是從成功的軌跡中提取出可復(fù)用的、結(jié)構(gòu)化的操作流程或模板。盡管提高了重復(fù)任務(wù)的效率,但這種機(jī)制的學(xué)習(xí)信號(hào)來源過于單一,無法從失敗或低效的嘗試中吸取教訓(xùn),導(dǎo)致在面對(duì)環(huán)境或任務(wù)的微小變化時(shí)適應(yīng)性較弱。

5、這些早期的記憶機(jī)制都停留在記錄行為或流程的層面,無法實(shí)現(xiàn)高層級(jí)的知識(shí)抽象。針對(duì)這一挑戰(zhàn),提出 ReasoningBank 機(jī)制的研究者嘗試將智能體記憶的抽象層次從「操作記錄」和「程序模板」提升到「可泛化推理策略」的高度。[2-2]

6、ReasoningBank 的核心是結(jié)構(gòu)化推理記憶單元(Memory Item)。與存儲(chǔ)原始代碼或操作日志不同,每個(gè)單元用來捕捉深層的戰(zhàn)略洞察,通常包含標(biāo)題、描述和內(nèi)容三個(gè)關(guān)鍵字段。[2-2]

① 這種結(jié)構(gòu)化的方法使得知識(shí)更具可讀性、可遷移性,且能夠跨任務(wù)和跨領(lǐng)域復(fù)用。

7、ReasoningBank 的運(yùn)行依賴于一個(gè)無需外部監(jiān)督的閉環(huán)學(xué)習(xí)過程,也就是自我判斷反饋回路(Self-Aware Feedback Loop),該過程包括記憶檢索、記憶構(gòu)建和記憶整合機(jī)制。[2-2]

8、進(jìn)一步地,研究者通過記憶感知測(cè)試時(shí)擴(kuò)展(Memory-aware Test-Time Scaling, MaTTS)機(jī)制,確保了計(jì)算資源的增加能夠轉(zhuǎn)化為更豐富、更高質(zhì)量的對(duì)比信號(hào)(成功的路徑與失敗的路徑之間的差異),從而加速推理策略的提煉和積累。[2-2]

① 傳統(tǒng)的測(cè)試時(shí)擴(kuò)展(TTS)通常只是增加單次推理的計(jì)算量來提高準(zhǔn)確性。MaTTS 則利用額外的計(jì)算資源來加速和多樣化經(jīng)驗(yàn)的生成(例如進(jìn)行多路徑并行推理,探索更多行動(dòng)分支)。

② MaTTS 機(jī)制采用了經(jīng)驗(yàn)規(guī)模化(Experience Scaling)這一新的 Scaling 維度,這意味著投資于計(jì)算資源不再僅僅是為了提高當(dāng)前任務(wù)的穩(wěn)健性,也可以用于優(yōu)化 Agent 未來學(xué)習(xí)的能力。

③ 經(jīng)測(cè)試,MaTTS 在網(wǎng)絡(luò)瀏覽和軟件工程等基準(zhǔn)測(cè)試中,相對(duì)提高了高達(dá) 34.2%的有效性,并減少了 16%的交互步驟。

9、綜上所述,ReasoningBank 機(jī)制減輕了對(duì)基礎(chǔ)模型重復(fù)微調(diào)的成本,也支持更輕量、更快速的智能體適應(yīng)性進(jìn)化。

記憶系統(tǒng)不是終點(diǎn),智能體自進(jìn)化還藏著哪些被忽視的技術(shù)方向?

1、目前來看,記憶系統(tǒng)的改進(jìn)是給予 AI 或智能體應(yīng)用自進(jìn)化體驗(yàn)的主流路線,但除此之外,業(yè)內(nèi)研究人員從智能體內(nèi)在的自我識(shí)別、外在的工具和策略輔助等機(jī)制著手,嘗試探索自進(jìn)化的其他技術(shù)路線。...

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多