LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測(cè)世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測(cè),對(duì)應(yīng)的解決方案是一種叫做分層 JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))的架構(gòu)。該架構(gòu)可以通過堆疊的方式進(jìn)行更抽象、更長(zhǎng)期的預(yù)測(cè)。LeCun 和 Meta AI 希望分層 JEPA 可以通過觀看視頻和與環(huán)境交互來了解世界是如何運(yùn)行的。
盡管 AI 研究最近取得了顯著進(jìn)展,但我們離創(chuàng)造出像人一樣思考和學(xué)習(xí)的機(jī)器還有很長(zhǎng)的路要走。正如 Yann LeCun 所說,一個(gè)從沒有開過車的青少年可以在 20 小時(shí)之內(nèi)學(xué)會(huì)駕駛,但最好的自動(dòng)駕駛系統(tǒng)卻需要數(shù)百萬或數(shù)十億的標(biāo)記數(shù)據(jù),或在虛擬環(huán)境中進(jìn)行數(shù)百萬次強(qiáng)化學(xué)習(xí)試驗(yàn)。即使費(fèi)這么大力,它們也無法獲得像人類一樣可靠的駕駛能力。 怎樣才能打造出接近人類水平的 AI??jī)H靠更多的數(shù)據(jù)和更大的模型能解決嗎? 在 Meta AI 近期舉辦的 Inside the Lab event 中,LeCun 勾勒出了構(gòu)建人類水平 AI 的另一種愿景。他指出,學(xué)習(xí)「世界模型」(即世界如何運(yùn)作的內(nèi)部模型)的能力可能是關(guān)鍵。
Yann LeCun 的觀點(diǎn)與 Kanai 等人提出的意識(shí)信息生成理論非常一致——智能源于能夠生成世界復(fù)雜表示的能力(包括反事實(shí)),不過也有學(xué)者對(duì)此持消極態(tài)度。 卡耐基梅隆大學(xué)教授,前蘋果 AI 研究主管 Russ Salakhutdinov 對(duì)此評(píng)價(jià)道:Josh Tenenbaum 和其他很多研究者在十年前已經(jīng)開始研究世界模型,當(dāng)時(shí)我在他的實(shí)驗(yàn)室做博士后。因此,當(dāng) Facebook 說他們正在研究基于世界模型的 AI 新愿景時(shí),我覺得這聽起來有點(diǎn)好笑。 LeCun 提出的方法究竟能否成為通向通用人工智能的道路?讓我們結(jié)合 Meta AI 前幾天的博客來了解一下 LeCun 的想法。 可以建模世界如何運(yùn)行的 AI LeCun 說,人和動(dòng)物似乎能夠通過觀察和難以理解的少量互動(dòng),以一種獨(dú)立于任務(wù)的、無監(jiān)督的方式,學(xué)習(xí)大量關(guān)于世界如何運(yùn)行的背景知識(shí)??梢约僭O(shè),這些積累起來的知識(shí)可能構(gòu)成了常識(shí)的基礎(chǔ)。常識(shí)可以被看作是世界模型的集合,可以告訴我們什么是大概率會(huì)發(fā)生的,什么是可能發(fā)生的,以及什么是不可能發(fā)生的。
這使得人類即使身處不熟悉的環(huán)境也能有效地制定計(jì)劃。例如,文章開頭提到的那個(gè)青少年可能以前沒有在雪地上開過車,但他知道雪地開車容易打滑,不能開得太猛。 常識(shí)不僅能讓動(dòng)物預(yù)測(cè)未來的結(jié)果,還能填補(bǔ)時(shí)間或空間上缺失的信息。當(dāng)司機(jī)聽到附近金屬碰撞的聲音時(shí),他立即就能知道發(fā)生了事故,即使沒有看到涉事車輛。 人類、動(dòng)物和智能系統(tǒng)使用世界模型的觀點(diǎn)可以追溯到幾十年前的心理學(xué)以及控制和機(jī)器人等工程領(lǐng)域。LeCun 提出,當(dāng)今 AI 面臨的最重要的挑戰(zhàn)之一是設(shè)計(jì)學(xué)習(xí)范式和架構(gòu),讓機(jī)器以一種自監(jiān)督的方式學(xué)習(xí)世界模型,然后利用這些模型進(jìn)行預(yù)測(cè)、推理和規(guī)劃。他的大綱融合了各種學(xué)科的觀點(diǎn),如認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最佳控制、強(qiáng)化學(xué)習(xí)和「?jìng)鹘y(tǒng)」AI,并將它們與機(jī)器學(xué)習(xí)中的新概念相結(jié)合,如自監(jiān)督學(xué)習(xí)、聯(lián)合嵌入架構(gòu)。 一種自主智能體系架構(gòu)的提出 LeCun 提出了一個(gè)由六個(gè)獨(dú)立模塊組成的架構(gòu)。假設(shè)每個(gè)模塊都是可微的,因?yàn)樗梢院苋菀椎赜?jì)算某個(gè)目標(biāo)函數(shù)相對(duì)于自己的輸入的梯度估計(jì),并將梯度信息傳播到上游模塊。
上圖是一種自主智能系統(tǒng)的架構(gòu),配置器(Configurator)從其他模塊獲得輸入(圖中省略了這些箭頭)。 配置器(Configurator)模塊負(fù)責(zé)執(zhí)行控制(executive control):給定要執(zhí)行的任務(wù),可以通過調(diào)整這些模塊的參數(shù)來預(yù)先配置感知模塊(perception module)、世界模型(world model)、成本(cost)和當(dāng)前任務(wù)的 actor。 感知模塊(Perception module)接收來自傳感器的信號(hào)并估計(jì)當(dāng)前世界的狀態(tài),對(duì)于給定的任務(wù),只有一小部分感知到的世界狀態(tài)是相關(guān)和有用的。配置器模塊啟動(dòng)感知系統(tǒng),從感知中提取相關(guān)信息,完成手頭的任務(wù)。 世界模型(World model)構(gòu)成了架構(gòu)中最復(fù)雜的部分。它的作用是雙重的:(1)估計(jì)感知未提供的關(guān)于世界狀態(tài)的缺失信息;(2)預(yù)測(cè)合理的未來世界狀態(tài)。 世界模型可以預(yù)測(cè)世界的自然進(jìn)化,或預(yù)測(cè)由 actor 模塊提出的一系列動(dòng)作所導(dǎo)致的未來世界狀態(tài)。世界模型是一種與當(dāng)前任務(wù)相關(guān)的世界部分的模擬器。由于世界充滿了不確定性,模型必須能夠代表多種可能的預(yù)測(cè)。比如接近十字路口的司機(jī)可能會(huì)減速,以防另一輛接近十字路口的車沒有在停車標(biāo)志處停下來。 成本模塊(Cost module)計(jì)算單個(gè)標(biāo)量的輸出,該輸出預(yù)測(cè)智能體的不適(discomfort)程度。它由兩個(gè)子模塊組成:內(nèi)在成本(intrinsic cost)是硬連接、不可變的(不可訓(xùn)練的),并計(jì)算直接的不適(比如對(duì)智能體的損害、違反硬編碼的行為約束等);批判(critic)是可訓(xùn)練的模塊,預(yù)測(cè)內(nèi)在成本的未來值。智能體的最終目標(biāo)是最小化長(zhǎng)期的內(nèi)在成本。 「這就是基本的行為驅(qū)動(dòng)力和內(nèi)在動(dòng)機(jī)所在,」LeCun 表示。因此它將考慮到內(nèi)在成本,比如沒有浪費(fèi)能源,以及手頭任務(wù)的具體成本。因?yàn)槌杀灸K是可微的,所以成本梯度可以通過其他模塊反向傳播,用于規(guī)劃、推理和學(xué)習(xí)。 actor 模塊計(jì)算動(dòng)作序列的提議?!竌ctor 可以找到一個(gè)最優(yōu)的動(dòng)作序列,最小化預(yù)估的未來成本,并以最優(yōu)序列輸出第一個(gè)動(dòng)作,這種方式類似于傳統(tǒng)的最優(yōu)控制?!筁eCun 說。 短期記憶模塊(Short-term memory module)跟蹤當(dāng)前和預(yù)測(cè)的世界狀態(tài)以及相關(guān)成本。 世界模型架構(gòu)和自監(jiān)督訓(xùn)練 該架構(gòu)的核心是預(yù)測(cè)世界模型。構(gòu)建它的一個(gè)關(guān)鍵挑戰(zhàn)是如何使它能夠表示多個(gè)看似合理的預(yù)測(cè)?,F(xiàn)實(shí)世界并不是完全可以預(yù)測(cè)的:特定情況的演變有多種可能的方式,并且情況的許多細(xì)節(jié)與手頭的任務(wù)無關(guān)。我可能需要預(yù)測(cè)開車時(shí)周圍的汽車會(huì)有哪些動(dòng)作,而不需要思考道路附近樹木中單個(gè)葉子的詳細(xì)位置。世界模型到底應(yīng)該如何學(xué)習(xí)世界的抽象表示,從而保留重要細(xì)節(jié),忽略不相關(guān)的細(xì)節(jié),并且可以在抽象表示的空間中進(jìn)行預(yù)測(cè)呢? 解決方案的一個(gè)關(guān)鍵要素是聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)。JEPA 捕獲兩個(gè)輸入 x 和 y 之間的依賴關(guān)系。例如 x 可以是一段視頻,y 可以是視頻的下一段。輸入 x 和 y 被饋送到可訓(xùn)練的編碼器,這些編碼器提取它們的抽象表示,即 s_x 和 s_y。訓(xùn)練預(yù)測(cè)器模塊以從 s_x 預(yù)測(cè) s_y。預(yù)測(cè)器可以使用潛變量 z 來表示 s_y 中存在但 s_x 中不存在的信息。 JEPA 以兩種方式處理預(yù)測(cè)中的不確定性:(1)編碼器可能會(huì)選擇丟棄有關(guān) y 的難以預(yù)測(cè)的信息,(2)當(dāng)潛變量 z 在一個(gè)集合范圍內(nèi)變化時(shí),預(yù)測(cè)將在一組看似合理的預(yù)測(cè)結(jié)果范圍內(nèi)變化。
那么 JEPA 是如何訓(xùn)練的呢?之前,唯一的方法是使用對(duì)比方法,包括顯示相匹配的 x 和 y 的示例,以及許多 x 和不匹配的 y 的示例。但是當(dāng)表示(representation)是高維的時(shí),這是相當(dāng)不切實(shí)際的。過去兩年出現(xiàn)了另一種訓(xùn)練策略:正則化方法。當(dāng)應(yīng)用于 JEPA 時(shí),該方法使用四個(gè)標(biāo)準(zhǔn):
使 x 的表示最大限度地提供關(guān)于 x 的信息
使 y 的表示最大限度地提供關(guān)于 y 的信息
使得從 x 的表示中最大限度地預(yù)測(cè) y 的表示成為可能
讓預(yù)測(cè)器使用來自潛變量的、盡可能少的信息來表示預(yù)測(cè)中的不確定性。
這些標(biāo)準(zhǔn)可以以各種方式轉(zhuǎn)化為可微的成本函數(shù)。一種方法是 VICReg(方差 - 不變性 - 協(xié)方差正則化)方法。在 VICReg 中,x 和 y 的表示的信息內(nèi)容通過將它們的分量的方差保持在閾值之上,并使這些分量盡可能地相互獨(dú)立來實(shí)現(xiàn)最大化。同時(shí),該模型試圖使 y 的表示可以從 x 的表示中預(yù)測(cè)。此外,潛變量信息內(nèi)容的最小化是通過使其離散、低維、稀疏或有噪聲來實(shí)現(xiàn)的。
JEPA 的精妙之處在于它自然地產(chǎn)生了輸入的充滿信息量的抽象表示,消除了不相關(guān)的細(xì)節(jié),這些表示可以用來執(zhí)行預(yù)測(cè)。這使得 JEPA 可以相互堆疊,以便學(xué)習(xí)具有更高抽象級(jí)別的表示,可以執(zhí)行長(zhǎng)期預(yù)測(cè)。 例如,一個(gè)場(chǎng)景可以在高層次上描述為「廚師正在制作可麗餅」??梢灶A(yù)測(cè)的是,廚師會(huì)去取面粉、牛奶和雞蛋,把材料混合,把面糊舀進(jìn)鍋里,用油炸面糊,翻轉(zhuǎn)可麗餅并重復(fù)上述過程。 在較低的層次上,傾倒面糊(pouring a ladle)又可以分解為舀面糊(scooping some batter )和將其倒在平底鍋上(spreading it around the pan)。這些過程可以一直分解下去,具體到廚師手上每一毫秒的精確軌跡。在這種低層次的手部軌跡預(yù)測(cè)上,我們的世界模型只能在較短的時(shí)間范圍內(nèi)給出準(zhǔn)確的預(yù)測(cè)。但在更高的抽象層次上,它可以做出長(zhǎng)期預(yù)測(cè)。