各方大佬 “大打出手”：Sora是萬眾期待的“世界模型”嗎？

天承辦公室 2024-04-07 發(fā)布于北京

展開全文

Sora的技術(shù)文章發(fā)布之后，OpenAI用的一個(gè)詞卻在學(xué)界引發(fā)了不少的爭(zhēng)議，這就是“世界模擬器”（World Simulator）。

01 關(guān)于世界模型的爭(zhēng)議

目前，很多外界的輿論將OpenAI稱Sora為的這個(gè)“世界模擬器”和“世界模型”相關(guān)聯(lián)起來。

那么，什么是世界模型？為什么大家的期待這么熱烈呢？

世界模型的概念最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。2018年，兩位名為David Ha和Jürgen Schmidhuber的學(xué)者發(fā)布了一篇名為World Models的文章，這篇文章也被Sora的技術(shù)解釋論文所引用。

在這篇文章里，作者并沒有對(duì)World Models給出一個(gè)明確的定義，但是卻引用了一篇系統(tǒng)動(dòng)力學(xué)之父Jay Wright Forrester發(fā)布于1971年的有關(guān)人腦mental model的文獻(xiàn)來進(jìn)行類比。Forrester指出，人類使用有限的感官感知世界，并基于這些感知建立起一個(gè)內(nèi)部的、簡(jiǎn)化的世界模型。我們所做的決策和行動(dòng)都是基于這個(gè)內(nèi)部模型。

在這個(gè)mental model中，并不包含世界上的所有信息或細(xì)節(jié)，而只是包含了被我們選中的某些互相關(guān)聯(lián)的概念。換句話說，人們?cè)陬^腦中構(gòu)建的世界圖像是現(xiàn)實(shí)世界的一個(gè)簡(jiǎn)化版，這個(gè)簡(jiǎn)化的模型不僅幫助我們理解世界，更重要的，我們還會(huì)根據(jù)這個(gè)頭腦中的簡(jiǎn)化世界決定預(yù)測(cè)未來走向。

而世界模型也采用了類似的思維模式：在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測(cè)。更重要的是，和人腦一樣，世界模型不僅需要預(yù)測(cè)立即的結(jié)果，還要能夠預(yù)測(cè)更長(zhǎng)時(shí)間序列的后果，這對(duì)于理解復(fù)雜環(huán)境和規(guī)劃長(zhǎng)期策略至關(guān)重要。

具體到模型架構(gòu)上，根據(jù)圖靈獎(jiǎng)獲得者、Meta的首席AI科學(xué)家Yann LeCun的定義，一個(gè)世界模型應(yīng)該包含以下元素：

1）觀察（x(t)）：這是你在給定時(shí)刻對(duì)世界的看法或感知。想象你在玩視頻游戲，看到你的角色站在一個(gè)平臺(tái)上。那就是你的觀測(cè)。

2）狀態(tài)估計(jì)（s(t)）：模型對(duì)當(dāng)前世界狀態(tài)的估計(jì)。就像你在游戲中有一個(gè)關(guān)于一切所在位置的心理地圖，即使你現(xiàn)在看不到全部。

3）動(dòng)作建議（a(t)）：模型可能提出的行動(dòng)方案。這是對(duì)下一步要做什么的建議，比如決定跳躍到另外一個(gè)臺(tái)階上。

4）潛在變量建議（z(t)）：用于表示當(dāng)前觀察不能完全解釋的未知信息。這就有點(diǎn)棘手了。它代表所有未知因素，這些因素可能影響你行動(dòng)的結(jié)果。想象游戲中有風(fēng)，當(dāng)跳躍時(shí)風(fēng)可能會(huì)把你的角色吹偏。你看不到風(fēng)（它是未知的），但你知道它可能影響你的跳躍。

Yann LeCun認(rèn)為，世界模型有兩個(gè)組成部分：編碼器（這個(gè)函數(shù)接受你的觀測(cè)并將其轉(zhuǎn)換成模型可以更有效工作的格式或表示），和隱藏狀態(tài)預(yù)測(cè)器（利用編碼后的觀測(cè)、當(dāng)前的世界狀態(tài)、你正在考慮的行動(dòng)和未知因素（潛在變量）來猜測(cè)接下來會(huì)發(fā)生什么，以此來預(yù)測(cè)世界的未來狀態(tài)）

Yann LeCun定義下的世界模型之所以強(qiáng)大，是因?yàn)樗噲D模仿智能生物與世界的互動(dòng)方式：觀察、理解、預(yù)測(cè)和行動(dòng)，同時(shí)也考慮未知的事物和因素。 它是一個(gè)綜合框架，可以應(yīng)用于從玩視頻游戲到導(dǎo)航現(xiàn)實(shí)世界環(huán)境的各種問題，目標(biāo)是創(chuàng)建能夠?qū)W習(xí)以對(duì)未知因素具有適應(yīng)性和魯棒性（在異常和危險(xiǎn)情況下系統(tǒng)生存的能力）的方式導(dǎo)航和與復(fù)雜環(huán)境交互的模型。

是不是覺得以上的解釋非常復(fù)雜很難懂？沒關(guān)系，AI生成視頻公司runway在去年年底出了一個(gè)還挺有趣的視頻，更簡(jiǎn)單易懂的解釋了世界模型。

也就是說，世界模型就像狗狗一樣，對(duì)所有的視覺，聽覺和一切數(shù)據(jù)的關(guān)系，這個(gè)模型能弄清楚如何預(yù)測(cè)結(jié)果，以及調(diào)整它的行為。而更重要的是，世界模型要能和狗狗一樣，對(duì)新的、沒有見過的數(shù)據(jù)也能形成泛化的理解，也根據(jù)它對(duì)世界的理解，從而對(duì)未來做出預(yù)測(cè)。

也就是說，我家狗不僅會(huì)對(duì)它愛吃的零食流口水也會(huì)拽我去它最愛的狗公園，同時(shí)，它會(huì)對(duì)它從來沒吃過的東西流口水，或者，去拽著我去一家它從來沒去過的寵物零食店。

所以，在理想狀態(tài)下，訓(xùn)練出的世界模型不僅能夠復(fù)制它看到的數(shù)據(jù)，更能夠理解數(shù)據(jù)背后的因果關(guān)系，并在新的情況下做出有效的預(yù)測(cè)。如果把世界模型的概念套用到視頻生成領(lǐng)域則可以理解為，這個(gè)模型能夠讓機(jī)器像人類一樣，對(duì)世界產(chǎn)生一個(gè)全面而準(zhǔn)確的認(rèn)知，從而生成更流暢、更符合邏輯、時(shí)間更長(zhǎng)的視頻。

所以，就在此前GPT和diffusion等模型路線無法達(dá)到能讓業(yè)界商用的標(biāo)準(zhǔn)時(shí)，很多行業(yè)人士是對(duì)“世界模型”抱有極大期待的，包括了好萊塢等影視特效團(tuán)隊(duì)。

陸貝珂，電視劇《三體》視覺導(dǎo)演：

世界模型的開發(fā)應(yīng)該接下來是一個(gè)很好的方向，因?yàn)槭澜缒Ｐ妥畲蟮囊粋€(gè)核心其實(shí)是，讓它真正地認(rèn)識(shí)到那些不可約化的東西，還有你認(rèn)識(shí)到自身的邊界在哪。因?yàn)槟阕鋈魏蔚氖虑樗怯幸环N框架性，對(duì)吧？你真實(shí)的世界就是這樣的，真實(shí)世界它的框架來自于，大量的物理事實(shí)和人際關(guān)系的情緒事實(shí)，這個(gè)世界運(yùn)轉(zhuǎn)時(shí)候的一種這種政治邏輯，對(duì)吧？

這是幾種很多東西，這是你的世界的框架，你如果只是從語言的角度去理解世界的時(shí)候，你就發(fā)現(xiàn)不了這個(gè)世界真實(shí)的那一個(gè)框架。這部分現(xiàn)在我覺得在GPT4的這個(gè)級(jí)別上，因?yàn)樗菍儆谡Z言模型，它還沒有達(dá)到說后面的開放式的世界模型的這種級(jí)別，那看起來OpenAI一直在這方面努力。

以Yann Lecun的定義，Sora目前是遠(yuǎn)不能達(dá)到世界模型的標(biāo)準(zhǔn)，而更多的學(xué)界大佬對(duì)則認(rèn)為OpenAI有夸大宣傳的嫌疑。Yann LeCun本人就曾多次公開“狠批”Sora，表示“生成視頻的過程與基于世界模型的因果預(yù)測(cè)完全不同”。

Keras之父Fran?ois Chollet也持有相似觀點(diǎn)。他認(rèn)為僅僅通過讓AI觀看視頻是無法完全學(xué)習(xí)到世界模型的。盡管像Sora這樣的視頻生成模型確實(shí)融入了物理模型，問題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。而目前，因?yàn)橥耆磺宄ora的demo視頻與訓(xùn)練數(shù)據(jù)的差異有多大，Sora的泛化能力到底有多強(qiáng)尚不可知。而在已經(jīng)發(fā)布的demo里，已經(jīng)有人指出了不符合物理規(guī)律之處，這就表明，不論如何Sora物理模型的生成能力還未達(dá)到令人信服的可靠水平。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng)也反對(duì)將Sora歸類于世界模型。他提出，世界模型的核心在于反事實(shí)推理（Counterfactual reasoning），即便對(duì)于數(shù)據(jù)中沒有見過的決策，在世界模型中都能推理出決策的結(jié)果。Sora生成的視頻，僅能通過模糊的提示詞引導(dǎo)，而難以進(jìn)行準(zhǔn)確的操控。因此Sora就是一個(gè)視頻工具，難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問題。

至于OpenAI未來究竟能不能推出真正的世界模型，Yann LeCun和Chollet都表達(dá)了質(zhì)疑態(tài)度。Chollet提到，如果按照目前OpenAI所采用的“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線，是不可能構(gòu)建出能廣泛適用于現(xiàn)實(shí)世界所有情況的模型，因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。

然而，業(yè)界也有一些積極的聲音。在英偉達(dá)研究院高級(jí)研究員Jim Fan看來，Sora已經(jīng)是一個(gè)世界模型，包含了世界模型所需要的所有元素。Jim Fan在LinkedIn上轉(zhuǎn)發(fā)了Yann LeCun對(duì)世界模型的定義，并評(píng)論說：

Sora本質(zhì)上是一個(gè)世界模型，“無操作”是唯一允許的操作。 您可以設(shè)置世界的初始狀態(tài)，在潛在空間中運(yùn)行模擬，并被動(dòng)觀察發(fā)生的情況?，F(xiàn)在沒辦法主動(dòng)干預(yù)。

但能否主動(dòng)干預(yù)，OpenAI官方似乎是有一些不同的說法。但無論如何，Jim Fan對(duì)Sora能成為世界模型的樂觀是可以理解的。AI視頻生成的用途絕不僅僅在娛樂和藝術(shù)創(chuàng)作上，視頻數(shù)據(jù)可以捕捉到難以用語言表達(dá)的物理世界中的重要信息和數(shù)據(jù)，這將在AI智能體，AI機(jī)器人，計(jì)算引擎，環(huán)境模擬器，生成游戲環(huán)境等等科學(xué)和工程研究中，極大程度推動(dòng)相關(guān)科研的發(fā)展。

最近英偉達(dá)宣布，Jim Fan將在英偉達(dá)內(nèi)部領(lǐng)導(dǎo)組建一個(gè)新研究小組，GEAR，是“Generalist Embodied Agent Research”的簡(jiǎn)稱，中文是“通用具身智能體研究”。

Jim Fan在推特上寫到，“2024年將是屬于機(jī)器人、游戲AI和模擬的一年?！?/strong>

如果大家去看看硅谷101之前推出的《AI機(jī)器人》那期節(jié)目，在結(jié)尾的時(shí)候就說到：具身智能機(jī)器人在現(xiàn)實(shí)世界訓(xùn)練太困難，采集數(shù)據(jù)太慢太昂貴，而在模擬器中訓(xùn)練將是重要的研究方向，包括斯坦福著名的人工智能學(xué)者李飛飛教授就是這一流派的倡導(dǎo)者，而Jim Fan當(dāng)時(shí)在斯坦福時(shí)正是李飛飛的博士生。

順便說一句，現(xiàn)在蘋果的Vision Pro也出來了，業(yè)內(nèi)人士認(rèn)為這將是很好的采集現(xiàn)實(shí)空間數(shù)據(jù)的儀器。

因此，“模擬”Simulation對(duì)機(jī)器人和智能體行業(yè)都將有著重要的意義，而Sora，如果成為“現(xiàn)實(shí)世界模擬器”，將極大的助力這個(gè)行業(yè)的發(fā)展。這一點(diǎn)，我們也從斯坦福非常熱門的炒菜機(jī)器人團(tuán)隊(duì)Aloha的創(chuàng)始團(tuán)隊(duì)那里得到了肯定。

Tony Z.Zhao，斯坦福大學(xué)開源機(jī)器人Mobile ALOHA項(xiàng)目聯(lián)合負(fù)責(zé)人：

這肯定會(huì)很有幫助，或者說任何一種更大規(guī)模的pre-training（預(yù)訓(xùn)練）都會(huì)大有幫助。例如，在這種情況下，杯子就像是半透明的。在測(cè)試時(shí)，如果我扔一個(gè)藍(lán)色的杯子，它就不會(huì)工作。但是，如果我們期待一個(gè)正確實(shí)施的互聯(lián)網(wǎng)pre-training（預(yù)訓(xùn)練），與這個(gè)數(shù)據(jù)集相結(jié)合，或者在藍(lán)色杯子上工作，也不是沒有道理的。因?yàn)橐苍S世界模型中捕捉到了一些常識(shí)，它會(huì)告訴你，無論杯子是藍(lán)色、紅色還是半透明的，處理它的方法都是一樣的。因此，我會(huì)期待這樣的世界模型能在泛化方面帶來進(jìn)展。

近期，來自Google DeepMind的研究科學(xué)家 Sherry Yang及其團(tuán)隊(duì)，聯(lián)合業(yè)界資深研究員在一篇題為“Video as the New Language for Real-World Decision Making”的論文中，探索了視頻生成技術(shù)在機(jī)器人，自動(dòng)駕駛和各類科學(xué)領(lǐng)域研究的重大用途，并總結(jié)說：視頻生成之于物理世界，就如同語言建模之于數(shù)字世界。

所以，到這里我們總結(jié)一下，Sora可能并不是一個(gè)成熟的產(chǎn)品，它還沒有到ChatGPT時(shí)刻，現(xiàn)在可能算得上是GPT3時(shí)刻，但OpenAI對(duì)Sora的官宣讓我們看到了生成式AI視頻最前沿的技術(shù)流派進(jìn)步，以及用高算力和大參數(shù)也能達(dá)到“涌現(xiàn)”的技術(shù)突破。同時(shí)，在AI機(jī)器人和具身智能等學(xué)術(shù)和研究領(lǐng)域，大家很期待Sora能助力更多更高效的研發(fā)，而至于Sora距離商用還有多愿，我們得先等Sora正式發(fā)布，大家都用起來，才能知道了。

但同時(shí)，生成式AI視頻大模型的競(jìng)爭(zhēng)才剛剛開始，雖然OpenAI目前展示了絕對(duì)的領(lǐng)先地位，遠(yuǎn)超runway和pika等一眾創(chuàng)業(yè)公司，但谷歌也緊追其后。就在2月28日，谷歌Deepmind發(fā)布了新的可交互視頻生成模型Genie。

這款名為 Genie 的新模型可以接受簡(jiǎn)短的文字描述、手繪草圖或圖片，并將其變成一款可玩的電子游戲，游戲風(fēng)格類似于超級(jí)馬里奧等經(jīng)典的 2D 平臺(tái)游戲。雖然Genie只是一個(gè)內(nèi)部研究項(xiàng)目也暫時(shí)不會(huì)對(duì)外界發(fā)布，但業(yè)內(nèi)人士認(rèn)為，我們可能很快會(huì)看到Genie的3D版本，也會(huì)有基于視頻生成的游戲引擎，而這也清楚的向外界透露，和OpenAI一樣，谷歌等一眾科技巨頭在生成式AI視頻上的野心絕不僅限于視頻用于娛樂，而在虛擬環(huán)境中訓(xùn)練機(jī)器人，才是更重要的星辰大海。

以上就是我們硅谷101對(duì)Sora以及生成式AI視頻大模型發(fā)展的簡(jiǎn)單梳理，為了更簡(jiǎn)明的解釋技術(shù)，我們將很多技術(shù)細(xì)節(jié)稍有省略和簡(jiǎn)化，如果有描述不準(zhǔn)確、類比不適合的地方，歡迎大家多多指正和探討。

視頻有視覺和音樂的加持，更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。請(qǐng)?zhí)D(zhuǎn)至硅谷101【視頻號(hào)】收看完整版

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

各方大佬 “大打出手”：Sora是萬眾期待的“世界模型”嗎？

01

關(guān)于世界模型的爭(zhēng)議

關(guān)于世界模型的爭(zhēng)議

各方大佬 “大打出手”：Sora是萬眾期待的“世界模型”嗎？