01
目前,很多外界的輿論將OpenAI稱Sora為的這個(gè)“世界模擬器”和“世界模型”相關(guān)聯(lián)起來。 那么,什么是世界模型?為什么大家的期待這么熱烈呢? 世界模型的概念最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。2018年,兩位名為David Ha和Jürgen Schmidhuber的學(xué)者發(fā)布了一篇名為World Models的文章,這篇文章也被Sora的技術(shù)解釋論文所引用。
在這篇文章里,作者并沒有對(duì)World Models給出一個(gè)明確的定義,但是卻引用了一篇系統(tǒng)動(dòng)力學(xué)之父Jay Wright Forrester發(fā)布于1971年的有關(guān)人腦mental model的文獻(xiàn)來進(jìn)行類比。Forrester指出,人類使用有限的感官感知世界,并基于這些感知建立起一個(gè)內(nèi)部的、簡(jiǎn)化的世界模型。我們所做的決策和行動(dòng)都是基于這個(gè)內(nèi)部模型。
而世界模型也采用了類似的思維模式:在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測(cè)。更重要的是,和人腦一樣,世界模型不僅需要預(yù)測(cè)立即的結(jié)果,還要能夠預(yù)測(cè)更長(zhǎng)時(shí)間序列的后果,這對(duì)于理解復(fù)雜環(huán)境和規(guī)劃長(zhǎng)期策略至關(guān)重要。
1)觀察(x(t)):這是你在給定時(shí)刻對(duì)世界的看法或感知。想象你在玩視頻游戲,看到你的角色站在一個(gè)平臺(tái)上。那就是你的觀測(cè)。 2)狀態(tài)估計(jì)(s(t)):模型對(duì)當(dāng)前世界狀態(tài)的估計(jì)。就像你在游戲中有一個(gè)關(guān)于一切所在位置的心理地圖,即使你現(xiàn)在看不到全部。 3)動(dòng)作建議(a(t)):模型可能提出的行動(dòng)方案。這是對(duì)下一步要做什么的建議,比如決定跳躍到另外一個(gè)臺(tái)階上。 4)潛在變量建議(z(t)):用于表示當(dāng)前觀察不能完全解釋的未知信息。這就有點(diǎn)棘手了。它代表所有未知因素,這些因素可能影響你行動(dòng)的結(jié)果。想象游戲中有風(fēng),當(dāng)跳躍時(shí)風(fēng)可能會(huì)把你的角色吹偏。你看不到風(fēng)(它是未知的),但你知道它可能影響你的跳躍。
Yann LeCun定義下的世界模型之所以強(qiáng)大,是因?yàn)樗噲D模仿智能生物與世界的互動(dòng)方式:觀察、理解、預(yù)測(cè)和行動(dòng),同時(shí)也考慮未知的事物和因素。 它是一個(gè)綜合框架,可以應(yīng)用于從玩視頻游戲到導(dǎo)航現(xiàn)實(shí)世界環(huán)境的各種問題,目標(biāo)是創(chuàng)建能夠?qū)W習(xí)以對(duì)未知因素具有適應(yīng)性和魯棒性(在異常和危險(xiǎn)情況下系統(tǒng)生存的能力)的方式導(dǎo)航和與復(fù)雜環(huán)境交互的模型。 是不是覺得以上的解釋非常復(fù)雜很難懂?沒關(guān)系,AI生成視頻公司runway在去年年底出了一個(gè)還挺有趣的視頻,更簡(jiǎn)單易懂的解釋了世界模型。
也就是說,我家狗不僅會(huì)對(duì)它愛吃的零食流口水也會(huì)拽我去它最愛的狗公園,同時(shí),它會(huì)對(duì)它從來沒吃過的東西流口水,或者,去拽著我去一家它從來沒去過的寵物零食店。
所以,在理想狀態(tài)下,訓(xùn)練出的世界模型不僅能夠復(fù)制它看到的數(shù)據(jù),更能夠理解數(shù)據(jù)背后的因果關(guān)系,并在新的情況下做出有效的預(yù)測(cè)。如果把世界模型的概念套用到視頻生成領(lǐng)域則可以理解為,這個(gè)模型能夠讓機(jī)器像人類一樣,對(duì)世界產(chǎn)生一個(gè)全面而準(zhǔn)確的認(rèn)知,從而生成更流暢、更符合邏輯、時(shí)間更長(zhǎng)的視頻。 所以,就在此前GPT和diffusion等模型路線無法達(dá)到能讓業(yè)界商用的標(biāo)準(zhǔn)時(shí),很多行業(yè)人士是對(duì)“世界模型”抱有極大期待的,包括了好萊塢等影視特效團(tuán)隊(duì)。
以Yann Lecun的定義,Sora目前是遠(yuǎn)不能達(dá)到世界模型的標(biāo)準(zhǔn),而更多的學(xué)界大佬對(duì)則認(rèn)為OpenAI有夸大宣傳的嫌疑。Yann LeCun本人就曾多次公開“狠批”Sora,表示“生成視頻的過程與基于世界模型的因果預(yù)測(cè)完全不同”。
南京大學(xué)人工智能學(xué)院教授俞揚(yáng)也反對(duì)將Sora歸類于世界模型。他提出,世界模型的核心在于反事實(shí)推理(Counterfactual reasoning),即便對(duì)于數(shù)據(jù)中沒有見過的決策,在世界模型中都能推理出決策的結(jié)果。Sora生成的視頻,僅能通過模糊的提示詞引導(dǎo),而難以進(jìn)行準(zhǔn)確的操控。因此Sora就是一個(gè)視頻工具,難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問題。
至于OpenAI未來究竟能不能推出真正的世界模型,Yann LeCun和Chollet都表達(dá)了質(zhì)疑態(tài)度。Chollet提到,如果按照目前OpenAI所采用的“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線,是不可能構(gòu)建出能廣泛適用于現(xiàn)實(shí)世界所有情況的模型,因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。
然而,業(yè)界也有一些積極的聲音。在英偉達(dá)研究院高級(jí)研究員Jim Fan看來,Sora已經(jīng)是一個(gè)世界模型,包含了世界模型所需要的所有元素。Jim Fan在LinkedIn上轉(zhuǎn)發(fā)了Yann LeCun對(duì)世界模型的定義,并評(píng)論說:
Sora本質(zhì)上是一個(gè)世界模型,“無操作”是唯一允許的操作。 您可以設(shè)置世界的初始狀態(tài),在潛在空間中運(yùn)行模擬,并被動(dòng)觀察發(fā)生的情況?,F(xiàn)在沒辦法主動(dòng)干預(yù)。 但能否主動(dòng)干預(yù),OpenAI官方似乎是有一些不同的說法。但無論如何,Jim Fan對(duì)Sora能成為世界模型的樂觀是可以理解的。AI視頻生成的用途絕不僅僅在娛樂和藝術(shù)創(chuàng)作上,視頻數(shù)據(jù)可以捕捉到難以用語言表達(dá)的物理世界中的重要信息和數(shù)據(jù),這將在AI智能體,AI機(jī)器人,計(jì)算引擎,環(huán)境模擬器,生成游戲環(huán)境等等科學(xué)和工程研究中,極大程度推動(dòng)相關(guān)科研的發(fā)展。 最近英偉達(dá)宣布,Jim Fan將在英偉達(dá)內(nèi)部領(lǐng)導(dǎo)組建一個(gè)新研究小組,GEAR,是“Generalist Embodied Agent Research”的簡(jiǎn)稱,中文是“通用具身智能體研究”。
如果大家去看看硅谷101之前推出的《AI機(jī)器人》那期節(jié)目,在結(jié)尾的時(shí)候就說到:具身智能機(jī)器人在現(xiàn)實(shí)世界訓(xùn)練太困難,采集數(shù)據(jù)太慢太昂貴,而在模擬器中訓(xùn)練將是重要的研究方向,包括斯坦福著名的人工智能學(xué)者李飛飛教授就是這一流派的倡導(dǎo)者,而Jim Fan當(dāng)時(shí)在斯坦福時(shí)正是李飛飛的博士生。
順便說一句,現(xiàn)在蘋果的Vision Pro也出來了,業(yè)內(nèi)人士認(rèn)為這將是很好的采集現(xiàn)實(shí)空間數(shù)據(jù)的儀器。 因此,“模擬”Simulation對(duì)機(jī)器人和智能體行業(yè)都將有著重要的意義,而Sora,如果成為“現(xiàn)實(shí)世界模擬器”,將極大的助力這個(gè)行業(yè)的發(fā)展。這一點(diǎn),我們也從斯坦福非常熱門的炒菜機(jī)器人團(tuán)隊(duì)Aloha的創(chuàng)始團(tuán)隊(duì)那里得到了肯定。
Tony Z.Zhao,斯坦福大學(xué)開源機(jī)器人Mobile ALOHA項(xiàng)目聯(lián)合負(fù)責(zé)人:
近期,來自Google DeepMind的研究科學(xué)家 Sherry Yang及其團(tuán)隊(duì),聯(lián)合業(yè)界資深研究員在一篇題為“Video as the New Language for Real-World Decision Making”的論文中,探索了視頻生成技術(shù)在機(jī)器人,自動(dòng)駕駛和各類科學(xué)領(lǐng)域研究的重大用途,并總結(jié)說:視頻生成之于物理世界,就如同語言建模之于數(shù)字世界。
所以,到這里我們總結(jié)一下,Sora可能并不是一個(gè)成熟的產(chǎn)品,它還沒有到ChatGPT時(shí)刻,現(xiàn)在可能算得上是GPT3時(shí)刻,但OpenAI對(duì)Sora的官宣讓我們看到了生成式AI視頻最前沿的技術(shù)流派進(jìn)步,以及用高算力和大參數(shù)也能達(dá)到“涌現(xiàn)”的技術(shù)突破。同時(shí),在AI機(jī)器人和具身智能等學(xué)術(shù)和研究領(lǐng)域,大家很期待Sora能助力更多更高效的研發(fā),而至于Sora距離商用還有多愿,我們得先等Sora正式發(fā)布,大家都用起來,才能知道了。 但同時(shí),生成式AI視頻大模型的競(jìng)爭(zhēng)才剛剛開始,雖然OpenAI目前展示了絕對(duì)的領(lǐng)先地位,遠(yuǎn)超runway和pika等一眾創(chuàng)業(yè)公司,但谷歌也緊追其后。就在2月28日,谷歌Deepmind發(fā)布了新的可交互視頻生成模型Genie。
這款名為 Genie 的新模型可以接受簡(jiǎn)短的文字描述、手繪草圖或圖片,并將其變成一款可玩的電子游戲,游戲風(fēng)格類似于超級(jí)馬里奧等經(jīng)典的 2D 平臺(tái)游戲。雖然Genie只是一個(gè)內(nèi)部研究項(xiàng)目也暫時(shí)不會(huì)對(duì)外界發(fā)布,但業(yè)內(nèi)人士認(rèn)為,我們可能很快會(huì)看到Genie的3D版本,也會(huì)有基于視頻生成的游戲引擎,而這也清楚的向外界透露,和OpenAI一樣,谷歌等一眾科技巨頭在生成式AI視頻上的野心絕不僅限于視頻用于娛樂,而在虛擬環(huán)境中訓(xùn)練機(jī)器人,才是更重要的星辰大海。 以上就是我們硅谷101對(duì)Sora以及生成式AI視頻大模型發(fā)展的簡(jiǎn)單梳理,為了更簡(jiǎn)明的解釋技術(shù),我們將很多技術(shù)細(xì)節(jié)稍有省略和簡(jiǎn)化,如果有描述不準(zhǔn)確、類比不適合的地方,歡迎大家多多指正和探討。 |
|
|