小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

各方大佬 “大打出手”:Sora是萬眾期待的“世界模型”嗎?

 天承辦公室 2024-04-07 發(fā)布于北京
Sora的技術(shù)文章發(fā)布之后,OpenAI用的一個(gè)詞卻在學(xué)界引發(fā)了不少的爭(zhēng)議,這就是“世界模擬器”(World Simulator)。

01

關(guān)于世界模型的爭(zhēng)議

目前,很多外界的輿論將OpenAI稱Sora為的這個(gè)“世界模擬器”和“世界模型”相關(guān)聯(lián)起來。

那么,什么是世界模型?為什么大家的期待這么熱烈呢?

世界模型的概念最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。2018年,兩位名為David Ha和Jürgen Schmidhuber的學(xué)者發(fā)布了一篇名為World Models的文章,這篇文章也被Sora的技術(shù)解釋論文所引用。

圖片

在這篇文章里,作者并沒有對(duì)World Models給出一個(gè)明確的定義,但是卻引用了一篇系統(tǒng)動(dòng)力學(xué)之父Jay Wright Forrester發(fā)布于1971年的有關(guān)人腦mental model的文獻(xiàn)來進(jìn)行類比。Forrester指出,人類使用有限的感官感知世界,并基于這些感知建立起一個(gè)內(nèi)部的、簡(jiǎn)化的世界模型。我們所做的決策和行動(dòng)都是基于這個(gè)內(nèi)部模型。

圖片

在這個(gè)mental model中,并不包含世界上的所有信息或細(xì)節(jié),而只是包含了被我們選中的某些互相關(guān)聯(lián)的概念。換句話說,人們?cè)陬^腦中構(gòu)建的世界圖像是現(xiàn)實(shí)世界的一個(gè)簡(jiǎn)化版,這個(gè)簡(jiǎn)化的模型不僅幫助我們理解世界,更重要的,我們還會(huì)根據(jù)這個(gè)頭腦中的簡(jiǎn)化世界決定預(yù)測(cè)未來走向。

世界模型也采用了類似的思維模式:在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測(cè)。更重要的是,和人腦一樣,世界模型不僅需要預(yù)測(cè)立即的結(jié)果,還要能夠預(yù)測(cè)更長(zhǎng)時(shí)間序列的后果,這對(duì)于理解復(fù)雜環(huán)境和規(guī)劃長(zhǎng)期策略至關(guān)重要。

圖片

具體到模型架構(gòu)上,根據(jù)圖靈獎(jiǎng)獲得者、Meta的首席AI科學(xué)家Yann LeCun的定義,一個(gè)世界模型應(yīng)該包含以下元素:

1)觀察(x(t)):這是你在給定時(shí)刻對(duì)世界的看法或感知。想象你在玩視頻游戲,看到你的角色站在一個(gè)平臺(tái)上。那就是你的觀測(cè)。

2)狀態(tài)估計(jì)(s(t)):模型對(duì)當(dāng)前世界狀態(tài)的估計(jì)。就像你在游戲中有一個(gè)關(guān)于一切所在位置的心理地圖,即使你現(xiàn)在看不到全部。

3)動(dòng)作建議(a(t)):模型可能提出的行動(dòng)方案。這是對(duì)下一步要做什么的建議,比如決定跳躍到另外一個(gè)臺(tái)階上。

4)潛在變量建議(z(t)):用于表示當(dāng)前觀察不能完全解釋的未知信息。這就有點(diǎn)棘手了。它代表所有未知因素,這些因素可能影響你行動(dòng)的結(jié)果。想象游戲中有風(fēng),當(dāng)跳躍時(shí)風(fēng)可能會(huì)把你的角色吹偏。你看不到風(fēng)(它是未知的),但你知道它可能影響你的跳躍。

圖片

Yann LeCun認(rèn)為,世界模型有兩個(gè)組成部分:編碼器(這個(gè)函數(shù)接受你的觀測(cè)并將其轉(zhuǎn)換成模型可以更有效工作的格式或表示),和隱藏狀態(tài)預(yù)測(cè)器(利用編碼后的觀測(cè)、當(dāng)前的世界狀態(tài)、你正在考慮的行動(dòng)和未知因素(潛在變量)來猜測(cè)接下來會(huì)發(fā)生什么,以此來預(yù)測(cè)世界的未來狀態(tài))

Yann LeCun定義下的世界模型之所以強(qiáng)大,是因?yàn)樗噲D模仿智能生物與世界的互動(dòng)方式:觀察、理解、預(yù)測(cè)和行動(dòng),同時(shí)也考慮未知的事物和因素。 它是一個(gè)綜合框架,可以應(yīng)用于從玩視頻游戲到導(dǎo)航現(xiàn)實(shí)世界環(huán)境的各種問題,目標(biāo)是創(chuàng)建能夠?qū)W習(xí)以對(duì)未知因素具有適應(yīng)性和魯棒性(在異常和危險(xiǎn)情況下系統(tǒng)生存的能力)的方式導(dǎo)航和與復(fù)雜環(huán)境交互的模型。

是不是覺得以上的解釋非常復(fù)雜很難懂?沒關(guān)系,AI生成視頻公司runway在去年年底出了一個(gè)還挺有趣的視頻,更簡(jiǎn)單易懂的解釋了世界模型。

圖片

也就是說,世界模型就像狗狗一樣,對(duì)所有的視覺,聽覺和一切數(shù)據(jù)的關(guān)系,這個(gè)模型能弄清楚如何預(yù)測(cè)結(jié)果,以及調(diào)整它的行為。而更重要的是,世界模型要能和狗狗一樣,對(duì)新的、沒有見過的數(shù)據(jù)也能形成泛化的理解,也根據(jù)它對(duì)世界的理解,從而對(duì)未來做出預(yù)測(cè)。

也就是說,我家狗不僅會(huì)對(duì)它愛吃的零食流口水也會(huì)拽我去它最愛的狗公園,同時(shí),它會(huì)對(duì)它從來沒吃過的東西流口水,或者,去拽著我去一家它從來沒去過的寵物零食店。

圖片

所以,在理想狀態(tài)下,訓(xùn)練出的世界模型不僅能夠復(fù)制它看到的數(shù)據(jù),更能夠理解數(shù)據(jù)背后的因果關(guān)系,并在新的情況下做出有效的預(yù)測(cè)。如果把世界模型的概念套用到視頻生成領(lǐng)域則可以理解為,這個(gè)模型能夠讓機(jī)器像人類一樣,對(duì)世界產(chǎn)生一個(gè)全面而準(zhǔn)確的認(rèn)知,從而生成更流暢、更符合邏輯、時(shí)間更長(zhǎng)的視頻。

所以,就在此前GPT和diffusion等模型路線無法達(dá)到能讓業(yè)界商用的標(biāo)準(zhǔn)時(shí),很多行業(yè)人士是對(duì)“世界模型”抱有極大期待的,包括了好萊塢等影視特效團(tuán)隊(duì)。

圖片

陸貝珂,電視劇《三體》視覺導(dǎo)演:
世界模型的開發(fā)應(yīng)該接下來是一個(gè)很好的方向,因?yàn)槭澜缒P妥畲蟮囊粋€(gè)核心其實(shí)是,讓它真正地認(rèn)識(shí)到那些不可約化的東西,還有你認(rèn)識(shí)到自身的邊界在哪。因?yàn)槟阕鋈魏蔚氖虑樗怯幸环N框架性,對(duì)吧?你真實(shí)的世界就是這樣的,真實(shí)世界它的框架來自于,大量的物理事實(shí)和人際關(guān)系的情緒事實(shí),這個(gè)世界運(yùn)轉(zhuǎn)時(shí)候的一種這種政治邏輯,對(duì)吧?
這是幾種很多東西,這是你的世界的框架,你如果只是從語言的角度去理解世界的時(shí)候,你就發(fā)現(xiàn)不了這個(gè)世界真實(shí)的那一個(gè)框架。這部分現(xiàn)在我覺得在GPT4的這個(gè)級(jí)別上,因?yàn)樗菍儆谡Z言模型,它還沒有達(dá)到說后面的開放式的世界模型的這種級(jí)別,那看起來OpenAI一直在這方面努力。

以Yann Lecun的定義,Sora目前是遠(yuǎn)不能達(dá)到世界模型的標(biāo)準(zhǔn),而更多的學(xué)界大佬對(duì)則認(rèn)為OpenAI有夸大宣傳的嫌疑。Yann LeCun本人就曾多次公開“狠批”Sora,表示“生成視頻的過程與基于世界模型的因果預(yù)測(cè)完全不同”。

圖片

Keras之父Fran?ois Chollet也持有相似觀點(diǎn)。他認(rèn)為僅僅通過讓AI觀看視頻是無法完全學(xué)習(xí)到世界模型的。盡管像Sora這樣的視頻生成模型確實(shí)融入了物理模型,問題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。而目前,因?yàn)橥耆磺宄ora的demo視頻與訓(xùn)練數(shù)據(jù)的差異有多大,Sora的泛化能力到底有多強(qiáng)尚不可知。而在已經(jīng)發(fā)布的demo里,已經(jīng)有人指出了不符合物理規(guī)律之處,這就表明,不論如何Sora物理模型的生成能力還未達(dá)到令人信服的可靠水平。

圖片

南京大學(xué)人工智能學(xué)院教授俞揚(yáng)也反對(duì)將Sora歸類于世界模型。他提出,世界模型的核心在于反事實(shí)推理(Counterfactual reasoning),即便對(duì)于數(shù)據(jù)中沒有見過的決策,在世界模型中都能推理出決策的結(jié)果。Sora生成的視頻,僅能通過模糊的提示詞引導(dǎo),而難以進(jìn)行準(zhǔn)確的操控。因此Sora就是一個(gè)視頻工具,難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問題。

圖片

至于OpenAI未來究竟能不能推出真正的世界模型,Yann LeCun和Chollet都表達(dá)了質(zhì)疑態(tài)度。Chollet提到,如果按照目前OpenAI所采用的“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線,是不可能構(gòu)建出能廣泛適用于現(xiàn)實(shí)世界所有情況的模型,因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。

圖片

然而,業(yè)界也有一些積極的聲音。在英偉達(dá)研究院高級(jí)研究員Jim Fan看來,Sora已經(jīng)是一個(gè)世界模型,包含了世界模型所需要的所有元素。Jim Fan在LinkedIn上轉(zhuǎn)發(fā)了Yann LeCun對(duì)世界模型的定義,并評(píng)論說:

圖片

Sora本質(zhì)上是一個(gè)世界模型,“無操作”是唯一允許的操作。 您可以設(shè)置世界的初始狀態(tài),在潛在空間中運(yùn)行模擬,并被動(dòng)觀察發(fā)生的情況?,F(xiàn)在沒辦法主動(dòng)干預(yù)。

但能否主動(dòng)干預(yù),OpenAI官方似乎是有一些不同的說法。但無論如何,Jim Fan對(duì)Sora能成為世界模型的樂觀是可以理解的。AI視頻生成的用途絕不僅僅在娛樂和藝術(shù)創(chuàng)作上,視頻數(shù)據(jù)可以捕捉到難以用語言表達(dá)的物理世界中的重要信息和數(shù)據(jù),這將在AI智能體,AI機(jī)器人,計(jì)算引擎,環(huán)境模擬器,生成游戲環(huán)境等等科學(xué)和工程研究中,極大程度推動(dòng)相關(guān)科研的發(fā)展。

最近英偉達(dá)宣布,Jim Fan將在英偉達(dá)內(nèi)部領(lǐng)導(dǎo)組建一個(gè)新研究小組,GEAR,是“Generalist Embodied Agent Research”的簡(jiǎn)稱,中文是“通用具身智能體研究”。

圖片

Jim Fan在推特上寫到,“2024年將是屬于機(jī)器人、游戲AI和模擬的一年?!?/strong>

如果大家去看看硅谷101之前推出的《AI機(jī)器人》那期節(jié)目,在結(jié)尾的時(shí)候就說到:具身智能機(jī)器人在現(xiàn)實(shí)世界訓(xùn)練太困難,采集數(shù)據(jù)太慢太昂貴,而在模擬器中訓(xùn)練將是重要的研究方向,包括斯坦福著名的人工智能學(xué)者李飛飛教授就是這一流派的倡導(dǎo)者,而Jim Fan當(dāng)時(shí)在斯坦福時(shí)正是李飛飛的博士生。

圖片

順便說一句,現(xiàn)在蘋果的Vision Pro也出來了,業(yè)內(nèi)人士認(rèn)為這將是很好的采集現(xiàn)實(shí)空間數(shù)據(jù)的儀器。

因此,“模擬”Simulation對(duì)機(jī)器人和智能體行業(yè)都將有著重要的意義,而Sora,如果成為“現(xiàn)實(shí)世界模擬器”,將極大的助力這個(gè)行業(yè)的發(fā)展。這一點(diǎn),我們也從斯坦福非常熱門的炒菜機(jī)器人團(tuán)隊(duì)Aloha的創(chuàng)始團(tuán)隊(duì)那里得到了肯定。

圖片

Tony Z.Zhao,斯坦福大學(xué)開源機(jī)器人Mobile ALOHA項(xiàng)目聯(lián)合負(fù)責(zé)人:

這肯定會(huì)很有幫助,或者說任何一種更大規(guī)模的pre-training(預(yù)訓(xùn)練)都會(huì)大有幫助。例如,在這種情況下,杯子就像是半透明的。在測(cè)試時(shí),如果我扔一個(gè)藍(lán)色的杯子,它就不會(huì)工作。但是,如果我們期待一個(gè)正確實(shí)施的互聯(lián)網(wǎng)pre-training(預(yù)訓(xùn)練),與這個(gè)數(shù)據(jù)集相結(jié)合,或者在藍(lán)色杯子上工作,也不是沒有道理的。因?yàn)橐苍S世界模型中捕捉到了一些常識(shí),它會(huì)告訴你,無論杯子是藍(lán)色、紅色還是半透明的,處理它的方法都是一樣的。因此,我會(huì)期待這樣的世界模型能在泛化方面帶來進(jìn)展。

近期,來自Google DeepMind的研究科學(xué)家 Sherry Yang及其團(tuán)隊(duì),聯(lián)合業(yè)界資深研究員在一篇題為“Video as the New Language for Real-World Decision Making”的論文中,探索了視頻生成技術(shù)在機(jī)器人,自動(dòng)駕駛和各類科學(xué)領(lǐng)域研究的重大用途,并總結(jié)說:視頻生成之于物理世界,就如同語言建模之于數(shù)字世界。

圖片

所以,到這里我們總結(jié)一下,Sora可能并不是一個(gè)成熟的產(chǎn)品,它還沒有到ChatGPT時(shí)刻,現(xiàn)在可能算得上是GPT3時(shí)刻,但OpenAI對(duì)Sora的官宣讓我們看到了生成式AI視頻最前沿的技術(shù)流派進(jìn)步,以及用高算力和大參數(shù)也能達(dá)到“涌現(xiàn)”的技術(shù)突破。同時(shí),在AI機(jī)器人和具身智能等學(xué)術(shù)和研究領(lǐng)域,大家很期待Sora能助力更多更高效的研發(fā),而至于Sora距離商用還有多愿,我們得先等Sora正式發(fā)布,大家都用起來,才能知道了。

但同時(shí),生成式AI視頻大模型的競(jìng)爭(zhēng)才剛剛開始,雖然OpenAI目前展示了絕對(duì)的領(lǐng)先地位,遠(yuǎn)超runway和pika等一眾創(chuàng)業(yè)公司,但谷歌也緊追其后。就在2月28日,谷歌Deepmind發(fā)布了新的可交互視頻生成模型Genie。

圖片

這款名為 Genie 的新模型可以接受簡(jiǎn)短的文字描述、手繪草圖或圖片,并將其變成一款可玩的電子游戲,游戲風(fēng)格類似于超級(jí)馬里奧等經(jīng)典的 2D 平臺(tái)游戲。雖然Genie只是一個(gè)內(nèi)部研究項(xiàng)目也暫時(shí)不會(huì)對(duì)外界發(fā)布,但業(yè)內(nèi)人士認(rèn)為,我們可能很快會(huì)看到Genie的3D版本,也會(huì)有基于視頻生成的游戲引擎,而這也清楚的向外界透露,和OpenAI一樣,谷歌等一眾科技巨頭在生成式AI視頻上的野心絕不僅限于視頻用于娛樂,而在虛擬環(huán)境中訓(xùn)練機(jī)器人,才是更重要的星辰大海。

以上就是我們硅谷101對(duì)Sora以及生成式AI視頻大模型發(fā)展的簡(jiǎn)單梳理,為了更簡(jiǎn)明的解釋技術(shù),我們將很多技術(shù)細(xì)節(jié)稍有省略和簡(jiǎn)化,如果有描述不準(zhǔn)確、類比不適合的地方,歡迎大家多多指正和探討。

視頻有視覺和音樂的加持,更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。請(qǐng)?zhí)D(zhuǎn)至硅谷101【視頻號(hào)】收看完整版

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多