【原】AI研報(bào)：從Sora看多模態(tài)大模型發(fā)展

AIGC部落 2024-03-25 發(fā)布于廣東

展開(kāi)全文

《從Sora看多模態(tài)大模型發(fā)展》的研報(bào)來(lái)自浙商證券，寫于2024年2月。

這篇報(bào)告主要探討了多模態(tài)大模型的發(fā)展趨勢(shì)，特別是OpenAI發(fā)布的視頻生成模型Sora，以及其對(duì)行業(yè)發(fā)展的影響。以下是報(bào)告的核心內(nèi)容概述：

Sora模型的發(fā)布：
- OpenAI于2024年2月16日發(fā)布了視頻生成模型Sora，該模型能夠生成長(zhǎng)達(dá)1分鐘、不同寬高比和分辨率的視頻和圖片。
- Sora基于Diffusion Transformer技術(shù)，結(jié)合了視頻壓縮網(wǎng)絡(luò)、潛空間patch、直接在原始大小訓(xùn)練和重新標(biāo)注技術(shù)，能夠處理圖像和視頻輸入，實(shí)現(xiàn)多種視頻生成和編輯功能。

視頻壓縮網(wǎng)絡(luò)（Video compression network）：減少視覺(jué)數(shù)據(jù)維度。輸入原始視頻，輸出一個(gè)在時(shí)間和空間上都?jí)嚎s了的潛在空間。Sora在這個(gè)壓縮后的潛在空間中進(jìn)行訓(xùn)練。（同時(shí)訓(xùn)練了一個(gè)解碼器將生成的潛在表征轉(zhuǎn)回原像素空間）
潛空間patch（Spacetime latent patches ）：類比Transformer tokens，推理時(shí)通過(guò)在合適大小的網(wǎng)格中隨機(jī)初始化patch控制生成視頻的大小。
直接在原始圖片的大小上訓(xùn)練：過(guò)去往往將視頻或者圖片壓縮到固定大?。ū热?秒鐘、分辨率256*256），Sora直接在原始素材規(guī)格上訓(xùn)練。
為視頻訓(xùn)練素材生成詳細(xì)字幕和標(biāo)注：Re-captioning technique字幕自動(dòng)生成。首先訓(xùn)練一個(gè)能生成詳細(xì)描述的標(biāo)注模型，然后用它為訓(xùn)練集中的視頻生成文本說(shuō)明。DALL E3中已經(jīng)使用過(guò)，使用GPT將簡(jiǎn)短prompt轉(zhuǎn)化為詳細(xì)說(shuō)明，這些說(shuō)明會(huì)被輸入到視頻模型中。這可以增強(qiáng)文本理解能力，可以提高文本的保真度和視頻的整體質(zhì)量，使得Sora能夠生產(chǎn)準(zhǔn)確遵循用戶提升的高質(zhì)量視頻。
Sora核心能力：3D一致性、物體持久性、世界交互、模擬數(shù)字世界
Sora模型的局限性：雖然能模擬一些基礎(chǔ)物理互動(dòng)，比如玻璃的碎裂，但還不夠精確；
其他相互作用，比如吃食物，并不總是能產(chǎn)生物體狀態(tài)的正確變化；
長(zhǎng)視頻中存在邏輯不連貫，或者物體會(huì)無(wú)緣無(wú)故出現(xiàn)的現(xiàn)象。

多模態(tài)大模型的商業(yè)化前景：
- 國(guó)內(nèi)外廠商如谷歌、字節(jié)跳動(dòng)等也在布局多模態(tài)大模型領(lǐng)域，預(yù)計(jì)2024年文生視頻將進(jìn)入商業(yè)化探索階段。
- 高質(zhì)量數(shù)據(jù)和底層通用大模型是文生視頻能力的關(guān)鍵因素，隨著技術(shù)的進(jìn)步，文生視頻在時(shí)間長(zhǎng)度、畫面清晰度和內(nèi)容逼真程度等方面有望實(shí)現(xiàn)顯著提升。
全球視頻內(nèi)容市場(chǎng)的潛力：
- 據(jù)數(shù)據(jù)顯示，2025年全球數(shù)字視頻內(nèi)容市場(chǎng)規(guī)模有望達(dá)到3271.9億美元，2021-2025年復(fù)合年增長(zhǎng)率約為13.7%。
- 海外已有Synthesia、Runway等廠商在文生視頻領(lǐng)域形成成熟商業(yè)方案，應(yīng)用于企業(yè)產(chǎn)品介紹、操作指南、客戶服務(wù)等場(chǎng)景。
建議關(guān)注的標(biāo)的公司：
- 大模型廠商：科大訊飛、云從科技、微軟、谷歌。
- 多模態(tài)應(yīng)用廠商：萬(wàn)興科技、虹軟科技、焦點(diǎn)科技、Adobe。

公司名稱	代碼	AI+視頻相關(guān)業(yè)務(wù)/產(chǎn)品
科大訊飛	002230.SZ	國(guó)產(chǎn)大模型龍頭，多模態(tài)領(lǐng)域技術(shù)積累深厚
?？低?/td>	002415.SZ	研發(fā)視覺(jué)多模態(tài)大模型
大華股份	002236.SZ	自研大華星漢大模型
云從科技-UW	688327.SH	國(guó)內(nèi)CV領(lǐng)域龍頭廠商之一
焦點(diǎn)科技	002315.SZ	AI外貿(mào)虛擬人視頻助手
虹軟科技	688088.SH	視覺(jué)AI開(kāi)放平臺(tái)
萬(wàn)興科技	300624.SZ	AI視頻領(lǐng)域龍頭，“天幕”大模型
國(guó)投智能	300188.SZ	AI視頻圖像鑒真工作站
當(dāng)虹科技	688039.SH	AI智能視頻解決方案
網(wǎng)達(dá)軟件	603189.SH	積極推動(dòng)“大視頻+AI"在垂直領(lǐng)域的布局
絲路視覺(jué)	300556.SZ	子公司是視頻染技術(shù)龍頭
商湯-W	http://0020.HK	“日日新SenseNova"大模型
拓爾思	300229.SZ	并面向媒體、金融、政務(wù)領(lǐng)域、拓天大模型
漢王科技	002362.SZ	筆智能交互、NLP技術(shù)、大數(shù)據(jù)處理、智能人機(jī)交互、垂直領(lǐng)域大模型

風(fēng)險(xiǎn)提示：

- AI技術(shù)迭代不及預(yù)期的風(fēng)險(xiǎn)。

- AI商業(yè)化產(chǎn)品發(fā)布不及預(yù)期的風(fēng)險(xiǎn)。

- 政策不確定性帶來(lái)的風(fēng)險(xiǎn)。

- 下游市場(chǎng)不確定性帶來(lái)的風(fēng)險(xiǎn)。

報(bào)告還詳細(xì)分析了多模態(tài)AI的核心技術(shù)環(huán)節(jié)、Sora模型的技術(shù)路線和應(yīng)用案例，以及國(guó)內(nèi)外其他廠商的AI視頻生成算法及工具。此外，報(bào)告對(duì)AIGC在視頻領(lǐng)域的商業(yè)化現(xiàn)狀與展望進(jìn)行了探討，并預(yù)測(cè)了千億級(jí)數(shù)字視頻生成市場(chǎng)的未來(lái)潛力。

此研報(bào)可以在AIGC部落下載：