小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

阿里通義萬相AI生視頻震撼上線!更懂中國風(fēng)的大模型來了

 天承辦公室 2024-09-20 發(fā)布于北京


  新智元報道  

編輯:編輯部
【新智元導(dǎo)讀】阿里放大招了,就在剛剛,通義萬相AI視頻功能正式開放。5秒的視頻,在手機端APP不限次數(shù)免費用!連今晚音樂節(jié)的MV都是AI直出。試用后我們驚喜地發(fā)現(xiàn),更懂中國風(fēng)的AI視頻,它真的來了。
AI視頻國內(nèi)戰(zhàn)場,阿里也下場了。
剛剛,通義萬相AI生視頻功能上線!
今天下午的阿里云棲大會上,CTO周靖人宣布,官網(wǎng)和App上都可以立刻試用了。
比起國外爆火的Sora、Gen-3 Alpha,通義萬相是更能聽懂中國話,更懂中國風(fēng)的AI視頻模型。
以下視頻來源于
通義

今晚飛天音樂節(jié)上的視頻「江雪」,就是由通義萬相生成的

它能夠支持最長5秒視頻生成,每秒30幀,分辨率為720P。更驚艷的是,它還能生成與畫面匹配的音效。

這背后得到了阿里全自研的視覺大模型加持,并采用了業(yè)界領(lǐng)先的核心架構(gòu)——Diffusion+Transformer。

劃重點:手機端App不限次數(shù),完全免費用!PC端,每天登陸送50個靈感值,可生成10次。

圖片

要知道,畫餅的Sora還不能用,上線的Gen-3 Alpha等都得充值,還有一些仍然處于內(nèi)測當(dāng)中。

相比之下,通義萬相是免費的,次數(shù)無限用,還不是期貨,不需要排隊!

更懂中國風(fēng)、中國話

既然已經(jīng)上線,我們就迫不及待地展開試用了。

在通義萬相頁面上輸入提示「黑發(fā)古風(fēng)女孩,快速轉(zhuǎn)身微笑,國風(fēng)發(fā)髻,純色高清」,一條5s的視頻就火熱出爐了。
人物還原,眼神靈動,甚至還配有古香古色的背景音。
無論是緩緩抬起的眼神,還是頭發(fā)在空中飄動的樣子,都美得攝人心魄。

圖片

轉(zhuǎn)向鏡頭的瞬間,就被她的樣貌驚呆了。

圖片

就連中國傳統(tǒng)的建筑風(fēng)格——樓閣式塔,它也能很好地還原出來。

在白雪皚皚的山間,一座雄偉的中國古典建筑巍然屹立,精致的木雕,仿佛置入仙境一般。

圖片

再來看看,通義萬相生成的古風(fēng)男子,非常優(yōu)秀地描繪了溫文爾雅的氣質(zhì)。

圖片

古風(fēng)裝扮的男子身著月牙白錦袍,站立在雅致的古典園林中,他的一舉一動都透露出溫文爾雅的氣質(zhì)。鏡頭從他的側(cè)臉緩緩?fù)平?,展現(xiàn)出他眸光溫柔,仿佛能洞察人心,給人以溫暖和安慰。周圍的景致與他的裝束相得益彰,共同構(gòu)建了一幅如詩如畫的古典美男圖卷。

從某種意義上講,通義萬相是AI視頻模型中,更懂國風(fēng)的那個。

文生視頻


在多次試用通義萬相的文生視頻能力后,不得不感慨:這款A(yù)I產(chǎn)品,實在是太有想象力了!而且,每視頻,AI都會自動配上BGM。

通過提示詞,我們就可以用文字控制畫面內(nèi)容和變化的過程。

圖片
晨霧,日出,鏡頭光暈,清冷風(fēng),一個五官精致的年輕中國女子,長長的頭發(fā)被風(fēng)吹亂,頭發(fā)絲飄,散在臉上,穿著夏裝,背景海邊沙灘
蛛網(wǎng)上掛著透明的水滴,形成了美麗的光斑和折射,通義萬相在這個視頻中,體現(xiàn)出了對物理光學(xué)規(guī)律的規(guī)律,畫面的美感也很動人。
圖片
更多無厘頭想象的畫面,現(xiàn)在都可以變成現(xiàn)實了。無論是在南極大陸上工作的企鵝郵差,還是在米山中間行駛的玉米列車。
圖片
圖片
而切實地使用過之后,通義萬相對概念組合的語義理解、畫面的視覺動態(tài)、風(fēng)格泛化能力、國風(fēng)理元素的呈現(xiàn),無不給人留下了深刻印象。

聽話,想象蝶變現(xiàn)實

可以看出,通義萬相的指令遵循能力,著實令人深刻。
一句話總結(jié)——它就是「最聽話」的AI生視頻模型。
無論是畫面內(nèi)容、空間構(gòu)圖、運動過程、運鏡方式,它均有良好的支持。
而這個模型還是原生支持中文的長文本提示詞,因此相比起國外的模型,更能理解中文的復(fù)雜語義理解和概念組合生成能力,能將文字創(chuàng)意精準(zhǔn)呈現(xiàn)。
何為一個視頻模型的想象力?
如果用公式拆解的話,可以理解為:模型的「想象力」=復(fù)雜語義理解+概念組合生成。
無論提示詞中的元素多么復(fù)雜,通義萬相都能準(zhǔn)確呈現(xiàn)。
而涉及到多個不同元素時,它也能準(zhǔn)確、有機地結(jié)合在一起,表現(xiàn)出超強的概念組合能力。
任何不可思議的畫面,比如「貓變成少年」、「月球上建基地,遭遇洪水」,我們都可以充分放飛自己的想象力,要什么就有什么。
比如下面這只小兔子,穿著溜冰鞋在冰面上靈巧地滑行。
圖片
兔子生日宴上,小伙伴們一起為她慶生。
圖片
兩位正在月球上搭建基地的宇航員,背后是浩瀚無垠的太空。
圖片
要說最驚艷的,便是下面這只黑貓幻化成冷峻少年的視頻,一眼動漫成真。
圖片

運動,重現(xiàn)物理世界

在所有AI視頻中,對運動的體現(xiàn)無疑都是最考驗?zāi)P凸αΦ囊坏李}。
而通義萬相,恰恰有著強大的運動生成能力。
它不僅支持復(fù)雜與大幅度的運動生成,還能非常寫實地還原真實世界的物理規(guī)律。
比如在這個視頻中,獵豹在狹窄的峽谷中奔跑,眼睛緊盯著前方的獵物。
獵豹四肢的動作、起伏的背脊、尾巴的甩動方向,都很符合自然規(guī)律。峽谷場景的一步步推進也很自然。
圖片
而這個滑雪愛好者從雪山上快速下滑的視頻,無論是滑雪者四肢的動作、變換的重心,還是飛揚的雪粒、光影的變換,都十分自然,破綻極少。
圖片

風(fēng)格泛化

通義萬相的風(fēng)格泛化能力極強,可以根據(jù)風(fēng)格提示詞生成響應(yīng)的視頻畫面,帶來影視級的畫面質(zhì)感和細(xì)節(jié)表現(xiàn)。
比如這段3D動畫風(fēng)格視頻中,帥氣的俠客兔子在森林中身披斗篷前進,質(zhì)感細(xì)膩,達到了大片畫質(zhì)。
圖片
而這段勾線動畫的視頻,將法庭上穿著筆挺律師袍的狐貍律師呈現(xiàn)得活靈活現(xiàn)。
圖片
國漫3D風(fēng)格的視頻中,古裝少女端坐在燭光中,夜色氤氳,巧笑倩兮。
圖片
下面這個視頻是CG厚涂風(fēng)格,描繪了女機械師在未來實驗室中調(diào)試設(shè)備的場景。
圖片

音頻生成

此外就如上文所言,通義萬相還會同時生成聲音特效,后者是和視覺內(nèi)容高度匹配的,這樣就實現(xiàn)了音畫同步,增強了視聽一體的沉浸感。
上傳一張在街道上空任意穿梭的飛碟的圖片。
圖片

生成的視頻中,還為飛碟配上了非常賽博的背景音,而且由近及遠,給人一種真實的感覺。

這里,再用「一雙似喜非喜含情目,態(tài)生兩靨之愁,嬌襲一身之病」復(fù)刻一下林黛玉多愁善感的神情。

視頻中的女子很好還原了氣郁體質(zhì),再加上配樂,又多了一分傷感。

靈感擴寫

要說通義萬相的獨特賣點,就是它的靈感擴寫能力了。

在文生視頻界面上點擊「靈感擴寫」,就能把簡單的提示詞擴寫成忠于愿意的長提示詞,從而大幅提升了生成效果。

比如使用這個prompt「白色狼群在冰川峽谷中穿行,夜晚月圓」,生成的視頻是這樣的。

仔細(xì)聽,配音也頗有亮點:悠遠、神秘,甚至帶著一點凄婉。
點擊「靈感擴寫」,更長更豐富的prompt就生成了。
圖片
根據(jù)擴寫后的prompt生成的視頻,別具一番風(fēng)味。
圖片

圖生視頻

通義萬相的圖生視頻功能,也令人驚喜。
要知道,雖然圖生視頻沒有文生視頻那么難,但對一致性、想象力,要求也是很高的。
我們都會有這樣的沖動:看到一張美圖之后,忍不住會去想象,它動起來是什么樣子?現(xiàn)在,通義萬相的圖生視頻功能,完全能滿足我們的愿望了。
先由通義萬相生成一張在有年代感的歐美餐廳中,幾位顧客就餐的圖片。
圖片
然后,將其上傳,還可以補充一些創(chuàng)意描述。
圖片

通義萬相生成的視頻中,整個畫面與原圖高度一致,而且想象出一位男子迎面走向女子,和她交談。

再上傳一張梵高大師經(jīng)典之作「星夜」,并輸入創(chuàng)意性描述。

圖片
接下來,就能看到這幅畫作活靈活現(xiàn)起來了。
圖片
小白兔坐在月餅上,周圍的花瓣輕輕飄落。
圖片
圖生視頻一下,如夢似幻的場景立刻動了起來。
圖片
鯨魚在空中漂浮的科幻場景,超現(xiàn)實主義的漁夫島嶼,荷塘錦鯉的水墨畫,這些場景變成視頻后,又達到另一番意境。
圖片
圖片
圖片

全自研視頻生成LLM

通義萬相AI視頻能有如此驚奇的表現(xiàn),深扒技術(shù)背后,竟是阿里團隊全自研視覺生成大模型立功。
它在模型框架、訓(xùn)練數(shù)據(jù)、標(biāo)注方式和產(chǎn)品設(shè)計上,具備了業(yè)界領(lǐng)先的生產(chǎn)能力。
值得一提的是,這款全新模型采用了Diffusion+Transformer架構(gòu)。
Diffusion能夠在圖像、視頻生成任務(wù)中,通過逐步圖像降噪,讓畫面顯現(xiàn)出來。
另外,Transformer的優(yōu)勢就在于,出色地處理序列數(shù)據(jù),并有效地捕捉文本中上下文信息。
與其他模型不同的是,通義萬相視覺模型采用了中英文雙語標(biāo)注,能夠強化中文長文本理解,而且對中文內(nèi)容和元素原生支持更好。
圖片
也就是說,DiT架構(gòu)不僅能夠處理靜態(tài)圖像,還能處理動態(tài)視頻,為視覺內(nèi)容創(chuàng)作帶來革命性變革。
這種獨特的生成方式,在計算效率上具有很強的優(yōu)勢。
通過逐步降噪來生成最終動畫,不僅減少計算量,還提高了生成速度,使得通義萬相在短時間內(nèi)生成高質(zhì)量視頻。
而且,它能夠精準(zhǔn)構(gòu)圖和布局,從抽象藝術(shù),到精細(xì)現(xiàn)實主義的各種風(fēng)格,完全可以拿捏。
也正是這一架構(gòu)的靈活性,能夠讓通義萬相應(yīng)用于多種場景。
不論是電商、廣告創(chuàng)意,還是自媒體、影視/動畫制作等領(lǐng)域,通義萬相能夠為創(chuàng)作者提供更多靈感來源。
比如,一輛跑車的宣傳視頻,在AI筆下,能夠瞬間炫酷起來。
圖片
影視動畫制作中的一些創(chuàng)意場景,AI的想象力更是無限的。
圖片

還等什么,無限次數(shù)免費續(xù)的通義萬相,趕快去試用吧。


參考資料:
https://tongyi.aliyun.com/wanxiang/videoCreation
圖片


圖片

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多