|
你用過AI文生圖、文生視頻嗎? 從年初Sora視頻生成模型推出后,國內(nèi)大公司,字節(jié)、快手,紛紛推出了自己的產(chǎn)品。從個(gè)人效率角度來說,我之前沒怎么想過用生成圖片、視頻;雖然試過很多次,但發(fā)現(xiàn),現(xiàn)在生成的圖片質(zhì)量還達(dá)不到商業(yè)使用標(biāo)準(zhǔn),如果真要用,可能還要用設(shè)計(jì)軟件二次加工。說到剪映,大家應(yīng)該都很熟悉。一提到它,就會(huì)想到剪視頻。因?yàn)樗唵魏糜?,許多專業(yè)做視頻的人都把它作為首選。幾個(gè)月前,剪映Dreamina把中文名改為「即夢」,還加入了很多新功能,比如用AI制作圖片和視頻,還有故事創(chuàng)作。剛開始我對新功能不是很感興趣,但這兩天,在剪視頻過程中,又體驗(yàn)了一下。發(fā)現(xiàn)有亮點(diǎn),也有缺點(diǎn),那么,表現(xiàn)力究竟如何呢? 01 首先,即夢AI主界面還是保持了剪映的簡單風(fēng)格,整體布局分成左右兩部分。 左邊給創(chuàng)作者用的工具,你可以在這里調(diào)整模型,設(shè)置提示詞、控制鏡頭,還能選擇畫面大小、生成次數(shù)等;右邊用來預(yù)覽生成的視頻和圖片;點(diǎn)擊任何一個(gè)圖片或視頻,你都可以再次編輯或重新生成,這非常符合我們工作的習(xí)慣。我特別喜歡「HD超清」和「細(xì)節(jié)修復(fù)」兩個(gè)功能,它們能讓生成的畫面看起來更真實(shí)。主頁下面,有一個(gè)用戶社區(qū)。這里分成靈感和短片兩大類,每類下面都有用戶上傳的各種風(fēng)格的作品。比如:在靈感類別里,有國風(fēng)美學(xué)、海報(bào)設(shè)計(jì)、動(dòng)漫游戲、未來科技、繪本插畫;短片類目現(xiàn)在還沒有細(xì)分。我覺得這種分類,是為了更好地展示作品,讓用戶找到自己感興趣的內(nèi)容。我比較喜歡寫真人像類別,不知道它以后是不是能輔助攝影師做修圖使用。大致看了看社區(qū)的作品,質(zhì)量挺高的。大多數(shù)圖片和短片點(diǎn)開后,都可以直接下載,還會(huì)顯示一些提示詞,你可以直接復(fù)制使用,大多數(shù)提示詞是中文,這表明國產(chǎn)AI軟件對中文的理解能力已經(jīng)很不錯(cuò)了。它一共分為四個(gè)能力,即:圖片生成、智能畫布、視頻生成、故事創(chuàng)作。我先試了生成圖片功能。用時(shí),得輸入一段描述文字,選一個(gè)模型(我用最新的即夢通用 V2.0,還是beta版),等幾秒鐘,系統(tǒng)就會(huì)出來四張AI生成的圖片;如果看著不順眼,還可以再編輯或者重新生成。這些圖片,你還可以拿來當(dāng)參考,進(jìn)一步調(diào)整人物的長相、景深和姿勢,甚至還能局部重畫,或者直接用這個(gè)圖片去生成視頻。我讓Kimi幫我寫了一個(gè)提示詞,用來描述一個(gè)女性,內(nèi)容如下:一個(gè)金色波浪長發(fā)的女性,穿著白色蕾絲長裙,站在有古典風(fēng)格的室內(nèi),背景是柔和的自然光,看起來既夢幻又精致。她的眼神深邃,表情溫柔,好像在講一個(gè)古老又美麗的故事。圖片的細(xì)節(jié)豐富,色彩鮮明,光影處理得也很細(xì)膩,給人一種高級的感覺。尺寸我選擇3:4,大概15秒就出來了4張不同的AI圖片。從一個(gè)外行的角度看,我覺得這些圖片有點(diǎn)像動(dòng)漫風(fēng)格;可能因?yàn)槟莻€(gè)“夢幻而精致的寫真風(fēng)格”的關(guān)鍵詞。所以,我微調(diào)了一下,加上了中國人、接地氣。后來出現(xiàn)的效果,如上述對比,你覺得怎么樣?個(gè)人認(rèn)為還算可以,AI表現(xiàn)力相對穩(wěn)定;不只試了人像,其他類型也試過,都能準(zhǔn)確生成。不過在細(xì)節(jié)上,有時(shí)候會(huì)有點(diǎn)小瑕疵。 02? 說完文生圖,第二點(diǎn),聊聊即夢AI的圖生圖功能。 所謂圖生圖。即,上傳一張圖片,AI會(huì)根據(jù)這張圖片的風(fēng)格、色彩和內(nèi)容作為參考,然后生成一些新的、創(chuàng)意的圖像。這不是簡單地復(fù)制原圖,而是在原圖的基礎(chǔ)上加入創(chuàng)新。手頭沒有合適的圖片,我就拿自己開玩笑了。我用一張我個(gè)人的形象照作為底圖,在選擇參考時(shí),選了「人物長相」。接著,我讓Kimi Chat幫我寫了個(gè)指令,想讓它生成一張專業(yè)形象的照片。提示詞是這樣的:“穿著一套剪裁得體的商務(wù)西裝,展現(xiàn)出專業(yè)的形象?!?/span>注意了:當(dāng)你進(jìn)行圖生圖,上傳不同的照片時(shí),要選擇合適的模型。這里有通用1.4、2.0和2.0 Pro可選。對于人像,我選擇了1.4這個(gè)模型。
這個(gè)模型的描述是,它能從攝影寫實(shí)到描繪風(fēng)格都做得很好,主要是用來處理人像的,它可以根據(jù)需求,在寫實(shí)和風(fēng)格化之間找到平衡,呈現(xiàn)出你想要的人像效果。所以,它人像能力應(yīng)該比較強(qiáng),整個(gè)過程挺快的,不到30秒就出來四張圖。第一次生成的時(shí)候,嘴部有點(diǎn)扭曲,我點(diǎn)擊「細(xì)節(jié)修復(fù)」來局部調(diào)整;但說實(shí)話,生成的圖片和我個(gè)人還是差挺遠(yuǎn)的。不能就此斷定模型不好,我又試了一次,在原圖基礎(chǔ)上,我改了提示詞為:做出加油動(dòng)作,然后做鬼臉,吐舌頭并眨右眼,它生成的結(jié)果是第三張。朋友們,這看著像嗎?看來人像能力的確有點(diǎn)拉胯啊。美國有個(gè)網(wǎng)絡(luò)紅人叫握拳寶寶(Sammy Griner)。我下載了他的一張照片,用來做背景圖。這次選擇的模型是即夢通用XL Pro,精細(xì)度調(diào)到了八。做出加油的動(dòng)作,然后做鬼臉,吐舌頭并眨右眼。下面是AI生成的,我精修過的圖片。我覺得這次效果還不錯(cuò),因?yàn)樵瓐D分辨率不高,我以為它最多只能識(shí)別出臉部輪廓,沒想到它能生成這么清晰的照片。然后,我又試了一個(gè)新的指令,在AI生成的圖片基礎(chǔ)上,我加了新的提示詞,稍微難一點(diǎn):“請生成一幅現(xiàn)實(shí)主義風(fēng)格的圖像,畫一個(gè)五歲的男孩在春天的公園里。他手里拿著一個(gè)五彩斑斕的風(fēng)箏,做出加油的動(dòng)作,然后做鬼臉,吐舌頭并眨右眼;背景是綠油油的草地和遠(yuǎn)處模糊的藍(lán)天。”這個(gè)提示詞挺復(fù)雜的,包括現(xiàn)實(shí)主義風(fēng)格、特定年齡的人物、服裝細(xì)節(jié)、動(dòng)作和背景環(huán)境。最后生成的第三張圖,我覺得效果還可以。 需要注意,那張圖是經(jīng)過「細(xì)節(jié)處理」和「超清處理」后才達(dá)到的效果,所以,這是文生圖和背景圖的結(jié)合,背景上還加了新的提示詞,最后的結(jié)果經(jīng)過兩次編輯才完成的。雖然處理后的圖片里,孩子沒有吐舌頭和眨眼,但綠油油的草地和遠(yuǎn)處模糊的藍(lán)天還是被保留了。因此,可以說,即夢AI的圖生圖模型,在控制整體畫面上做得不錯(cuò),但在細(xì)節(jié)處理上還有提升的空間;這可能是因?yàn)樗鼪]有足夠多的圖片來進(jìn)行訓(xùn)練。除此外,我沒有對影視1.4和通用2.0模型進(jìn)行測試;根據(jù)官方描述,影視1.4模型主要用于處理影視風(fēng)格的多重?cái)⑹?,通?.0模型則是針對更精準(zhǔn)的描述詞,適用于多樣的風(fēng)格組合。我認(rèn)為,這兩個(gè)模型應(yīng)該是針對特定場景設(shè)計(jì)的,你可以試試看。 03? 它的第三個(gè)能力叫做智能畫布。什么是智能畫布呢? 想象一下,你有一張照片。上傳到智能畫布后,就可以自由地編輯和修改這張照片,還能加入各種元素,這個(gè)功能的主要目的是讓創(chuàng)作過程變得直觀又高效。智能畫布雖然和圖生圖有點(diǎn)像,但還是有區(qū)別。它不只是簡單地生成新圖片,更像是一個(gè)高級編輯工具;它能實(shí)時(shí)響應(yīng)你的需求,讓你能深度定制和創(chuàng)意地表達(dá)自己的想法。我試了一下,下載一張?jiān)虑虻恼掌瑏碇乩L。上傳后,我有兩個(gè)選項(xiàng):一是直接重繪圖片本身的細(xì)節(jié),二是輸入提示詞來指導(dǎo)重繪。我選擇了第一種,用的畫筆比較粗,結(jié)果生成的細(xì)節(jié)太粗糙了;所以,我把畫筆調(diào)細(xì)到20,再試了一次,但效果還是不太理想;不過,當(dāng)我用上「HD無損超清」和「細(xì)節(jié)修復(fù)」功能后,效果就好多了。所以,給想試智能畫布的朋友們提個(gè)醒:雖然它的生成效果和效率都不錯(cuò),但局部重繪的功能還有問題。以月球細(xì)節(jié)為例,如果你自己選擇重繪的范圍,可能會(huì)得到一些風(fēng)格很奇怪的圖片。它的處理邏輯是先整體再細(xì)節(jié),我猜這可能是因?yàn)榫植恐乩L沒有輸入關(guān)鍵詞的選項(xiàng),所以AI得自己猜測重繪的風(fēng)格,而這個(gè)猜測的準(zhǔn)確率并不是很高。此外,即夢AI的擴(kuò)圖功能很強(qiáng)大,你可以不停地?cái)U(kuò)展圖片。在擴(kuò)圖時(shí),輸入關(guān)鍵詞就能指導(dǎo)擴(kuò)圖,我給它輸入了關(guān)鍵詞「更大」,結(jié)果生成的照片如第三張,視覺廣闊了,下面出現(xiàn)一個(gè)小人。
如果不輸入關(guān)鍵詞,AI就會(huì)按照原圖的風(fēng)格來進(jìn)行擴(kuò)圖。據(jù)此,可以說,智能畫布能力比圖生圖能力強(qiáng),局部處理能力比較弱;盡管如此,智能畫布功能整體上為用戶提供了一個(gè)強(qiáng)大而靈活的創(chuàng)作可能,所以,用戶可以更加自由的基于圖片,表達(dá)創(chuàng)意。 04? 那么,即夢AI第四個(gè)能力是什么呢?AI視頻生成。 這可是重頭戲。生成視頻的方式,跟生成圖片差不多,也是分成兩種模式:文本生成視頻\圖片生成視頻。如果是文本生成視頻,你只要通過簡單的文本描述,AI就能制作出一段視頻;除了描述內(nèi)容外,你還可以選擇運(yùn)鏡模式、視頻的播放速度和視頻的比例。實(shí)際測試了一下,做出一段視頻大概需要兩分鐘左右,但這里面有點(diǎn)技巧,比如:你得詳細(xì)說明想要的視頻風(fēng)格、背景以及運(yùn)作方式等。現(xiàn)在基本上能生成的視頻長度有3秒、6秒、9秒和12秒。我之前用握拳寶寶(Sammy Griner)的圖片試過了,所以就用圖片生成視頻的模式來做實(shí)驗(yàn)。用圖片生成視頻的好處是給AI一個(gè)明確的方向,因此,生成的視頻質(zhì)量還不錯(cuò),但是細(xì)節(jié)上依然不能恭維。這是我在視頻模式下截的圖,可以明顯看出,握拳寶寶(Sammy Griner)的臉變得有點(diǎn)鬼畜,看起來挺嚇人的。盡管AI視頻生成有調(diào)整口型、視頻延長、補(bǔ)幀、提升分辨率(HD)等功能,但即夢AI目前還不能像處理圖片那樣,在視頻的某個(gè)部分進(jìn)行優(yōu)化。提示詞:請制作一段視頻,內(nèi)容是一個(gè)穿著中國古風(fēng)服飾的帥哥,在公園里快樂地奔跑跳躍,臉上洋溢著開心的笑容,眼睛里閃著甜美的光芒。沒有開通會(huì)員,所以一次只能生成一個(gè)視頻,我直接選擇了12秒長,標(biāo)準(zhǔn)模式,視頻比例是3:4,運(yùn)鏡隨機(jī),速度適中。得說,生成速度挺快,大概一分鐘就做好了。但總體感覺就那么回事;好的地方是,關(guān)鍵詞都識(shí)別出來了;不好的地方是,視頻質(zhì)量太差,一看就知道是AI生成的。還有,視頻里的面部動(dòng)作還有點(diǎn)嚇人。看來AI在這方面還得多加努力。假設(shè)要對比的話:兩種模式生成的視頻基礎(chǔ)還行,但如果要求高一點(diǎn),就難以讓人滿意了。文本生成視頻的效果,比圖片生成視頻差很多,人物和背景都顯得不夠真實(shí),圖片生成視頻雖然也有很多問題,尤其是人物動(dòng)作和環(huán)境方面,還有很大的改進(jìn)空間。我還看了一下“即夢AI”的會(huì)員價(jià)格。基礎(chǔ)版一年659元,平均每個(gè)月54元;標(biāo)準(zhǔn)版一年1899元,平均每個(gè)月158元;高級版一年5199元,平均每個(gè)月大約430元。話說,除能在短視頻中加一些賽博朋克的東西,它還能做什么?誰會(huì)愿意為這么高的AI視頻會(huì)員買單?即使有人愿意,又能用AI視頻做出什么樣的東西來?我認(rèn)為,至于它真正走向商業(yè)化,還要看到更多的實(shí)際性應(yīng)用場景。————  加入MANDUN星球,同時(shí)可加入智遠(yuǎn)的付費(fèi)社群 覺得有價(jià)值,歡迎點(diǎn)個(gè)在看,每個(gè)人都應(yīng)該擁有獨(dú)立思考的能力,舍滿取半,歡迎分享給更多人。
|