|
圖片來源@Unsplash 在極富動感的音樂中,一名少年踏著滑板穿過了崇山峻嶺和西部公路,就在你以為這是某個電影片段時,畫面一轉(zhuǎn),屏幕外的少年只是在原地擺姿勢。 以往這種效果,往往通過專業(yè)團隊搭建綠幕完成,而現(xiàn)在一家公司想用AI技術(shù)“取代”綠幕,讓人在手機拍攝時,就能實時完成視頻摳圖。 這便是Versa(上海懿天網(wǎng)絡科技)公司推出的新產(chǎn)品“綠幕俠”,該產(chǎn)品希望能夠一部分“替代”綠幕,讓普通人也參與到微電影短視頻的制作當中。 如下圖所示,用戶進入“綠幕俠”后默認是綠幕,用戶還可選擇其他視頻場景如“梵高的博物館”、“徒步歐洲”和“像素人”等主題。視頻中的人像會被App自動摳圖出來,可改變大小或復制拼貼。據(jù)鈦媒體觀察,當前產(chǎn)品中內(nèi)置的許多視頻場景由用戶上傳。 用戶可在“綠幕俠”主頁可選擇不同場景拍攝視頻 Versa希望能做成手機端的Adobe,只是前者的受眾偏向設計師等專業(yè)群體,而Versa公司希望能降低創(chuàng)意設計的門檻。與Adobe全家桶類似的是,未來versa也打算推出一系列產(chǎn)品,專門解決普通人在圖片、攝影、視頻和音樂方面的創(chuàng)意設計問題。另外,除了移動端,這些產(chǎn)品也將逐步在Pad和PC端上落地。 2018年8月,Versa推出了AI圖像處理App“馬卡龍玩圖”,該產(chǎn)品的定位是“手機端Photoshop”,其最重要的功能之一,就是利用計算機視覺中的AI圖像語義分割技術(shù)進行一鍵摳圖,實現(xiàn)人景分離和圖像分離。用戶不僅能一鍵P掉游客照中的路人,還能穿梭于世界名畫、日漫風景等各種場景中。 蔡天懿對鈦媒體透露,之后“馬卡龍玩圖”也會上線視頻摳圖功能,不過與“綠幕俠”不同的是,前者注重視頻的編輯功能,會對已有視頻做特效編輯;而后者重視拍攝過程,可實時摳圖完成特效。 用戶在產(chǎn)品的內(nèi)容社區(qū)上傳自己的作品(圖片來源于馬卡龍玩圖) AI圖像語義分割是Versa公司系列產(chǎn)品中最核心的技術(shù)。從“馬卡龍玩圖”到“綠幕俠”,Versa產(chǎn)品的處理對象完成了從圖像到視頻的跨越,兩者都基于AI圖像語義分割,只是后者面臨的技術(shù)挑戰(zhàn)更大。 那么,實時的視頻摳圖要如何實現(xiàn),實現(xiàn)了部分特效制作的“綠幕俠”又有著怎樣的想象力? 視頻摳圖的技術(shù)攻堅戰(zhàn)馬卡龍玩圖剛上線時僅能做到人景分離,現(xiàn)在已經(jīng)能做到圖像分離,分割幾十余種常見實例,除了識別人,人體各部分(如五官、頭發(fā)和衣服)還有人的附屬物(如背的包袋)等等。 視頻摳圖也是如此,多張圖片的連續(xù)便成了視頻。幀數(shù)越多,人所看到的視頻越細膩。電影的幀數(shù)是24幀/秒,而“綠幕俠”的頻率已經(jīng)能達到30幀/秒,相當于1秒處理30張圖片,一張圖片約為33毫秒。 “綠幕俠”視頻摳圖示意圖(來源產(chǎn)品宣傳片) 在從圖像摳圖到視頻摳圖的轉(zhuǎn)變中,Versa團隊曾面臨一個問題:做實時視頻摳圖,AI模型的運算選擇云端還是手機端? “我們決定把運算放在手機端而非云端。這主要出于實時處理、節(jié)省費用和個人隱私三方面的考量,”蔡天懿對鈦媒體表示。 他補充道,首先,在云端處理往往有100毫秒的時延,而“綠幕俠”是實時摳圖替換背景,有時延便無法做到實時。其次,視頻處理跑在云端需要額外負擔比圖片處理高30倍的云端服務器的成本,且用戶數(shù)越多成本越高。第三,拍照視頻都屬于個人私隱,上云也會存在安全隱患。實現(xiàn)手機端運行是綠幕俠App落地的首要條件。 像前段時間流行的FaceApp能讓人一鍵變老,該產(chǎn)品就是要先上傳到云端再做計算,不僅會受到網(wǎng)絡狀況的影響,還被質(zhì)疑上云會侵犯用戶的隱私。 但是把視頻摳圖放在手機端運行,技術(shù)門檻并不低。這既需要將云端的大算法模型縮小到手機端同時又保證處理效果,又需要能夠提供足夠算力的手機芯片。 在算法模型的升級上,Versa的AI實驗室于今年3月份完成了模型小型化,實現(xiàn)了把模型從云端放到手機端的前提。 蔡天懿對鈦媒體舉例道:“如果用一臺8000塊錢電腦的GPU做人景分離,一張圖需要100毫秒,一秒僅能做10張圖;但Versa的算法模型一秒可處理30張圖,還要保證一定的精度。優(yōu)化后AI模型增強了其處理能力。” 在模型優(yōu)化后,蔡天懿發(fā)現(xiàn)許多芯片依然帶不動他們的AI模型,他們需要一個算力足夠大的芯片。當前,“綠幕俠”產(chǎn)品在搭載麒麟810芯片的華為榮耀9X新機型上首發(fā),麒麟810芯片內(nèi)置了華為自研的達芬奇架構(gòu)NPU,能為AI模型提供足夠的算力支持。 “事情的本質(zhì)是,我們有很好的AI模型,你敢有很好的芯片嗎?華為有了”,蔡天懿打趣道。 不過,不同芯片對于AI語義分割的效果也是十分明顯的。據(jù)蔡天懿表示,如果在其他芯片算力不夠的手機上運行,效果出現(xiàn)幀數(shù)減半、卡頓或者精度不足也是無可避免的。這也是該產(chǎn)品在華為榮耀9X機型首發(fā)的原因。 “綠幕俠”不止于工具新技術(shù)會帶來新的工具,新的工具又帶來新的玩法。 “除了18-25歲的年輕用戶,現(xiàn)在很多跳廣場舞的阿姨也在用我們的產(chǎn)品,她們會把自己跳舞的照片P到荷葉中間去,我們很高興能為普通人實現(xiàn)創(chuàng)作夢想,”蔡天懿對鈦媒體表示。 如何從工具轉(zhuǎn)型為社區(qū),是圖像和視頻處理工具普遍面臨的挑戰(zhàn)。即便美圖秀秀這種頭部的美顏修圖工具在轉(zhuǎn)型內(nèi)容社區(qū)時也會受挫。業(yè)內(nèi)人士曾對鈦媒體分析,轉(zhuǎn)型失敗的原因在于該類工具的社區(qū)充斥大量自拍照片,內(nèi)容同質(zhì)化所以缺乏吸引力。 蔡天懿也認為,“用戶的創(chuàng)意內(nèi)容才能使社區(qū)內(nèi)容更多元?!睘榇?,Versa官方也會推出話題鼓勵用戶作圖并發(fā)布在社區(qū)中。 除了在C端獲客,Versa也正在考慮和短視頻直播方和影視制作方合作。據(jù)蔡天懿預計,夾層廣告將為短視頻直播類產(chǎn)品帶來廣告收益。實時視頻摳圖也將降低傳統(tǒng)綠幕特效和動作捕捉的成本,并且減少后期制作周期。在不斷優(yōu)化下,未來或可達到影視制作工業(yè)級效果。 Versa還上線了OpenAPI平臺,為開發(fā)者們與企業(yè)用戶提供多種圖片API接口如風格渲染、人像分割、智能填充等,并為企業(yè)提供定制化的服務。 當前,Versa已經(jīng)完成來自包括紅杉資本、真格基金和臻云創(chuàng)投在內(nèi)的三輪融資。去年12月,Versa獲得了來自騰訊的數(shù)千萬美元A輪融資。Versa還與上海交大聯(lián)合成立了“腦科學與人工智能”實驗室,去年一年發(fā)表了100多篇相關領域論文。 蔡天懿對鈦媒體表示,接下來Versa有三個深化方向:首先是做的更精細,讓邊緣清晰到連頭發(fā)絲也能摳圖出來;第二是要更快,希望每秒處理的幀數(shù)可以提高;第三是更多,希望不只能把人摳出來,還可以摳更細的物體,比如鞋子、衣服等等。 “你知道鋼鐵俠的眼鏡‘伊迪斯’嗎,只要戴上就能把每個物體掃描出來。我希望能達到這種圖像分割的效果,處理的更快也更多。”蔡天懿說。 (本文首發(fā)鈦媒體,作者/蘆依,編輯/蔡鵬程) |
|
|
來自: Mary7hm8ymjh62 > 《關于手機》