英偉達(dá)再出黑魔法GauGAN：憑借幾根線條，草圖秒變風(fēng)景照

懶人葛優(yōu)癱 2019-03-20

展開(kāi)全文

【新智元導(dǎo)讀】英偉達(dá)再推黑科技GauGAN，這款圖像生成軟件僅憑用戶隨意畫(huà)的線條和色塊，就能自動(dòng)生成逼真的圖片，效果堪比風(fēng)光大片！此番可謂“你只管亂畫(huà)，最后不好看算我輸”！

這是網(wǎng)上流傳甚廣的一個(gè)圖，教你一步步來(lái)畫(huà)一匹馬。

首先，畫(huà)兩個(gè)圈；接著畫(huà)4條腿、臉；然后畫(huà)上毛發(fā)；最后再加幾筆細(xì)節(jié)就大功告成了

這張圖真實(shí)的體現(xiàn)了在通常情況下，學(xué)生面對(duì)老師傳授知識(shí)、或者技能時(shí)候的一種狀態(tài)。很多人對(duì)此深有同感：在大牛口中“簡(jiǎn)單加幾筆細(xì)節(jié)”的操作，在凡人看來(lái)無(wú)異于直接從新手跳到王者。但這種情況正在改變，手殘黨也可以畫(huà)出逼真的風(fēng)光大片了！這完全要感謝英偉達(dá)最新推出的一款黑科技。

英偉達(dá)在GTC 2019上推出了一個(gè)令人驚嘆的圖像生成器。它使用生成對(duì)抗性網(wǎng)絡(luò)（GAN），用戶只需點(diǎn)擊幾下即可繪制出近乎真實(shí)的圖像。該軟件能夠立即將幾行草草勾勒的輪廓圖，變成華麗的山頂日落圖景。

我們先來(lái)看一個(gè)動(dòng)圖：

圖中，左邊是人類操作員畫(huà)的，右邊是AI直接“簡(jiǎn)單加上幾筆細(xì)節(jié)”后生成的。在普通人看來(lái)，右邊的圖像幾乎毫無(wú)破綻，看不出這并非一張風(fēng)光照片，而是AI生成的虛擬海灘。

讓我們?cè)賮?lái)看幾張動(dòng)圖，來(lái)更深刻的體會(huì)一下：

從圖中我們可以看出，GauGAN并不是像Photoshop里貼一個(gè)圖層那樣，簡(jiǎn)單的把圖形貼上去，而是根據(jù)相鄰兩個(gè)圖層之間的對(duì)應(yīng)關(guān)系對(duì)邊緣進(jìn)行調(diào)整。比如石頭在水里的倒影應(yīng)該是什么樣的、被瀑布沖刷的山石應(yīng)該是怎樣的狀態(tài)、近處的山和遠(yuǎn)處的山之間的層次應(yīng)該如何表現(xiàn)…

現(xiàn)在我們放出完整的視頻：

這次，不光設(shè)計(jì)師、修圖師坐不住了，攝影師也坐不住了！

英偉達(dá)的黑魔法：GauGAN

他們給這個(gè)軟件起名叫做GauGAN。這個(gè)軟件只是對(duì)英偉達(dá)神經(jīng)網(wǎng)絡(luò)平臺(tái)強(qiáng)大性能的一次證明。這個(gè)軟件能夠?qū)⑷祟惖睦L畫(huà)方式和過(guò)程進(jìn)行編譯，在幾秒鐘內(nèi)就能畫(huà)出草圖，并將其轉(zhuǎn)換為逼真的照片。從軟件的早期演示中，它似乎能夠做到這一點(diǎn)。

GauGAN這個(gè)詞，很容易讓人聯(lián)想到那位和梵高相愛(ài)相殺的19世紀(jì)著名后印象派繪畫(huà)大師高更。事實(shí)上，GauGAN也確實(shí)使用了高更的繪畫(huà)作品對(duì)模型進(jìn)行訓(xùn)練。

保羅·高更（1848年6月7日－1903年5月8日）

GauGAN目前提供三種工具：顏料桶、鋼筆和鉛筆。屏幕底部是一系列對(duì)象。選擇“云”，并用鉛筆畫(huà)一條線，軟件將生成一縷逼真的云。但這些不是固定的圖像模板。GauGAN可以根據(jù)不同的輸入生成獨(dú)有的結(jié)果。畫(huà)一個(gè)圓圈，在用顏料工具填充，可以使生成的云的質(zhì)感變得更蓬松。

用戶可以使用輸入工具勾勒出一棵樹(shù)的形狀，軟件就能自動(dòng)生成一棵樹(shù)。畫(huà)一條直線，會(huì)產(chǎn)生一個(gè)裸露的樹(shù)干。在頂部畫(huà)一個(gè)“燈泡”一樣的形狀，軟件將自動(dòng)用葉子進(jìn)行填充，生成一棵完整的樹(shù)。

利用GauGAN生成一棵樹(shù)和一條海岸線，注意生成圖像的天氣變化

GauGAN是多模式軟件。如果有兩個(gè)用戶使用相同的設(shè)置，創(chuàng)建了相同的草圖，軟件中內(nèi)置的隨機(jī)數(shù)也能確保最終的生成的作品是不同的結(jié)果。

為了獲得實(shí)時(shí)結(jié)果，GauGAN必須在Tensor計(jì)算平臺(tái)上運(yùn)行。 Nvidia在RDX Titan GPU平臺(tái)上進(jìn)行了演示，生成了實(shí)時(shí)的輸出結(jié)果。演示者繪制一條線，軟件立即產(chǎn)生了結(jié)果。不過(guò)，英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro表示，未來(lái)經(jīng)過(guò)一些修改后，GauGAN可以在幾乎任何平臺(tái)上運(yùn)行，包括CPU上，但生成的結(jié)果可能需要幾秒鐘時(shí)間才能顯示。

在演示中，不同對(duì)象之間的界限劃分還存在一些問(wèn)題，項(xiàng)目團(tuán)隊(duì)表示將會(huì)繼續(xù)改進(jìn)。兩個(gè)目標(biāo)接觸的部分會(huì)出現(xiàn)很淺的線條。英偉達(dá)聲稱圖片生成結(jié)果可以像照片一樣真實(shí)，但仔細(xì)看其實(shí)達(dá)不到這個(gè)程度。神經(jīng)網(wǎng)絡(luò)目前在訓(xùn)練對(duì)象以及訓(xùn)練目標(biāo)上還存在問(wèn)題。希望這個(gè)項(xiàng)目有助于解決這個(gè)問(wèn)題。

在訓(xùn)練數(shù)據(jù)上，英偉達(dá)利用Flickr上的100萬(wàn)張圖像來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。大多數(shù)圖像來(lái)自Flickr的知識(shí)共享計(jì)劃，Catanzaro說(shuō)表示，該公司僅使用經(jīng)過(guò)的圖像。

英偉達(dá)表示，這款軟件可以合成數(shù)十萬(wàn)個(gè)對(duì)象及其與現(xiàn)實(shí)世界中其他對(duì)象的關(guān)系。在GauGAN中，如果用戶改變季節(jié)設(shè)置，葉子將從樹(shù)枝上消失。如果樹(shù)前有一個(gè)池塘，那么這棵樹(shù)就會(huì)在水中反射出來(lái)。

Catanzaro希望這款軟件可以在英偉達(dá)的新AI游戲平臺(tái)上使用，但目前要實(shí)現(xiàn)這個(gè)目標(biāo)還需要做一些進(jìn)一步的工作。在視頻游戲中使用此類工具可以為用戶打造更加身臨其境的環(huán)境，但是英偉達(dá)并沒(méi)有直接開(kāi)發(fā)這樣的軟件。

對(duì)于此軟件可能被惡意利用來(lái)生成虛假圖像的問(wèn)題， Catanzaro同意這是一個(gè)重要的問(wèn)題，可能比一個(gè)項(xiàng)目和一個(gè)公司更重要。他說(shuō)，這是一個(gè)信任問(wèn)題，而不是技術(shù)問(wèn)題，社會(huì)必須面對(duì)和妥善處理這個(gè)問(wèn)題。

即使在這個(gè)有限的演示來(lái)看，從視頻游戲設(shè)計(jì)師、到架構(gòu)師、再到休閑游戲玩家都很容易被這個(gè)軟件的功能所吸引。目前英偉達(dá)沒(méi)有透露關(guān)于將此軟件進(jìn)行商業(yè)化發(fā)布的任何計(jì)劃，但預(yù)計(jì)很快就會(huì)發(fā)布公開(kāi)試用版，任何人都可以體驗(yàn)。

支持該項(xiàng)目的技術(shù)論文已經(jīng)發(fā)布。Catanzaro表示，此文已經(jīng)被CVPR 2019接收。

預(yù)印本論文地址：

https:///pdf/1903.07291.pdf

從論文中可以看出，GauGAN應(yīng)用軟件是基于名為“空間自適應(yīng)歸一化”技術(shù)實(shí)現(xiàn)的。論文中對(duì)該技術(shù)進(jìn)行了比較系統(tǒng)的介紹，并通過(guò)數(shù)據(jù)集實(shí)驗(yàn)表明，該技術(shù)在圖像內(nèi)容生成和編輯任務(wù)上比以往方法實(shí)現(xiàn)了更優(yōu)秀的表現(xiàn)。而該技術(shù)的提出，是由“條件圖像合成”任務(wù)開(kāi)始的。

GauGAN背后的秘密：空間自適應(yīng)條件歸一化

條件圖像合成是指在某些輸入數(shù)據(jù)上生成照片級(jí)真實(shí)圖像的任務(wù)。早期的方法是通過(guò)拼接圖像數(shù)據(jù)庫(kù)中的片段來(lái)計(jì)算輸出圖像。最近則一般使用神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)映射。后一種方法通常更快，并且不需要外部圖像數(shù)據(jù)庫(kù)。

條件圖像合成的特定形式可以將語(yǔ)義分割掩模轉(zhuǎn)換為照片級(jí)真實(shí)的圖像。該技術(shù)可以產(chǎn)生廣泛的應(yīng)用，包括內(nèi)容生成和圖像編輯。這種形式稱為“語(yǔ)義圖像合成”。通過(guò)堆疊卷積，歸一化和非線性層構(gòu)建的傳統(tǒng)網(wǎng)絡(luò)架構(gòu)達(dá)不到最優(yōu)效果，因?yàn)樗鼈兊臍w一化層很可能會(huì)“帶走”輸入語(yǔ)義掩碼中的信息。

用戶可以在合成圖像時(shí)控制語(yǔ)義和樣式。語(yǔ)義（樹(shù)的存在）通過(guò)標(biāo)簽圖（在頂行中可視化）來(lái)控制，樣式可以通過(guò)參考圖像（最左列）來(lái)控制

為了解決這個(gè)問(wèn)題，我們提出了空間自適應(yīng)的歸一化，這是一種條件歸一化，通過(guò)空間自適應(yīng)學(xué)習(xí)轉(zhuǎn)換使用輸入語(yǔ)義布局來(lái)調(diào)制激活，可以在整個(gè)網(wǎng)絡(luò)中有效地傳播語(yǔ)義信息。

我們將模型在幾個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)（包括COCO-Stuff，ADE20K和Cityscapes）。結(jié)果表明，在空間自適應(yīng)歸一化層的幫助下，與幾種最先進(jìn)的方法相比，網(wǎng)絡(luò)的生成結(jié)果明顯更好了。

不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比

另外，空間自適應(yīng)歸一化對(duì)語(yǔ)義圖像合成任務(wù)的幾種變體任務(wù)同樣有效，而且支持基于多模態(tài)和樣式的圖像合成，能夠?qū)崿F(xiàn)可控的多樣化輸出，最終呈現(xiàn)了讓人驚嘆的效果：

GauGAN的意義

GauGAN可以為建筑師、城市規(guī)劃者、景觀設(shè)計(jì)師、游戲開(kāi)發(fā)者、廣告設(shè)計(jì)師…等各種和圖像相關(guān)的職業(yè)在創(chuàng)建虛擬世界時(shí)提供強(qiáng)大的工具。通過(guò)人工智能了解現(xiàn)實(shí)世界的外觀，這些專業(yè)人員可以更好地制作想法原型并快速更改合成場(chǎng)景。

NVIDIA應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro將GauGAN背后的技術(shù)比作“智能畫(huà)筆”，可以填充粗略分割圖中的細(xì)節(jié)。粗略分割圖是顯示場(chǎng)景中物體位置的高級(jí)輪廓圖，GauGAN允許用戶繪制自己的分割圖并操縱場(chǎng)景，用沙子，天空，海洋或雪等標(biāo)簽標(biāo)記每個(gè)圖形。

通過(guò)對(duì)一百萬(wàn)張圖像的訓(xùn)練，深度學(xué)習(xí)模型將填充景觀并顯示停止結(jié)果：在池塘中繪制，并且附近的元素如樹(shù)木和巖石將在水中出現(xiàn)反射。將片段標(biāo)簽從“草”交換為“雪”，整個(gè)圖像變?yōu)槎緢?chǎng)景，以前的綠葉樹(shù)變得貧瘠。

“這就像一張彩圖圖片描述了一棵樹(shù)在哪里，太陽(yáng)在哪里，天空在哪里，”Catanzaro說(shuō)?！叭缓笊窠?jīng)網(wǎng)絡(luò)能夠根據(jù)它對(duì)真實(shí)圖像的了解，填充所有的細(xì)節(jié)和紋理，以及反射，陰影和顏色?！?/p>

Catanzaro說(shuō)：“通過(guò)簡(jiǎn)單的草圖進(jìn)行頭腦風(fēng)暴設(shè)計(jì)要容易得多，而且這種技術(shù)能夠?qū)⒉輬D轉(zhuǎn)換成高度逼真的圖像?！币簿褪钦f(shuō)，產(chǎn)品設(shè)計(jì)師可以在頭腦風(fēng)暴的階段，就直接產(chǎn)出高保真原型；而乙方更是可以在甲方當(dāng)面提需求的時(shí)候，就給出預(yù)覽效果圖。

但是話又說(shuō)回來(lái)，雖然GauGAN的出現(xiàn)，讓我們不需要具備專業(yè)的繪畫(huà)、設(shè)計(jì)、攝影技能就可以制造出逼真的圖像，但它畢竟只是一個(gè)幫我們將腦海中的想法實(shí)現(xiàn)出來(lái)的工具，而非我們大腦本身，如果我們腦海中沒(méi)有任何想法，它也無(wú)法憑空去創(chuàng)造任何東西。

可以預(yù)見(jiàn)的是，基礎(chǔ)技能方面的需求正在變得不那么重要，而對(duì)更高階的技能需求（比如創(chuàng)意、審美、洞察）的要求正在變得越來(lái)越高。

參考鏈接：

https:///2019/03/18/nvidia-ai-turns-sketches-into-photorealistic-landscapes-in-seconds/

Github代碼資源：

https://github.com/NVlabs/SPADE

論文鏈接：

https:///pdf/1903.07291.pdf

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：懶人葛優(yōu)癱 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)