藝術(shù)創(chuàng)作一直是人類(lèi)精神活動(dòng)的最高級(jí)形式,自古以來(lái),人們認(rèn)為只有人類(lèi)的智慧才能真正領(lǐng)悟藝術(shù)作品的深遠(yuǎn)意境和奧妙神韻,玄而又玄的藝術(shù)風(fēng)格更是只可意會(huì),不可言傳。近些年來(lái),機(jī)器視覺(jué)和人工智能的發(fā)展正在將藝術(shù)拉下神壇,幾乎人類(lèi)智能的一切領(lǐng)域都正在被人工智能所解構(gòu)和顛覆。可以毫不夸張地說(shuō),人工智能似乎很快就能夠達(dá)到“蟲(chóng)二”(風(fēng)月無(wú)邊)的境界。 在視覺(jué)藝術(shù)領(lǐng)域,抽象的藝術(shù)風(fēng)格已經(jīng)可以被嚴(yán)密數(shù)學(xué)化,并且可以被提取、變換和轉(zhuǎn)移。一幅藝術(shù)作品,其內(nèi)容(content)和風(fēng)格(style)緊密纏繞在一起,似乎是密不可分的,但是兩者又是相對(duì)獨(dú)立的。如何將內(nèi)容和風(fēng)格相剝離,如何各自表示,如何將不同藝術(shù)作品的內(nèi)容和風(fēng)格有機(jī)結(jié)合,這些都是玄妙而又基本的問(wèn)題。我們考察一些近期剛剛發(fā)展起來(lái)的巧妙算法,看看它們是如何建模并解決這些問(wèn)題的。 我們考察下面兩張圖。圖像 1 是山腳下牧場(chǎng)的田園風(fēng)光,蒼松翠柏,綠草茵茵,艷陽(yáng)高照,生機(jī)盎然;圖像 2 是古老莊園中的林蔭道,午后斜陽(yáng),遍地碎金,藤蘿蔽日,虬枝遮天。第一幅圖像似乎攝于春夏,洋溢著勃勃生機(jī);第二幅圖像似乎是深秋日暮,沒(méi)落抑郁。如果將第一幅圖像的內(nèi)容和第二幅圖像的風(fēng)格相結(jié)合,我們得到第三幅圖像,深秋山腳下的牧場(chǎng),殘陽(yáng)如血,山林如炬,凄艷欲絕,離恨頓生。
人類(lèi)的感知都是基于概率的。這種方法將攝影風(fēng)格抽象為色彩的概率分布。每個(gè)像素的顏色表示成顏色空間的一個(gè)點(diǎn) (紅、綠、藍(lán))。每幅圖像顏色的直方圖(Histogram) 給出了顏色分布的概率分布函數(shù)(PDF)。
我們將顏色空間表示成一個(gè)三維的正方體Ω,牧場(chǎng)圖像的顏色分布概率密度函數(shù)是 根據(jù)最優(yōu)傳輸理論[6],最優(yōu)自同胚 陳省身曾經(jīng)說(shuō)過(guò)蒙日-安培方程是最為非線(xiàn)性的偏微分方程。最近,丘成桐團(tuán)隊(duì)給出基于變分法的構(gòu)造性解法[5]。 將視覺(jué)圖像的藝術(shù)風(fēng)格理解為色彩空間的概率分布,想法雖然簡(jiǎn)單,但是很多時(shí)候卓有成效。 下圖是將一幅隨意的攝影相片轉(zhuǎn)換成不同風(fēng)格的肖像作品的示例。首先在輸入相片和樣本相片之間建立映射,然后將相片進(jìn)行類(lèi)似小波變換,轉(zhuǎn)換成所謂的拉普拉斯堆棧(Laplace Stack)。在頻率域,計(jì)算每個(gè)頻段的能量密度函數(shù)。將輸入圖片的每個(gè)頻段的能量密度函數(shù)加以調(diào)整,使得其和樣本圖片的能量密度函數(shù)大致吻合。最后施行逆變換,得到輸出圖像。
這種方法可以改變圖像的顏色、對(duì)比度、光照、散聚焦、同時(shí)保留表情、姿態(tài)、形狀、透視和焦距。這種方法將藝術(shù)風(fēng)格理解為多尺度下的圖像局部統(tǒng)計(jì)特性,特別是局部對(duì)比度的統(tǒng)計(jì)特性。第一種方法只是做了全局的統(tǒng)計(jì),丟失了多尺度和局部統(tǒng)計(jì)信息。但是,這種方法需要輸入圖像和樣本圖像比較接近,因此局限性較大,不如最優(yōu)傳輸法靈活。 人類(lèi)的視覺(jué)計(jì)算是一個(gè)非常復(fù)雜的過(guò)程。如圖 6 所示,在大腦皮層上有多個(gè)視覺(jué)功能區(qū)域(v1 至 v5等),低級(jí)區(qū)域的輸出成為高級(jí)區(qū)域的輸入。低級(jí)區(qū)域識(shí)別圖像中像素級(jí)別的局部的特征,例如邊緣折角結(jié)構(gòu),高級(jí)區(qū)域?qū)⒌图?jí)特征組合成全局特征,形成復(fù)雜的模式,模式的抽象程度逐漸提高,直至語(yǔ)義級(jí)別。 如圖 7 所示,我們可以毫不費(fèi)力地辨認(rèn)出左幀是奧巴馬的肖像,右?guī)且恢煌米拥陌酌?。其?shí),圖中大量信息丟失,但是提供了足夠的整體模式。由此可見(jiàn),視覺(jué)高級(jí)中樞忽略色彩、紋理、光照等局部細(xì)節(jié),側(cè)重整體模式匹配和上下文關(guān)系,并可以主動(dòng)補(bǔ)充大量缺失信息。
深度學(xué)習(xí)的卷積神經(jīng)元網(wǎng)絡(luò)(CNN)是模擬人腦視覺(jué)中樞的一種算法框架。神經(jīng)元網(wǎng)絡(luò)有許多層,每層網(wǎng)絡(luò)模擬一個(gè)視覺(jué)功能區(qū)域,完成在特定抽象程度級(jí)別的特征提取或整合。這里,德國(guó)科學(xué)家們使用了一個(gè)經(jīng)過(guò)充分訓(xùn)練過(guò)的CNN,CNN的設(shè)計(jì)目的是進(jìn)行一般物體識(shí)別[4]。神經(jīng)網(wǎng)絡(luò)的識(shí)別算法非常魯棒,同一類(lèi)物體,具有不同的顏色,紋理,視角,光照條件,頭可以被準(zhǔn)確識(shí)別出來(lái)。這意味著神經(jīng)網(wǎng)絡(luò)忽略了圖像的“風(fēng)格”,牢牢地抓住了圖像的“內(nèi)容”。因此,圖像的內(nèi)容被表示成神經(jīng)元網(wǎng)絡(luò)以此圖像為輸入時(shí)各層的激活響應(yīng)(activation,亦即各層的所有輸出)。( 如果我們有兩張圖片,分別用卷積神經(jīng)網(wǎng)絡(luò)來(lái)分解得到內(nèi)容和風(fēng)格,然后,我們可以將其風(fēng)格的表示互換,重構(gòu)圖像,這樣就實(shí)現(xiàn)了“內(nèi)容保持,風(fēng)格變換”的圖像。這里,我們展示一些計(jì)算結(jié)果:
如上幾個(gè)例子不容置疑地展現(xiàn)了人工智能的方法可以分離藝術(shù)內(nèi)容和藝術(shù)風(fēng)格,并且能夠恰切地表示內(nèi)容和風(fēng)格,自如地轉(zhuǎn)換合成藝術(shù)風(fēng)格。雖然計(jì)算機(jī)的能力令人驚艷,但是今天最終藝術(shù)作品的審美和評(píng)判依然不可替代地由人類(lèi)來(lái)完成。那么,是否會(huì)在不遠(yuǎn)的將來(lái),人類(lèi)的審美能力也會(huì)被量化,由數(shù)學(xué)公式精確地推演,最終由人工智能來(lái)越俎代庖呢?人工智能真地能夠達(dá)到“蟲(chóng)二”的境界嗎?我們?nèi)祟?lèi)是應(yīng)該對(duì)此期待還是恐懼?
本文原載“新智元”,經(jīng)作者授權(quán)轉(zhuǎn)載,轉(zhuǎn)載時(shí)有少量修訂。 |
|
|
來(lái)自: 殘?jiān)瓢辁Q歸 > 《科學(xué)》