|
大家在用手機(jī)或單反拍照的時(shí)候,通常快門設(shè)置太長的時(shí)候,拍運(yùn)動物體出來的照片容易產(chǎn)生拖影,如果非藝術(shù)拍攝這樣的照片是非常糟糕的。 麻省理工學(xué)院的研究人員最近開發(fā)了一種模型,該模型可以恢復(fù)從“折疊”成較小尺寸的圖像和視頻中丟失的寶貴數(shù)據(jù)。 概述 該模型可用于從運(yùn)動模糊圖像或新的攝像機(jī)中重新創(chuàng)建視頻,這些攝像機(jī)捕獲人在拐角處的運(yùn)動,但只能作為模糊的一維線。盡管需要更多的測試,但研究人員認(rèn)為這種方法有朝一日可以用于將2D醫(yī)學(xué)圖像轉(zhuǎn)換為內(nèi)容更豐富(但價(jià)格更高)的3D身體掃描,這可以使貧窮國家的醫(yī)學(xué)成像受益。 捕獲的可視數(shù)據(jù)通常會將時(shí)間和空間的多個(gè)維度的數(shù)據(jù)折疊為一維或二維,稱為“投影”。例如,X射線將有關(guān)解剖結(jié)構(gòu)的三維數(shù)據(jù)折疊成平面圖像。或者,考慮長時(shí)間曝光的恒星在天空中移動的鏡頭:位置隨時(shí)間變化的恒星在靜止鏡頭中顯示為模糊的條紋。 描述該模型的論文的第一作者Guha Balakrishnan說:在所有這些情況下,視覺數(shù)據(jù)都在時(shí)間或空間上具有一個(gè)維度-完全丟失了。 麻省理工學(xué)院發(fā)明的“轉(zhuǎn)角攝像機(jī)”可以檢測到拐角處的人。例如,這些對于消防員在燃燒的建筑物中找到人可能有用。但是這些相機(jī)并非完全用戶友好。目前,它們僅產(chǎn)生類似于人的軌跡和速度的模糊,彎曲的線條的投影。 研究人員發(fā)明了一種“視覺投影”模型,該模型使用神經(jīng)網(wǎng)絡(luò)來“學(xué)習(xí)”將低維投影與其原始高維圖像和視頻相匹配的模式。給定新的投影,模型將使用所學(xué)知識從投影重新創(chuàng)建所有原始數(shù)據(jù)。 在實(shí)驗(yàn)中,該模型通過從與角落攝像機(jī)產(chǎn)生的相似的單維線中提取信息,合成了精確的視頻幀,以顯示人的行走情況。該模型還從流行的“移動MNIST”數(shù)據(jù)集中,從屏幕周圍移動的單個(gè)運(yùn)動模糊數(shù)字投影中恢復(fù)了視頻幀。 線索像素 Balakrishnan說,這項(xiàng)工作起初是一個(gè)“酷反轉(zhuǎn)問題”,用于重現(xiàn)造成長時(shí)間曝光攝影中運(yùn)動模糊的運(yùn)動。在投影的像素中,存在有關(guān)高維光源的一些線索。 例如,捕獲長時(shí)間曝光的數(shù)碼相機(jī)基本上會在一段時(shí)間內(nèi)在每個(gè)像素上聚集光子。在捕獲對象隨時(shí)間的運(yùn)動時(shí),相機(jī)將獲取運(yùn)動捕獲像素的平均值。然后,將那些平均值應(yīng)用于靜止圖像的相應(yīng)高度和寬度,從而創(chuàng)建對象軌跡的特征性模糊條紋。通過計(jì)算像素強(qiáng)度的一些變化,理論上可以重新創(chuàng)建運(yùn)動。 正如研究人員所意識到的那樣,該問題在許多領(lǐng)域都涉及到:例如X射線捕獲解剖結(jié)構(gòu)的高度,寬度和深度信息,但他們使用類似的像素平均技術(shù)將深度折疊成2D圖像。角照相機(jī)-由弗里曼(Freeman),杜蘭德(Durand)和其他研究人員于2017年發(fā)明-捕獲隱藏場景周圍的反射光信號,該圖像承載有關(guān)人與墻壁和物體的距離的二維信息。然后,像素平均技術(shù)會將這些數(shù)據(jù)折疊成一維視頻-基本上是在一行中隨時(shí)間變化的不同長度的測量值。 研究人員基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立了一個(gè)通用模型-一種機(jī)器學(xué)習(xí)模型,該模型已成為圖像處理任務(wù)的強(qiáng)大動力-可以捕獲有關(guān)平均像素中任何尺寸損失的線索。 合成信號 在訓(xùn)練中,研究人員為CNN提供了成千上萬對投影及其高維信號,稱為“信號”。CNN會學(xué)習(xí)與信號中的像素圖案匹配的投影中的像素圖案。為CNN供電的是一個(gè)稱為“變量自動編碼器”的框架,該框架可評估CNN輸出在某種統(tǒng)計(jì)概率上與輸入的匹配程度。由此,模型學(xué)習(xí)了可能產(chǎn)生給定投影的所有可能信號的“空間”。本質(zhì)上,這為如何從投影變?yōu)樗锌赡艿钠ヅ湫盘杽?chuàng)建了一種藍(lán)圖。 原理 我們的網(wǎng)絡(luò)體系結(jié)構(gòu)概述,此處針對2D到3D時(shí)空投影任務(wù)繪制。 該網(wǎng)絡(luò)具有三個(gè)參數(shù)化函數(shù):變分后驗(yàn)分布的qΨ(···)、先驗(yàn)分布的pφ(···)、反投影網(wǎng)絡(luò)的gθ(·,·)。z在訓(xùn)練期間從q網(wǎng)絡(luò)中采樣,在測試期間從p網(wǎng)絡(luò)中采樣。 對于后驗(yàn)分布參數(shù)編碼器q,它包含一系列3d跨度卷積算子和一個(gè)泄漏的relu激活函數(shù),得到μΨ和σΨ兩個(gè)分布參數(shù)。 條件a先驗(yàn)編碼器p由于沒有時(shí)間維度信息,而僅具有2d跨度卷積,因此以類似的方式實(shí)現(xiàn)。 對于反投影函數(shù)gθ(x,z),它使用unet類型架構(gòu)計(jì)算x的每個(gè)像素特征。UNET分為兩個(gè)階段:第一階段,使用一系列二維跨度卷積算子來提取多尺度特征;第二階段,使用一系列二維卷積和上采樣運(yùn)算來合成X和更多的數(shù)據(jù)信道。 FacePlace的空間投影 FacePlace由236種不同的5,000幅圖像組成人。可變性的來源很多,包括 不同種族,多種觀點(diǎn),面部表情和道具。我們隨機(jī)提供了30個(gè)人的所有圖像形成測試集。我們將圖像縮放到128×128像素,通過翻譯,縮放和執(zhí)行數(shù)據(jù)增強(qiáng)飽和度變化。我們將我們的方法與以下基準(zhǔn): 1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓(xùn)練數(shù)據(jù)集中選擇k個(gè)圖像,這些圖像的投影最接近測試投影。 1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓(xùn)練數(shù)據(jù)集中選擇k個(gè)圖像,這些圖像的投影最接近測試投影。 2.與我們方法的投影網(wǎng)絡(luò)gθ(x,z)相同的確定性模型(DET),但不包含潛在變量z 3.線性最小均方誤差(LMMSE)估計(jì)器,它假定x和y來自分布X,Y,使得y = EY [y]在x中是線性的:對于某些參數(shù)A和b,y = Ax + b。最小化y的期望MSE產(chǎn)生封閉形式的表達(dá)式對于p(y | x): 所有方法的FacePlace PSNR(垂直投影在頂部,水平在底部,最大信號PSNR(投影估計(jì))在左側(cè),平均投影PSNR在右),并具有100個(gè)測試投影的不同樣本量。我們的該方法產(chǎn)生的最大信號PSNR高于所有基線。DET對于一個(gè)樣本具有較高的預(yù)期信號PSNR,因?yàn)樗鼉A向于在許多樣本上返回模糊的平均值信號。LMMSE具有無限投影PSNR。 我沒看下他們內(nèi)部數(shù)據(jù)集中的四個(gè)示例的示例輸出。左列顯示輸入垂直投影。對于每個(gè)示例,第一行顯示基本事實(shí)序列,而下一行顯示我們方法的使用z = μφ的平均輸出。 步行視頻的空間變形 我們定性地評估我們的重建方法來自垂直空間投影的人類步態(tài)視頻。這個(gè)場景對于轉(zhuǎn)角攝像機(jī)具有實(shí)際意義,如第2節(jié)所述。2.1。我們收集了30個(gè)主題的35個(gè)視頻每個(gè)人在指定區(qū)域內(nèi)步行一分鐘。科目著裝不同,身高(5’2”-6’5”),年齡(18-60)和性別(18m / 12f)。沒有指示受試者走進(jìn)任何特定的方式,許多人以奇怪的方式走著。所有視頻的背景都是相同的。我們對視頻到每秒5幀,每幀到256×224像素,并將水平平移的數(shù)據(jù)增強(qiáng)應(yīng)用于每個(gè)視頻。我們選出6個(gè)科目進(jìn)行測試組。我們預(yù)測24幀的序列(大約5秒鐘實(shí)時(shí))。如下圖所示: 再來看看移動MNIST數(shù)據(jù)集的樣本輸出。左列顯示輸入投影。對于每個(gè)示例,第一行顯示基本事實(shí)序列。我們顯示了每個(gè)輸入投影通過我們的方法產(chǎn)生的兩個(gè)樣本序列:第一個(gè)與基本事實(shí)的時(shí)間方向匹配,第二個(gè)則與逆向時(shí)間進(jìn)程合成。 總結(jié) 在這篇文章中,作者介紹了視覺的投影問題:合成已經(jīng)沿著一個(gè)維度崩潰成一個(gè)低維度的觀察,并提出了第一個(gè)通用方法圖像和視頻,以及沿這些數(shù)據(jù)任何維度的投影,解決了任務(wù)的不確定性。 首先介紹一個(gè)概率模型以投影為條件的原始信號分布。作者實(shí)現(xiàn)了該模型的參數(shù)化功能與CNN一起學(xué)習(xí)每個(gè)域中的共享圖像結(jié)構(gòu),并實(shí)現(xiàn)準(zhǔn)確的信號合成。盡管從折疊的維度獲取的信息通常似乎無法從裸露的投影中恢復(fù) 顯而易見,但結(jié)果表明,許多“丟失”的信息都是可以恢復(fù)的。 最近研究人員沒有在醫(yī)學(xué)圖像上測試他們的模型。但是他們現(xiàn)在正在與康奈爾大學(xué)的同事合作,從2D醫(yī)學(xué)圖像(例如X射線)中恢復(fù)3D解剖學(xué)信息,而無需增加成本,這可以在較貧窮的國家實(shí)現(xiàn)更詳細(xì)的醫(yī)學(xué)成像。醫(yī)生通常更喜歡3D掃描,例如用CT掃描捕獲的3D掃描,因?yàn)樗鼈儼嘤杏玫尼t(yī)學(xué)信息。 所以這項(xiàng)技術(shù)在未來的應(yīng)用中具有無形的可能性。 論文地址: https:///pdf/1909.00475.pdf |
|
|