小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

計算機(jī)視覺簡介:歷史、現(xiàn)狀和發(fā)展趨勢

 唐老頭hv6y0ba8 2017-11-20

前言:本文由中國科學(xué)院自動化研究所胡占義研究員撰寫,對計算機(jī)視覺40多年的發(fā)展歷程進(jìn)行了簡要總結(jié),包括:馬爾計算視覺理論,主動視覺與目的視覺,多視幾何與攝像機(jī)自標(biāo)定,以及基于學(xué)習(xí)的視覺。在此基礎(chǔ)上,對計算機(jī)視覺的未來發(fā)展趨勢給出了一些展望。


1.1 什么是計算機(jī)視覺

正像其它學(xué)科一樣,一個大量人員研究了多年的學(xué)科,卻很難給出一個嚴(yán)格的定義,模式識別如此,目前火熱的人工智能如此,計算機(jī)視覺亦如此。與計算機(jī)視覺密切相關(guān)的概念有視覺感知(visual perception),視覺認(rèn)知(visual cognition),圖像和視頻理解( image and video understanding). 這些概念有一些共性之處,也有本質(zhì)不同。從廣義上說,計算機(jī)視覺就是“賦予機(jī)器自然視覺能力”的學(xué)科。自然視覺能力,就是指生物視覺系統(tǒng)體現(xiàn)的視覺能力。一則生物自然視覺無法嚴(yán)格定義,在加上這種廣義視覺定義又“包羅萬象”,同時也不太符合40多年來計算機(jī)視覺的研究狀況,所以這種“廣義計算機(jī)視覺定義”,雖無可挑剔,但也缺乏實(shí)質(zhì)性內(nèi)容,不過是一種“循環(huán)式游戲定義”而已。實(shí)際上,計算機(jī)視覺本質(zhì)上就是研究視覺感知問題。視覺感知,根據(jù)維科百基(Wikipedia)的定義, 是指對“環(huán)境表達(dá)和理解中,對視覺信息的組織、識別和解釋的過程”。根據(jù)這種定義,計算機(jī)視覺的目標(biāo)是對環(huán)境的表達(dá)和理解,核心問題是研究如何對輸入的圖像信息進(jìn)行組織,對物體和場景進(jìn)行識別,進(jìn)而對圖像內(nèi)容給予解釋。

計算機(jī)視覺與人工智能有密切聯(lián)系,但也有本質(zhì)的不同。人工智能更強(qiáng)調(diào)推理和決策,但至少計算機(jī)視覺目前還主要停留在圖像信息表達(dá)和物體識別階段?!拔矬w識別和場景理解”也涉及從圖像特征的推理與決策,但與人工智能的推理和決策有本質(zhì)區(qū)別。應(yīng)該沒有一個嚴(yán)肅的計算機(jī)視覺研究人員會認(rèn)為AlphaGo, AlphaZero 是計算機(jī)視覺,但都會認(rèn)為它們是典型的人工智能內(nèi)容。

簡言之,計算機(jī)視覺是以圖像(視頻)為輸入,以對環(huán)境的表達(dá)(representation)和理解為目標(biāo),研究圖像信息組織、物體和場景識別、進(jìn)而對事件給予解釋的學(xué)科。從目前的研究現(xiàn)狀看,目前還主要聚焦在圖像信息的組織和識別階段,對事件解釋還鮮有涉及,至少還處于非常初級的階段。

這里需要強(qiáng)調(diào)的是,每個人由于背景不同,偏好不同,知識面不同,對同一問題的觀點(diǎn)亦會不同,甚至出現(xiàn)大相徑庭的局面。上面為筆者對計算機(jī)視覺的理解,也許是片面或錯誤的。如不少人認(rèn)為“紋理分析”是計算機(jī)視覺的一個重要研究方向,筆者不敢茍同。另外,很多場合,人們把“圖像處理”也認(rèn)為是“計算機(jī)視覺”,這也是不恰當(dāng)?shù)?。圖像處理是一門獨(dú)立的學(xué)科,圖像處理研究圖像去噪、圖像增強(qiáng)等內(nèi)容,輸入為圖像,輸出也是圖像。計算機(jī)視覺利用圖像處理技術(shù)進(jìn)行圖像預(yù)處理,但圖像處理本身構(gòu)不成計算機(jī)視覺的核心內(nèi)容。

這里順便說一下,目前很多人對“感知”和“認(rèn)知”不加區(qū)分,給讀者帶來不必要的困惑和誤解。在不少場合下,經(jīng)常會見到有些“視覺專家”把“認(rèn)知”和“推理與決策”(reasoning and decision)作為平行概念使用,這事實(shí)上是不太嚴(yán)謹(jǐn)?shù)?。根?jù)“維基百科”,“認(rèn)知”是指通過感覺(senses)、經(jīng)歷 (experience)和思考(thoughts)來獲取知識(knowledge)和進(jìn)行理解(understanding)的思維過程(mental process)。認(rèn)知包括:知識形成(knowledge),注視(attention),記憶(memory),推理(reasoning),問題求解(problem solving)、決策( decision making)以及語言生成(language production)等。所以,“感知”與“認(rèn)知”有區(qū)別,推理和決策是典型的認(rèn)知過程,是認(rèn)知的重要組成部分,它們之間是包含關(guān)系,不是平行關(guān)系。


1.2  計算機(jī)視覺發(fā)展的四個主要階段

盡管人們對計算機(jī)視覺這門學(xué)科的起始時間和發(fā)展歷史有不同的看法,但應(yīng)該說, 1982年馬爾( David Marr )《視覺》(Marr, 1982)一書的問世,標(biāo)志著計算機(jī)視覺成為了一門獨(dú)立學(xué)科。計算機(jī)視覺的研究內(nèi)容,大體可以分為物體視覺(object vision)和空間視覺(spatial vision)二大部分. 物體視覺在于對物體進(jìn)行精細(xì)分類和鑒別,而空間視覺在于確定物體的位置和形狀,為“動作(action)” 服務(wù)。正像著名的認(rèn)知心理學(xué)家J.J. Gibson 所言,視覺的主要功能在于“適應(yīng)外界環(huán)境,控制自身運(yùn)動”。 適應(yīng)外界環(huán)境和控制自身運(yùn)動,是生物生存的需求,這些功能的實(shí)現(xiàn)需要靠物體視覺和空間視覺協(xié)調(diào)完成。

計算機(jī)視覺40多年的發(fā)展中,盡管人們提出了大量的理論和方法,但總體上說,計算機(jī)視覺經(jīng)歷了4個主要?dú)v程。即: 馬爾計算視覺、主動和目的視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。下面將對這4項主要內(nèi)容進(jìn)行簡要介紹。


1.2.1 馬爾計算視覺(Computational Vision)

現(xiàn)在很多計算機(jī)視覺的研究人員,恐怕對“馬爾計算視覺”根本不了解,這不能不說是一件非常遺憾的事。目前,在計算機(jī)上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。事實(shí)上,馬爾的計算視覺的提出,不論在理論上還是研究視覺的方法論上,均具有劃時代的意義。

馬爾的計算視覺分為三個層次: 計算理論、表達(dá)和算法以及算法實(shí)現(xiàn)。由于馬爾認(rèn)為算法實(shí)現(xiàn)并不影響算法的功能和效果,所以,馬爾計算視覺理論主要討論“計算理論”和“表達(dá)與算法”二部分內(nèi)容。馬爾認(rèn)為,大腦的神經(jīng)計算和計算機(jī)的數(shù)值計算沒有本質(zhì)區(qū)別,所以馬爾沒有對“算法實(shí)現(xiàn)”進(jìn)行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進(jìn)展看,“神經(jīng)計算”與數(shù)值計算在有些情況下會產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計算( Neuromorphological computing),但總體上說,“數(shù)值計算”可以“模擬神經(jīng)計算”。至少從現(xiàn)在看,“算法的不同實(shí)現(xiàn)途徑”,并不影響馬爾計算視覺理論的本質(zhì)屬性。

1)計算理論(Computational Theory)

計算理論需要明確視覺目的, 或視覺的主要功能是什么。上世紀(jì)70年代,人們對大腦的認(rèn)識還非常粗淺,目前普遍使用的非創(chuàng)傷型成像手段,如功能核磁共振(FMRI)等,還沒有普及。所以,人們主要靠病理學(xué)和心理學(xué)結(jié)果來推斷生理功能。即使目前,人們對“視覺的主要功能”到底是什么,也仍然沒有定論。如最近幾年,MIT的 DiCarlo等人提出了所謂的“目標(biāo)驅(qū)動的感知信息建模”方法(Yamins &DiCarlo et al. 2016a)。他們猜測,猴子IT區(qū)(IT: interiortemporal cortex, 物體識別區(qū))的神經(jīng)元對物體的響應(yīng)(neuronal responses)“可以通過層次化的卷積神經(jīng)網(wǎng)絡(luò)”(HCNN: Hierarchical Convolutional Neural Networks )來建模。他們認(rèn)為,只要對HCNN在圖像物體分類任務(wù)下進(jìn)行訓(xùn)練,則訓(xùn)練好的HCNN 可以很好定量預(yù)測IT 區(qū)神經(jīng)元的響應(yīng)(Yamins et al. 2014, 2016b)。由于僅僅“控制圖像分類性能”對IT神經(jīng)元響應(yīng)(群體神經(jīng)元對某一輸入圖像物體的響應(yīng),就是神經(jīng)元對該物體的表達(dá)或編碼)進(jìn)行定量預(yù)測,所以他們將這種框架稱之為“目標(biāo)驅(qū)動的框架”。目標(biāo)驅(qū)動的框架提供了一種新的比較通用的建模群體神經(jīng)元編碼的途徑,但也存在很大的不足。能否真正像作者所言的那樣,僅僅靠“訓(xùn)練圖像分類的HCNN”就可以定量預(yù)測神經(jīng)元對圖像物體的響應(yīng),仍是一個有待進(jìn)一步深入研究的課題。

馬爾認(rèn)為視覺不管有多少功能,主要功能在于“從視網(wǎng)膜成像的二維圖像來恢復(fù)空間物體的可見三維表面形狀”,稱之為“三維重建”(3D reconstruction)。而且,馬爾認(rèn)為,這種重建過程不是天生就有的,而是可以通過計算完成的。J.J. Gibson 等心理學(xué)家,包括格式塔心里學(xué)學(xué)派( Gestalt psychology),認(rèn)為視覺的很多功能是天生就有的。可以想想,如果一種視覺功能與生具有,不可建模,就談不上計算,也許就不存在今天的“計算機(jī)視覺”這門學(xué)科了。

那么,馬爾的計算理論是什么呢?這一方面,馬爾在其書中似乎并不是介紹得特別具體。他舉了一個購買商品的例子,說明計算理論的重要性。如商店結(jié)賬要用加法而不是乘法。試想如果用乘法結(jié)賬,每個商品1元錢,則不管你購買多少件商品,你僅僅需要付一元錢。

馬爾的計算理論認(rèn)為,圖像是物理空間在視網(wǎng)膜上的投影,所以圖像信息蘊(yùn)含了物理空間的內(nèi)在信息,因此,任何計算視覺計算理論和方法都應(yīng)該從圖像出發(fā),充分挖掘圖像所蘊(yùn)含的對應(yīng)物理空間的內(nèi)在屬性。也就是說,馬爾的視覺計算理論就是要“挖掘關(guān)于成像物理場景的內(nèi)在屬性來完成相應(yīng)的視覺問題計算”。因?yàn)閺臄?shù)學(xué)的觀點(diǎn)看,僅僅從圖像出發(fā),很多視覺問題具有“歧義性”,如典型的左右眼圖像之間的對應(yīng)問題。如果沒有任何先驗(yàn)知識,圖像點(diǎn)對應(yīng)關(guān)系不能唯一確定。不管任何動物或人,生活的環(huán)境都不是隨機(jī)的,不管有意識或無意識,時時刻刻都在利用這些先驗(yàn)知識,來解釋看到的場景和指導(dǎo)日常的行為和行動。如桌子上放一個水杯的場景,人們會正確地解釋為桌子上放了一個水杯,而不把他們看作一個新物體。當(dāng)然,人類也會經(jīng)常出錯,如大量錯覺現(xiàn)象。從這個意義上來說,讓計算機(jī)來模仿人類視覺是否一定是一條好的途徑也是一個未知的命題。飛機(jī)的飛行需要借助空氣動力學(xué)知識,而不是機(jī)械地模仿鳥如何飛。

2)表達(dá)和算法(Representationand Algorithm)

識別物體之前,不管是計算機(jī)還是人,大腦(或計算機(jī)內(nèi)存)中事先要有對該物體的存儲形式,稱之為物體表達(dá)(object representation). 馬爾視覺計算理論認(rèn)為,物體的表達(dá)形式為該物體的三維幾何形狀。馬爾當(dāng)時猜測,由于人在識別物體時與觀察物體的視角無關(guān),而不同視角下同一物體在視網(wǎng)膜上的成像又不同,所以物體在大腦中的表達(dá)不可能是二維的,可能是三維形狀,因?yàn)槿S形狀不依賴于觀察視角。另外,當(dāng)時病理學(xué)研究發(fā)現(xiàn),有些病人無法辨認(rèn)“茶杯”,但可以毫無困難地畫出茶杯的形狀,因此馬爾覺得,這些病人也佐證了他的猜測。從目前對大腦的研究看,大腦的功能是分區(qū)的。物體的“幾何形狀”和“語義”儲存在不同的腦區(qū)。另外,物體識別也不是絕對地與視角無關(guān),僅僅在一個比較小的變化范圍內(nèi)與視角無關(guān)。所以,從當(dāng)前的研究看,馬爾的物體的“三維表達(dá)”猜測基本上是不正確的,至少是不完全正確的,但馬爾的計算理論仍具有重要的理論意義和應(yīng)用價值。

簡言之,馬爾視覺計算理論的“物體表達(dá)”,是指“物體坐標(biāo)系下的三維形狀表達(dá)”。注意,從數(shù)學(xué)上來說,一個三維幾何形狀,選取的坐標(biāo)系不同,表達(dá)函數(shù)亦不同。如一個球體,如果以球心為坐標(biāo)原點(diǎn),則球面可以簡單表達(dá)為:x^2 y^2 z^2=1。 但如果觀測者在x軸上2倍半徑處觀測,則可見球面部分在觀測者坐標(biāo)系下的方程為:x=2-sqrt(1-y^2-z^2)。由此可見,同一物體,選用的坐標(biāo)系不同,表達(dá)方式亦不同。馬爾將“觀測者坐標(biāo)系下的三維幾何形狀表達(dá)”稱之為“2.5維表達(dá)”,物體坐標(biāo)系下的表達(dá)為“三維表達(dá)”。所以,在后續(xù)的算法部分,馬爾重點(diǎn)研究了如何從圖像先計算“2.5維表達(dá)”,然后轉(zhuǎn)化為“三維表達(dá)”的計算方法和過程。

算法部分是馬爾計算視覺的主體內(nèi)容。馬爾認(rèn)為,從圖像到三維表達(dá),要經(jīng)過三個計算層次:首先從圖像得到一些基元(primal sketch), 然后通過立體視覺(stereopsis)等模塊將基元提升到2.5維表達(dá),最后提升到三維表達(dá)。

下圖總結(jié)給出了馬爾視覺計算理論的算法流程:

 

馬爾計算理論中算法的三個計算層次


由上圖所示,首先從圖像提取邊緣信息(二階導(dǎo)數(shù)的過零點(diǎn)),然后提取點(diǎn)狀基元(blob, 線狀基元(edge)和桿狀基元 (bar), 進(jìn)而對這些初級基元(raw primal sketch)組合形成完整基元(full primal sketch),上述過程為視覺計算理論的特征提取階段。在此基礎(chǔ)上,通過立體視覺和運(yùn)動視覺等模塊,將基元提升到2.5維表達(dá)。最后,將2.5維表達(dá)提升到三維表達(dá)。在馬爾的《視覺》一書中,重點(diǎn)介紹了特征提取和2.5維表達(dá)對應(yīng)的計算方法。在2.5維表達(dá)部分,也僅僅重點(diǎn)介紹了立體視覺和運(yùn)動視覺部分。由于當(dāng)雙眼(左右相機(jī))的相互位置已知時(計算機(jī)視覺中稱之為相機(jī)外參數(shù)),立體視覺就轉(zhuǎn)化為“左右圖像點(diǎn)的對應(yīng)問題”(image point correspondence), 所以,馬爾在立體視覺部分重點(diǎn)介紹了圖像點(diǎn)之間的匹配問題,即如何剔除誤匹配,并給出了對應(yīng)算法。

立體視覺等計算得到的三維空間點(diǎn)僅僅是在“觀測者坐標(biāo)系下的坐標(biāo)”,是物體的2.5維表示。如何進(jìn)一步提升到物體坐標(biāo)系下的三維表示,馬爾給出了一些思路,但這方面都很粗泛。如確定物體的旋轉(zhuǎn)主軸等等,這部分內(nèi)容,類似于后來人們提出的“骨架模型”(skeleton model)構(gòu)造.

需要指出的是,馬爾的視覺計算理論是一種理論體系。在此體系下,可以進(jìn)一步豐富具體的計算模塊,構(gòu)建“通用性視覺系統(tǒng)”(general vision system)。只可惜馬爾(Jan.15,1945 ~ Nov.17,1980 )1980年底就因白血病去世,包括他的《視覺》一書,也是他去世后出版的。馬爾的英年早逝,不能說不是計算機(jī)視覺界的一大損失。由于馬爾的貢獻(xiàn),所以二年一度的國際計算機(jī)視覺大會(ICCV: International Conference on Computer Vision)設(shè)有馬爾獎(MarrPrize),作為會議的最佳論文獎。另外,在認(rèn)知科學(xué)領(lǐng)域,也設(shè)有馬爾獎,因?yàn)轳R爾對認(rèn)知科學(xué)也有巨大的貢獻(xiàn)。以同一人名在不同領(lǐng)域設(shè)立獎項,實(shí)屬罕見,可見馬爾對計算機(jī)視覺的影響有多深遠(yuǎn)。正如S. Edelman 和 L. M. Vaina 在《 International Encyclopedia of the Social & Behavioral Sciences 》中對馬爾的評價那樣,“馬爾前期給出的集成數(shù)學(xué)和神經(jīng)生物學(xué)對大腦理解的三項工作,已足以使他在任何情況下在英國經(jīng)驗(yàn)主義二個半世紀(jì)的科學(xué)殿堂中占有重要的一席,…, 然而,他進(jìn)一步提出了更加有影響的計算視覺理論”。所以,從事計算機(jī)視覺研究的人員對馬爾計算視覺不了解,實(shí)在是一件比較遺憾的事。


1.2.2 曇花一現(xiàn)的主動和目的視覺

很多人介紹計算機(jī)視覺時,將這部分內(nèi)容不作為一個單獨(dú)部分加以介紹,主要是因?yàn)椤爸鲃右曈X和目的視覺”并沒有對計算機(jī)視覺后續(xù)研究形成持續(xù)影響。但作為計算機(jī)視覺發(fā)展的一個重要階段,這里還是有必要予以介紹一下。

上世紀(jì)80年代初馬爾視覺計算理論提出后,學(xué)術(shù)界興起了“計算機(jī)視覺”的熱潮。人們想到的這種理論的一種直接應(yīng)用就是給工業(yè)機(jī)器人賦予視覺能力,典型的系統(tǒng)就是所謂的“基于部件的系統(tǒng)”(parts-based system)。然而,10多年的研究,使人們認(rèn)識到,盡管馬爾計算視覺理論非常優(yōu)美,但“魯棒性”(Robustness)不夠,很難想人們預(yù)想的那樣在工業(yè)界得到廣泛應(yīng)用。這樣,人們開始質(zhì)疑這種理論的合理性,甚至提出了尖銳的批評。

對馬爾計算視覺理論提出批評最多的有二點(diǎn):一是認(rèn)為這種三維重建過程是“純粹自底向上的過程”(pure bottom-up process),缺乏高層反饋(top-down feedback);二是“重建”缺乏“目的性和主動性”。由于不同的用途,要求重建的精度不同,而不考慮具體任務(wù),僅僅“盲目地重建一個適合任何任務(wù)的三維模型”似乎不合理。

對馬爾視覺計算理論提出批評的代表性人物有:馬里蘭大學(xué)的 J. Y. Aloimonos;賓夕法尼亞大學(xué)的R. Bajcsy和密西根州立大學(xué)的A. K. Jaini。 Bajcsy 認(rèn)為,視覺過程必然存在人與環(huán)境的交互,提出了主動視覺的概念(active vision). Aloimonos認(rèn)為視覺要有目的性,且在很多應(yīng)用,不需要嚴(yán)格三維重建,提出了“目的和定性視覺”(purpose and qualitative vision) 的概念。 Jain 認(rèn)為應(yīng)該重點(diǎn)強(qiáng)調(diào)應(yīng)用,提出了“應(yīng)用視覺”( practicing vision)的概念。上世紀(jì)80年代末到90年代初,可以說是計算機(jī)視覺領(lǐng)域的“彷徨”階段。真有點(diǎn)“批評之聲不絕,視覺之路茫茫”之勢。

針對這種情況,當(dāng)時視覺領(lǐng)域的一個著名刊物(CVGIP: Image Understanding)于1994年組織了一期專刊對計算視覺理論進(jìn)行了辯論。首先由耶魯大學(xué)的M. J. Tarr和布朗大學(xué)的M. J.Black寫了一篇非常有爭議性的觀點(diǎn)文章(Tarr & Black, 1994),認(rèn)為馬爾的計算視覺并不排斥主動性,但把馬爾的“通用視覺理論”(general vision)過分地強(qiáng)調(diào)“應(yīng)用視覺”是“短見”(myopic)之舉。通用視覺盡管無法給出嚴(yán)格定義,但“人類視覺”是最好的樣板。這篇觀點(diǎn)文章發(fā)表后,國際上20多位著名的視覺專家也發(fā)表了他們的觀點(diǎn)和評論。大家普遍的觀點(diǎn)是,“主動性”“目的性”是合理的,但問題是如何給出新的理論和方法。而當(dāng)時提出的一些主動視覺方法,一則僅僅是算法層次上的改進(jìn),缺乏理論框架上的創(chuàng)新,另外,這些內(nèi)容也完全可以納入到馬爾計算視覺框架下。所以,從1994年這場視覺大辯論后,主動視覺在計算機(jī)視覺界基本沒有太多實(shí)質(zhì)性進(jìn)展。這段“彷徨階段”持續(xù)不長,對后續(xù)計算機(jī)視覺的發(fā)展產(chǎn)生的影響不大,猶如“曇花一現(xiàn)”之狀。

值得指出的是,“主動視覺”應(yīng)該是一個非常好的概念,但困難在于“如何計算”。 主動視覺往往需要“視覺注視”(visual attention),需要研究腦皮層(cerebral cortex)高層區(qū)域到低層區(qū)域的反饋機(jī)制,這些問題,即使腦科學(xué)和神經(jīng)科學(xué)已經(jīng)較20年前取得了巨大進(jìn)展的今天,仍缺乏“計算層次上的進(jìn)展”可為計算機(jī)視覺研究人員提供實(shí)質(zhì)性的參考和借鑒。近年來,各種腦成像手段的發(fā)展,特別是 “連接組學(xué)”(Connectomics)的進(jìn)展,可望為計算機(jī)視覺人員研究大腦反饋機(jī)制提供“反饋途徑和連接強(qiáng)度”提供一些借鑒。


1.2.3 多視幾何和分層三維重建(Multiple View Geometry and Stratified 3D Reconstruction)

上世紀(jì)90年代初計算機(jī)視覺從“蕭條”走向進(jìn)一步“繁榮”,主要得益于以下二方面的因素:首先,瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域,如遠(yuǎn)程視頻會議(teleconference),考古,虛擬現(xiàn)實(shí),視頻監(jiān)控等。另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。

多視幾何的代表性人物首數(shù)法國INRIA的O. Faugeras ( Faugeras O, 1993), 美國GE 研究院的R.Hartely (現(xiàn)已回到了澳大利亞國立大學(xué))和英國牛津大學(xué)的 A. Zisserman。應(yīng)該說,多視幾何的理論于2000年已基本完善。 2000 年Hartley 和Zisserman 合著的書 (Hartley & Zisserman 2000) 對這方面的內(nèi)容給出了比較系統(tǒng)的總結(jié),而后這方面的工作主要集中在如何提高“大數(shù)據(jù)下魯棒性重建的計算效率”。大數(shù)據(jù)需要全自動重建,而全自動重建需要反復(fù)優(yōu)化,而反復(fù)優(yōu)化需要花費(fèi)大量計算資源。所以,如何在保證魯棒性的前提下快速進(jìn)行大場景的三維重建是后期研究的重點(diǎn)。舉一個簡單例子,假如要三維重建北京中關(guān)村地區(qū),為了保證重建的完整性,需要獲取大量的地面和無人機(jī)圖像。假如獲取了1萬幅地面高分辨率圖像(4000×3000),5 千幅高分辨率無人機(jī)圖像(8000×7000)(這樣的圖像規(guī)模是當(dāng)前的典型規(guī)模),三維重建要匹配這些圖像,從中選取合適的圖像集,然后對相機(jī)位置信息進(jìn)行標(biāo)定并重建出場景的三維結(jié)構(gòu),如此大的數(shù)據(jù)量,人工干預(yù)是不可能的,所以整個三維重建流程必須全自動進(jìn)行。這樣需要重建算法和系統(tǒng)具有非常高的魯棒性,否則根本無法全自動三維重建。在魯棒性保證的情況下,三維重建效率也是一個巨大的挑戰(zhàn)。所以,目前在這方面的研究重點(diǎn)是如何快速、魯棒地重建大場景。

1)多視幾何( Multiple View Geometry)

由于圖像的成像過程是一個中心投影過程(perspective projection),所以“多視幾何”本質(zhì)上就是研究射影變換下圖像對應(yīng)點(diǎn)之間以及空間點(diǎn)與其投影的圖像點(diǎn)之間的約束理論和計算方法的學(xué)科(注意:針孔成像模型(The pinhole camera model)是一種中心投影, 當(dāng)相機(jī)有畸變時,需要將畸變后的圖像點(diǎn)先校正到無畸變后才可以使用多視幾何理論)。計算機(jī)視覺領(lǐng)域,多視幾何主要研究二幅圖像對應(yīng)點(diǎn)之間的對極幾何約束(epipolar geometry), 三幅圖像對應(yīng)點(diǎn)之間的三焦張量約束(tri-focal tensor),空間平面點(diǎn)到圖像點(diǎn),或空間點(diǎn)為平面點(diǎn)投影的多幅圖像點(diǎn)之間的單應(yīng)約束(homography)等。在多視幾何中,射影變換下的不變量,如絕對二次曲線的像(The image of the absolute conic),絕對二次曲面的像(Theimage of the absolute quadric), 無窮遠(yuǎn)平面的單應(yīng)矩陣(infinite homography),是非常重要的概念,是攝像機(jī)能夠自標(biāo)定的“參照物”。由于這些量是無窮遠(yuǎn)處“參照物”在圖像上的投影,所以這些量與相機(jī)的位置和運(yùn)動無關(guān)(原則上任何有限的運(yùn)動不會影響無限遠(yuǎn)處的物體的性質(zhì)),所以可以用這些“射影不變量”來自標(biāo)定攝像機(jī)。關(guān)于多視幾何和攝像機(jī)自標(biāo)定的詳細(xì)內(nèi)容,可參閱Hartley 和Zisserman 合著的書(Hartley & Zisserman,2000).

總體上說,多視幾何就其理論而言,在射影幾何中不能算新內(nèi)容。Hartley, Faugeras,  Zissermann等將多視幾何理論引入到計算機(jī)視覺中,提出了分層三維重建理論和攝像機(jī)自標(biāo)定理論,豐富了馬爾三維重建理論,提高了三維重建的魯棒性和對大數(shù)據(jù)的適應(yīng)性,有力推動了三維重建的應(yīng)用范圍。所以,計算機(jī)視覺中的多視幾何研究,是計算機(jī)視覺發(fā)展歷程中的一個重要階段和事件。

多視幾何需要射影幾何(projectivegeometry)的數(shù)學(xué)基礎(chǔ)。射影幾何是非歐幾何,涉及平行直線相交,平行平面相交等抽象概念,表達(dá)和計算要在“齊次坐標(biāo)”(homogeneous coordinates)下進(jìn)行,這給“工科學(xué)生”帶來不小的困難。所以,大家要從事這方面的研究,一定要先打好基礎(chǔ),至少要具備必要的射影幾何知識。否則,做這方面的工作,無異于浪費(fèi)時間。

2)分層三維重建( Stratified 3D Reconstruction)

所謂的分層三維重建,如下圖所示,就是指從多幅二維圖像恢復(fù)歐幾里德空間的三維結(jié)構(gòu)時,不是從圖像一步到歐幾里德空間下的三維結(jié)構(gòu),而是分步分層地進(jìn)行。即先從多幅圖像的對應(yīng)點(diǎn)重建射影空間下的對應(yīng)空間點(diǎn)(即射影重建:projective reconstruction),然后把射影空間下重建的點(diǎn)提升到仿射空間下(即仿射重建:affine reconstruction),最后把仿射空間下重建的點(diǎn)再提升到歐幾里德空間(或度量空間: metric reconstruction)(注:度量空間與歐幾里德空間差一個常數(shù)因子。由于分層三維重建僅僅靠圖像進(jìn)行空間點(diǎn)重建,沒有已知的“絕對尺度”,如“窗戶的長為1米”等,所以從圖像僅僅能夠把空間點(diǎn)恢復(fù)到度量空間)。

 


這里有幾個概念需要解釋一下。以空間三維點(diǎn)的三維重建為例,所謂的“射影重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個“射影變換”。所謂的“仿射重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個“仿射變換”。所謂的“度量重建”,是指重建的點(diǎn)的坐標(biāo)與該點(diǎn)在歐幾里德空間下的坐標(biāo)差一個“相似變換”。

由于任何一個視覺問題最終都可以轉(zhuǎn)化為一個多參數(shù)下的非線性優(yōu)化問題,而非線性優(yōu)化的困難在于找到一個合理的初值。由于待優(yōu)化的參數(shù)越多,一般來說解空間越復(fù)雜,尋找合適的初值越困難,所以,如果一個優(yōu)化問題如能將參數(shù)分組分步優(yōu)化,則一般可以大大簡化優(yōu)化問題的難度。分層三維重建計算上的合理性正是利用了這種“分組分步”的優(yōu)化策略。以三幅圖像為例,直接從圖像對應(yīng)點(diǎn)重建度量空間的三維點(diǎn)需要非線性優(yōu)化16個參數(shù)(假定相機(jī)內(nèi)參數(shù)不變,5個相機(jī)內(nèi)參數(shù),第二幅和第三幅圖像相對于第一幅圖像的相機(jī)的旋轉(zhuǎn)和平移參數(shù),去掉一個常數(shù)因子,所以5 2×(3 3)-1=16), 這是一個非常困難的優(yōu)化問題。但從圖像對應(yīng)點(diǎn)到射影重建需要“線性”估計22個參數(shù),由于是線性優(yōu)化,所以優(yōu)化問題并不困難。從射影重建提升到仿射重建需要“非線性”優(yōu)化三個參數(shù)(無窮遠(yuǎn)平面的3個平面參數(shù)),而從仿射重建提升到度量重建需要“非線性”優(yōu)化5個參數(shù)(攝像機(jī)的5個內(nèi)參數(shù))。因此,分層三維重建僅僅需要分步優(yōu)化3個和5個參數(shù)的非線性優(yōu)化問題,從而大大減小了三維重建的計算復(fù)雜度。

分層三維重建的另一個特點(diǎn)是其理論的優(yōu)美性。射影重建下,空間直線的投影仍為直線,二條相交直線其投影直線仍相交,但空間直線之間的平行性和垂直性不再保持。仿射重建下可以保持直線的平行性,但不能保持直線的垂直性。度量重建既可以保持直線之間的平行線,也可以保持垂直性。在具體應(yīng)用中,可以利用這些性質(zhì)逐級提升重建結(jié)果。

分層三維重建理論可以說是計算機(jī)視覺界繼馬爾計算視覺理論提出后又一個最重要和最具有影響力的理論。目前很多大公司的三維視覺應(yīng)用,如蘋果公司的三維地圖,百度公司的三維地圖,諾基亞的Streetview, 微軟的虛擬地球,其后臺核心支撐技術(shù)的一項重要技術(shù)就是分層三維重建技術(shù)。

3)攝像機(jī)自標(biāo)定(Cameraself-calibration)

所謂攝像機(jī)標(biāo)定,狹義上講,就是確定攝像機(jī)內(nèi)部機(jī)械和光電參數(shù)的過程,如焦距,光軸與像平面的交點(diǎn)等。盡管相機(jī)出廠時都標(biāo)有一些標(biāo)準(zhǔn)參數(shù),但這些參數(shù)一般不夠精確,很難直接在三維重建和視覺測量中應(yīng)用。所以,為了提高三維重建的精度,需要對這些相機(jī)內(nèi)參數(shù)(intrinsic parameters)進(jìn)行估計。估計相機(jī)的內(nèi)參數(shù)的過程,稱為相機(jī)標(biāo)定。在文獻(xiàn)中,有時把估計相機(jī)在給定物體坐標(biāo)系下的坐標(biāo),或相機(jī)之間相互之間的位置關(guān)系,稱為相機(jī)外參數(shù)(extrinsic parameters)標(biāo)定。但一般無明確指定時,相機(jī)標(biāo)定就是指對相機(jī)內(nèi)參數(shù)的標(biāo)定。

相機(jī)標(biāo)定包含二方面的內(nèi)容:“成像模型選擇”和“模型參數(shù)估計”。相機(jī)標(biāo)定時首先需要確定“合理的相機(jī)成像模型”,如是不是針孔模型,有沒有畸變等。目前關(guān)于相機(jī)模型選擇方面,沒有太好的指導(dǎo)理論,只能根據(jù)具體相機(jī)和具體應(yīng)用確定。隨著相機(jī)加工工藝的提高,一般來說,普通相機(jī)(非魚眼或大廣角鏡頭等特殊相機(jī))一般使用針孔成像模型(加一階或二階徑向畸變)就足以了。其它畸變很小,可以不加考慮。當(dāng)相機(jī)成像模型確定后,進(jìn)一步需要估計對應(yīng)的模型參數(shù)。文獻(xiàn)中人們往往將成像模型參數(shù)估計簡單地認(rèn)為就是相機(jī)標(biāo)定,是不全面的。事實(shí)上,相機(jī)模型選擇是相機(jī)標(biāo)定最關(guān)鍵的步驟。一種相機(jī)如果無畸變而在標(biāo)定時考慮了畸變,或有畸變而未加考慮,都會產(chǎn)生大的誤差。視覺應(yīng)用人員應(yīng)該特別關(guān)注“相機(jī)模型選擇”問題。

相機(jī)參數(shù)估計原則上均需要一個“已知三維結(jié)構(gòu)”的“標(biāo)定參考物”,如平面棋盤格,立體塊等。所謂相機(jī)標(biāo)定,就是利用已知標(biāo)定參考物和其投影圖像,在已知成像模型下建立模型參數(shù)的約束方程,進(jìn)而估計模型參數(shù)的過程。所謂“自標(biāo)定”,就是指“僅僅利用圖像特征點(diǎn)之間的對應(yīng)關(guān)系,不需要借助具體物理標(biāo)定參考物,進(jìn)行模型參數(shù)估計的過程”。“傳統(tǒng)標(biāo)定”需要使用加工尺寸已知的標(biāo)定參考物,自標(biāo)定不需要這類物理標(biāo)定物,正像前面多視幾何部分所言,使用的是抽象的無窮遠(yuǎn)平面上的“絕對二次曲線”和“絕對二次曲面”。從這個意義上來說,自標(biāo)定也需要參考物,僅僅是“虛擬的無窮遠(yuǎn)處的參考物”而已。

攝像機(jī)自標(biāo)定需要用到兩幅圖像之間的約束,如基礎(chǔ)矩陣(fundamental matrix), 本質(zhì)矩陣(essential matrix), 以及三幅圖像之間的三焦張量約束等。另外,Kruppa 方程也是一個重要的概念。這些內(nèi)容是多視幾何的重要內(nèi)容,后續(xù)章節(jié)將進(jìn)行詳細(xì)介紹。


1.2.4 基于學(xué)習(xí)的視覺(Learning based vision)

基于學(xué)習(xí)的視覺,是指以機(jī)器學(xué)習(xí)為主要技術(shù)手段的計算機(jī)視覺研究?;趯W(xué)習(xí)的視覺研究,文獻(xiàn)中大體上分為二個階段:本世紀(jì)初的以流形學(xué)習(xí)( manifold Learning)為代表的子空間法( subspace method)和目前以深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)(deep neural networks and deep learning)為代表的視覺方法。

1)流形學(xué)習(xí)(Manifold Learning)

正像前面所指出的,物體表達(dá)是物體識別的核心問題。給定圖像物體,如人臉圖像,不同的表達(dá),物體的分類和識別率不同。另外,直接將圖像像素作為表達(dá)是一種“過表達(dá)”,也不是一種好的表達(dá)。流形學(xué)習(xí)理論認(rèn)為,一種圖像物體存在其“內(nèi)在流形”(intrinsic manifold), 這種內(nèi)在流形是該物體的一種優(yōu)質(zhì)表達(dá)。所以,流形學(xué)習(xí)就是從圖像表達(dá)學(xué)習(xí)其內(nèi)在流形表達(dá)的過程,這種內(nèi)在流形的學(xué)習(xí)過程一般是一種非線性優(yōu)化過程。

流形學(xué)習(xí)始于2000年在Science 上發(fā)表的二篇文章( Tenenbaum et al., 2000) (Roweis & Lawrence 2000)。流形學(xué)習(xí)一個困難的問題是沒有嚴(yán)格的理論來確定內(nèi)在流形的維度。人們發(fā)現(xiàn),很多情況下流形學(xué)習(xí)的結(jié)果還不如傳統(tǒng)的PCA (Principal Component Analysis),LDA( linear DiscriminantAnalysis ), MDS( Multidimensional Scaling)等. 流形學(xué)習(xí)的代表方法有:LLE(Locally Linear Embedding )(Roweis & Lawrence 2000),Isomap ( Tenenbaum et al., 2000), Laplacian Eigenmaps (Belkin & Niyogi, 2001)等。

2)深度學(xué)習(xí)(Deep Learning)

深度學(xué)習(xí)( LeCunet al. 2015) 的成功,主要得益于數(shù)據(jù)積累和計算能力的提高。深度網(wǎng)絡(luò)的概念上世紀(jì)80年代就已提出來了,只是因?yàn)楫?dāng)時發(fā)現(xiàn)“深度網(wǎng)絡(luò)”性能還不如“淺層網(wǎng)絡(luò)”,所以沒有得到大的發(fā)展。目前似乎有點(diǎn)計算機(jī)視覺就是深度學(xué)習(xí)的應(yīng)用之勢,這可以從計算機(jī)視覺的三大國際會議:國際計算機(jī)視覺會議(ICCV),歐洲計算機(jī)視覺會議(ECCV)和計算機(jī)視覺和模式識別會議(CVPR),上近年來發(fā)表的論文可見一般。目前的基本狀況是,人們都在利用深度學(xué)習(xí)來“取代”計算機(jī)視覺中的傳統(tǒng)方法?!把芯咳藛T”成了“調(diào)程序的機(jī)器”,這實(shí)在是一種不正常的“群眾式運(yùn)動”。牛頓的萬有引力定律,麥克斯韋的電磁方程,愛因斯坦的質(zhì)能方程,量子力學(xué)中的薛定諤方程,似乎還是人們應(yīng)該追求的目標(biāo)。

關(guān)于深度網(wǎng)絡(luò)和深度學(xué)習(xí),詳細(xì)內(nèi)容可參閱相關(guān)文獻(xiàn),這里僅僅強(qiáng)調(diào)以下幾點(diǎn):

(1)深度學(xué)習(xí)在物體視覺方面較傳統(tǒng)方法體現(xiàn)了巨大優(yōu)勢,但在空間視覺,如三維重建,物體定位方面,仍無法與基于幾何的方法相媲美。這主要是因?yàn)樯疃葘W(xué)習(xí)很難處理圖像特征之間的誤匹配現(xiàn)象。在基于幾何的三維重建中,RANSAC (Random Sample Consensus)等魯棒外點(diǎn)(誤匹配點(diǎn))剔除模塊可以反復(fù)調(diào)用,而在深度學(xué)習(xí)中,目前還很難集成諸如RANSAC等外點(diǎn)剔除機(jī)制。筆者認(rèn)為,如果深度網(wǎng)絡(luò)不能很好地集成外點(diǎn)剔除模塊,深度學(xué)習(xí)在三維重建中將很難與基于幾何的方法相媲美,甚至很難在空間視覺中得到有效應(yīng)用;

(2) 深度學(xué)習(xí)在靜態(tài)圖像物體識別方面已經(jīng)成熟,這也是為什么在ImageNet上的物體分類競賽已不再舉行的緣故;

(3) 目前的深度網(wǎng)絡(luò),基本上是前饋網(wǎng)絡(luò)(feedforwardNetworks).不同網(wǎng)絡(luò)主要體現(xiàn)在使用的代價函數(shù)不同。下一步預(yù)計要探索具有“反饋機(jī)制”的層次化網(wǎng)絡(luò)。反饋機(jī)制,需要借鑒腦神經(jīng)網(wǎng)絡(luò)機(jī)制,特別是連接組學(xué)的成果。

(4) 目前對視頻的處理,人們提出了RCNN (Recurrent Neural Networks). 循環(huán)( recurrent) 是一種有效的同層作用機(jī)制,但不能代替反饋。大腦皮層遠(yuǎn)距離的反饋(將在生物視覺簡介一章介紹)可能是形成大腦皮層不同區(qū)域具有不同特定功能的神經(jīng)基礎(chǔ)。所以,研究反饋機(jī)制,特別具有“長距離反饋”(跨多層之間)的深度網(wǎng)絡(luò), 將是今后研究圖像理解的一個重要方向;

(5)盡管深度學(xué)習(xí)和深度網(wǎng)絡(luò)在圖像物體識別方面取得了“變革性”成果,但為什么“深度學(xué)習(xí)”會取得如此好的結(jié)果目前仍然缺乏堅實(shí)的理論基礎(chǔ)。目前已有一些這方面的研究,但仍缺乏系統(tǒng)性的理論。事實(shí)上,“層次化”是本質(zhì),不僅深度網(wǎng)絡(luò),其它層次化模型,如Hmax 模型(Riesenhuber & Poggio,1999) HTM (Hierarchical Temporal memory)模型(George & Hawkins, 2009)存在同樣的理論困惑。為什么“層次化結(jié)構(gòu)”( hierarchical structure )具有優(yōu)勢仍是一個巨大的迷。


1.3 計算機(jī)視覺的若干發(fā)展趨勢

信息科學(xué)發(fā)展之迅速,對未來10年的發(fā)展趨勢進(jìn)行預(yù)測,有點(diǎn)“算命”的感覺。 對計算機(jī)視覺而言,筆者有以下幾點(diǎn)對未來發(fā)展的展望:

(1) 基于學(xué)習(xí)的物體視覺和基于幾何的空間視覺繼續(xù)“相互獨(dú)立”進(jìn)行。深度學(xué)習(xí)在短時期內(nèi)很難代替幾何視覺。在深度網(wǎng)絡(luò)中如何引入“魯棒外點(diǎn)剔除模塊”將是一個探索方向,但短時間內(nèi)估計很難有實(shí)質(zhì)性進(jìn)展;

(2) 基于視覺的定位將更加趨向“應(yīng)用性研究”,特別是多傳感器融合的視覺定位技術(shù)。

(3) 三維點(diǎn)云重建技術(shù)已經(jīng)比較成熟,如何從“點(diǎn)云”到“語義”是未來研究重點(diǎn)?!罢Z義重建”將點(diǎn)云重建、物體分割和物體識別同時進(jìn)行,是三維重建走向?qū)嵱玫那疤帷?/p>

(4)對室外場景的三維重建,如何重建符合“城市管理規(guī)范”的模型是一個有待解決的問題。室內(nèi)場景重建估計最大的潛在應(yīng)用是“家庭服務(wù)機(jī)器人”?!¤b于室內(nèi)重建的應(yīng)用還缺乏非常具體的應(yīng)用需求和驅(qū)動,在加上室內(nèi)環(huán)境的復(fù)雜性,估計在3-5年內(nèi)很難有突破性進(jìn)展。

(5)對物體識別而言,基于深度學(xué)習(xí)的物體識別估計將從“通用識別”向“特定領(lǐng)域物體的識別”發(fā)展?!疤囟I(lǐng)域”可以提供更加明確和具體的先驗(yàn)信息,可以有效提高識別的精度和效率,更加具有實(shí)用性;

(6)目前基于RCNN 對視頻理解的趨勢將會持續(xù);

(7) 解析深度網(wǎng)絡(luò)機(jī)理的工作具有重大的理論意義和挑戰(zhàn)性,鑒于深度網(wǎng)絡(luò)的復(fù)雜性,估計近期很難取得突破性進(jìn)展;

(8)具有“反饋機(jī)制”的深度網(wǎng)絡(luò)結(jié)構(gòu)(architecture)研究必將是下一個研究熱點(diǎn)。


1.4 幾種典型的物體表達(dá)理論(Object representation theories)

正像前面所述,物體表達(dá)是計算機(jī)視覺的一個核心科學(xué)問題。這里,“物體表達(dá)理論”與“物體表達(dá)模型”需要加以區(qū)別。“表達(dá)理論”是指文獻(xiàn)中大家比較認(rèn)可的方法。“表達(dá)模型”容易誤解為“數(shù)學(xué)上對物體的某種描述”。計算機(jī)視覺領(lǐng)域,比較著名的物體表達(dá)理論有以下三種:

1)馬爾的三維物體表達(dá)

前面已經(jīng)介紹過,馬爾視覺計算理論認(rèn)為物體的表達(dá)是物體坐標(biāo)系下的三維表達(dá)

2)基于二維圖像的物體表達(dá)(View-basedobject representation)

盡管理論上一個三維物體可以成像為無限多不同的二維圖像,但人的視覺系統(tǒng)僅僅可以識別“有限個圖像”。鑒于神經(jīng)科學(xué)對于猴子腹部通道(ventral pathway)(注:腹部通道認(rèn)為是物體識別通道)的研究進(jìn)展,T. Poggio 等提出了基于圖像的物體表達(dá)(Poggio & Bizzi, 2004),即對一個三維物體的表達(dá)是該物體的一組典型的二維圖像(view)。目前,也有人認(rèn)為 Poggio等的”view”不能狹義地理解為二維圖像,也包含以觀測者為坐標(biāo)系下的三維表示,即馬爾的2.5維表示(Anzai & DeAngelis,2010)。

3)逆生成模型表達(dá)(Inversegenerative model representation )

長期以來,人們認(rèn)為物體識別模型為“鑒別模型”( discriminative model),而不是“生成模型”( generative model )。近期對猴子腹部通道的物體識別研究表明,猴子大腦皮層的IT 區(qū)( Inferior Temporal: 物體表達(dá)區(qū)域)可能在于編碼物體及其成像參數(shù)(如光照和姿態(tài),幾何形狀,紋理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知這些參數(shù)就可以生成對應(yīng)圖像,所以對這些參數(shù)的編碼可以認(rèn)為是逆生成模型表達(dá)。逆生成模型表達(dá)可以解釋為什么深度學(xué)習(xí)中的Encoder-decoder 網(wǎng)絡(luò)結(jié)( Badrinarayanan et al. 2015) 可以取得比較好的效果,因?yàn)镋ncoder本質(zhì)上就是圖像的逆生成模型。另外,深度學(xué)習(xí)中提出的“逆圖形學(xué)”概念( Inverse Graphic)( Kulkarniet al. 2015),從原理上也是一種逆生成模型。逆圖形學(xué)是指先從圖像學(xué)習(xí)到圖像生成參數(shù),然后把同一物體在不同參數(shù)下的圖像歸類為同一物體,通過這種“等變物體識別”(Equivariant recognition) 來達(dá)到最終的“不變物體識別”(invariantrecognition)。

總之,本文對計算機(jī)視覺的理論、現(xiàn)狀和未來發(fā)展趨勢進(jìn)行了一些總結(jié)和展望,希望能給讀者了解該領(lǐng)域提供一些幫助。特別需要指出的是,這里很多內(nèi)容也僅僅是筆者的一些“個人觀點(diǎn)”和“個人偏好”下總結(jié)的一些內(nèi)容,以期對讀者有所幫助但不引起誤導(dǎo)。另外,筆者始終認(rèn)為,任何一門學(xué)科的核心關(guān)鍵文獻(xiàn)并不多,為了讀者閱讀方便,所以本文也僅僅給出了一些必要的代表性文獻(xiàn)。


參考文獻(xiàn): 

  1. MarrD (1982), Vision: A computational investigation into the human representationand processing of visual information, W.H. Freeman and Company.

  2. YaminsD. L K. & DiCarlo J.J (2016a),Using goal-driven deep learning models tounderstand sensory cortex, Nature Neuroscience,Perspective,  Vol. 19, No.3, pp.356-365..

  3. YaminsD. L. K et al.(2014), Performance-optimized hierarchical models predict neuralresponses in higher visual cortex, PNAS, Vol.111, No.23, pp.8619-8624.

  4. Yamins  D. L. K & DiCarlo  J. J. (2016b).  Explicit Information for category-orthogonalobject properties increases along the ventral stream, Nature Neuroscience,Vo.19, No.4, pp.613-622.

  5. Edelman.S & Vaina L. (2015). Marr, David (1945–80),International Encyclopedia of the Social & BehavioralSciences (Second Edition), pp. 596-598

  6. Tarr.M & Black M. (1994). A computational and Evolutionary Perspective on theRole of Representation in Vision, CVGIP: Image Understanding, Vol.60, No.1,pp.65-73.

  7. HartleyR & Zisserman A.(2000). Multiple View Geometry in Computer Vision,Cambridge University Press.

  8. FaugerasO (1993). Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press.

  9. TenenbaumJ. B. et al. (2000). A Global Geometric Framework for Nonlinear DimensionalityReduction, Science, Vol. 290, No.5500, pp.2319–2323.

  10. Roweis.S&Saul. L(2000). Nonlinear Dimensionality Reduction by Locally LinearEmbedding, Science, Vol.290, No.5500, pp.2323—2326.

  11. Belkin.M& Niyogi.P.(2001). Laplacian Eigenmaps and Spectral Techniques for Embeddingand Clustering, Advances in Neural Information Processing Systems 14, pp.586–691, MIT Press

  12. LeCun.Y et al. (2015). Deep Learning, Nature, Vol.521 , pp.436-444.

  13. Riesenhuber.M. & Poggio. T.(1999). Hierarchical Models of Object Recognition in Cortex, Nature Neuroscience 2:1019-1025.

  14. GeorgeD & Hawkins J (2009). Towards a mathematical theory of cortical micro-circuits,PloS Computational Biology, Vol.5, No.10, pp.1-26.

  15. Poggio.T & Bizzi. E(2004). Generalization in vision and motor control, Nature 431,Vol.14, pp.768-774.

  16. Anzai.A & DeAngelis. G (2010). Neural computations underlying depth perception,Curr Opin Neurobiol., Vol.20,No.3, pp. 367–375.

  17. Yildirim.I et al. (2015). Efficient analysis-by-synthesis in vision: A computationalframework, behavioral tests, and comparison with neural representations. InProceedings of the 37th Annual Cognitive Science Society.

  18. Badrinarayanan.V et al. (2015). Segnet: A deep convolutional encoder-decoder architecture forimage segmentation, arXiv:1511.00561.

  19. KulkarniT. D. et al.(2015).  Deep ConvolutionalInverse Graphics Network, NIPS 2015.


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多