| 好文回顧: 人臉檢測(cè)與識(shí)別的趨勢(shì)和分析 人臉檢測(cè)與識(shí)別的趨勢(shì)和分析(增強(qiáng)版) 人臉檢測(cè)與識(shí)別技術(shù)(怎么去創(chuàng)新?) 每日一學(xué)——神經(jīng)網(wǎng)絡(luò)(上) 每日一學(xué)——神經(jīng)網(wǎng)絡(luò)(下) 資源 | 深度學(xué)習(xí)入門(mén)和學(xué)習(xí)書(shū)籍 好久沒(méi)有推送一些精彩的文章,不知道大家有沒(méi)有很渴望來(lái)一場(chǎng)學(xué)術(shù)交流,增強(qiáng)人工智能領(lǐng)域的學(xué)習(xí)動(dòng)力,有很多的您剛加入,有很多的您是這方面的專(zhuān)家。希望大家可以共同去學(xué)習(xí),相互交流,激發(fā)深入的創(chuàng)新之門(mén)。 今天給大家?guī)?lái)的是一篇簡(jiǎn)單的目標(biāo)識(shí)別算法綜述性文章,希望有興趣的您繼續(xù)閱讀下去,謝謝! 視覺(jué)目標(biāo)識(shí)別,又稱(chēng)關(guān)于視覺(jué)圖像的模式識(shí)別, 旨在利用圖像處理與模式識(shí)別領(lǐng)域的理論和方法,確定圖像中是否存在感興趣的目標(biāo), 如果存在則為目標(biāo)賦予合理的解釋?zhuān)⑶疫€要確定其位置。計(jì)算機(jī)視覺(jué)理論的奠基者,英國(guó)神經(jīng)生理學(xué)家Marr認(rèn)為,視覺(jué)要解決的問(wèn)題可歸結(jié)為“What is Where”,即“ 什么東西在什么地方”。因此計(jì)算機(jī)視覺(jué)的研究中,目標(biāo)識(shí)別是最基本的研究問(wèn)題之一。其研究主要包括基于視頻圖像的目標(biāo)識(shí)別和基于靜態(tài)圖像的目標(biāo)識(shí)別,本文這次主要來(lái)討論基于靜態(tài)圖像的目標(biāo)識(shí)別。 近年來(lái),目標(biāo)識(shí)別技術(shù)受到越來(lái)越多的重視,在很多領(lǐng)域得到極大發(fā)展和應(yīng)用。包括安防領(lǐng)域的人臉識(shí)別、行人檢測(cè)、智能視頻分析等;交通領(lǐng)域的交通場(chǎng)景目標(biāo)識(shí)別、車(chē)輛計(jì)數(shù)、逆行檢測(cè)、車(chē)牌檢測(cè)和識(shí)別;以及互聯(lián)網(wǎng)領(lǐng)域的基于內(nèi)容的圖像檢索、相冊(cè)自動(dòng)歸類(lèi)等。所以,圖像目標(biāo)識(shí)別具有重要的研究意義,且其研究成果具有非常廣闊的應(yīng)用前景 目前,國(guó)內(nèi)外有很多針對(duì)目標(biāo)識(shí)別的研究進(jìn)展分析,但大多是針對(duì)空間目標(biāo)、空中目標(biāo)的雷達(dá)目標(biāo)識(shí)別及機(jī)場(chǎng)跑道目標(biāo)的遙感目標(biāo)識(shí)別,針對(duì)地面圖像目標(biāo)識(shí)別的綜述文獻(xiàn)還較少。本文針對(duì)圖像目標(biāo)識(shí)別的國(guó)際常用有效算法進(jìn)行分析, 并對(duì)其發(fā)展趨勢(shì)進(jìn)行展望。 1 目標(biāo)識(shí)別系統(tǒng) 目標(biāo)識(shí)別可理解為計(jì)算機(jī)對(duì)圖像特征分析,然后對(duì)目標(biāo)概念理解過(guò)程。目標(biāo)識(shí)別系統(tǒng)主要分為如圖1所示幾個(gè)部分。 輸入圖像可能存在視角變化、光照變化和遮擋等問(wèn)題,使目標(biāo)識(shí)別具有挑戰(zhàn)性。為了比較不同算法的性能,通常使用共同標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),如目前目標(biāo)識(shí)別研究主要使用的Caltech系列數(shù)據(jù)庫(kù)、PASCAL VOC數(shù)據(jù)庫(kù)和ImageNet數(shù)據(jù)庫(kù)。 預(yù)處理的目的是在最小限度影響目標(biāo)本質(zhì)特征條件下,通過(guò)對(duì)圖像的顏色、亮度和大小等表觀特征進(jìn)行處理,以便于提取正確的目標(biāo)特征,減少后續(xù)識(shí)別算法的復(fù)雜度并提高效率。主要有圖像增強(qiáng)、灰度化、二值化、歸一化等數(shù)字圖像處理操作。 特征生成指用數(shù)值形式將能夠充分表示的特征表達(dá)出來(lái),目的是盡量獲取圖像真實(shí)特征,濾除虛假特征。特征生成影響著識(shí)別算法的準(zhǔn)確性和實(shí)時(shí)性, 需要解決提取什么特征這一問(wèn)題,主要有底層特征、 中層特征和高層特征三種方案。 模型構(gòu)建的主要目的是通過(guò)提取相同類(lèi)別目標(biāo)的共同之處、區(qū)分異類(lèi)別目標(biāo)的不同之處,對(duì)特征及特征間的空間結(jié)構(gòu)進(jìn)行高效處理、存儲(chǔ)和利用,是設(shè)計(jì)整個(gè)識(shí)別系統(tǒng)的關(guān)鍵所在。模型構(gòu)建按照統(tǒng)計(jì)結(jié)構(gòu)可以分為生成模型(Generative Model)和判別模型(Discriminative Model)。 模型訓(xùn)練是在目標(biāo)特征和模型確定后,在指定訓(xùn)練圖像集進(jìn)行學(xué)習(xí)訓(xùn)練、將得到的目標(biāo)模型參數(shù)作為目標(biāo)識(shí)別的重要依據(jù)。模型訓(xùn)練按訓(xùn)練方法的不同可以分為有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督三種訓(xùn)練方式,按分類(lèi)器的不同主要有支持向量機(jī)SVM、KNN、 神經(jīng)網(wǎng)絡(luò) NNs(Neural Networks) 和隨機(jī)森林等。 目標(biāo)檢測(cè)是利用樣本集訓(xùn)練出的模型與測(cè)試圖像提取出的模型進(jìn)行匹配,獲取測(cè)試圖像的目標(biāo)種類(lèi)及位置信息,是整個(gè)識(shí)別系統(tǒng)的最后步驟。目標(biāo)搜索則是其中關(guān)鍵,直接影響識(shí)別系統(tǒng)的性能。目前,主要的目標(biāo)搜索方法有基于滑動(dòng)窗口的搜索方法和基于圖像分割的搜索方法。 在目標(biāo)識(shí)別系統(tǒng)基本框架下,采用不同模型衍生出不同的識(shí)別算法,通常使用準(zhǔn)確性、實(shí)時(shí)性和魯棒性對(duì)不同算法進(jìn)行評(píng)價(jià)。準(zhǔn)確性指目標(biāo)識(shí)別算法對(duì)目標(biāo)物體識(shí)別檢測(cè)的準(zhǔn)確率,衡量算法性能,通常使用平均正確率 AP(Average Precision)進(jìn)行評(píng)估,實(shí)時(shí)性指目標(biāo)識(shí)別算法從一幅圖像中識(shí)別出目標(biāo)的所需時(shí)間,決定算法應(yīng)用前景,魯棒性通常表現(xiàn)為目標(biāo)識(shí)別算法所選用分類(lèi)器對(duì)特性或參數(shù)擾動(dòng)的不敏感性,其主要影響因素為訓(xùn)練集樣本。 2 典型識(shí)別算法及其進(jìn)展 2.1 詞袋模型及其進(jìn)展 詞袋 BOW(Bag-Of-Words) 模型, 也稱(chēng)為特征袋 BOF(Bag-Of-Feature) 模型,起初只應(yīng)用于文本分析,通過(guò)對(duì)文本中的單詞頻率建模來(lái)描述文檔。Csurka等人將BOW 首次引入計(jì)算機(jī)視覺(jué)后,在目標(biāo)識(shí)別、場(chǎng)景分析等領(lǐng)域得到廣泛應(yīng)用。 BOW模型通常利用SIFT 等底層特征, 對(duì)特征點(diǎn)或特征區(qū)域進(jìn)行描述, 提取得到圖像特征矢量。然后通過(guò)聚類(lèi)、求質(zhì)心等方法矢量量化所有訓(xùn)練樣本庫(kù)圖像的特征矢量,得到的質(zhì)心即為BOW中的詞,進(jìn)而形成詞袋或詞典。接著借助統(tǒng)計(jì)直方圖方法分析描述目標(biāo)樣本的詞的特征矢量頻率,則直方圖信息為訓(xùn)練分類(lèi)器時(shí)的輸入。最后,對(duì)測(cè)試圖像采取相同的方法進(jìn)行特征提取,求出與特征矢量相對(duì)應(yīng)的詞在圖像目標(biāo)中出現(xiàn)頻率, 也使用直方圖進(jìn)行描述, 并將其輸入到已訓(xùn)練的分類(lèi)器中, 即可得到最終的識(shí)別結(jié)果。 BOW模型由于忽略了目標(biāo)的空間位置、丟失目標(biāo)的幾何結(jié)構(gòu)等信息,因此影響其目標(biāo)的描述能力,但文獻(xiàn)中卻巧妙將其利用到人體識(shí)別中。該文提出因?yàn)槿说淖藨B(tài)變化和遮擋的位置信息會(huì)使特征向量不一致,如果直接忽略位置信息,則即使不同位置的人體姿態(tài)變化也可以用一致的特征表示,人體遮擋后可見(jiàn)的部分也可構(gòu)造特征表示,因此獲得較好的處理目標(biāo)形變和部分遮擋能力。 由于BOW模型簡(jiǎn)單,對(duì)噪聲影響不敏感且不需要分割圖像等優(yōu)點(diǎn),使基于詞袋框架結(jié)構(gòu)的識(shí)別算法得到研究人員的廣泛關(guān)注,并在其框架基礎(chǔ)上提出稀疏編碼、混合生成判別模型等新的方法。其中空間金字塔匹配模型,在第n層,粗糙的將圖像劃分成4^n個(gè)子圖像,然后對(duì)每個(gè)子圖像均建立BOW模型并串聯(lián)起來(lái),結(jié)果作為第n層圖像表示空間金字塔模型與稀疏編碼方法相結(jié)合,將BOW模型的發(fā)展推進(jìn)一個(gè)新的階段,成為視覺(jué)目標(biāo)識(shí)別最常用算法之一。 2.2 梯度方向直方圖模型及其進(jìn)展 梯度方向直方圖HOG模型是2005年CVPR會(huì)議上,法國(guó)國(guó)家計(jì)算機(jī)科學(xué)及自動(dòng)控制研究所的Dalal和Tringgs等人提出的一種解決人體目標(biāo)檢測(cè)的圖像描述子。該方法使用HOG特征來(lái)表達(dá)人體,提取人體的外形信息和運(yùn)動(dòng)信息,形成豐富的特征集。HOG的主要思想為在一副圖像中,局部目標(biāo)的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。 HOG的生成概括為先將圖像分成小的連通區(qū)域cell,然后采集cell中各像素點(diǎn)的梯度的或邊緣的方向直方圖,再將這些直方圖組合起來(lái)則構(gòu)成特征描述器。其具體流程如圖2 所示。采用Gamma校正法對(duì)輸入圖像進(jìn)行顏色空間歸一化,可以提高檢測(cè)器對(duì)光照和陰影影響的魯棒性。計(jì)算圖像每個(gè)像素大小和方向 的梯度,主要是為了捕獲輪廓信息,同時(shí)進(jìn)一步弱化光照變換的干擾。然后將圖像劃分成若干細(xì)胞單元格,并以細(xì)胞為單位統(tǒng)計(jì)圖像梯度方向直方圖,這樣能夠保持圖像中目標(biāo)的姿勢(shì)和外觀的弱敏感性。為了能夠進(jìn)一步地對(duì)光照、陰影和邊緣進(jìn)行壓縮,將各個(gè)細(xì)胞單元格組合形成大的塊,以此為單位進(jìn)行對(duì)比度歸一化,得到的塊向量即為HOG描述符。 最 后 將 檢 測(cè) 窗口中所 有 重 疊 的 塊 進(jìn)行HOG特征的收集,并將它們結(jié)合成最終的特征向量供分類(lèi)使用。 Dalal等人提出的基于HOG行人檢測(cè)算法選用判別模型, 采用監(jiān)督學(xué)習(xí)方式訓(xùn)練SVM分類(lèi)器,在目標(biāo)檢測(cè)階段使用滑動(dòng)窗口法進(jìn)行目標(biāo)搜索。HOG與SVM相結(jié)合,因其具有關(guān)照不變性、模型可視性和相對(duì)較高的識(shí)別精度,在目標(biāo)識(shí)別中得到廣泛應(yīng)用。但其也存在實(shí)時(shí)性差、很難處理遮擋角度變換和旋轉(zhuǎn)問(wèn)題 等缺點(diǎn)。 針對(duì)這些問(wèn)題, 研究人員就行了大量努力。局部二值模式LBP與HOG結(jié)合的識(shí)別算法,通過(guò)對(duì)底層HOG特征進(jìn)行改進(jìn),比較有效的解決了遮擋問(wèn)題,使目標(biāo)識(shí)別準(zhǔn)確性顯著提高;在HOG特征提取階段,使用三維球面坐標(biāo)系替換二維直角坐標(biāo)系,建立的HOG描述符可以取得較好的旋轉(zhuǎn)不變性,但仍未解決視角變換問(wèn)題。為此, 有文獻(xiàn)使用多角度SIFT算法,并通過(guò)構(gòu)建經(jīng)緯度模型進(jìn) 行仿射特征提取,成功解決了視覺(jué)變換問(wèn)題, 但多角度SIFT算法的引進(jìn)帶來(lái)巨大運(yùn)算量,降低了識(shí)別的實(shí)時(shí)性。 2.3 可變部件模型及其進(jìn)展 Pedro Felzenszwalb教授為了在特征描 述 階 段 定 義 物 體 形 變,提 出 了 可 變 部 件 模 型DPM。DPM可以理解為HOG的擴(kuò)展,其思路大體與HOG一致———先計(jì)算梯度方向直方圖,然后用SVM訓(xùn)練得到物體的梯度模型,用其對(duì)圖像進(jìn)行識(shí)別。 DPM使用星型結(jié)構(gòu)的部件模型。此模型由一個(gè)根濾波器、一系列部件濾波器以及相應(yīng)的可變形模型構(gòu)成。根濾波器包含目標(biāo)的整體信息,而部件濾波器采用高分辨率的細(xì)節(jié)建模。星型模型在圖像特定位置和尺度的得分, 等于根濾波器的得分加上各個(gè)部件的得分的總和。每個(gè)部件的得分等于此部件在所有空間位置的得分的最大值,而部件在某位置的得分等于部件濾波器在此位置的得分減去此位置的變形代價(jià)。變形代價(jià)衡量了部件偏離其理想位置的程度,即部件偏離與根濾波器的最優(yōu)相對(duì)位置程度。通過(guò)定位每個(gè)部件和定量部件之間的相對(duì)位置關(guān)系,DPM 模型容許目標(biāo)出現(xiàn)較大程度的外觀形變。DPM 模型采用多組件結(jié)構(gòu),一類(lèi)目標(biāo)模型可以同時(shí)包含正面、斜面和側(cè)面等組件,多組件結(jié)構(gòu)克服了視覺(jué)變換的挑戰(zhàn)。 Pedro提出的基于 DPM 識(shí)別算法,使用判別分類(lèi)器完成目標(biāo)識(shí)別,采用半監(jiān)督學(xué)習(xí)訓(xùn)練隱變量支持向量機(jī) LSVM,即目標(biāo)位置作為隱變量,將其放入SVM 的目標(biāo)函數(shù)進(jìn)行優(yōu)化,以判別訓(xùn)練方法獲取物體的最優(yōu)位置,在目標(biāo)檢測(cè)階段使用滑動(dòng)窗口法進(jìn)行目標(biāo)搜索。因DPM模型不僅具有HOG的關(guān)照不變性、 模型可視性等優(yōu)點(diǎn),還能很好的處理遮擋、非剛性可變和視角變換問(wèn)題, 大大提高了識(shí)別正確率,使 DPM 模型成為這幾年最為流行的圖像目標(biāo)檢測(cè)算法。雖然 DPM 算法相對(duì)其他算法具有較高的準(zhǔn)確性,但研究人員一直致力于得到更高的識(shí)別性能。有文獻(xiàn)在DPM 模型基礎(chǔ)上同時(shí)引入上下 文 學(xué) 習(xí) 和 空 間 混 合 建 模,并 提 出 一 種 數(shù) 據(jù) 分 解 算 法,較 大 地 提 高 了AP值,成為PASCAL 2011的目標(biāo)識(shí)別冠軍。但基于DPM 識(shí)別算法也具有實(shí)時(shí)性差、不具有旋轉(zhuǎn)不變性等缺點(diǎn),為了提高識(shí)別實(shí)時(shí)性, 研究人員進(jìn)行了大量努力。 Pedro文獻(xiàn)中采用級(jí)聯(lián)思想加速目標(biāo)搜索,在保持準(zhǔn)確率的同時(shí)使識(shí)別速度提高了十倍,對(duì)PASCAL 2007的平均識(shí)別達(dá)到一秒以?xún)?nèi)。楊揚(yáng)則采取分割位置提示加速目標(biāo)搜索,即先對(duì)測(cè)試圖像進(jìn)行快速分割,再對(duì)分割出的各個(gè)部分進(jìn)行識(shí)別檢測(cè)。 2.4 人工神經(jīng)網(wǎng)絡(luò)模型及其進(jìn)展 科研人員通過(guò)對(duì)人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò)構(gòu)成以及工作原理探索,建立了基于視覺(jué)系統(tǒng)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò) ANN模型。在 ANN 識(shí)別系統(tǒng)中, 研究人員選擇Gabor濾波器對(duì)圖像進(jìn)行預(yù)處理。為了獲取圖像角落和輪廓等基礎(chǔ)特征, 圖像塊被選取為特征輸入,然后由多層濾波器構(gòu)成的神經(jīng)網(wǎng)絡(luò)提取出目標(biāo)顯著性特征。在訓(xùn)練過(guò)程中,ANN 使用分層無(wú)監(jiān)督學(xué)習(xí)方法:即通過(guò)無(wú)監(jiān)督訓(xùn)練初始化第一層神經(jīng)元,將其輸出數(shù)據(jù)作為下一層神經(jīng)元輸入,并使用相同方法進(jìn)行訓(xùn)練。為了獲取更好的訓(xùn)練效果,通常在經(jīng)過(guò)設(shè)計(jì)的無(wú)監(jiān)督訓(xùn)練神經(jīng)網(wǎng)絡(luò)層后, 將其輸出通過(guò)一次有監(jiān)督誤差方向傳播 BP算法訓(xùn)練。 在目標(biāo)識(shí)別領(lǐng)域最典型的 ANN 是卷積神經(jīng)網(wǎng)絡(luò) CNN,CNN 主要包 括卷積層和匯聚層。其中卷積層是核心,將整個(gè)輸入圖像與大小固定的濾波器進(jìn)行卷積,然后卷積層得到的信息傳遞到匯聚層,通過(guò)對(duì)特征圖中Patch的最大值、平均值提取,對(duì)數(shù)據(jù)進(jìn)行降采樣。CNN 通過(guò)利用其各層網(wǎng)絡(luò)之間的位置共享,可以降低計(jì)算參數(shù)的數(shù)量,同時(shí)通過(guò)挖取數(shù)據(jù)的空間相關(guān)性,使其能夠自動(dòng)提取圖像的相關(guān)特性。 在很多 ANN 設(shè)計(jì)中采用了BP算法,通過(guò)將實(shí)際輸出與標(biāo)注不相符的誤差輸出向輸入層方向傳播,修正各個(gè)卷積層單元的權(quán)重。深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,大大提高了圖像目標(biāo)識(shí)別的平均正確率,成為目標(biāo)識(shí)別領(lǐng)域的熱點(diǎn)?;?ANN 的目標(biāo)識(shí)別算法具有精度高、有一定不變性等優(yōu)點(diǎn),但也具有算法結(jié)構(gòu)復(fù)雜、 實(shí)時(shí)性差等缺點(diǎn)。 為了加速神經(jīng)網(wǎng)絡(luò)分類(lèi)器的搜索速度, 有文獻(xiàn)將每個(gè)圖像分割成小的子圖像,然后對(duì)每個(gè)子圖像使用快速神經(jīng)網(wǎng)絡(luò)單獨(dú)測(cè)試。有文獻(xiàn)創(chuàng)新地將 DPM 模型與深度學(xué) 習(xí)CNN融 合, 使AP值 提 高 近 十 個(gè) 百 分點(diǎn),大幅度提高了識(shí)別準(zhǔn)確性。然而,深度學(xué)習(xí)的引進(jìn),提高準(zhǔn)確性的同時(shí)也降低了實(shí)時(shí)性。Girshick等人為此繼續(xù)進(jìn)行研究,使用已訓(xùn)練的特征提取器替換 DPM 模型中的標(biāo)準(zhǔn)圖像特征, 提高了 DPM 模型與CNN 結(jié)合識(shí)別算法的實(shí)時(shí)性。 3 識(shí)別算法發(fā)展方向 視覺(jué)目標(biāo)識(shí)別技術(shù)的理論和算法在大量研究人員的不懈努力下取得了一系列進(jìn)展。以BOW、HOG和DPM 等模型理論為核心, 衍生出多種算法。在第2節(jié)分析的典型識(shí)別算法及其發(fā)展基礎(chǔ)上, 本文接下來(lái)討論目標(biāo)識(shí)別算法的發(fā)展方向。 視覺(jué)目標(biāo)識(shí)別技術(shù)得到更廣泛的應(yīng)用,需滿足準(zhǔn)確、高效和普適三個(gè)要求。與之相對(duì)應(yīng),即是識(shí)別算法的準(zhǔn)確性、實(shí)時(shí)性和魯棒性,因此識(shí)別算法的發(fā)展將體現(xiàn)在這三個(gè)方面。 3.1 提高目標(biāo)識(shí)別準(zhǔn)確性 目前,以深度神經(jīng)網(wǎng)絡(luò)為代表的識(shí)別算法在目標(biāo)識(shí)別準(zhǔn)確性上達(dá)到了較高的水平。但對(duì)于戰(zhàn)場(chǎng)車(chē)輛識(shí)別等準(zhǔn)確性要求高的應(yīng)用環(huán)境,其準(zhǔn)確性仍需提高。對(duì)此,有以下兩種準(zhǔn)確性提高思路。 ( 1)融合現(xiàn)有模型。分析當(dāng)前主流算法模型,沒(méi)有一種現(xiàn)有的算法能同時(shí)較好地克服部分遮擋、視角變換、目標(biāo)形變、場(chǎng)景復(fù)雜和圖像旋轉(zhuǎn)等挑戰(zhàn), 均會(huì)出現(xiàn)漏檢和誤檢等情況。通過(guò)提取出其各自所擅長(zhǎng)難點(diǎn)的關(guān)鍵,然后進(jìn)行模型融合優(yōu)勢(shì)互補(bǔ),使新模型能夠克服更多的挑戰(zhàn), 進(jìn)而提高目標(biāo)識(shí)別準(zhǔn)確性。例如, DPM模型不具有旋轉(zhuǎn)不變性,可以考慮融入球坐標(biāo)系HOG 描述符。同時(shí), 其使用多組件克服視角變換、 彈簧模型克服非剛性形變等優(yōu)點(diǎn)也可以考慮融入神經(jīng)網(wǎng)絡(luò)模型等。 ( 2)研究深度學(xué)習(xí)。深度學(xué)習(xí)模仿人腦對(duì)圖像目標(biāo)的提取理論, 是目標(biāo)識(shí)別領(lǐng)域的新星。但其存在的模型解釋性差, 缺少結(jié)構(gòu)約束等問(wèn)題, 影響目標(biāo)識(shí)別的準(zhǔn)確性。深度學(xué)習(xí)在視覺(jué)皮層和函數(shù)論等方面有其理論依據(jù), 但對(duì)中間的特征變換缺乏自然解釋。研究其變量之間因果關(guān)系, 對(duì)其結(jié)構(gòu)進(jìn)行合理約束, 無(wú)疑對(duì)深度學(xué)習(xí)的識(shí)別準(zhǔn)確性提高有促進(jìn)作用。 3.2 增強(qiáng)識(shí)別算法實(shí)時(shí)性 隨著攝像器材的升級(jí),高清圖像時(shí)代的到來(lái)使目標(biāo)識(shí)別所需時(shí)間成倍增長(zhǎng),且識(shí)別算法復(fù)雜,檢測(cè)目標(biāo)耗時(shí)較長(zhǎng),難以滿足視頻監(jiān)控等一系列應(yīng)用的要求。對(duì)此, 有以下三種實(shí)時(shí)性增強(qiáng)思路。 ( 1)優(yōu)化目標(biāo)搜索策略。現(xiàn)在識(shí)別算法為了追求高的準(zhǔn)確性, 主要采用簡(jiǎn)單且漏檢概率小的滑動(dòng)窗口法搜索目標(biāo), 但其計(jì)算量大、 效率低、 實(shí)時(shí)性差。因此, 通過(guò)刪除冗余計(jì)算,降低計(jì)算量等方法優(yōu)化目標(biāo)搜索策略, 可以提高識(shí)別算法實(shí)時(shí)性。例如使用級(jí)聯(lián)等思想優(yōu)化滑動(dòng)窗口搜索策略。 ( 2)減小目標(biāo)識(shí)別區(qū)域。識(shí)別目標(biāo)的時(shí)間不僅與檢測(cè)算法相關(guān), 還與圖像大小有關(guān), 即搜索窗口的數(shù)目很大程度影響識(shí)別系統(tǒng)的實(shí)時(shí)性。然而檢測(cè)一幅圖像, 其目標(biāo)區(qū)域通常只占整幅圖像的一部分, 探測(cè)器在背景部分浪費(fèi)大量時(shí)間。因此先對(duì)圖像感興趣區(qū)域快速提取, 再對(duì)減小后的區(qū)域進(jìn)行識(shí)別, 可以縮短目標(biāo)搜索時(shí)間, 增強(qiáng)實(shí)時(shí)性。例如可以根據(jù)Cheng等人提出的似物性檢測(cè)理論先進(jìn)行似物性檢測(cè), 后進(jìn)行目標(biāo)識(shí)別。 ( 3)應(yīng)用多線程并行處理。隨著硬件技術(shù)的發(fā)展, 多線程計(jì)算機(jī)已經(jīng)進(jìn)入人們生活, 但是大多識(shí)別算法程序并沒(méi)充分利用這一資源。在特征提取、 目標(biāo)搜索等階段, 通過(guò)設(shè)計(jì)應(yīng)用并行程序, 可以數(shù)倍提高識(shí)別速率, 提高實(shí)時(shí)性。 3.3 改善分類(lèi)器魯棒性 現(xiàn)存識(shí)別算法普遍存在分類(lèi)器魯棒性較差問(wèn)題, 而其主要影響因素為訓(xùn)練樣本集的大小。對(duì)此, 有分類(lèi)器訓(xùn)練優(yōu)化和分類(lèi)器反饋學(xué)習(xí)兩種魯棒性改善思路。 ( 1)分類(lèi)器訓(xùn)練優(yōu)化。由于識(shí)別算法的計(jì)算強(qiáng)度高,學(xué)習(xí)效率低限制了訓(xùn)練樣本集的大小。對(duì)此, 通過(guò)降低分類(lèi)器計(jì)算強(qiáng)度,可以提高初始訓(xùn)練樣本集大小,進(jìn)而來(lái)獲取魯棒性和準(zhǔn)確性的提升。例如有文獻(xiàn)通過(guò)對(duì)濾波器的修改,快速舍棄無(wú)關(guān)特征,減少后期運(yùn)輸量,加快訓(xùn)練速度,從而獲得好的檢測(cè)性能。 ( 2)分類(lèi)器反饋學(xué)習(xí)。目前的模型訓(xùn)練大多需要標(biāo)記樣本, 而樣本的人工標(biāo)記花費(fèi)較大, 使得大規(guī)模訓(xùn)練樣本集難以得到。于是, 從對(duì)標(biāo)記樣本進(jìn)行擴(kuò)展思路, 可以考慮在目標(biāo)識(shí)別過(guò)程中對(duì)分類(lèi)器進(jìn)行反饋學(xué)習(xí)。即將目標(biāo)識(shí)別結(jié)果作為輸入對(duì)分類(lèi)器進(jìn)行訓(xùn)練, 分類(lèi)器邊檢測(cè)邊學(xué)習(xí), 突破訓(xùn)練樣本數(shù)量少、 場(chǎng)景單一等缺點(diǎn), 改善分類(lèi)器的魯棒性。 4 結(jié)束語(yǔ) 目標(biāo)識(shí)別是計(jì)算機(jī)視覺(jué)研究的基本問(wèn)題, 在人工智能等領(lǐng)域具有非常廣闊的實(shí)際應(yīng)用前景。本文大致介紹了目標(biāo)識(shí)別的挑戰(zhàn)、 數(shù)據(jù)庫(kù)、 評(píng)估參數(shù)和識(shí)別系統(tǒng), 并詳細(xì)地闡述了典型識(shí)別算法及其進(jìn)展。以此為基礎(chǔ), 對(duì)識(shí)別技術(shù)的發(fā)展進(jìn)行展望, 闡釋了提高目標(biāo)識(shí)別準(zhǔn)確性、 增強(qiáng)識(shí)別算法實(shí)時(shí)性和改善分類(lèi)器魯棒性是視覺(jué)目標(biāo)識(shí)別算法未來(lái)研究的重點(diǎn)。 | 
|  | 
來(lái)自: taotao_2016 > 《計(jì)算機(jī)》