計(jì)算機(jī)視覺方向簡(jiǎn)介 | 多目標(biāo)跟蹤算法（附源碼）

ZHAOHUI 2019-07-17

展開全文

目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中研究的熱點(diǎn)之一，分為單目標(biāo)跟蹤與多目標(biāo)跟蹤。前者跟蹤視頻畫面中的單個(gè)目標(biāo)，后者則同時(shí)跟蹤視頻畫面中的多個(gè)目標(biāo)，得到這些目標(biāo)的運(yùn)動(dòng)軌跡。

基于視覺的多目標(biāo)跟蹤在近年來越來越多地成為計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn)，主要是因?yàn)槠湓谥悄鼙O(jiān)控、動(dòng)作與行為分析、自動(dòng)駕駛、虛擬現(xiàn)實(shí)和娛樂互動(dòng)等領(lǐng)域都有重要的應(yīng)用。例如，在自動(dòng)駕駛系統(tǒng)中，目標(biāo)跟蹤算法要對(duì)運(yùn)動(dòng)的車、行人、其他動(dòng)物的運(yùn)動(dòng)進(jìn)行跟蹤，對(duì)它們?cè)谖磥淼奈恢?、速度等信息作出預(yù)判；在虛擬現(xiàn)實(shí)領(lǐng)域里，需要根據(jù)攝像頭捕捉到的人物動(dòng)作和軌跡，實(shí)現(xiàn)人機(jī)交互的目的。

那么，跟蹤算法有哪些主要分支？不同的跟蹤算法是如何實(shí)現(xiàn)的呢？讓我們帶著這些問題開始多目標(biāo)跟蹤領(lǐng)域的奇幻之旅吧！

|| 須知

多目標(biāo)跟蹤算法按照軌跡生成的順序可以分為離線的多目標(biāo)跟蹤和在線的多目標(biāo)跟蹤算法。

離線方式的多目標(biāo)跟蹤算法通常構(gòu)造為圖模型。其中，設(shè)計(jì)和計(jì)算檢測(cè)之間的相似度或者距離度量是決定圖模型構(gòu)造正確性的關(guān)鍵。在線方式的多目標(biāo)跟蹤算法根據(jù)當(dāng)前檢測(cè)觀測(cè)，計(jì)算與已有軌跡的匹配關(guān)系。

綜上，計(jì)算合適的匹配度量決定了匹配的正確性。因此，無論是離線方式的多目標(biāo)跟蹤還是在線方式的多目標(biāo)跟蹤算法，學(xué)習(xí)檢測(cè)結(jié)果的特征并計(jì)算匹配相似度或者距離度量都是多目標(biāo)跟蹤算法的關(guān)鍵步驟。

基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的主要任務(wù)是優(yōu)化檢測(cè)之間相似性或距離度量的設(shè)計(jì)。根據(jù)學(xué)習(xí)特征的不同，基于深度學(xué)習(xí)的多目標(biāo)跟蹤可以分為基于深度表觀特征學(xué)習(xí)的多目標(biāo)跟蹤，基于深度相似性度量學(xué)習(xí)的多目標(biāo)跟蹤，以及基于深度高階特征匹配的多目標(biāo)跟蹤，如圖1所示。

圖1 基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法

深度表觀特征：利用圖像識(shí)別任務(wù)中學(xué)習(xí)到的深度特征直接替換現(xiàn)有多目標(biāo)跟蹤算法框架中的表觀特征，或者采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)光流運(yùn)動(dòng)特征，計(jì)算運(yùn)動(dòng)相關(guān)性。

深度相似性度量：學(xué)習(xí)檢測(cè)之間的特征相似性，比如設(shè)計(jì)深度網(wǎng)絡(luò)計(jì)算不同檢測(cè)的距離函數(shù)，相同目標(biāo)的檢測(cè)距離小，不同目標(biāo)的檢測(cè)距離大，從而構(gòu)造關(guān)于檢測(cè)距離的代價(jià)函數(shù)。也可以設(shè)計(jì)二類分類代價(jià)，使相同目標(biāo)的檢測(cè)特征匹配類型為1，而不同目標(biāo)的檢測(cè)特征匹配類型為0,從而學(xué)習(xí)并輸出(0,1)之間的檢測(cè)匹配度。

深度高階特征匹配：如果考慮已有軌跡與檢測(cè)之間的匹配或者軌跡之間的匹配，采用深度學(xué)習(xí)方法可以用于設(shè)計(jì)并計(jì)算軌跡之間的匹配相似度，這種方法可以認(rèn)為是基于深度學(xué)習(xí)的高階特征匹配方法。采用深度學(xué)習(xí)計(jì)算高階特征匹配可以學(xué)習(xí)多幀表觀特征的高階匹配相似性，也可以學(xué)習(xí)運(yùn)動(dòng)特征的匹配相關(guān)度。

下面我將對(duì)一些比較重要的基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法進(jìn)行概述，想要詳細(xì)了解的小伙伴還是要多讀源碼、多看論文，細(xì)細(xì)體會(huì)這些算法背后的深刻含義了，文章的最后我會(huì)給出我看過的一些關(guān)鍵性的論文與源碼傳送門，莫慌！

|| 算法

基于Siamese對(duì)稱網(wǎng)絡(luò)的多目標(biāo)跟蹤算法

Siamese對(duì)稱卷積網(wǎng)絡(luò)是一種檢測(cè)匹配度量學(xué)習(xí)方法，如圖2所示。以兩個(gè)尺寸相同的檢測(cè)圖像塊作為輸入，輸出為這兩個(gè)圖像塊是否屬于同一個(gè)目標(biāo)的判別。

原始的檢測(cè)特征包括正則化的LUV圖像I1和I2，以及具有x,y方向分量的光流圖像O1和O2，把這些圖像縮放到121x53，并且疊加到一起構(gòu)成10個(gè)通道的網(wǎng)絡(luò)輸入特征。卷積網(wǎng)絡(luò)由三個(gè)卷積層(C1、C2、C3)、三個(gè)全連接層(F4、F5、F6)以及一個(gè)2元分類損失層(F7)組成，如圖2所示。

圖2 Siamese對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)

學(xué)習(xí)過程采用經(jīng)典的帶有動(dòng)量的隨機(jī)梯度反向傳播算法。minibatch大小選擇為128，學(xué)習(xí)率初始為0.01。通過50個(gè)回合的訓(xùn)練，可以得到較為優(yōu)化的網(wǎng)絡(luò)參數(shù)。在Siamese網(wǎng)絡(luò)學(xué)習(xí)完成之后，作者采用第六層全連接網(wǎng)絡(luò)的輸出作為表觀特征，為了融合運(yùn)動(dòng)信息，作者又設(shè)計(jì)了6維運(yùn)動(dòng)上下文特征：尺寸相對(duì)變化，位置相對(duì)變化，以及速度相對(duì)變化。

基于Siamese對(duì)稱網(wǎng)絡(luò)的多目標(biāo)跟蹤算法在計(jì)算機(jī)視覺跟蹤領(lǐng)域有著十分重要的地位，由于采用孿生的網(wǎng)絡(luò)結(jié)構(gòu)，使得其能夠更好地利用一套參數(shù)來對(duì)相似的圖像進(jìn)行擬合，達(dá)到快速學(xué)習(xí)跟蹤的目的。這種網(wǎng)絡(luò)結(jié)構(gòu)為后續(xù)的研究工作提供了一個(gè)十分有效的網(wǎng)絡(luò)模板與思路，推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域跟蹤算法的發(fā)展。

基于全連接孿生（Siamese-FC）網(wǎng)絡(luò)的目標(biāo)跟蹤

Siamese-FC與之前提到的Siamese CNN都采用了孿生結(jié)構(gòu)，Siamese-FC的算法結(jié)構(gòu)如圖3所示。

圖3 Siamese-FC網(wǎng)絡(luò)結(jié)構(gòu)

圖中z代表的是模板圖像，算法中使用的是第一幀的groundtruth，x代表的是search region，即在后面的待跟蹤幀中的候選框搜索區(qū)域，φ代表的是一種特征映射操作，將原始圖像映射到特定的特征空間，文中采用的是CNN中的卷積層和pooling層，6×6×128代表z經(jīng)過φ后得到的特征，是一個(gè)128通道6×6大小feature，同理，22×22×128是x經(jīng)過φ后的特征，最后的*代表卷積操作，讓22×22×128的feature被6×6×128的卷積核卷積，得到一個(gè)17×17×1的score map，代表著search region中各個(gè)位置與模板的相似度值。

算法本身是比較搜索區(qū)域與目標(biāo)模板的相似度，最后得到搜索區(qū)域的score map。從原理上來說，這種方法和相關(guān)性濾波的方法很相似。都是在搜索區(qū)域中與目標(biāo)模板進(jìn)行逐點(diǎn)匹配，Siamese-FC算法將這種逐點(diǎn)平移匹配計(jì)算相似度的方法看成一種卷積操作，然后在卷積結(jié)果中找到相似度值最大的點(diǎn)，作為新的目標(biāo)中心。

MDNet的改進(jìn)網(wǎng)絡(luò)——Real-Time MDNet

首先簡(jiǎn)單介紹MDNet, MDNet是一個(gè)純深度的目標(biāo)跟蹤方法，訓(xùn)練時(shí)首先在每一個(gè)視頻中根據(jù)目標(biāo)的位置用高斯分布，均勻分布和隨機(jī)分布結(jié)合的方法采樣取得ROI框，提取對(duì)應(yīng)圖像patch；然后輸入網(wǎng)絡(luò)最后一層（全連接層）后，利用softmax輸出目標(biāo)和背景的概率，然后根據(jù)groundtruth計(jì)算loss反傳，訓(xùn)練時(shí)僅最后一層FC層根據(jù)不同類的視頻而不同，即僅有前面的層共享參數(shù)，目的是學(xué)習(xí)到更魯棒的參數(shù)，檢測(cè)的時(shí)候去掉最后一層，用新的FC層使用第一幀的信息finetune，MDNet的缺點(diǎn)是太慢，FPS~ 1。Real-TimeMDNet提升至FPS～40。

Real-Time MDNet[12]的貢獻(xiàn)是：

1、受Mask R-CNN的啟發(fā)，提出了一種自適應(yīng)的ROIAlign；

2、對(duì)損失函數(shù)進(jìn)行了改進(jìn)，引入了一個(gè)內(nèi)嵌實(shí)例的loss。

自適應(yīng)的ROIAlign:

如果把MDNet比作tracking版的R-CNN，那么RT-MDNet就可以近似的認(rèn)為是tracking版的Mask R-CNN。

原始的MDNet像R-CNN一樣，是先產(chǎn)生proposal，然后用proposal在原圖上摳圖提特征，這就會(huì)像R-CNN一樣在提特征時(shí)產(chǎn)生很多冗余的部分，很自然的，可以像Faster那樣，先提原圖的特征，然后在featuremap上去找RoI，這樣可以大大加快速度。但是普通的RoI Pooling會(huì)在兩次量化的過程中積累很多誤差，這些誤差再積累到tracking的時(shí)序上，最后很可能會(huì)讓模型漂掉。所以自然的又想到了用RoI Pooling的改進(jìn)版，RoIAlign。

然而，當(dāng)RoIAlign中的采樣點(diǎn)間隔太大，會(huì)損失掉featuremap上一些有用的信息。比如，一個(gè)feature map grid上是5×5的點(diǎn)，但是RoIAlign在每個(gè)grid上只采2×2共4個(gè)點(diǎn)，這必然會(huì)導(dǎo)致featuremap上的信息被丟失。所以作者根據(jù)feature map grid的size自適應(yīng)的調(diào)整網(wǎng)格里samplepoints的數(shù)量，來減少信息的損失。這就是自適應(yīng)的ROIAlign。

對(duì)損失函數(shù)的改進(jìn)：

對(duì)Loss的改進(jìn)如圖4所示，引入了內(nèi)嵌實(shí)例的loss，使不同域的目標(biāo)在特征空間的距離相互更遠(yuǎn)，這樣能學(xué)到更有判別力的特征。MDNet僅僅是在每一個(gè)域中區(qū)分目標(biāo)和背景，而當(dāng)目標(biāo)們有相似的外觀時(shí)就不能有效判別不同域中的目標(biāo)，所以作者loss中嵌入了其他視頻中的目標(biāo)來使相互之間更有判別力。

圖4 內(nèi)嵌實(shí)例的loss

基于時(shí)空域關(guān)注模型的多目標(biāo)跟蹤算法

除了采用解決目標(biāo)重識(shí)別問題的深度網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)檢測(cè)匹配特征，還可以根據(jù)多目標(biāo)跟蹤場(chǎng)景的特點(diǎn)，設(shè)計(jì)合適的深度網(wǎng)絡(luò)模型來學(xué)習(xí)檢測(cè)匹配特征。Chu等人對(duì)行人多目標(biāo)跟蹤問題中跟蹤算法發(fā)生漂移進(jìn)行統(tǒng)計(jì)分析，發(fā)現(xiàn)不同行人發(fā)生交互時(shí)，互相遮擋是跟蹤算法產(chǎn)生漂移的重要原因。如圖5。

圖5 互相遮擋導(dǎo)致識(shí)別不準(zhǔn)

針對(duì)這個(gè)問題，他們提出了時(shí)空域關(guān)注模型(STAM)來學(xué)習(xí)遮擋情況，并判別可能出現(xiàn)的干擾目標(biāo)。如圖6所示，空間關(guān)注模型用于生成遮擋發(fā)生時(shí)的特征權(quán)重，對(duì)候選檢測(cè)特征加權(quán)之后，通過分類器進(jìn)行選擇，得到估計(jì)的目標(biāo)跟蹤結(jié)果。時(shí)間關(guān)注模型加權(quán)歷史樣本和當(dāng)前樣本，從而得到加權(quán)的損失函數(shù)，用于在線更新目標(biāo)模型。

圖6 基于時(shí)空域關(guān)注模型

在這個(gè)模型中每個(gè)目標(biāo)獨(dú)立管理并更新自己的時(shí)空域關(guān)注模型，并選擇候選檢測(cè)進(jìn)行跟蹤，因此本質(zhì)上，這種方法是對(duì)單目標(biāo)跟蹤算法在多目標(biāo)跟蹤中的擴(kuò)展。為了區(qū)分不同的目標(biāo)，關(guān)鍵的步驟是如何對(duì)遮擋狀態(tài)進(jìn)行建模和區(qū)分接近的不同目標(biāo)。

空間注意模型用于對(duì)每個(gè)時(shí)刻的遮擋狀態(tài)進(jìn)行分析，空間關(guān)注模型如圖7所示。主要分為三步。第一步是學(xué)習(xí)特征可見圖(visibility map)；第二步是根據(jù)特征可見圖，計(jì)算空間關(guān)注圖(Spatial Attention)；第三步根據(jù)空間關(guān)注圖加權(quán)原特征圖。對(duì)生成的加權(quán)特征圖進(jìn)行卷積和全連接網(wǎng)絡(luò)操作，生成二元分類器判別是否是目標(biāo)自身。最后用得到分類打分，選擇最優(yōu)的跟蹤結(jié)果。

圖7 空間關(guān)注模型步驟

基于LSTM判別融合表觀的多目標(biāo)跟蹤算法

前面介紹的幾個(gè)算法采用的深度網(wǎng)絡(luò)模型都是基于卷積網(wǎng)絡(luò)結(jié)構(gòu)，由于目標(biāo)跟蹤是通過歷史軌跡信息來判斷新的目標(biāo)狀態(tài)，因此，設(shè)計(jì)能夠記憶歷史信息并根據(jù)歷史信息來學(xué)習(xí)匹配相似性的網(wǎng)絡(luò)結(jié)構(gòu)，也是比較可行的算法框架。Sadeghian等人設(shè)計(jì)了基于長(zhǎng)短期記憶循環(huán)網(wǎng)絡(luò)模型(LSTM)的特征融合算法來學(xué)習(xí)軌跡歷史信息與當(dāng)前檢測(cè)之間的匹配相似度。如圖8，首先，軌跡目標(biāo)與檢測(cè)的匹配需要用到三種特征(表觀特征、運(yùn)動(dòng)特征、交互特征)(左)；然后，采用分層的LSTM模型(中)來實(shí)現(xiàn)三種特征的融合；最后，通過相似度的二部圖匹配算法實(shí)現(xiàn)最終的匹配結(jié)果(右)。

圖8 基于LSTM特征融合進(jìn)行跟蹤

對(duì)于表觀特征，首先采用VGG-16卷積網(wǎng)絡(luò)生成500維的特征，以這個(gè)特征作為LSTM的輸入計(jì)算循環(huán)網(wǎng)絡(luò)的輸出，根據(jù)與當(dāng)前時(shí)刻檢測(cè)到的特征匹配的情況來學(xué)習(xí)分類器，并預(yù)訓(xùn)練這個(gè)網(wǎng)絡(luò)，如圖9所示。

圖9 基于CNN模型和LSTM模型的軌跡與檢測(cè)表觀特征匹配架構(gòu)

對(duì)于運(yùn)動(dòng)特征，取相對(duì)位移為基本輸入特征，直接輸入LSTM模型計(jì)算每個(gè)時(shí)刻的輸出。對(duì)于下一時(shí)刻的檢測(cè)，同樣計(jì)算相對(duì)位移,通過全連接網(wǎng)絡(luò)計(jì)算特征，得到500維的特征，并利用二元匹配分類器進(jìn)行網(wǎng)絡(luò)的預(yù)訓(xùn)練。整個(gè)過程如圖10所示。

圖10 基于LSTM模型的軌跡運(yùn)動(dòng)特征匹配架構(gòu)

對(duì)于交互特征，取以目標(biāo)中心位置周圍矩形鄰域內(nèi)其他目標(biāo)所占的相對(duì)位置映射圖作為LSTM模型的輸入特征，計(jì)算輸出特征。同樣通過全連接網(wǎng)絡(luò)計(jì)算500維特征，進(jìn)行分類訓(xùn)練，如圖11所示。

圖11 基于LSTM模型的目標(biāo)交互特征匹配架構(gòu)

當(dāng)三個(gè)特征都計(jì)算之后拼接為完整的特征，輸入到上層的LSTM網(wǎng)絡(luò)，對(duì)輸出的向量進(jìn)行全連接計(jì)算，然后用于匹配分類，匹配正確為1，否則為0。

|| 總結(jié)

目前的基于深度學(xué)習(xí)的多目標(biāo)跟蹤框架在以下兩個(gè)方向取得了較好的進(jìn)展：

(1)結(jié)合多目標(biāo)跟蹤場(chǎng)景對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化，這種考慮跟蹤場(chǎng)景的網(wǎng)絡(luò)設(shè)計(jì)對(duì)于跟蹤結(jié)果有明顯的提升效果。

(2)采用循環(huán)神經(jīng)網(wǎng)絡(luò)，利用歷史信息來表達(dá)跟蹤中的軌跡特征，這是研究跟蹤問題的又一個(gè)重要的方向。

算法的發(fā)展是飛快的，目前也一直有新的優(yōu)秀的跟蹤算法噴涌而出，對(duì)這個(gè)方向比較感興趣的小伙伴們加油了，大家一起來參與到多目標(biāo)跟蹤的領(lǐng)域中來吧！同時(shí)，希望這篇文章能夠幫助那些對(duì)這個(gè)方向還不太了解的小伙伴盡快入門，下面是我列出的一些個(gè)人認(rèn)為比較好的論文和源碼。

|| 論文

[1].C. Kim, F. Li, A. Ciptadi, andJ. Rehg. Multiple Hypothesis Tracking Revisited. In ICCV, 2015.

[2].S. Tang, B. Andres, M.Andriluka, and B. Schiele. Multi-person tracking by multicut and deep matching.In ECCV Workshops, 2016.

[3].L. Lealtaixe, C. Cantonferrer, andK. Schindler, Learning by tracking: Siamese CNN for robust targetassociation, in Proceedings of Computer Vision and Pattern Recognition. 2016.

[4].Bertinetto L,Valmadre J, Henriques, Jo?o F, et al. Fully-Convolutional Siamese Networks for Object Tracking, 2016.

[5].Q. Chu, W. Ouyang, H. Li, X.Wang, B. Liu, N. Yu. Online Multi-Object Tracking Using CNN-based SingleObject Tracker with Spatial-Temporal Attention Mechanism, ICCV 2017.

[6].Sadeghian, A. Alahi, and S.Savarese. Tracking the untrackable: Learning to track multiple cues withlong-term dependencies, ICCV2017.

[7].K. Fang, Y. Xiang, X. Li and S.Savarese, Recurrent Autoregressive Networks for Online Multi-ObjectTracking, In IEEE Winter Conference on Applications of Computer Vision2018.

[8].M. Keuper, E. Levinkov, N.Bonneel, G. Lavou′e, T. Brox, B. Andres. Efficient decomposition of imageand mesh graphs by lifted multicuts, ICCV 2015.

[9].P. Weinzaepfel, J. Revaud, Z.Harchaoui, C. Schmid. DeepFlow: large displacement optical flow with deepmatching, In ICCV 2013.

[10].S. Tang, M. Andriluka, B.Andres, and B. Schiele. Multiple People Tracking with Lifted Multi-cut andPerson Re-identification. In CVPR, 2017.

[11].C. Kim, F. Li, and J. M. Rehg,Multi-object Tracking with Neural Gating Using Bilinear LSTM, inECCV 2018.

[12].Jung I, Son J, Baek M, et al.Real-Time MDNet, European Conference on Computer Vision. 2018.

|| 源碼

http:///vot2016/trackers.html

https://zhuanlan.zhihu.com/p/37856765

https://github.com/martin-danelljan/ECO

https://github.com/huanglianghua/siamrpn-pytorch

https://github.com/zkisthebest/Siamese-RPN

https://github.com/marsmarcin/Da-SiamRPN_No_vot-toolkit

https://github.com/foolwood/DaSiamRPN

https://www.cnblogs.com/wangyong/p/8523814.html

https://handong1587./deep_learning/2015/10/09/tracking.html

https://blog.csdn.net/StayFoolish_Fan/article/details/80432531

https://github.com/makalo/Siamese-RPN-tensorflow

來源：計(jì)算機(jī)視覺life

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

計(jì)算機(jī)視覺方向簡(jiǎn)介 | 多目標(biāo)跟蹤算法（附源碼）