小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

計(jì)算機(jī)視覺方向簡(jiǎn)介 | 多目標(biāo)跟蹤算法(附源碼)

 ZHAOHUI 2019-07-17

目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中研究的熱點(diǎn)之一,分為單目標(biāo)跟蹤與多目標(biāo)跟蹤。前者跟蹤視頻畫面中的單個(gè)目標(biāo),后者則同時(shí)跟蹤視頻畫面中的多個(gè)目標(biāo),得到這些目標(biāo)的運(yùn)動(dòng)軌跡。        

基于視覺的多目標(biāo)跟蹤在近年來越來越多地成為計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn),主要是因?yàn)槠湓谥悄鼙O(jiān)控、動(dòng)作與行為分析、自動(dòng)駕駛、虛擬現(xiàn)實(shí)和娛樂互動(dòng)等領(lǐng)域都有重要的應(yīng)用。例如,在自動(dòng)駕駛系統(tǒng)中,目標(biāo)跟蹤算法要對(duì)運(yùn)動(dòng)的車、行人、其他動(dòng)物的運(yùn)動(dòng)進(jìn)行跟蹤,對(duì)它們?cè)谖磥淼奈恢?、速度等信息作出預(yù)判;在虛擬現(xiàn)實(shí)領(lǐng)域里,需要根據(jù)攝像頭捕捉到的人物動(dòng)作和軌跡,實(shí)現(xiàn)人機(jī)交互的目的。

那么,跟蹤算法有哪些主要分支?不同的跟蹤算法是如何實(shí)現(xiàn)的呢?讓我們帶著這些問題開始多目標(biāo)跟蹤領(lǐng)域的奇幻之旅吧!

|| 須知

多目標(biāo)跟蹤算法按照軌跡生成的順序可以分為離線的多目標(biāo)跟蹤在線的多目標(biāo)跟蹤算法。

離線方式的多目標(biāo)跟蹤算法通常構(gòu)造為圖模型。其中,設(shè)計(jì)和計(jì)算檢測(cè)之間的相似度或者距離度量是決定圖模型構(gòu)造正確性的關(guān)鍵。在線方式的多目標(biāo)跟蹤算法根據(jù)當(dāng)前檢測(cè)觀測(cè),計(jì)算與已有軌跡的匹配關(guān)系。

綜上,計(jì)算合適的匹配度量決定了匹配的正確性。因此,無論是離線方式的多目標(biāo)跟蹤還是在線方式的多目標(biāo)跟蹤算法,學(xué)習(xí)檢測(cè)結(jié)果的特征并計(jì)算匹配相似度或者距離度量都是多目標(biāo)跟蹤算法的關(guān)鍵步驟

基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的主要任務(wù)是優(yōu)化檢測(cè)之間相似性或距離度量的設(shè)計(jì)。根據(jù)學(xué)習(xí)特征的不同,基于深度學(xué)習(xí)的多目標(biāo)跟蹤可以分為基于深度表觀特征學(xué)習(xí)的多目標(biāo)跟蹤,基于深度相似性度量學(xué)習(xí)的多目標(biāo)跟蹤,以及基于深度高階特征匹配的多目標(biāo)跟蹤,如圖1所示。

基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法

深度表觀特征:利用圖像識(shí)別任務(wù)中學(xué)習(xí)到的深度特征直接替換現(xiàn)有多目標(biāo)跟蹤算法框架中的表觀特征,或者采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)光流運(yùn)動(dòng)特征,計(jì)算運(yùn)動(dòng)相關(guān)性。

深度相似性度量:學(xué)習(xí)檢測(cè)之間的特征相似性,比如設(shè)計(jì)深度網(wǎng)絡(luò)計(jì)算不同檢測(cè)的距離函數(shù),相同目標(biāo)的檢測(cè)距離小,不同目標(biāo)的檢測(cè)距離大,從而構(gòu)造關(guān)于檢測(cè)距離的代價(jià)函數(shù)。也可以設(shè)計(jì)二類分類代價(jià),使相同目標(biāo)的檢測(cè)特征匹配類型為1,而不同目標(biāo)的檢測(cè)特征匹配類型為0,從而學(xué)習(xí)并輸出(0,1)之間的檢測(cè)匹配度。

深度高階特征匹配:如果考慮已有軌跡與檢測(cè)之間的匹配或者軌跡之間的匹配,采用深度學(xué)習(xí)方法可以用于設(shè)計(jì)并計(jì)算軌跡之間的匹配相似度,這種方法可以認(rèn)為是基于深度學(xué)習(xí)的高階特征匹配方法。采用深度學(xué)習(xí)計(jì)算高階特征匹配可以學(xué)習(xí)多幀表觀特征的高階匹配相似性,也可以學(xué)習(xí)運(yùn)動(dòng)特征的匹配相關(guān)度。

下面我將對(duì)一些比較重要的基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法進(jìn)行概述,想要詳細(xì)了解的小伙伴還是要多讀源碼、多看論文,細(xì)細(xì)體會(huì)這些算法背后的深刻含義了,文章的最后我會(huì)給出我看過的一些關(guān)鍵性的論文與源碼傳送門,莫慌!

|| 算法

基于Siamese對(duì)稱網(wǎng)絡(luò)的多目標(biāo)跟蹤算法

Siamese對(duì)稱卷積網(wǎng)絡(luò)是一種檢測(cè)匹配度量學(xué)習(xí)方法,如圖2所示。以兩個(gè)尺寸相同的檢測(cè)圖像塊作為輸入,輸出為這兩個(gè)圖像塊是否屬于同一個(gè)目標(biāo)的判別

原始的檢測(cè)特征包括正則化的LUV圖像I1I2,以及具有x,y方向分量的光流圖像O1O2,把這些圖像縮放到121x53,并且疊加到一起構(gòu)成10個(gè)通道的網(wǎng)絡(luò)輸入特征。卷積網(wǎng)絡(luò)由個(gè)卷積層(C1、C2、C3)、個(gè)全連接層(F4、F5、F6)以及一個(gè)2元分類損失層(F7)組成,如圖2所示。

2 Siamese對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)

學(xué)習(xí)過程采用經(jīng)典的帶有動(dòng)量的隨機(jī)梯度反向傳播算法。minibatch大小選擇為128,學(xué)習(xí)率初始為0.01。通過50個(gè)回合的訓(xùn)練,可以得到較為優(yōu)化的網(wǎng)絡(luò)參數(shù)。Siamese網(wǎng)絡(luò)學(xué)習(xí)完成之后,作者采用第六層全連接網(wǎng)絡(luò)的輸出作為表觀特征,為了融合運(yùn)動(dòng)信息,作者又設(shè)計(jì)了6維運(yùn)動(dòng)上下文特征:尺寸相對(duì)變化,位置相對(duì)變化,以及速度相對(duì)變化

基于Siamese對(duì)稱網(wǎng)絡(luò)的多目標(biāo)跟蹤算法在計(jì)算機(jī)視覺跟蹤領(lǐng)域有著十分重要的地位,由于采用孿生的網(wǎng)絡(luò)結(jié)構(gòu),使得其能夠更好地利用一套參數(shù)來對(duì)相似的圖像進(jìn)行擬合,達(dá)到快速學(xué)習(xí)跟蹤的目的。這種網(wǎng)絡(luò)結(jié)構(gòu)為后續(xù)的研究工作提供了一個(gè)十分有效的網(wǎng)絡(luò)模板與思路,推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域跟蹤算法的發(fā)展。

基于全連接孿生(Siamese-FC)網(wǎng)絡(luò)的目標(biāo)跟蹤

Siamese-FC與之前提到的Siamese CNN都采用了孿生結(jié)構(gòu),Siamese-FC的算法結(jié)構(gòu)如圖3所示。

3 Siamese-FC網(wǎng)絡(luò)結(jié)構(gòu)

圖中z代表的是模板圖像,算法中使用的是第一幀的groundtruth,x代表的是search region,即在后面的待跟蹤幀中的候選框搜索區(qū)域,φ代表的是一種特征映射操作,將原始圖像映射到特定的特征空間,文中采用的是CNN中的卷積層和pooling層,6×6×128代表z經(jīng)過φ后得到的特征,是一個(gè)128通道6×6大小feature,同理,22×22×128x經(jīng)過φ后的特征,最后的*代表卷積操作,讓22×22×128的feature被6×6×128的卷積核卷積,得到一個(gè)17×17×1的score map,代表著search region中各個(gè)位置與模板的相似度值。

算法本身是比較搜索區(qū)域與目標(biāo)模板的相似度,最后得到搜索區(qū)域的score map。從原理上來說,這種方法和相關(guān)性濾波的方法很相似。都是在搜索區(qū)域中與目標(biāo)模板進(jìn)行逐點(diǎn)匹配,Siamese-FC算法將這種逐點(diǎn)平移匹配計(jì)算相似度的方法看成一種卷積操作,然后在卷積結(jié)果中找到相似度值最大的點(diǎn),作為新的目標(biāo)中心。

MDNet的改進(jìn)網(wǎng)絡(luò)——Real-Time MDNet

首先簡(jiǎn)單介紹MDNet, MDNet是一個(gè)純深度的目標(biāo)跟蹤方法,訓(xùn)練時(shí)首先在每一個(gè)視頻中根據(jù)目標(biāo)的位置用高斯分布,均勻分布和隨機(jī)分布結(jié)合的方法采樣取得ROI框,提取對(duì)應(yīng)圖像patch;然后輸入網(wǎng)絡(luò)最后一層(全連接層)后,利用softmax輸出目標(biāo)和背景的概率,然后根據(jù)groundtruth計(jì)算loss反傳,訓(xùn)練時(shí)僅最后一層FC層根據(jù)不同類的視頻而不同,即僅有前面的層共享參數(shù),目的是學(xué)習(xí)到更魯棒的參數(shù),檢測(cè)的時(shí)候去掉最后一層,用新的FC層使用第一幀的信息finetune,MDNet的缺點(diǎn)是太慢,FPS~ 1。Real-TimeMDNet提升至FPS40。

Real-Time MDNet[12]的貢獻(xiàn)是:

1、受Mask R-CNN的啟發(fā),提出了一種自適應(yīng)的ROIAlign;

2、對(duì)損失函數(shù)進(jìn)行了改進(jìn),引入了一個(gè)內(nèi)嵌實(shí)例的loss

自適應(yīng)的ROIAlign:

如果把MDNet比作tracking版的R-CNN,那么RT-MDNet就可以近似的認(rèn)為是tracking版的Mask R-CNN。

原始的MDNetR-CNN一樣,是先產(chǎn)生proposal,然后用proposal在原圖上摳圖提特征,這就會(huì)像R-CNN一樣在提特征時(shí)產(chǎn)生很多冗余的部分,很自然的,可以像Faster那樣,先提原圖的特征,然后在featuremap上去找RoI,這樣可以大大加快速度。但是普通的RoI Pooling會(huì)在兩次量化的過程中積累很多誤差,這些誤差再積累到tracking的時(shí)序上,最后很可能會(huì)讓模型漂掉。所以自然的又想到了用RoI Pooling的改進(jìn)版,RoIAlign。

然而,當(dāng)RoIAlign中的采樣點(diǎn)間隔太大,會(huì)損失掉featuremap上一些有用的信息。比如,一個(gè)feature map grid上是5×5的點(diǎn),但是RoIAlign在每個(gè)grid上只采2×2共4個(gè)點(diǎn),這必然會(huì)導(dǎo)致featuremap上的信息被丟失。所以作者根據(jù)feature map gridsize自適應(yīng)的調(diào)整網(wǎng)格里samplepoints的數(shù)量,來減少信息的損失。這就是自適應(yīng)的ROIAlign

對(duì)損失函數(shù)的改進(jìn):

對(duì)Loss的改進(jìn)如圖4所示,引入了內(nèi)嵌實(shí)例的loss,使不同域的目標(biāo)在特征空間的距離相互更遠(yuǎn),這樣能學(xué)到更有判別力的特征。MDNet僅僅是在每一個(gè)域中區(qū)分目標(biāo)和背景,而當(dāng)目標(biāo)們有相似的外觀時(shí)就不能有效判別不同域中的目標(biāo),所以作者loss中嵌入了其他視頻中的目標(biāo)來使相互之間更有判別力

內(nèi)嵌實(shí)例的loss

基于時(shí)空域關(guān)注模型的多目標(biāo)跟蹤算法

除了采用解決目標(biāo)重識(shí)別問題的深度網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)檢測(cè)匹配特征,還可以根據(jù)多目標(biāo)跟蹤場(chǎng)景的特點(diǎn),設(shè)計(jì)合適的深度網(wǎng)絡(luò)模型來學(xué)習(xí)檢測(cè)匹配特征。Chu等人對(duì)行人多目標(biāo)跟蹤問題中跟蹤算法發(fā)生漂移進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)不同行人發(fā)生交互時(shí),互相遮擋是跟蹤算法產(chǎn)生漂移的重要原因。如圖5。

互相遮擋導(dǎo)致識(shí)別不準(zhǔn)

針對(duì)這個(gè)問題,他們提出了時(shí)空域關(guān)注模型(STAM)來學(xué)習(xí)遮擋情況,并判別可能出現(xiàn)的干擾目標(biāo)。如圖6所示,空間關(guān)注模型用于生成遮擋發(fā)生時(shí)的特征權(quán)重,對(duì)候選檢測(cè)特征加權(quán)之后,通過分類器進(jìn)行選擇,得到估計(jì)的目標(biāo)跟蹤結(jié)果。時(shí)間關(guān)注模型加權(quán)歷史樣本和當(dāng)前樣本,從而得到加權(quán)的損失函數(shù),用于在線更新目標(biāo)模型。

基于時(shí)空域關(guān)注模型

在這個(gè)模型中每個(gè)目標(biāo)獨(dú)立管理并更新自己的時(shí)空域關(guān)注模型,并選擇候選檢測(cè)進(jìn)行跟蹤,因此本質(zhì)上,這種方法是對(duì)單目標(biāo)跟蹤算法在多目標(biāo)跟蹤中的擴(kuò)展。為了區(qū)分不同的目標(biāo),關(guān)鍵的步驟是如何對(duì)遮擋狀態(tài)進(jìn)行建模和區(qū)分接近的不同目標(biāo)。

空間注意模型用于對(duì)每個(gè)時(shí)刻的遮擋狀態(tài)進(jìn)行分析,空間關(guān)注模型如圖7所示。主要分為三步。第一步是學(xué)習(xí)特征可見圖(visibility map);第二步是根據(jù)特征可見圖,計(jì)算空間關(guān)注圖(Spatial Attention);第三步根據(jù)空間關(guān)注圖加權(quán)原特征圖。對(duì)生成的加權(quán)特征圖進(jìn)行卷積和全連接網(wǎng)絡(luò)操作,生成二元分類器判別是否是目標(biāo)自身。最后用得到分類打分,選擇最優(yōu)的跟蹤結(jié)果。

空間關(guān)注模型步驟

基于LSTM判別融合表觀的多目標(biāo)跟蹤算法

前面介紹的幾個(gè)算法采用的深度網(wǎng)絡(luò)模型都是基于卷積網(wǎng)絡(luò)結(jié)構(gòu),由于目標(biāo)跟蹤是通過歷史軌跡信息來判斷新的目標(biāo)狀態(tài),因此,設(shè)計(jì)能夠記憶歷史信息并根據(jù)歷史信息來學(xué)習(xí)匹配相似性的網(wǎng)絡(luò)結(jié)構(gòu),也是比較可行的算法框架。Sadeghian等人設(shè)計(jì)了基于長(zhǎng)短期記憶循環(huán)網(wǎng)絡(luò)模型(LSTM)的特征融合算法來學(xué)習(xí)軌跡歷史信息與當(dāng)前檢測(cè)之間的匹配相似度。如圖8,首先,軌跡目標(biāo)與檢測(cè)的匹配需要用到三種特征(表觀特征、運(yùn)動(dòng)特征、交互特征)();然后,采用分層的LSTM模型()來實(shí)現(xiàn)三種特征的融合最后,通過相似度的二部圖匹配算法實(shí)現(xiàn)最終的匹配結(jié)果()。

圖8 基于LSTM特征融合進(jìn)行跟蹤

對(duì)于表觀特征,首先采用VGG-16卷積網(wǎng)絡(luò)生成500維的特征,以這個(gè)特征作為LSTM的輸入計(jì)算循環(huán)網(wǎng)絡(luò)的輸出,根據(jù)與當(dāng)前時(shí)刻檢測(cè)到的特征匹配的情況來學(xué)習(xí)分類器,并預(yù)訓(xùn)練這個(gè)網(wǎng)絡(luò),如圖9所示。

基于CNN模型和LSTM模型的軌跡與檢測(cè)表觀特征匹配架構(gòu)

對(duì)于運(yùn)動(dòng)特征,取相對(duì)位移為基本輸入特征,直接輸入LSTM模型計(jì)算每個(gè)時(shí)刻的輸出。對(duì)于下一時(shí)刻的檢測(cè),同樣計(jì)算相對(duì)位移,通過全連接網(wǎng)絡(luò)計(jì)算特征,得到500維的特征,并利用二元匹配分類器進(jìn)行網(wǎng)絡(luò)的預(yù)訓(xùn)練。整個(gè)過程如圖10所示。

10 基于LSTM模型的軌跡運(yùn)動(dòng)特征匹配架構(gòu)

對(duì)于交互特征,取以目標(biāo)中心位置周圍矩形鄰域內(nèi)其他目標(biāo)所占的相對(duì)位置映射圖作為LSTM模型的輸入特征,計(jì)算輸出特征。同樣通過全連接網(wǎng)絡(luò)計(jì)算500維特征,進(jìn)行分類訓(xùn)練,如圖11所示。

11 基于LSTM模型的目標(biāo)交互特征匹配架構(gòu)

當(dāng)三個(gè)特征都計(jì)算之后拼接為完整的特征,輸入到上層的LSTM網(wǎng)絡(luò),對(duì)輸出的向量進(jìn)行全連接計(jì)算,然后用于匹配分類,匹配正確為1,否則為0。

|| 總結(jié)

目前的基于深度學(xué)習(xí)的多目標(biāo)跟蹤框架在以下兩個(gè)方向取得了較好的進(jìn)展:

(1)結(jié)合多目標(biāo)跟蹤場(chǎng)景對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,這種考慮跟蹤場(chǎng)景的網(wǎng)絡(luò)設(shè)計(jì)對(duì)于跟蹤結(jié)果有明顯的提升效果。

(2)采用循環(huán)神經(jīng)網(wǎng)絡(luò),利用歷史信息來表達(dá)跟蹤中的軌跡特征,這是研究跟蹤問題的又一個(gè)重要的方向。

算法的發(fā)展是飛快的,目前也一直有新的優(yōu)秀的跟蹤算法噴涌而出,對(duì)這個(gè)方向比較感興趣的小伙伴們加油了,大家一起來參與到多目標(biāo)跟蹤的領(lǐng)域中來吧!同時(shí),希望這篇文章能夠幫助那些對(duì)這個(gè)方向還不太了解的小伙伴盡快入門,下面是我列出的一些個(gè)人認(rèn)為比較好的論文和源碼。

|| 論文

[1].C. Kim, F. Li, A. Ciptadi, andJ. Rehg. Multiple Hypothesis Tracking Revisited. In ICCV, 2015.

[2].S. Tang, B. Andres, M.Andriluka, and B. Schiele. Multi-person tracking by multicut and deep matching.In ECCV Workshops, 2016.

[3].L. Lealtaixe, C. Cantonferrer, andK. Schindler, Learning by tracking: Siamese CNN for robust targetassociation, in Proceedings of Computer Vision and Pattern Recognition. 2016.

[4].Bertinetto L,Valmadre J, Henriques, Jo?o F, et al. Fully-Convolutional Siamese Networks for Object Tracking, 2016.

[5].Q. Chu, W. Ouyang, H. Li, X.Wang, B. Liu, N. Yu. Online Multi-Object Tracking Using CNN-based SingleObject Tracker with Spatial-Temporal Attention Mechanism, ICCV 2017.

[6].Sadeghian, A. Alahi, and S.Savarese. Tracking the untrackable: Learning to track multiple cues withlong-term dependencies, ICCV2017.

[7].K. Fang, Y. Xiang, X. Li and S.Savarese, Recurrent Autoregressive Networks for Online Multi-ObjectTracking, In IEEE Winter Conference on Applications of Computer Vision2018.

[8].M. Keuper, E. Levinkov, N.Bonneel, G. Lavou′e, T. Brox, B. Andres. Efficient decomposition of imageand mesh graphs by lifted multicuts, ICCV 2015.

[9].P. Weinzaepfel, J. Revaud, Z.Harchaoui, C. Schmid. DeepFlow: large displacement optical flow with deepmatching, In ICCV 2013.

[10].S. Tang, M. Andriluka, B.Andres, and B. Schiele. Multiple People Tracking with Lifted Multi-cut andPerson Re-identification. In CVPR, 2017.

[11].C. Kim, F. Li, and J. M. Rehg,Multi-object Tracking with Neural Gating Using Bilinear LSTM, inECCV 2018.

[12].Jung I, Son J, Baek M, et al.Real-Time MDNet, European Conference on Computer Vision. 2018.

|| 源碼

http:///vot2016/trackers.html

https://zhuanlan.zhihu.com/p/37856765

https://github.com/martin-danelljan/ECO

https://github.com/huanglianghua/siamrpn-pytorch

https://github.com/zkisthebest/Siamese-RPN

https://github.com/marsmarcin/Da-SiamRPN_No_vot-toolkit

https://github.com/foolwood/DaSiamRPN

https://www.cnblogs.com/wangyong/p/8523814.html

https://handong1587./deep_learning/2015/10/09/tracking.html

https://blog.csdn.net/StayFoolish_Fan/article/details/80432531

https://github.com/makalo/Siamese-RPN-tensorflow

來源:計(jì)算機(jī)視覺life

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多