小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

MIT黑科技:無(wú)需視覺(jué)輸入,立體聲音頻 攝像機(jī)元數(shù)據(jù)即可實(shí)現(xiàn)移動(dòng)車輛定位

 西北望msm66g9f 2019-11-10


本文轉(zhuǎn)載自機(jī)器之心。

選自 arXiv

作者:Chuang Gan、Hang Zhao、Peihao Chen、David Cox、Antonio Torralba
機(jī)器之心編譯
聲音在物體定位中會(huì)起到非常重要的作用,人們甚至可以利用自身對(duì)聲音的感知來(lái)定位視線范圍內(nèi)的物體。在本文中,來(lái)自 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室、MIT-IBM 沃森人工智能實(shí)驗(yàn)室團(tuán)隊(duì)的研究者提出了一套利用無(wú)標(biāo)記的視聽(tīng)數(shù)據(jù)來(lái)自監(jiān)督學(xué)習(xí)的算法,僅依靠立體音頻和攝像機(jī)元數(shù)據(jù)就可以在視覺(jué)參考坐標(biāo)系中定位移動(dòng)的車輛。
  • 論文:https:///pdf/1910.11760.pdf

  • 項(xiàng)目鏈接:http://sound-track.csail./

聲音能夠傳達(dá)我們周圍現(xiàn)實(shí)世界的豐富信息,人類非常善于辨別身邊物體產(chǎn)生的聲音。我們經(jīng)??梢愿鶕?jù)物體發(fā)出的聲音(例如狗叫聲)來(lái)判斷物體是什么,并且可以根據(jù)它們與其他物體相互作用時(shí)發(fā)出的聲音來(lái)判斷材料的屬性(例如它們的軟硬程度)。
此外,我們對(duì)聲音的感知使我們能夠定位不在視線范圍內(nèi)的物體(例如在我們身后或被遮擋的物體),并且在光線不足的條件下,聲音在定位物體方面起著重要作用。重要的是,我們的視覺(jué)和聽(tīng)覺(jué)在根本上是一體的,例如,我們可以通過(guò)看或者閉眼聽(tīng)來(lái)定位目標(biāo)并準(zhǔn)確指出其所在方向。這種將聽(tīng)覺(jué)和視覺(jué)信息融合到共同參考坐標(biāo)系中的本領(lǐng)使我們能夠?qū)⒙?tīng)覺(jué)信息和視覺(jué)信息整合在一起(如果兩者都存在),或者在另一個(gè)不存在時(shí)僅依賴其中一個(gè)。
本文介紹了一種系統(tǒng),該系統(tǒng)可以利用未標(biāo)記的視聽(tīng)數(shù)據(jù)來(lái)學(xué)習(xí)在視覺(jué)參考坐標(biāo)系中定位物體(移動(dòng)的車輛),而在推斷時(shí)僅使用立體聲即可。由于兩個(gè)空間分離的麥克風(fēng)之間有時(shí)延和聲級(jí)差異,立體音頻可提供有關(guān)物體位置的豐富信息。下圖 1 給出了示例來(lái)說(shuō)明該問(wèn)題的解決方案。

圖 1:以立體聲為輸入,本文提出的跨模態(tài)聽(tīng)覺(jué)定位系統(tǒng)可以完全從立體聲和攝像機(jī)元數(shù)據(jù)中恢復(fù)參考坐標(biāo)系中移動(dòng)車輛的坐標(biāo),而不需任何視覺(jué)輸入。
由于手動(dòng)注釋音頻和目標(biāo)邊界框之間的關(guān)系需要大量人力成本,因此研究者通過(guò)將未標(biāo)記視頻中的視頻和音頻流的同時(shí)出現(xiàn)作為一種自監(jiān)督的方式來(lái)解決這一問(wèn)題,而無(wú)需通過(guò)真實(shí)標(biāo)注。
具體來(lái)說(shuō),他們提出了一個(gè)由視覺(jué)「教師」網(wǎng)絡(luò)和立體聲「學(xué)生」網(wǎng)絡(luò)組成的框架。在訓(xùn)練過(guò)程中,使用未標(biāo)記的視頻作為橋梁,將完善的視頻車輛檢測(cè)模型中的知識(shí)遷移到音頻域。在測(cè)試時(shí),立體聲「學(xué)生」網(wǎng)絡(luò)可以獨(dú)立工作,僅使用立體聲音頻和攝像機(jī)元數(shù)據(jù)就可以進(jìn)行目標(biāo)定位,而無(wú)需任何視覺(jué)輸入。
在新收集的聽(tīng)覺(jué)車輛跟蹤數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果證明,本文提出的方法優(yōu)于幾種基線方法。研究者還證明了他們的跨模態(tài)聽(tīng)覺(jué)定位方法可以在光線不足的情況下幫助移動(dòng)車輛的視覺(jué)定位。
本研究的目標(biāo)是在沒(méi)有任何視頻輸入的情況下,完全從立體聲中恢復(fù)行駛中車輛的坐標(biāo)。這類系統(tǒng)的實(shí)際應(yīng)用場(chǎng)景十分廣泛。例如,可以僅使用麥克風(fēng)來(lái)部署交通監(jiān)控系統(tǒng),因?yàn)辂溈孙L(fēng)比攝像頭便宜且功耗低,可以保護(hù)隱私,帶寬占用少(僅在前期訓(xùn)練階段才需要攝像頭)。同樣,可以使用融合的視聽(tīng)定位來(lái)增強(qiáng)機(jī)器人的視覺(jué)跟蹤能力,即使在光線不足條件下也可以表現(xiàn)良好。
方法
本方法的核心是觀察到未標(biāo)記視頻中視覺(jué)和聲音之間的自然同步可以作為自監(jiān)督的學(xué)習(xí)形式。因此,機(jī)器可以通過(guò)查看和聽(tīng)到許多產(chǎn)生聲音的移動(dòng)車輛示例來(lái)學(xué)習(xí)預(yù)測(cè)物體的位置。研究者使用師生框架(student-teacher framework)對(duì)學(xué)習(xí)問(wèn)題進(jìn)行建模。他們的系統(tǒng)使用視頻幀和聲音同時(shí)進(jìn)行訓(xùn)練,這使得音頻「學(xué)生」網(wǎng)絡(luò)可以從視頻「教師」網(wǎng)絡(luò)中學(xué)習(xí)如何定位車輛邊界框。
研究者首先介紹了跨模態(tài)聽(tīng)覺(jué)定位系統(tǒng)的基本組成部件,然后介紹了如何通過(guò)使用目標(biāo)檢測(cè)損失和特征對(duì)齊約束訓(xùn)練音頻子網(wǎng)絡(luò),將視覺(jué)車輛檢測(cè)模型中的知識(shí)轉(zhuǎn)換為給定攝像機(jī)元數(shù)據(jù)的聲音信號(hào)。最后,他們提出了一種時(shí)間平滑方法(temporal smoothing approach)來(lái)跟蹤車輛時(shí)間。。
下圖 2 概述了研究者提出的方法框架。

圖 2:跨模態(tài)聽(tīng)覺(jué)定位「教師-學(xué)生」網(wǎng)絡(luò)框架。
「教師」視覺(jué)子網(wǎng)絡(luò)
本文中的聽(tīng)覺(jué)目標(biāo)定位系統(tǒng)包含兩個(gè)關(guān)鍵組件:「教師」視覺(jué)子網(wǎng)絡(luò)和「學(xué)生」音頻子網(wǎng)絡(luò)。
如上圖 2 所示,研究者將 YOLOv2 [31] 作為基于視覺(jué)的「教師」網(wǎng)絡(luò),因?yàn)樗芡瑫r(shí)保證目標(biāo)檢測(cè)的速度和準(zhǔn)確性。
YOLOv2 的主干是 Darknet,它由 19 個(gè)卷積層和 5 個(gè)最大池化層組成。為了使其更適合于目標(biāo)檢測(cè),最后的卷積層被具有 1024 個(gè)濾波器的三個(gè) 3×3 卷積層替換,隨后是一個(gè)需要檢測(cè)輸出數(shù)量的 1×1 卷積層。類似于 ResNet 中使用的恒等映射(identity mapping),從最后的 3×3×512 層到倒數(shù)第二層的卷積層間還有一個(gè)轉(zhuǎn)移層(passthrough layer),以聚合細(xì)粒度級(jí)別的特征。此外,為了使模型更穩(wěn)定且更易于學(xué)習(xí),網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)錨框位置的定位坐標(biāo)。
為了準(zhǔn)備數(shù)據(jù),研究者首先將每個(gè)視頻片段分解為多個(gè) T = 1s 的視頻片段,然后選擇每個(gè)片段的中間幀作為「教師」網(wǎng)絡(luò)的輸入。在訓(xùn)練期間,每個(gè)中間視頻幀被輸入到 YOLOv2 模型中,并利用 Pascal VOC 2007 和 VOC 2012 數(shù)據(jù)集來(lái)進(jìn)行預(yù)處理,從而得到車輛檢測(cè)結(jié)果。為了使檢測(cè)結(jié)果更平滑,他們還應(yīng)用了非極大值抑制(non-maximum suppression,NMS)作為后處理。
「學(xué)生」音頻子網(wǎng)絡(luò)
研究者將目標(biāo)檢測(cè)從立體聲轉(zhuǎn)換為回歸問(wèn)題。他們將「教師」視覺(jué)子網(wǎng)絡(luò)產(chǎn)生的目標(biāo)檢測(cè)結(jié)果作為偽標(biāo)簽,然后訓(xùn)練「學(xué)生」音頻子網(wǎng)絡(luò)以直接從音頻信號(hào)中回歸偽邊界框坐標(biāo)。考慮到不同的攝像頭角度對(duì)視覺(jué)內(nèi)容的影響可能會(huì)比音頻更大,因此在訓(xùn)練音頻子網(wǎng)絡(luò)時(shí),通過(guò)將攝像頭的元數(shù)據(jù)作為輸入來(lái)解決此問(wèn)題。這里的元數(shù)據(jù)包括攝像機(jī)高度、俯仰角以及攝像機(jī)在街道的方位。
研究者首先通過(guò)短時(shí)間傅立葉變換(Short-Time Fourier Transform,STFT)將每個(gè) 1 秒的音頻片段轉(zhuǎn)換成聲譜圖。由于立體聲中有兩個(gè)通道,因此他們分別計(jì)算了它們的聲譜圖,然后將它們疊加作為音頻子網(wǎng)的輸入。
要將輸入音頻頻譜圖的 FT(頻率-時(shí)間)表征轉(zhuǎn)換為視覺(jué)視圖,他們首先使用了 10 個(gè)跨步卷積層,其中每個(gè)卷積層后邊都跟著批歸一化層和 ReLU 激活函數(shù),作為編碼器將立體聲音信號(hào)壓縮為 1×1×1024 特征圖,從而消除了空間分辨率。然后,他們使用多層感知器將元數(shù)據(jù)編碼為 1×1×128 特征圖。在將壓縮的聲音信息和已編碼的元數(shù)據(jù)進(jìn)行通道連接之后,由 2 個(gè)全連接層和 3 個(gè)反卷積層組成的解碼器將用于重建空間分辨率,并將音頻信息映射到視覺(jué)視圖。最終輸出結(jié)果與 YOLOv2 類似,并且研究者采用 YOLOv2 中使用的目標(biāo)檢測(cè)損失來(lái)訓(xùn)練音頻子網(wǎng)。
實(shí)驗(yàn)
下表 1 是本文方法與基線方法的結(jié)果對(duì)比。

表 1:跨模態(tài)聽(tīng)覺(jué)定位在平均精度(Average Precision,AP)和中心距離(Center Distance,CD)的結(jié)果對(duì)比。
從上表中可以看出,當(dāng)研究者用目標(biāo)檢測(cè)損失和特征對(duì)齊約束來(lái)訓(xùn)練跨模態(tài)聽(tīng)覺(jué)定位時(shí),它的性能優(yōu)于所有純音頻基線方法。使用跟蹤后處理(tracking post-processing)可以進(jìn)一步提升平均精度,還可以使跟蹤更加一致和平滑。
研究者還分別測(cè)試了單個(gè)車輛和多個(gè)車輛的檢測(cè)情況。結(jié)果如下表 2 所示:

表 2:根據(jù)平均精度(AP)和中心距離(CD)得出的單個(gè)車輛和多個(gè)車輛的聽(tīng)覺(jué)車輛定位結(jié)果。
在下圖 4 中,研究者可視化了輸入聲譜圖和相應(yīng)的立體聲定位結(jié)果。

圖 4:一個(gè)視頻片段的跨模態(tài)聽(tīng)覺(jué)定位結(jié)果及對(duì)應(yīng)輸入聲譜圖的可視化。
如上圖所示,在視頻的開(kāi)頭,圖像的右側(cè)有一輛汽車,并且可以清楚地看到,右聲道的頻譜圖振幅高于左聲道。
對(duì)于無(wú)跟蹤后處理的基線,研究者將 ID 隨機(jī)分配給每個(gè)框,因?yàn)榇祟惢€無(wú)法預(yù)測(cè) ID。結(jié)果如下表 3 所示:

表 3:跟蹤指標(biāo)方面的結(jié)果對(duì)比。
研究者直接將經(jīng)過(guò)白天數(shù)據(jù)訓(xùn)練的音頻子網(wǎng)絡(luò)應(yīng)用于夜間場(chǎng)景,沒(méi)有進(jìn)行任何微調(diào)。結(jié)果如下表 4 所示:

表 4:在惡劣照明條件下的聽(tīng)覺(jué)車輛定位平均精度(AP)。
研究者還可視化了一些有趣示例,如下圖 5 所示:

圖 5:(a)不同場(chǎng)景下跨模態(tài)聽(tīng)覺(jué)定位的可視化以及由于卡車、火車和雜物發(fā)出的嘈雜聲音而檢測(cè)失敗的案例;(b)使用視覺(jué)目標(biāo)定位系統(tǒng)的常見(jiàn)失效示例。
在下表 5 中,我們通過(guò)比較新場(chǎng)景的性能來(lái)探索聽(tīng)覺(jué)目標(biāo)檢測(cè)系統(tǒng)的泛化能力。

表 5:聽(tīng)覺(jué)車輛檢測(cè)系統(tǒng)的泛化結(jié)果。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多