MIT黑科技：無(wú)需視覺(jué)輸入，立體聲音頻攝像機(jī)元數(shù)據(jù)即可實(shí)現(xiàn)移動(dòng)車輛定位

西北望msm66g9f 2019-11-10

展開(kāi)全文

本文轉(zhuǎn)載自機(jī)器之心。

選自 arXiv

作者：Chuang Gan、Hang Zhao、Peihao Chen、David Cox、Antonio Torralba

機(jī)器之心編譯

聲音在物體定位中會(huì)起到非常重要的作用，人們甚至可以利用自身對(duì)聲音的感知來(lái)定位視線范圍內(nèi)的物體。在本文中，來(lái)自 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室、MIT-IBM 沃森人工智能實(shí)驗(yàn)室團(tuán)隊(duì)的研究者提出了一套利用無(wú)標(biāo)記的視聽(tīng)數(shù)據(jù)來(lái)自監(jiān)督學(xué)習(xí)的算法，僅依靠立體音頻和攝像機(jī)元數(shù)據(jù)就可以在視覺(jué)參考坐標(biāo)系中定位移動(dòng)的車輛。

論文：https:///pdf/1910.11760.pdf
項(xiàng)目鏈接：http://sound-track.csail./

聲音能夠傳達(dá)我們周圍現(xiàn)實(shí)世界的豐富信息，人類非常善于辨別身邊物體產(chǎn)生的聲音。我們經(jīng)?？梢愿鶕?jù)物體發(fā)出的聲音（例如狗叫聲）來(lái)判斷物體是什么，并且可以根據(jù)它們與其他物體相互作用時(shí)發(fā)出的聲音來(lái)判斷材料的屬性（例如它們的軟硬程度）。

此外，我們對(duì)聲音的感知使我們能夠定位不在視線范圍內(nèi)的物體（例如在我們身后或被遮擋的物體），并且在光線不足的條件下，聲音在定位物體方面起著重要作用。重要的是，我們的視覺(jué)和聽(tīng)覺(jué)在根本上是一體的，例如，我們可以通過(guò)看或者閉眼聽(tīng)來(lái)定位目標(biāo)并準(zhǔn)確指出其所在方向。這種將聽(tīng)覺(jué)和視覺(jué)信息融合到共同參考坐標(biāo)系中的本領(lǐng)使我們能夠?qū)⒙?tīng)覺(jué)信息和視覺(jué)信息整合在一起（如果兩者都存在），或者在另一個(gè)不存在時(shí)僅依賴其中一個(gè)。

本文介紹了一種系統(tǒng)，該系統(tǒng)可以利用未標(biāo)記的視聽(tīng)數(shù)據(jù)來(lái)學(xué)習(xí)在視覺(jué)參考坐標(biāo)系中定位物體（移動(dòng)的車輛），而在推斷時(shí)僅使用立體聲即可。由于兩個(gè)空間分離的麥克風(fēng)之間有時(shí)延和聲級(jí)差異，立體音頻可提供有關(guān)物體位置的豐富信息。下圖 1 給出了示例來(lái)說(shuō)明該問(wèn)題的解決方案。

圖 1：以立體聲為輸入，本文提出的跨模態(tài)聽(tīng)覺(jué)定位系統(tǒng)可以完全從立體聲和攝像機(jī)元數(shù)據(jù)中恢復(fù)參考坐標(biāo)系中移動(dòng)車輛的坐標(biāo)，而不需任何視覺(jué)輸入。

由于手動(dòng)注釋音頻和目標(biāo)邊界框之間的關(guān)系需要大量人力成本，因此研究者通過(guò)將未標(biāo)記視頻中的視頻和音頻流的同時(shí)出現(xiàn)作為一種自監(jiān)督的方式來(lái)解決這一問(wèn)題，而無(wú)需通過(guò)真實(shí)標(biāo)注。

具體來(lái)說(shuō)，他們提出了一個(gè)由視覺(jué)「教師」網(wǎng)絡(luò)和立體聲「學(xué)生」網(wǎng)絡(luò)組成的框架。在訓(xùn)練過(guò)程中，使用未標(biāo)記的視頻作為橋梁，將完善的視頻車輛檢測(cè)模型中的知識(shí)遷移到音頻域。在測(cè)試時(shí)，立體聲「學(xué)生」網(wǎng)絡(luò)可以獨(dú)立工作，僅使用立體聲音頻和攝像機(jī)元數(shù)據(jù)就可以進(jìn)行目標(biāo)定位，而無(wú)需任何視覺(jué)輸入。

在新收集的聽(tīng)覺(jué)車輛跟蹤數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果證明，本文提出的方法優(yōu)于幾種基線方法。研究者還證明了他們的跨模態(tài)聽(tīng)覺(jué)定位方法可以在光線不足的情況下幫助移動(dòng)車輛的視覺(jué)定位。

本研究的目標(biāo)是在沒(méi)有任何視頻輸入的情況下，完全從立體聲中恢復(fù)行駛中車輛的坐標(biāo)。這類系統(tǒng)的實(shí)際應(yīng)用場(chǎng)景十分廣泛。例如，可以僅使用麥克風(fēng)來(lái)部署交通監(jiān)控系統(tǒng)，因?yàn)辂溈孙L(fēng)比攝像頭便宜且功耗低，可以保護(hù)隱私，帶寬占用少（僅在前期訓(xùn)練階段才需要攝像頭）。同樣，可以使用融合的視聽(tīng)定位來(lái)增強(qiáng)機(jī)器人的視覺(jué)跟蹤能力，即使在光線不足條件下也可以表現(xiàn)良好。

方法

本方法的核心是觀察到未標(biāo)記視頻中視覺(jué)和聲音之間的自然同步可以作為自監(jiān)督的學(xué)習(xí)形式。因此，機(jī)器可以通過(guò)查看和聽(tīng)到許多產(chǎn)生聲音的移動(dòng)車輛示例來(lái)學(xué)習(xí)預(yù)測(cè)物體的位置。研究者使用師生框架（student-teacher framework）對(duì)學(xué)習(xí)問(wèn)題進(jìn)行建模。他們的系統(tǒng)使用視頻幀和聲音同時(shí)進(jìn)行訓(xùn)練，這使得音頻「學(xué)生」網(wǎng)絡(luò)可以從視頻「教師」網(wǎng)絡(luò)中學(xué)習(xí)如何定位車輛邊界框。

研究者首先介紹了跨模態(tài)聽(tīng)覺(jué)定位系統(tǒng)的基本組成部件，然后介紹了如何通過(guò)使用目標(biāo)檢測(cè)損失和特征對(duì)齊約束訓(xùn)練音頻子網(wǎng)絡(luò)，將視覺(jué)車輛檢測(cè)模型中的知識(shí)轉(zhuǎn)換為給定攝像機(jī)元數(shù)據(jù)的聲音信號(hào)。最后，他們提出了一種時(shí)間平滑方法（temporal smoothing approach）來(lái)跟蹤車輛時(shí)間。。

下圖 2 概述了研究者提出的方法框架。

圖 2：跨模態(tài)聽(tīng)覺(jué)定位「教師-學(xué)生」網(wǎng)絡(luò)框架。

「教師」視覺(jué)子網(wǎng)絡(luò)

本文中的聽(tīng)覺(jué)目標(biāo)定位系統(tǒng)包含兩個(gè)關(guān)鍵組件：「教師」視覺(jué)子網(wǎng)絡(luò)和「學(xué)生」音頻子網(wǎng)絡(luò)。

如上圖 2 所示，研究者將 YOLOv2 [31] 作為基于視覺(jué)的「教師」網(wǎng)絡(luò)，因?yàn)樗芡瑫r(shí)保證目標(biāo)檢測(cè)的速度和準(zhǔn)確性。

YOLOv2 的主干是 Darknet，它由 19 個(gè)卷積層和 5 個(gè)最大池化層組成。為了使其更適合于目標(biāo)檢測(cè)，最后的卷積層被具有 1024 個(gè)濾波器的三個(gè) 3×3 卷積層替換，隨后是一個(gè)需要檢測(cè)輸出數(shù)量的 1×1 卷積層。類似于 ResNet 中使用的恒等映射（identity mapping），從最后的 3×3×512 層到倒數(shù)第二層的卷積層間還有一個(gè)轉(zhuǎn)移層（passthrough layer），以聚合細(xì)粒度級(jí)別的特征。此外，為了使模型更穩(wěn)定且更易于學(xué)習(xí)，網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)錨框位置的定位坐標(biāo)。

為了準(zhǔn)備數(shù)據(jù)，研究者首先將每個(gè)視頻片段分解為多個(gè) T = 1s 的視頻片段，然后選擇每個(gè)片段的中間幀作為「教師」網(wǎng)絡(luò)的輸入。在訓(xùn)練期間，每個(gè)中間視頻幀被輸入到 YOLOv2 模型中，并利用 Pascal VOC 2007 和 VOC 2012 數(shù)據(jù)集來(lái)進(jìn)行預(yù)處理，從而得到車輛檢測(cè)結(jié)果。為了使檢測(cè)結(jié)果更平滑，他們還應(yīng)用了非極大值抑制（non-maximum suppression，NMS）作為后處理。

「學(xué)生」音頻子網(wǎng)絡(luò)

研究者將目標(biāo)檢測(cè)從立體聲轉(zhuǎn)換為回歸問(wèn)題。他們將「教師」視覺(jué)子網(wǎng)絡(luò)產(chǎn)生的目標(biāo)檢測(cè)結(jié)果作為偽標(biāo)簽，然后訓(xùn)練「學(xué)生」音頻子網(wǎng)絡(luò)以直接從音頻信號(hào)中回歸偽邊界框坐標(biāo)。考慮到不同的攝像頭角度對(duì)視覺(jué)內(nèi)容的影響可能會(huì)比音頻更大，因此在訓(xùn)練音頻子網(wǎng)絡(luò)時(shí)，通過(guò)將攝像頭的元數(shù)據(jù)作為輸入來(lái)解決此問(wèn)題。這里的元數(shù)據(jù)包括攝像機(jī)高度、俯仰角以及攝像機(jī)在街道的方位。

研究者首先通過(guò)短時(shí)間傅立葉變換（Short-Time Fourier Transform，STFT）將每個(gè) 1 秒的音頻片段轉(zhuǎn)換成聲譜圖。由于立體聲中有兩個(gè)通道，因此他們分別計(jì)算了它們的聲譜圖，然后將它們疊加作為音頻子網(wǎng)的輸入。

要將輸入音頻頻譜圖的 FT（頻率-時(shí)間）表征轉(zhuǎn)換為視覺(jué)視圖，他們首先使用了 10 個(gè)跨步卷積層，其中每個(gè)卷積層后邊都跟著批歸一化層和 ReLU 激活函數(shù)，作為編碼器將立體聲音信號(hào)壓縮為 1×1×1024 特征圖，從而消除了空間分辨率。然后，他們使用多層感知器將元數(shù)據(jù)編碼為 1×1×128 特征圖。在將壓縮的聲音信息和已編碼的元數(shù)據(jù)進(jìn)行通道連接之后，由 2 個(gè)全連接層和 3 個(gè)反卷積層組成的解碼器將用于重建空間分辨率，并將音頻信息映射到視覺(jué)視圖。最終輸出結(jié)果與 YOLOv2 類似，并且研究者采用 YOLOv2 中使用的目標(biāo)檢測(cè)損失來(lái)訓(xùn)練音頻子網(wǎng)。

實(shí)驗(yàn)

下表 1 是本文方法與基線方法的結(jié)果對(duì)比。

表 1：跨模態(tài)聽(tīng)覺(jué)定位在平均精度（Average Precision，AP）和中心距離（Center Distance，CD）的結(jié)果對(duì)比。

從上表中可以看出，當(dāng)研究者用目標(biāo)檢測(cè)損失和特征對(duì)齊約束來(lái)訓(xùn)練跨模態(tài)聽(tīng)覺(jué)定位時(shí)，它的性能優(yōu)于所有純音頻基線方法。使用跟蹤后處理（tracking post-processing）可以進(jìn)一步提升平均精度，還可以使跟蹤更加一致和平滑。

研究者還分別測(cè)試了單個(gè)車輛和多個(gè)車輛的檢測(cè)情況。結(jié)果如下表 2 所示：

表 2：根據(jù)平均精度（AP）和中心距離（CD）得出的單個(gè)車輛和多個(gè)車輛的聽(tīng)覺(jué)車輛定位結(jié)果。

在下圖 4 中，研究者可視化了輸入聲譜圖和相應(yīng)的立體聲定位結(jié)果。

圖 4：一個(gè)視頻片段的跨模態(tài)聽(tīng)覺(jué)定位結(jié)果及對(duì)應(yīng)輸入聲譜圖的可視化。

如上圖所示，在視頻的開(kāi)頭，圖像的右側(cè)有一輛汽車，并且可以清楚地看到，右聲道的頻譜圖振幅高于左聲道。

對(duì)于無(wú)跟蹤后處理的基線，研究者將 ID 隨機(jī)分配給每個(gè)框，因?yàn)榇祟惢€無(wú)法預(yù)測(cè) ID。結(jié)果如下表 3 所示：

表 3：跟蹤指標(biāo)方面的結(jié)果對(duì)比。

研究者直接將經(jīng)過(guò)白天數(shù)據(jù)訓(xùn)練的音頻子網(wǎng)絡(luò)應(yīng)用于夜間場(chǎng)景，沒(méi)有進(jìn)行任何微調(diào)。結(jié)果如下表 4 所示：

表 4：在惡劣照明條件下的聽(tīng)覺(jué)車輛定位平均精度（AP）。

研究者還可視化了一些有趣示例，如下圖 5 所示：

圖 5：（a）不同場(chǎng)景下跨模態(tài)聽(tīng)覺(jué)定位的可視化以及由于卡車、火車和雜物發(fā)出的嘈雜聲音而檢測(cè)失敗的案例；（b）使用視覺(jué)目標(biāo)定位系統(tǒng)的常見(jiàn)失效示例。

在下表 5 中，我們通過(guò)比較新場(chǎng)景的性能來(lái)探索聽(tīng)覺(jué)目標(biāo)檢測(cè)系統(tǒng)的泛化能力。

表 5：聽(tīng)覺(jué)車輛檢測(cè)系統(tǒng)的泛化結(jié)果。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：西北望msm66g9f > 《培訓(xùn)》

舉報(bào)/認(rèn)領(lǐng)