MIT腦洞研究！只聽6秒語音，就知道你長什么樣，效果好得不敢信

書*金 2019-05-26

展開全文

邊策問耕發(fā)自凹非寺

量子位出品 | 公眾號 QbitAI

500

△ CSAIL所在的MIT Building 32

只聽聲音，就能知道一個人長什么樣？

是的。

大名鼎鼎的麻省理工CSAIL（人工智能實驗室），最近就發(fā)布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段，AI就能推斷出說話者的容貌。

詳細解釋之前，咱們一起試試先。

聽聽下面這段錄音，一共有六段。你能想象出來，說話的人長什么樣么？

怎么樣？你行么？

MIT研究人員，設(shè)計和訓練的神經(jīng)網(wǎng)絡(luò)Speech2Face，就能通過短短的語音片段，推測出說話者的年齡、性別、種族等等多重屬性，然后重建說話人的面部。

下面就是AI聽聲識臉，給出的結(jié)果：

左邊一列是真實的照片，右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來的長相。

500

講真，這個效果讓我們佩服。

這篇論文也入圍了今年的學術(shù)頂級會議CVPR 2019。

當然這個研究也會引發(fā)一些隱私方面的擔憂。不過研究團隊在論文中特別聲明，這個神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例，同一男子分別說中文和英文，AI卻分別還原出了不同的面孔樣貌。當然，這也跟口音、發(fā)聲習慣等相關(guān)。

另外，研究團隊也表示，目前這套系統(tǒng)對還原白人和東亞人的面孔效果更好?？赡苡捎谟《群秃谌说臄?shù)據(jù)較少，還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學，平時我們在打電話時會根據(jù)對方的聲音腦補出相貌特征。

這是因為，年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu)，所有這些都會影響人發(fā)出的聲音。此外，語言、口音、速度通常會體現(xiàn)出一個的民族、地域、文化特征。

AI正是根據(jù)語音和相貌的關(guān)聯(lián)性做出推測。

為此，研究人員提取了幾百萬個YouTube視頻，通過訓練，讓深度神經(jīng)網(wǎng)絡(luò)學習聲音和面部的相關(guān)性，找到說話的人一些基本特征，比如年齡、性別、種族等，并還原出相貌。

而且在這個過程中，不需要人類標記視頻，由模型自我監(jiān)督學習。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上，可能是Speech2Face未來的一種實際應用。

500

模型結(jié)構(gòu)

Speech2Face模型是如何還原人臉的，請看下圖：

500

給這個網(wǎng)絡(luò)輸入一個復雜的聲譜圖，它將會輸出4096-D面部特征，然后使用預訓練的面部解碼器將其還原成面部的標準圖像。

訓練模塊在圖中用橙色部分標記。在訓練過程中，Speech2Face模型不會直接用人臉圖像與原始圖像進行對比，而是與原始圖像的4096-D面部特征對比，省略了恢復面部圖像的步驟。

在訓練完成后，模型在推理過程中才會使用面部解碼器恢復人臉圖像。

訓練過程使用的是AVSpeech數(shù)據(jù)集，它包含幾百萬個YouTube視頻，超過10萬個人物的語音-面部數(shù)據(jù)。

在具體細節(jié)上，研究使用的中每個視頻片段開頭最多6秒鐘的音頻，并從中裁剪出人臉面部趨于，調(diào)整到224×224像素。

500

△從原始圖像提取特征重建的人臉，以及從聲音推測的人臉

之前，也有人研究過聲音推測面部特征，但都是從人的聲音預測一些屬性，然后從數(shù)據(jù)庫中獲取最適合預測屬性的圖像，或者使用這些屬性來生成圖像。

然而，這種方法存在局限性，需要有標簽來監(jiān)督學習，系統(tǒng)的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化，想要獲得穩(wěn)定的輸出結(jié)果，Speech2Face人臉模型的設(shè)計和訓練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用，模型必須學會剔除數(shù)據(jù)中許多不相關(guān)的變化因素，并隱含地提取人臉有意義的內(nèi)部表示。

為了解決這些困難，模型不是直接得到人臉圖像，而是回歸到人臉的低維中間表示。更具體地說，是利用人臉識別模型VGG-Face，并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個4096-D面部特征。

模型的pipeline由兩個主要部分組成：

1、語音編碼器

語音編碼器模塊是一個CNN，將輸入的語音聲譜圖轉(zhuǎn)換成偽人臉特征，并預測面部的低維特征，隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征，并以標準形式（正面和中性表情）產(chǎn)生面部圖像。

在訓練過程中，人臉解碼器是固定的，只訓練預測人臉特征的語音編碼器。語音編碼器是作者自己設(shè)計和訓練的模型，而面部解碼器使用的是前人提出的模型。

將實驗結(jié)果更進一步，Speech2Face還能用于人臉檢索。把基于語音的人臉預測結(jié)果與數(shù)據(jù)庫中的人臉進行比較，系統(tǒng)將給出5個最符合的人臉照片。

1
2
下一頁
余下全文

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：書*金 > 《我的圖書館》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

書*金

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 14個中國文獻網(wǎng)站！22個英文文獻網(wǎng)站！很有用
寶塔面板安裝與使用教程
[轉(zhuǎn)] HP ILO2 使用詳細教程[圖文]
技術(shù)|使用開源工具 nccm 管理 SSH 連接
系統(tǒng)運維|用 Portainer.io 來監(jiān)控和管理 Docker 容器（1）
花了三個月終于把所有的Python庫全部整理了！祝你早日拿到高薪！

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

MIT腦洞研究！只聽6秒語音，就知道你長什么樣，效果好得不敢信

MIT腦洞研究！只聽6秒語音，就知道你長什么樣，效果好得不敢信