對話微信智聆團隊：坐擁近10億用戶，微信如何用好語音這一入口？

萬皇之皇 2018-01-19

展開全文

大數(shù)據(jù)文摘作品

記者：譚婧

如果說PC時代的搜索引擎成就了谷歌，造就了這家當今世界最大的數(shù)據(jù)公司，那么隨著智能產(chǎn)品的普及，誰先用現(xiàn)象級產(chǎn)品掌握了語音的入口，誰就將成為AI時代的贏家。

而在今天，沒有哪個入口能比得上月活用戶即將達到10億的微信。

亞馬遜Amazon Echo、蘋果Apple HomePod、谷歌Google Home

“語音轉(zhuǎn)換文字對（微信）用戶來講是很剛需的場景。”微信智聆技術(shù)團隊告訴大數(shù)據(jù)文摘記者。確實，相比用“手”和“眼睛”，以及其他以手機和電腦為媒介的操作，“語言”無疑是人類最自然的交互方式。

縱觀海內(nèi)外科技巨頭，多數(shù)通過“智能音箱”這一產(chǎn)品作為切入口。然而目前，在復雜的現(xiàn)實場景中，智能音箱的交互體驗依然有限，比如調(diào)節(jié)空調(diào)溫度的時候，向智能助手喊話可能還不如直接動手按按鈕來得方便。

創(chuàng)新工場人工智能工程院副院長王詠剛也曾公開表示，僅僅是智能音響的喚醒詞背后，就蘊含有巨大的技術(shù)含量：“如果要把喚醒詞做到喚醒成功率70%以上，且喚醒的區(qū)間在1米到10米之間，并兼容眾多不同的噪音環(huán)境，這是一件非常難的事情。對于現(xiàn)在已經(jīng)發(fā)售的智能音響來說，能做到并做好的寥寥無幾。”

相比而言，在微信中的這一應用就貼合得多。微信中常用的“微信語音輸入”、“微信語音轉(zhuǎn)文字”，以及王者榮耀里面的語音轉(zhuǎn)文字功能背后，都由微信智聆團隊提供技術(shù)支撐。

2017年11月微信正式推出微信智聆，這是微信AI團隊基于深度學習理論自研的語音識別技術(shù)。為此騰訊準備了五年，在騰訊產(chǎn)品線微信、QQ、游戲、搜索等數(shù)十個產(chǎn)品中逐步應用。除了微信端，這一技術(shù)還在騰訊的其他產(chǎn)品線發(fā)揮了效用，包括騰訊翻譯君、王者榮耀。騰訊表示這是目前業(yè)界領先的通用語音識別技術(shù)。

在1月15日的微信公開課PRO版之后，大數(shù)據(jù)文摘記者和微信智聆團隊聊了聊語音識別技術(shù)。

大數(shù)據(jù)文摘：語音識別是感知技術(shù)這一類里面前沿的技術(shù)，許多人看待這個技術(shù)的時候覺得語音識別似乎已經(jīng)被解決了，微信智聆如何看待現(xiàn)階段語音識別技術(shù)存在的問題和機遇？

微信智聆：語音識別并不是已經(jīng)解決的問題，語音識別的最終目標是任何人，在任何環(huán)境，用任何風格，無論大聲還是小聲，無論是正式還是隨意，說任何領域的話，都可以被準確地識別出來才算。然而，這個目標目前并沒有做到。目前業(yè)內(nèi)比較普遍、成熟的還是環(huán)境基本安靜、偏朗讀方式的語音，這種情況下可達到較高的識別率，基本達到實用。但是，在碰到以下情況的時候，解決得還不夠好：

(1) 環(huán)境嘈雜

(2) 遠距離

(3) 重口音或純方言

(4) 口語現(xiàn)象，說的很快，很隨意

(5) 領域很相關(guān)，比如涉及到某個專業(yè)領域大量專有名詞。

技術(shù)困難既是機會，更是語音識別賦能社會的機遇。在解決這些問題后，語音識別可走入千家萬戶與千行萬業(yè)，真正成為提升社會效率的一個有力工具。

大數(shù)據(jù)文摘：近年來，語音識別技術(shù)取得了長足的進步，微信智聆的核心技術(shù)在哪里?

微信智聆：我們采用了深度學習神經(jīng)網(wǎng)絡LDNN結(jié)構(gòu)，在解碼空間，我們使用了大量數(shù)據(jù)訓練的語言模型來盡可能覆蓋更多的語言現(xiàn)象，同時使用了GPU進行推理，大大提升了效率。

大數(shù)據(jù)文摘：盡管采用了深度學習的技術(shù)，但語音識別技術(shù)仍然避免不了錯誤，而開發(fā)者的任務就是使得它能夠像人一樣，在有錯誤的時候去進行人機交互，修正錯誤，這需要感知技術(shù)和認知技術(shù)相互的幫助來實現(xiàn)。請問微信智聆如何用這兩種技術(shù)相互幫助的？

微信智聆：目前更多的是通過統(tǒng)計模型在語音識別結(jié)果上做一些文本順滑類的工作，盡可能去保證句子的主干是識別正確的。

大數(shù)據(jù)文摘：微信智聆語音的數(shù)據(jù)有什么樣的特色？