|
大數(shù)據(jù)文摘作品 記者:譚婧 如果說PC時代的搜索引擎成就了谷歌,造就了這家當今世界最大的數(shù)據(jù)公司,那么隨著智能產(chǎn)品的普及,誰先用現(xiàn)象級產(chǎn)品掌握了語音的入口,誰就將成為AI時代的贏家。 而在今天,沒有哪個入口能比得上月活用戶即將達到10億的微信。 亞馬遜Amazon Echo、蘋果Apple HomePod、谷歌Google Home “語音轉(zhuǎn)換文字對(微信)用戶來講是很剛需的場景。”微信智聆技術(shù)團隊告訴大數(shù)據(jù)文摘記者。確實,相比用“手”和“眼睛”,以及其他以手機和電腦為媒介的操作,“語言”無疑是人類最自然的交互方式。 縱觀海內(nèi)外科技巨頭,多數(shù)通過“智能音箱”這一產(chǎn)品作為切入口。然而目前,在復雜的現(xiàn)實場景中,智能音箱的交互體驗依然有限,比如調(diào)節(jié)空調(diào)溫度的時候,向智能助手喊話可能還不如直接動手按按鈕來得方便。 創(chuàng)新工場人工智能工程院副院長王詠剛也曾公開表示,僅僅是智能音響的喚醒詞背后,就蘊含有巨大的技術(shù)含量:“如果要把喚醒詞做到喚醒成功率70%以上,且喚醒的區(qū)間在1米到10米之間,并兼容眾多不同的噪音環(huán)境,這是一件非常難的事情。對于現(xiàn)在已經(jīng)發(fā)售的智能音響來說,能做到并做好的寥寥無幾。” 相比而言,在微信中的這一應用就貼合得多。微信中常用的“微信語音輸入”、“微信語音轉(zhuǎn)文字”,以及王者榮耀里面的語音轉(zhuǎn)文字功能背后,都由微信智聆團隊提供技術(shù)支撐。 2017年11月微信正式推出微信智聆,這是微信AI團隊基于深度學習理論自研的語音識別技術(shù)。為此騰訊準備了五年,在騰訊產(chǎn)品線微信、QQ、游戲、搜索等數(shù)十個產(chǎn)品中逐步應用。除了微信端,這一技術(shù)還在騰訊的其他產(chǎn)品線發(fā)揮了效用,包括騰訊翻譯君、王者榮耀。騰訊表示這是目前業(yè)界領先的通用語音識別技術(shù)。 在1月15日的微信公開課PRO版之后,大數(shù)據(jù)文摘記者和微信智聆團隊聊了聊語音識別技術(shù)。 大數(shù)據(jù)文摘:語音識別是感知技術(shù)這一類里面前沿的技術(shù),許多人看待這個技術(shù)的時候覺得語音識別似乎已經(jīng)被解決了,微信智聆如何看待現(xiàn)階段語音識別技術(shù)存在的問題和機遇? 微信智聆:語音識別并不是已經(jīng)解決的問題,語音識別的最終目標是任何人,在任何環(huán)境,用任何風格,無論大聲還是小聲,無論是正式還是隨意,說任何領域的話,都可以被準確地識別出來才算。然而,這個目標目前并沒有做到。目前業(yè)內(nèi)比較普遍、成熟的還是環(huán)境基本安靜、偏朗讀方式的語音,這種情況下可達到較高的識別率,基本達到實用。但是,在碰到以下情況的時候,解決得還不夠好: (1) 環(huán)境嘈雜 (2) 遠距離 (3) 重口音或純方言 (4) 口語現(xiàn)象,說的很快,很隨意 (5) 領域很相關(guān),比如涉及到某個專業(yè)領域大量專有名詞。 技術(shù)困難既是機會,更是語音識別賦能社會的機遇。在解決這些問題后,語音識別可走入千家萬戶與千行萬業(yè),真正成為提升社會效率的一個有力工具。 大數(shù)據(jù)文摘:近年來,語音識別技術(shù)取得了長足的進步,微信智聆的核心技術(shù)在哪里? 微信智聆:我們采用了深度學習神經(jīng)網(wǎng)絡LDNN結(jié)構(gòu),在解碼空間,我們使用了大量數(shù)據(jù)訓練的語言模型來盡可能覆蓋更多的語言現(xiàn)象,同時使用了GPU進行推理,大大提升了效率。 大數(shù)據(jù)文摘:盡管采用了深度學習的技術(shù),但語音識別技術(shù)仍然避免不了錯誤,而開發(fā)者的任務就是使得它能夠像人一樣,在有錯誤的時候去進行人機交互,修正錯誤,這需要感知技術(shù)和認知技術(shù)相互的幫助來實現(xiàn)。請問微信智聆如何用這兩種技術(shù)相互幫助的? 微信智聆:目前更多的是通過統(tǒng)計模型在語音識別結(jié)果上做一些文本順滑類的工作,盡可能去保證句子的主干是識別正確的。 大數(shù)據(jù)文摘:微信智聆語音的數(shù)據(jù)有什么樣的特色? |
|
|
來自: 萬皇之皇 > 《事業(yè)機會發(fā)展》