|
·語音識別(Automatic Speech Recognition); ·什么是語音識別? 語音識別是以語音為研究對象,通過信號處理和識別技術讓機器自動識別和理解人類口述的語言后,將語音信號轉換為相應的文本或命令的一門技術。 由語音識別和語音合成、自然語言理解、語義網(wǎng)絡等技術相結合的語音交互正在逐步成為當前多通道、多媒體智能人機交互的主要方式。 ·語音識別流程; 語音識別流程分為訓練和識別兩條線路。 語音信號經(jīng)過前端信號處理、端點檢測等預處理后,逐幀提取語音特征,傳統(tǒng)的特征類型包括有MFCC、PLP、FBANK等特征,提取好的特征會送到解碼器,在訓練好的聲學模型、語言模型之下,找到最為匹配的此序列作為識別結果輸出。 ·語音識別技術模式圖和對應企業(yè)圖; 基礎層:包含大數(shù)據(jù)、計算力和算法三塊,其中大數(shù)據(jù)等接入的是相應領域的第三方服 務商。機器在識別人類的語音指令后接入、提供相應的服務。諸如影視、電影票、餐飲等; 技術層:以科大訊飛為首的語音技術提供商; 應用層:傳統(tǒng)家居環(huán)境中的電視、音箱廠商都給加上了語音識別功能,新增交互方式; 還有智能車載采用語音交互讓手不離開方向盤提高安全系數(shù);還有搜索廠商基于搜索做出來 的語音助手等。 ·自然語言理解(Natural Language Understanding); ·什么是自然語言理解? 自然語言理解即文本理解,和語音圖像的模式識別技術有著本質(zhì)的區(qū)別,語言作為知識 的載體,承載了復雜的信息量,具有高度的抽象性,對語言的理解屬于認知層面,不能僅靠模式匹配的方式完成。 ·自然語言理解的應用:搜索引擎 機器翻譯; 自然語言理解最典型兩種應用為搜索引擎和機器翻譯。 搜索引擎可以在一定程度上理解人類的自然語言,從自然語言中抽取出關鍵內(nèi)容并用于檢索,最終達到搜索引擎和自然語言用戶之間的良好銜接,可以在兩者之間建立起更高效,更深層的信息傳遞。 ·自然語言理解技術在機器翻譯中的應用; 事實上搜索引擎和機器翻譯不分家,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)為其充實了語料庫使得其發(fā)展模態(tài)發(fā)生了質(zhì)的改變?;ヂ?lián)網(wǎng)、移動互聯(lián)網(wǎng)除了將原先線下的信息(原有語料)進行在線化之外,還衍生出來的新型UGC模式:知識分享數(shù)據(jù),像維基百科、百度百科等都是人為校準過的詞條,噪聲??;社交數(shù)據(jù),像微博和微信等展現(xiàn)用戶的個性化、主觀化、時效性,可以用來做個性化推薦、情感傾向分析、以及熱點輿情的檢測和跟蹤等;社區(qū)、論壇數(shù)據(jù),像果殼、知乎等為搜索引擎提供了問答知識、問答資源等數(shù)據(jù)源。 另一方面,因為深度學習采用的層次結構從大規(guī)模數(shù)據(jù)中自發(fā)學習的黑盒子模式是不可解釋的,而以語言為媒介的人與人之間的溝通應該要建立在相互理解的基礎上,所以深度學習在搜索引擎和機器翻譯上的效用沒有語音圖像識別領域來得顯著。 |
|
|