|
機器之心原創(chuàng) 作者:虞喵喵 「接下來,NLP 將迎來 60 多年來發(fā)展最迅速的時期?!?/p> 6 月 1 日,在微軟亞洲研究院(MSRA)的自然語言處理(NLP)主題溝通會上,副院長周明博士以《自然語言處理前沿技術(shù)》為主題,分享了不少 NLP 研究心得。 周明博士,圖片來自微軟亞洲研究院微信 周明博士已經(jīng)在 NLP 領(lǐng)域鉆研近 30 年,并已于去年當(dāng)選國際計算語言學(xué)協(xié)會(ACL)候任主席。在過去的研究生涯中,周明博士已發(fā)表了 120 余篇重要會議和期刊論文(包括 50 篇以上的 ACL 文章),擁有 40 余項國際發(fā)明專利。 從 NLP 是什么、MSRA 在 NLP 方向上的最新進(jìn)展以及 NLP 技術(shù)的未來發(fā)展方向三部分,周明博士對 NLP 技術(shù)進(jìn)行了全方位解讀。機器之心取其精華,以饗讀者。 NLP 是人工智能的開端,語言智能是人工智能皇冠上的明珠 數(shù)據(jù)的大幅增強、計算力的大幅提升、深度學(xué)習(xí)實現(xiàn)端對端的訓(xùn)練,這些都是人工智能領(lǐng)域迎來第三次浪潮的原因。 在周明博士看來,促成這股浪潮的還有落地場景的出現(xiàn)。實實在在的場景如搜索引擎、自動駕駛汽車等,給了用戶使用和反饋(如搜索引擎的使用者會為搜索引擎提供訓(xùn)練數(shù)據(jù))的空間,系統(tǒng)就可以使用這些數(shù)據(jù)不斷提升。 在以計算、記憶為基礎(chǔ)的「運算智能」之上,是以聽覺、視覺、觸覺為代表的「感知智能」,反映在人工智能技術(shù)上為語音識別和圖像識別。再之上則是「認(rèn)知智能」,包含語言、知識和推理。金字塔的頂端,則是創(chuàng)造智能。 「語言智能是人工智能皇冠上的明珠」,周明博士說道。 作為國際計算語言學(xué)協(xié)會(ACL)候任主席、NLP 領(lǐng)域資深研究者,周明博士特別強調(diào)語言智能在人工智能領(lǐng)域的標(biāo)志意義。「語言智能是人工智能皇冠上的明珠,如果語言智能能夠突破,與他同屬認(rèn)知智能的知識和推理就會得到長足的發(fā)展,整個人工智能體系就會得到很好的推進(jìn),也有更多的場景可以落地?!?/p> 作為最早設(shè)立的部門之一,微軟亞洲研究院 NLP 研究組已經(jīng)發(fā)表了超過 200 篇頂級會議文章,其中 ACL 論文超過 100 篇,COLING、EMNLP 論文超過 50 篇,IJCAI、AAAI、KDD、SIGIR 論文超過 50 篇。擁有超過 100 項專利,與 10 所高校建立聯(lián)合實驗室,并與超過 16 個高校建立合作。 其與中科院計算所合作開發(fā)的手語翻譯系統(tǒng),還曾得到過 CEO 薩提亞·納德拉(Satya Nadella)上任后首次嘉獎。 機器翻譯、ChatBot…… MSRA NLP 有這四方向進(jìn)展 機器翻譯 自 2007 年微軟基于統(tǒng)計的翻譯系統(tǒng)上線,到 2012 年在 21 世紀(jì)大會上展示實時語音翻譯系統(tǒng),再到 2015 年 Skype Translator 實時語音翻譯技術(shù)上線、2016 年 Microsoft Translator Live Feature(現(xiàn)場翻譯功能)的推出,微軟從未放棄過在機器翻譯技術(shù)、產(chǎn)品方向上的探索。 目前微軟采用的是基于神經(jīng)網(wǎng)絡(luò)的機器翻譯方法。通過對源語言句子使用 LSTM 進(jìn)行雙向編碼,再通過 Attention 模型體現(xiàn)不同隱節(jié)點對翻譯某個目標(biāo)詞的作用,逐詞生成目標(biāo)語言直到句尾。 對于中間的某個階段可能會出現(xiàn)多個翻譯,微軟采用的方法是通過 beam search 方法保留最佳翻譯。神經(jīng)網(wǎng)絡(luò)翻譯中其中最重要的技術(shù)是對源語言的編碼,以及體現(xiàn)不同詞匯翻譯不同作用的 Attention 模型。 MSRA 在機器翻譯上主要有如下 2 項進(jìn)展,均發(fā)表在 ACL 上: 1、引入語言知識 編碼過程往往將源語言和目標(biāo)語言看作字符串,并沒有體會語言內(nèi)在的句法知識和修飾關(guān)系。通過將語言知識引入到神經(jīng)網(wǎng)絡(luò)的編碼,可以得到更佳的翻譯。(具體指標(biāo)見下圖) 2、引入領(lǐng)域知識(Domain Knowledge) 很多領(lǐng)域擁有知識圖譜的,可以納入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)機器翻譯中,以規(guī)劃語言理解的過程。基于的假設(shè)是不同語言的知識圖譜可能是一致的,將輸入句子映射到知識圖譜,再基于知識圖譜增強解碼過程,使得譯文得到進(jìn)一步改善。 在分享會現(xiàn)場,微軟亞洲研究院的研究員張冬冬還展示了微軟在機器翻譯上的最新進(jìn)展——演講翻譯,所有人在進(jìn)入統(tǒng)一虛擬會議室時都可以接收到母語言的演講內(nèi)容(文字、語音),可以幫助提升跨語言會議交流效率。 演講翻譯系統(tǒng)瀏覽器頁面,演講者的口述內(nèi)容會被轉(zhuǎn)換為聆聽者設(shè)定的語言 對話即平臺 由于人們已經(jīng)逐漸習(xí)慣在手機上聊天的體驗,同時手機屏幕很小,相對來說語音的交流會更加自然。因此微軟認(rèn)為圖形界面的下一代將是 CaaP,所謂「對話即平臺」(Conversation as Platform,CaaP)。 作為 CaaP 的技術(shù)基礎(chǔ),通用的對話引擎架構(gòu)往往有兩層,下層為面向任務(wù)的對話、信息服務(wù)和問答、通用聊天三個分別滿足使用者不同需求的系統(tǒng),上層則為調(diào)度系統(tǒng)。通過調(diào)度系統(tǒng)完成任務(wù)的分類和分配,下層系統(tǒng)會根據(jù)不同的需求指向不同的 Bot,從而為用戶提供流暢的交流體驗。 通用對話引擎結(jié)構(gòu)示意圖 為了更快速、更高效的開發(fā) Bot,微軟推出了 Bot Framework。開發(fā)者只用幾行語句,就能開發(fā)出滿足自己需求的 Bot。其中該框架抽取意圖和重要信息的功能,由 LUIS(Language Understanding Intelligent Service,微軟語言理解服務(wù))提供。 在與敦煌研究院合作的過程中,MSRA 通過使用微軟的聊天對話技術(shù)為敦煌研究院快速開發(fā)了相應(yīng)的客服、聊天系統(tǒng),并能輕松集成于同一平臺。 閱讀理解 在語言之外,領(lǐng)域知識和常識往往在 NLP 中有非常重要的作用,閱讀理解正是檢測一個系統(tǒng)是否具備常識的最佳方式之一。 2016 年,斯坦福大學(xué)推出「NLP 領(lǐng)域的 ImageNet」——SQuAD 閱讀理解測試集,通過給定一篇文章并準(zhǔn)備相應(yīng)問題,由算法給出問題的答案。該數(shù)據(jù)集共有 536 篇文章,107785 個相應(yīng)問題,并包含訓(xùn)練、開發(fā)、測試三部分,評判標(biāo)準(zhǔn)分為精確匹配和部分匹配兩部分。 自去年 9 月至今,MSRA 一直在該數(shù)據(jù)集的測試結(jié)果上名列第一,指標(biāo)為 76.922,但距離人類 82 左右的指標(biāo)還有一定距離。 SQuAD 測試集測試結(jié)果,第一位、第四位均為 MSRA 團(tuán)隊開發(fā)的算法系統(tǒng) 中國文化 MSRA 一直在考慮如何將機器翻譯與中國文化相結(jié)合,因此推出了一系列如微軟對聯(lián)、微軟字謎、微軟絕句等產(chǎn)品。 不久前 MSRA 還推出了詩歌創(chuàng)作功能,即用戶提交照片后可以得到與其意境相符的自由體詩歌,并已率先登陸小冰平臺。 NLP 的未來會如何? 在周明博士看來,未來 5-10 年,NLP 技術(shù)走向成熟,并將迎來過去 60 年發(fā)展最迅速的時期。變化將會體現(xiàn)在如下 6 個部分:
通過對趨勢的分析,MSRA 也制定了未來的研究方向,包括:
在問答環(huán)節(jié)中,周明博士還回答了機器之心關(guān)心的 NLP 領(lǐng)域問題,比如 GAN 這種流行的學(xué)習(xí)方法對 NLP 領(lǐng)域是否有很大幫助?在周明博士看來,GAN 對于機器翻譯、信息檢索的確會帶來幫助,微軟也正在研究使用 GAN 來提升機器翻譯。但目前 GAN 與 NLP 的結(jié)合仍處在開始階段,「并沒有突飛猛進(jìn)」。 |
|
|