這個權(quán)威賽事上，AI閱讀理解首超人類

BBSBIAN 2018-01-14

展開全文

2018年伊始，人工智能的發(fā)展又迎來一個里程碑時刻。1月3日和5日，兩個研究團(tuán)隊連續(xù)刷新AI閱讀理解得分記錄，并且首次超過人類水平。

SQuAD官網(wǎng)排名

AI閱讀理解得分首超人類

由斯坦福大學(xué)發(fā)起的 SQuAD（Stanford Question Answering Dataset）挑戰(zhàn)賽，被認(rèn)為是目前全球最高水平的AI閱讀理解賽事。

SQuAD官網(wǎng)顯示，阿里巴巴 iDST NLP 團(tuán)隊提交的 SLQA +模型，1月5日在精確匹配(Exact Match)項目上獲得了82.440的分?jǐn)?shù)，刷新了微軟亞洲研究院R-NET模型剛剛于1月3日創(chuàng)造的紀(jì)錄。而這兩個模型的成績都超過了人類在該項目上的得分——82.304。

SQuAD閱讀理解賽事是以超過500篇維基百科文章為基礎(chǔ)，包含了超過10萬個問題-答案組合，是目前世界最大的AI閱讀理解數(shù)據(jù)集。

而且跟CNN/DM，CBT等自然語言處理類數(shù)據(jù)集相比，過往的數(shù)據(jù)集往往只是“完形填空”的形式，即要求AI將一個詞語填寫到文章空白處。而SQuAD則是真正的閱讀理解，需要AI先讀完一段文章，然后回答一個根據(jù)文章提出的問題。

SQuAD問題示例

據(jù)微軟方面介紹，得益于SQuAD所提供的龐大數(shù)據(jù)規(guī)模，參與該項挑戰(zhàn)賽的選手不斷地對成績進(jìn)行刷新，SQuAD挑戰(zhàn)賽也逐步成為行業(yè)內(nèi)公認(rèn)的機器閱讀理解標(biāo)準(zhǔn)水平測試。在今年的ACL大會（自然語言處理領(lǐng)域最頂尖的會議之一）的投稿里，有非常多的論文就是關(guān)于這項挑戰(zhàn)賽的研究，其影響力可見一斑。從ACL 2017論文主題的可視分析中可以看到，“reading comprehension（閱讀理解）”是今年ACL錄取論文中最熱門的關(guān)鍵詞和任務(wù)，廣受自然語言處理領(lǐng)域研究人員的關(guān)注。

SQuAD評分分為精確匹配(Exact Match)和模糊匹配(F1-score)兩種，人類在這兩項的得分分別是 82.3 和 91.2。上述兩個模型目前只是在精確匹配項目上超過人類，而在模糊匹配上仍有大約2.5分的差距。

微軟亞洲研究院機器閱讀團(tuán)隊成員（從左至右：崔磊、韋福如、周明、楊南）

阿里已將技術(shù)用于客服

據(jù)阿里巴巴官方賬號“阿里技術(shù)”介紹阿里巴巴自然語言處理首席科學(xué)家司羅表示，對于解決wiki類客觀知識問答，機器已經(jīng)取得非常好的結(jié)果，我們將繼續(xù)向?qū)νㄓ脙?nèi)容的“能理解會思考”的終極目標(biāo)邁進(jìn)。今后，研發(fā)的重點在于把這項技術(shù)真正應(yīng)用在廣大實際場景，讓機器智能普惠生活。

實事上，這項技術(shù)已經(jīng)在阿里巴巴內(nèi)部被廣泛使用。比如，每年雙11都會有大量的顧客對活動規(guī)則進(jìn)行咨詢。阿里小蜜團(tuán)隊通過使用司羅團(tuán)隊的技術(shù)，讓機器直接對規(guī)則進(jìn)行閱讀，為用戶提供規(guī)則解讀服務(wù)，是最自然的交互方式。

再比如，顧客還會針對單個商品詢問大量的基礎(chǔ)問題，而這些問題其實在商品詳情頁都是有答案的?，F(xiàn)在通過機器閱讀理解技術(shù)，能夠讓機器對詳情頁中的商品描述文本進(jìn)行更為智能地閱讀和回答，降低服務(wù)成本的同時提高購買轉(zhuǎn)化率。

由司羅領(lǐng)導(dǎo)的自然語言處理團(tuán)隊支撐了阿里巴巴整個生態(tài)的技術(shù)需求。由他們研發(fā)的AliNLP自然語言技術(shù)平臺每日調(diào)用1200億+次，Alitranx 翻譯系統(tǒng)提供20個語種在線服務(wù)日調(diào)用量超過7億+次。此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標(biāo)準(zhǔn)計量局TAC評比英文實體分類等大賽中取得全球第一的成績。

中國多個團(tuán)隊排名前列

盡管阿里和微軟是目前僅有的兩個超過人類得分的團(tuán)隊，但是在自然語言處理領(lǐng)域，其實各方研究者的實力相當(dāng)接近，競爭一直很激烈。

從SQuAD官網(wǎng)發(fā)布的榜單來看，去年11月和12月，得分紀(jì)錄已經(jīng)多次被刷新，其中來自中國和美國的團(tuán)隊占據(jù)了最前列的位置，包括騰訊、哈工大&科大訊飛等中國團(tuán)隊都取得了不錯的成績，一些歐洲、韓國和以色列的研究者同樣榜上有名。

微軟亞洲研究院副院長、自然語言計算組負(fù)責(zé)人周明博士表示：“祝賀中國的自然語言理解研究已經(jīng)走在世界前列！整個領(lǐng)域的進(jìn)步需要大家共同的努力和投入來推動。自然語言處理長路漫漫，讓我們共勉?！?nbsp;