小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器閱讀理解終于超越人類水平!權(quán)威競(jìng)賽排名中國(guó)霸榜,MSRA、阿里、騰訊前二

 汐鈺文藝范 2018-01-13




來(lái)源:新智元

編輯:劉小芹 弗朗西斯


2018年1月3日,微軟亞洲研究院的r-net率先第一個(gè)在SQuAD machine reading comprehension challenge 上達(dá)到82.650,這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。之后兩天,阿里巴巴iDST也取得佳績(jī),刷新F1分?jǐn)?shù)至88.607, 中國(guó)AI崛起,中國(guó)的自然語(yǔ)言理解研究已經(jīng)走在世界前列。


2018年1月3日,微軟亞洲研究院的r-net率先在SQuAD machine reading comprehension challenge 上達(dá)到82.650,這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。


值得注意的是,其中阿里巴巴數(shù)據(jù)科學(xué)與技術(shù)研究院IDST在1月5日刷新了F1分?jǐn)?shù)至88.607。騰訊NLP團(tuán)隊(duì)在一個(gè)月前的數(shù)據(jù)也緊隨其后,可喜可賀。


在前10名單中,我們看到了中國(guó)團(tuán)隊(duì)的“霸榜”:

  • 并列第1:阿里巴巴 iDST NLP、微軟亞洲研究院

  • 并列第2:微軟亞洲研究院、騰訊DPDAC NLP

  • 并列第4:阿里巴巴 iDST NLP、微軟亞洲研究院

  • 第5:科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室

  • 第9:阿里巴巴 iDST NLP

  • 第10:浙江大學(xué)


包括阿里巴巴、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡內(nèi)基·梅隆大學(xué))、斯坦福大學(xué)等在內(nèi)的全球自然語(yǔ)言處理領(lǐng)域的研究人員,共同推動(dòng)著自然語(yǔ)言理解的進(jìn)步。

 

微軟亞洲研究院副院長(zhǎng)周明在朋友圈評(píng)論:祝賀中國(guó)的自然語(yǔ)言理解研究已經(jīng)走在世界前列!高興的同時(shí)也更加意識(shí)到自然語(yǔ)言理解長(zhǎng)路漫漫,更需繼續(xù)努力。



SQuAD:機(jī)器閱讀理解界的ImageNet


做機(jī)器閱讀理解研究的學(xué)者,想必對(duì)由斯坦福大學(xué)自然語(yǔ)言計(jì)算組發(fā)起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽并不陌生。


它也被譽(yù)為“機(jī)器閱讀理解界的ImageNet”。諸多來(lái)自全球?qū)W術(shù)界和產(chǎn)業(yè)界的研究團(tuán)隊(duì)都積極地參與其中。

 

SQUAD是斯坦福大學(xué)2016年推出的一個(gè)閱讀理解數(shù)據(jù)集,由眾多維基百科文章眾包工作者提出的問(wèn)題組成,其中每個(gè)問(wèn)題的答案都是相應(yīng)閱讀段落的一段文字,需要算法找到答案。


在配套的500多篇文章中,有超過(guò)10萬(wàn)個(gè)問(wèn)題,SQuAD顯著大于以前的閱讀理解數(shù)據(jù)集。

 

那么,SQuAD機(jī)器閱讀理解挑戰(zhàn)賽是怎樣進(jìn)行的呢?SQuAD通過(guò)眾包的方式構(gòu)建了一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集(包含10萬(wàn)個(gè)問(wèn)題)。


即將一篇幾百(平均100,最多800)詞左右的短文給標(biāo)注者閱讀,隨后讓標(biāo)注人員提出最多5個(gè)基于文章內(nèi)容的問(wèn)題并提供正確答案。


SQuAD向參賽者提供訓(xùn)練集用于模型訓(xùn)練,以及一個(gè)規(guī)模較小的數(shù)據(jù)集作為開(kāi)發(fā)集,用于模型的測(cè)試和調(diào)優(yōu)。


與此同時(shí),他們提供了一個(gè)開(kāi)放平臺(tái)供參賽者提交自己的算法,并利用測(cè)試集對(duì)其進(jìn)行評(píng)分,評(píng)分結(jié)果將實(shí)時(shí)地在SQuAD官網(wǎng)上進(jìn)行更新。


R-NET:基于自匹配網(wǎng)絡(luò)的機(jī)器閱讀理解


為了研究機(jī)器閱讀理解問(wèn)題,微軟亞洲研究院NLP團(tuán)隊(duì)試圖去建模人做閱讀理解的過(guò)程。


他們提出一個(gè)名為R-NET的端到端神經(jīng)網(wǎng)絡(luò)模型,該模型的目的是回答針對(duì)給定文本段落的問(wèn)題。


在R-NET的技術(shù)報(bào)告中,他們首先將問(wèn)題和文本與門控注意力循環(huán)網(wǎng)絡(luò)(gated attention-based recurrent networks)相匹配,以獲得question-aware的文本表示。


然后,他們提出一個(gè)self-matching的注意力機(jī)制,通過(guò)將文本自身進(jìn)行匹配來(lái)優(yōu)化表示,從而有效地對(duì)整個(gè)段落中的信息進(jìn)行編碼。


最后,研究人員使用提示網(wǎng)絡(luò)( pointer network)來(lái)定位文本中答案的位置。這個(gè)模型在SQuAD和MS-MARCO數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),在兩個(gè)數(shù)據(jù)集上都取得了很好的結(jié)果。


人在做閱讀理解的過(guò)程中,一個(gè)常見(jiàn)的順序是這樣的:首先閱讀整篇文章,對(duì)文章有一個(gè)初步理解之后再去審題,從而對(duì)問(wèn)題也有了一定認(rèn)知。


第二步,可能就需要將問(wèn)題和文中的部分段落和內(nèi)容做一些關(guān)聯(lián)。例如題干中出現(xiàn)的某些關(guān)鍵已知信息(或證據(jù))的,找出一些候選答案,舉例來(lái)說(shuō):如果問(wèn)題問(wèn)的信息是時(shí)間,那么文中出現(xiàn)的與時(shí)間相關(guān)的信息就可能是候選答案。


第三步,當(dāng)我們將候選答案與問(wèn)題進(jìn)行對(duì)應(yīng)之后,我們還需要綜合全文去看待這些問(wèn)題,進(jìn)行證據(jù)的融合來(lái)輔證答案的正確性。


最后一步,就是針對(duì)自己挑出的答案候選進(jìn)行精篩,最終寫下最正確的答案。


R-NET 模型也分為類似這樣的四層。


最下面的一層做表示學(xué)習(xí),就是給問(wèn)題和文本中的每一個(gè)詞做一個(gè)表示,即深度學(xué)習(xí)里的向量。這里研究組使用的是多層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。


第二步,就是將問(wèn)題中的向量和文本中的向量做一個(gè)比對(duì),這樣就能找出那些問(wèn)題和哪些文字部分比較接近。


接下來(lái),將這些結(jié)果放在全局中進(jìn)行比對(duì)。這些都是通過(guò)注意力機(jī)制達(dá)到的。


最后一步,針對(duì)挑出的答案候選區(qū)中的每一個(gè)詞匯進(jìn)行預(yù)測(cè),哪一個(gè)詞是答案的開(kāi)始,到哪個(gè)詞是答案的結(jié)束。


這樣,系統(tǒng)會(huì)挑出可能性最高的一段文本,最后將答案輸出出來(lái)。整個(gè)過(guò)程就是一個(gè)基于以上四個(gè)層面的神經(jīng)網(wǎng)絡(luò)的端到端系統(tǒng)。


圖:微軟亞洲研究院提出的 R-NET 算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。


其中最為獨(dú)特的部分是第三層文章的自匹配網(wǎng)絡(luò)(Self-Matching Networks),更多細(xì)節(jié)參考技術(shù)報(bào)告。


R-NET:一個(gè)用于閱讀理解和問(wèn)題回答的端到端神經(jīng)網(wǎng)絡(luò)模型,由以下四部分組成:


1)循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器,用于為問(wèn)題和文本建立表示

2)門控匹配層(gated matching layer),用于匹配問(wèn)題和文本

3)自匹配層(self-matching layer),用于整合整個(gè)段落的信息

4)基于答案邊界預(yù)測(cè)層的提示網(wǎng)絡(luò)(pointer-network)


這項(xiàng)工作在SQuAD數(shù)據(jù)集取得了優(yōu)異的結(jié)果。最新的r-net 集成模型(ensemble)取得了EM(完全匹配)82.650分和F1 88.493分,排名第一的成績(jī),r-net(集成模型)、r-net (單模型)和r-net(單模型)也分別取得第2、第4和第14名的成績(jī)。


參考文獻(xiàn):

[1]R-NET: Machine Reading Comprehension with Self-matching Networks, Natural Language Computing Group, Microsoft Research Asia


[2] 機(jī)器閱讀理解界的 ImageNet:他們?yōu)槭裁纯梢蚤L(zhǎng)期穩(wěn)坐第一名

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多