|
來(lái)源:新智元 編輯:劉小芹 弗朗西斯 2018年1月3日,微軟亞洲研究院的r-net率先第一個(gè)在SQuAD machine reading comprehension challenge 上達(dá)到82.650,這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。之后兩天,阿里巴巴iDST也取得佳績(jī),刷新F1分?jǐn)?shù)至88.607, 中國(guó)AI崛起,中國(guó)的自然語(yǔ)言理解研究已經(jīng)走在世界前列。 2018年1月3日,微軟亞洲研究院的r-net率先在SQuAD machine reading comprehension challenge 上達(dá)到82.650,這意味著在ExactMatch (精準(zhǔn)匹配)指標(biāo)上首次超越人類在2016年創(chuàng)下的82.304。 值得注意的是,其中阿里巴巴數(shù)據(jù)科學(xué)與技術(shù)研究院IDST在1月5日刷新了F1分?jǐn)?shù)至88.607。騰訊NLP團(tuán)隊(duì)在一個(gè)月前的數(shù)據(jù)也緊隨其后,可喜可賀。 在前10名單中,我們看到了中國(guó)團(tuán)隊(duì)的“霸榜”:
包括阿里巴巴、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡內(nèi)基·梅隆大學(xué))、斯坦福大學(xué)等在內(nèi)的全球自然語(yǔ)言處理領(lǐng)域的研究人員,共同推動(dòng)著自然語(yǔ)言理解的進(jìn)步。
微軟亞洲研究院副院長(zhǎng)周明在朋友圈評(píng)論:祝賀中國(guó)的自然語(yǔ)言理解研究已經(jīng)走在世界前列!高興的同時(shí)也更加意識(shí)到自然語(yǔ)言理解長(zhǎng)路漫漫,更需繼續(xù)努力。 做機(jī)器閱讀理解研究的學(xué)者,想必對(duì)由斯坦福大學(xué)自然語(yǔ)言計(jì)算組發(fā)起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽并不陌生。 它也被譽(yù)為“機(jī)器閱讀理解界的ImageNet”。諸多來(lái)自全球?qū)W術(shù)界和產(chǎn)業(yè)界的研究團(tuán)隊(duì)都積極地參與其中。
SQUAD是斯坦福大學(xué)2016年推出的一個(gè)閱讀理解數(shù)據(jù)集,由眾多維基百科文章眾包工作者提出的問(wèn)題組成,其中每個(gè)問(wèn)題的答案都是相應(yīng)閱讀段落的一段文字,需要算法找到答案。 在配套的500多篇文章中,有超過(guò)10萬(wàn)個(gè)問(wèn)題,SQuAD顯著大于以前的閱讀理解數(shù)據(jù)集。
那么,SQuAD機(jī)器閱讀理解挑戰(zhàn)賽是怎樣進(jìn)行的呢?SQuAD通過(guò)眾包的方式構(gòu)建了一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集(包含10萬(wàn)個(gè)問(wèn)題)。 即將一篇幾百(平均100,最多800)詞左右的短文給標(biāo)注者閱讀,隨后讓標(biāo)注人員提出最多5個(gè)基于文章內(nèi)容的問(wèn)題并提供正確答案。 SQuAD向參賽者提供訓(xùn)練集用于模型訓(xùn)練,以及一個(gè)規(guī)模較小的數(shù)據(jù)集作為開(kāi)發(fā)集,用于模型的測(cè)試和調(diào)優(yōu)。 與此同時(shí),他們提供了一個(gè)開(kāi)放平臺(tái)供參賽者提交自己的算法,并利用測(cè)試集對(duì)其進(jìn)行評(píng)分,評(píng)分結(jié)果將實(shí)時(shí)地在SQuAD官網(wǎng)上進(jìn)行更新。 為了研究機(jī)器閱讀理解問(wèn)題,微軟亞洲研究院NLP團(tuán)隊(duì)試圖去建模人做閱讀理解的過(guò)程。 他們提出一個(gè)名為R-NET的端到端神經(jīng)網(wǎng)絡(luò)模型,該模型的目的是回答針對(duì)給定文本段落的問(wèn)題。 在R-NET的技術(shù)報(bào)告中,他們首先將問(wèn)題和文本與門控注意力循環(huán)網(wǎng)絡(luò)(gated attention-based recurrent networks)相匹配,以獲得question-aware的文本表示。 然后,他們提出一個(gè)self-matching的注意力機(jī)制,通過(guò)將文本自身進(jìn)行匹配來(lái)優(yōu)化表示,從而有效地對(duì)整個(gè)段落中的信息進(jìn)行編碼。 最后,研究人員使用提示網(wǎng)絡(luò)( pointer network)來(lái)定位文本中答案的位置。這個(gè)模型在SQuAD和MS-MARCO數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),在兩個(gè)數(shù)據(jù)集上都取得了很好的結(jié)果。 人在做閱讀理解的過(guò)程中,一個(gè)常見(jiàn)的順序是這樣的:首先閱讀整篇文章,對(duì)文章有一個(gè)初步理解之后再去審題,從而對(duì)問(wèn)題也有了一定認(rèn)知。 第二步,可能就需要將問(wèn)題和文中的部分段落和內(nèi)容做一些關(guān)聯(lián)。例如題干中出現(xiàn)的某些關(guān)鍵已知信息(或證據(jù))的,找出一些候選答案,舉例來(lái)說(shuō):如果問(wèn)題問(wèn)的信息是時(shí)間,那么文中出現(xiàn)的與時(shí)間相關(guān)的信息就可能是候選答案。 第三步,當(dāng)我們將候選答案與問(wèn)題進(jìn)行對(duì)應(yīng)之后,我們還需要綜合全文去看待這些問(wèn)題,進(jìn)行證據(jù)的融合來(lái)輔證答案的正確性。 最后一步,就是針對(duì)自己挑出的答案候選進(jìn)行精篩,最終寫下最正確的答案。 R-NET 模型也分為類似這樣的四層。 最下面的一層做表示學(xué)習(xí),就是給問(wèn)題和文本中的每一個(gè)詞做一個(gè)表示,即深度學(xué)習(xí)里的向量。這里研究組使用的是多層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。 第二步,就是將問(wèn)題中的向量和文本中的向量做一個(gè)比對(duì),這樣就能找出那些問(wèn)題和哪些文字部分比較接近。 接下來(lái),將這些結(jié)果放在全局中進(jìn)行比對(duì)。這些都是通過(guò)注意力機(jī)制達(dá)到的。 最后一步,針對(duì)挑出的答案候選區(qū)中的每一個(gè)詞匯進(jìn)行預(yù)測(cè),哪一個(gè)詞是答案的開(kāi)始,到哪個(gè)詞是答案的結(jié)束。 這樣,系統(tǒng)會(huì)挑出可能性最高的一段文本,最后將答案輸出出來(lái)。整個(gè)過(guò)程就是一個(gè)基于以上四個(gè)層面的神經(jīng)網(wǎng)絡(luò)的端到端系統(tǒng)。 圖:微軟亞洲研究院提出的 R-NET 算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。 其中最為獨(dú)特的部分是第三層文章的自匹配網(wǎng)絡(luò)(Self-Matching Networks),更多細(xì)節(jié)參考技術(shù)報(bào)告。 R-NET:一個(gè)用于閱讀理解和問(wèn)題回答的端到端神經(jīng)網(wǎng)絡(luò)模型,由以下四部分組成: 1)循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器,用于為問(wèn)題和文本建立表示 2)門控匹配層(gated matching layer),用于匹配問(wèn)題和文本 3)自匹配層(self-matching layer),用于整合整個(gè)段落的信息 4)基于答案邊界預(yù)測(cè)層的提示網(wǎng)絡(luò)(pointer-network) 這項(xiàng)工作在SQuAD數(shù)據(jù)集取得了優(yōu)異的結(jié)果。最新的r-net 集成模型(ensemble)取得了EM(完全匹配)82.650分和F1 88.493分,排名第一的成績(jī),r-net(集成模型)、r-net (單模型)和r-net(單模型)也分別取得第2、第4和第14名的成績(jī)。 參考文獻(xiàn): [1]R-NET: Machine Reading Comprehension with Self-matching Networks, Natural Language Computing Group, Microsoft Research Asia |
|
|
來(lái)自: 汐鈺文藝范 > 《信息廣場(chǎng)》