最新|TensorFlow開源的序列到序列框架：tf-seq2seq

愛因思念l5j0t8 2017-04-13

展開全文

全球人工智能

文章來源：GoogleBlog 翻譯：黃瑋

文章投稿：news@top25.cn

谷歌發(fā)布tf-seq2seq開源框架

4月11日，Google的大腦研究團(tuán)隊發(fā)布了 tf-seq2seq這個開源的TensorFlow框架，它能夠輕易進(jìn)行實(shí)驗(yàn)而達(dá)到現(xiàn)有的效果，團(tuán)隊制作了該框架的代碼庫和模塊等，能夠最好地支持其功能。

去年，該團(tuán)隊發(fā)布了Google神經(jīng)機(jī)器翻譯（GoogleNeural Machine Translation，GNMT），它是一個序列到序列sequence-to-sequence（“seq2seq”）的模型，目前用于Google翻譯系統(tǒng)中。雖然GNMT在翻譯質(zhì)量上有長足的進(jìn)步，但是它還是受限于訓(xùn)練的框架無法對外部研究人員開放的短板。

tf-seq2seq：支持各種標(biāo)準(zhǔn)seq2seq模型的配置

此框架支持各種標(biāo)準(zhǔn)seq2seq模型的配置，例如深度的編碼器和解碼器，注意力機(jī)制，RNN或beam尺寸大小。這些功能讓我們能夠更好地發(fā)現(xiàn)最優(yōu)超參數(shù)，得到更好的框架，詳細(xì)可見團(tuán)隊的文章《神經(jīng)機(jī)器翻譯架構(gòu)的大量探索》（“Massive Explorationof Neural Machine Translation Architectures”）

一個seq2seq模型能夠翻譯普通話到英文，每次翻譯中，編碼器都會處理1個漢字（黑色箭頭），并生產(chǎn)一個輸出向量（見藍(lán)色箭頭），解碼器會逐字生成英文翻譯，每次都處理最后一個詞的前一個狀態(tài)，并處理一個加權(quán)的所有的編碼輸出（aka attention［3］，藍(lán)色），最后輸出下一個英文詞。注意在應(yīng)用中研究人員使用的是wordpieces［4］來處理生詞。

tf-seq2seq：應(yīng)用于各種序列到序列的任務(wù)

除了機(jī)器翻譯外，tf-seq2seq能夠應(yīng)用于序列到序列的任務(wù)（例如學(xué)習(xí)基于一個輸入序列產(chǎn)生輸出序列的情況），包括機(jī)器總結(jié)、圖像處理、語言識別和對話建模。該研究團(tuán)隊希望提出的新框架能夠加速深度學(xué)習(xí)的研究，具體可以見其GitHub的項目庫GitHub repository。

論文摘要

神經(jīng)機(jī)器翻譯（NMT）在過去幾年中取得了顯著的進(jìn)步，現(xiàn)在生產(chǎn)系統(tǒng)正在部署到終端用戶。目前架構(gòu)的一個主要缺點(diǎn)是訓(xùn)練費(fèi)用昂貴，通常需要幾天到幾周的GPU時間來收斂。這使得窮盡的超參數(shù)搜索，如通常與其他神經(jīng)網(wǎng)絡(luò)架構(gòu)一樣，非常昂貴。在這項工作中，我們介紹了NMT架構(gòu)超參數(shù)的第一次大規(guī)模分析。對應(yīng)于GPU上的標(biāo)準(zhǔn)WMT英語超過250000小時的德語翻譯任務(wù)。我們的實(shí)驗(yàn)為構(gòu)建和擴(kuò)展NMT架構(gòu)提供了新的見解和實(shí)用建議。作為這一貢獻(xiàn)的一部分，我們發(fā)布了一個開放源碼的NMT框架，使研究人員能夠輕松實(shí)驗(yàn)新技術(shù)，并重現(xiàn)現(xiàn)有技術(shù)的結(jié)果。

論文關(guān)鍵數(shù)據(jù)對比：

論文地址：https:///pdf/1703.03906.pdf

GitHub資源：https://github.com/google/seq2seq

參考文獻(xiàn)

[1] Massive Exploration of Neural Machine Translation Architectures, Denny Britz, Anna Goldie, Minh-Thang Luong, Quoc Le（https:///pdf/1703.03906.pdf）
[2] Sequence to Sequence Learning with Neural Networks, Ilya Sutskever, Oriol Vinyals, Quoc V. Le. NIPS, 2014（https://papers./paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf）
[3] Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. ICLR, 2015（https:///abs/1409.0473）
[4] Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Technical Report, 2016（https:///abs/1609.08144）
[5] Attention and Augmented Recurrent Neural Networks, Chris Olah, Shan Carter. Distill, 2016（http:///2016/augmented-rnns/）
[6] Neural Machine Translation and Sequence-to-sequence Models: A Tutorial, Graham Neubig（https:///abs/1703.01619）
[7] Sequence-to-Sequence Models, TensorFlow.org（https://www./tutorials/seq2seq）

AIJob社是《全球人工智能》旗下專門為AI開發(fā)工程師免費(fèi)服務(wù)的求職平臺。我們將竭盡全力幫助每一個ai工程師對接自己喜歡的企業(yè)，推薦給你喜歡的直接領(lǐng)導(dǎo)，幫你談一個最好的薪資待遇。

微信咨詢：aihr007 簡歷投遞:hr@top25.cn 企業(yè)合作:job@top25.cn

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：愛因思念l5j0t8 > 《資料》

舉報/認(rèn)領(lǐng)