|
文章來源:GoogleBlog 翻譯:黃瑋 文章投稿:news@top25.cn 谷歌發(fā)布tf-seq2seq開源框架 4月11日,Google的大腦研究團(tuán)隊發(fā)布了 tf-seq2seq這個開源的TensorFlow框架,它能夠輕易進(jìn)行實(shí)驗(yàn)而達(dá)到現(xiàn)有的效果,團(tuán)隊制作了該框架的代碼庫和模塊等,能夠最好地支持其功能。 去年,該團(tuán)隊發(fā)布了Google神經(jīng)機(jī)器翻譯(GoogleNeural Machine Translation,GNMT),它是一個序列到序列sequence-to-sequence(“seq2seq”)的模型,目前用于Google翻譯系統(tǒng)中。雖然GNMT在翻譯質(zhì)量上有長足的進(jìn)步,但是它還是受限于訓(xùn)練的框架無法對外部研究人員開放的短板。 tf-seq2seq:支持各種標(biāo)準(zhǔn)seq2seq模型的配置
一個seq2seq模型能夠翻譯普通話到英文,每次翻譯中,編碼器都會處理1個漢字(黑色箭頭),并生產(chǎn)一個輸出向量(見藍(lán)色箭頭),解碼器會逐字生成英文翻譯,每次都處理最后一個詞的前一個狀態(tài),并處理一個加權(quán)的所有的編碼輸出(aka attention[3],藍(lán)色),最后輸出下一個英文詞。注意在應(yīng)用中研究人員使用的是wordpieces[4]來處理生詞。 tf-seq2seq:應(yīng)用于各種序列到序列的任務(wù) 除了機(jī)器翻譯外,tf-seq2seq能夠應(yīng)用于序列到序列的任務(wù)(例如學(xué)習(xí)基于一個輸入序列產(chǎn)生輸出序列的情況),包括機(jī)器總結(jié)、圖像處理、語言識別和對話建模。該研究團(tuán)隊希望提出的新框架能夠加速深度學(xué)習(xí)的研究,具體可以見其GitHub的項目庫GitHub repository。 論文摘要 神經(jīng)機(jī)器翻譯(NMT)在過去幾年中取得了顯著的進(jìn)步,現(xiàn)在生產(chǎn)系統(tǒng)正在部署到終端用戶。 目前架構(gòu)的一個主要缺點(diǎn)是訓(xùn)練費(fèi)用昂貴,通常需要幾天到幾周的GPU時間來收斂。 這使得窮盡的超參數(shù)搜索,如通常與其他神經(jīng)網(wǎng)絡(luò)架構(gòu)一樣,非常昂貴。 在這項工作中,我們介紹了NMT架構(gòu)超參數(shù)的第一次大規(guī)模分析。對應(yīng)于GPU上的標(biāo)準(zhǔn)WMT英語超過250000小時的德語翻譯任務(wù)。 我們的實(shí)驗(yàn)為構(gòu)建和擴(kuò)展NMT架構(gòu)提供了新的見解和實(shí)用建議。 作為這一貢獻(xiàn)的一部分,我們發(fā)布了一個開放源碼的NMT框架,使研究人員能夠輕松實(shí)驗(yàn)新技術(shù),并重現(xiàn)現(xiàn)有技術(shù)的結(jié)果。 論文關(guān)鍵數(shù)據(jù)對比:
參考文獻(xiàn)
AIJob社是《全球人工智能》旗下專門為AI開發(fā)工程師免費(fèi)服務(wù)的求職平臺。我們將竭盡全力幫助每一個ai工程師對接自己喜歡的企業(yè),推薦給你喜歡的直接領(lǐng)導(dǎo),幫你談一個最好的薪資待遇。 微信咨詢:aihr007 簡歷投遞:hr@top25.cn 企業(yè)合作:job@top25.cn |
|
|
來自: 愛因思念l5j0t8 > 《資料》