小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

AAAI 2020丨溝壑易填:端到端語(yǔ)音翻譯中預(yù)訓(xùn)練和微調(diào)的銜接方法

 520jefferson 2019-11-25

編者按:在端到端的語(yǔ)音翻譯中,雖然預(yù)訓(xùn)練配合微調(diào)的方法被廣泛使用,但兩個(gè)環(huán)節(jié)尚且不能很好地進(jìn)行銜接。微軟亞洲研究院提出串聯(lián)編碼網(wǎng)絡(luò)(Tandem Connectionist Encoding Network, TCEN),使參與語(yǔ)音翻譯任務(wù)的每個(gè)子網(wǎng)絡(luò)都能夠被預(yù)訓(xùn)練,且預(yù)訓(xùn)練中學(xué)到的參數(shù)都將在微調(diào)過程中使用,從而顯著提升語(yǔ)音翻譯模型性能。


端到端的語(yǔ)音翻譯(Speech Translation, ST)是指將一段源語(yǔ)言語(yǔ)音直接翻譯為目標(biāo)語(yǔ)言的文本,而不產(chǎn)生任何中間表示(比如源語(yǔ)言文本)。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,這個(gè)任務(wù)正受到越來越多的關(guān)注。已有工作表明預(yù)訓(xùn)練和多任務(wù)訓(xùn)練可以顯著提升端到端語(yǔ)音翻譯的效果,通常的做法是分別在語(yǔ)音識(shí)別任務(wù)(Automatic Speech Recognition, ASR)和機(jī)器翻譯任務(wù)(Machine Translation, MT)上訓(xùn)練一個(gè)編碼器-解碼器模型,然后將前者的語(yǔ)音編碼器和后者的文本解碼器組合起來,在語(yǔ)音翻譯的任務(wù)上進(jìn)行微調(diào)。

然而,這種做法使得預(yù)訓(xùn)練和微調(diào)過程存在以下三個(gè)問題:1. 網(wǎng)絡(luò)參數(shù)浪費(fèi),即機(jī)器翻譯模型中文本編碼器學(xué)習(xí)到的源語(yǔ)言的語(yǔ)法語(yǔ)義知識(shí)并沒有在后續(xù)微調(diào)過程中用到,而這部分知識(shí)對(duì)于翻譯任務(wù)而言至關(guān)重要;2. 網(wǎng)絡(luò)功能不匹配,語(yǔ)音編碼器在預(yù)訓(xùn)練中只需要學(xué)習(xí)語(yǔ)音特征,而在后續(xù)任務(wù)中則需要學(xué)習(xí)語(yǔ)法語(yǔ)義知識(shí),任務(wù)難度顯著增加;3. 端到端語(yǔ)音翻譯模型中的注意力機(jī)制無(wú)法參與預(yù)訓(xùn)練。

為了解決以上三個(gè)問題,我們提出了一種新的模型結(jié)構(gòu),稱作串聯(lián)編碼網(wǎng)絡(luò)(Tandem Connectionist Encoding Network, TCEN)。這種結(jié)構(gòu)能夠使參與語(yǔ)音翻譯任務(wù)的每個(gè)子網(wǎng)絡(luò)都能夠被預(yù)訓(xùn)練,且預(yù)訓(xùn)練中學(xué)到的參數(shù)都將在微調(diào)過程中使用。和傳統(tǒng)的預(yù)訓(xùn)練、多任務(wù)學(xué)習(xí)的模式相比,我們提出的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法可以顯著提升語(yǔ)音翻譯模型的性能。

問題形式化:

下文中,我們用 x=(x_1,x_2,…,x_(T_x )) 來表示輸入的語(yǔ)音特征,y^s=(y_1^s,y_2^s,…,y_(T_s)^s) 表示源語(yǔ)言文本,y^t=(y_1^t,y_2^t,…,y_(T_t)^t) 表示目標(biāo)語(yǔ)言文本。在訓(xùn)練中,共有三種可用數(shù)據(jù)集,ASR 數(shù)據(jù)集 A=(x,y^s ), MT 數(shù)據(jù)集 M=(y^s,y^t ) 和 ST 數(shù)據(jù)集 S=(x,y^t)。我們的目標(biāo)是訓(xùn)練一個(gè)端到端模型,能夠直接從 x 生成 y^t。

模型結(jié)構(gòu)

我們的模型結(jié)構(gòu)如圖1所示,它共包含兩個(gè)編碼器:語(yǔ)音編碼器enc_s和文本編碼器enc_t, 以及一個(gè)解碼器dec。其中語(yǔ)音編碼器的作用在于將語(yǔ)音特征進(jìn)行編碼,轉(zhuǎn)換至源語(yǔ)言的詞向量空間。文本編碼器將詞向量編碼,學(xué)習(xí)更深層的語(yǔ)法語(yǔ)義知識(shí),解碼器將根據(jù)編碼器生成的隱向量解碼生成目標(biāo)語(yǔ)言文本。兩個(gè)串聯(lián)編碼器的設(shè)計(jì)使得學(xué)習(xí)語(yǔ)音特征和學(xué)習(xí)語(yǔ)言學(xué)特征的任務(wù)分離開,這樣預(yù)訓(xùn)練任務(wù)中學(xué)到的所有知識(shí)都能夠被利用。然而,這種設(shè)計(jì)導(dǎo)致了子網(wǎng)絡(luò)不一致問題,我們將在后文介紹并提出解決方案。

圖1:模型結(jié)構(gòu)

訓(xùn)練方法

模型訓(xùn)練共分為兩個(gè)部分:預(yù)訓(xùn)練和微調(diào)。

在預(yù)訓(xùn)練中,對(duì)于 ASR 任務(wù)來說,我們?nèi)コ嗽镜慕獯a器,利用 CTC (Connectionist Temporal Classification)損失函數(shù)訓(xùn)練編碼器。給定一個(gè)輸入語(yǔ)音序列 x,語(yǔ)音編碼器產(chǎn)生一個(gè)隱向量序列 h^s, 接著一個(gè) softmax 分類層預(yù)測(cè)出一個(gè) CTC 路徑 π,其中每一個(gè)符號(hào)都屬于源語(yǔ)言詞表或?yàn)榭辗?hào)‘-‘,即:

一個(gè)合法的 CTC 路徑是源語(yǔ)言句子的一個(gè)變體,其中允許出現(xiàn)空符號(hào),或多個(gè)符號(hào)的重復(fù),如下表1示例:

表1:給定語(yǔ)音對(duì)應(yīng)文本,合法 CTC 路徑的兩個(gè)例子

CTC 目標(biāo)函數(shù)將最大化正確句子對(duì)應(yīng)的所有合法路徑的概率和:

對(duì)于機(jī)器翻譯任務(wù)而言,我們則按照通常做法訓(xùn)練一個(gè)編碼器-解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯模型。

在微調(diào)過程中,我們利用預(yù)訓(xùn)練的網(wǎng)絡(luò)模塊初始化一個(gè) TCEN 網(wǎng)絡(luò)結(jié)構(gòu),并交替訓(xùn)練語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音翻譯三個(gè)任務(wù)。對(duì)于每一種任務(wù),我們給它分配一個(gè)更新比例 α,并依照 α_i/(∑_j ·α_j ) 的策略隨機(jī)選擇一個(gè)任務(wù) i。

子網(wǎng)絡(luò)一致性

將兩個(gè)編碼器串聯(lián)相接的方法會(huì)存在子網(wǎng)絡(luò)不一致問題:語(yǔ)義不一致和長(zhǎng)度不一致。具體而言,語(yǔ)音編碼器和文本編碼器在預(yù)訓(xùn)練中是單獨(dú)訓(xùn)練的,而在微調(diào)過程中兩個(gè)編碼器直接相連,無(wú)法保證語(yǔ)音編碼器的輸入和原本文本編碼器的輸入處于同一空間內(nèi),另一方面,語(yǔ)音序列的長(zhǎng)度比文本要長(zhǎng)的多,導(dǎo)致文本編碼器在不同任務(wù)中將接收不同長(zhǎng)度的輸入。針對(duì)這兩個(gè)問題,我們分別提出了如下解決方案。

為了得到語(yǔ)義一致性,我們?cè)陬A(yù)訓(xùn)練過程中共享語(yǔ)音識(shí)別模型中的 CTC 分類層參數(shù)和機(jī)器翻譯模型中的源語(yǔ)言詞向量參數(shù),通過參數(shù)共享,在預(yù)測(cè) CTC 路徑時(shí),觀測(cè)到某一個(gè)標(biāo)簽的概率與語(yǔ)音編碼器輸出隱向量和該標(biāo)簽詞向量的點(diǎn)積成正相關(guān),即:

該目標(biāo)函數(shù)拉近了該隱向量和正確的詞向量之間的距離,使得 h^s 和機(jī)器翻譯中的詞向量屬于同一種分布。

為了獲得長(zhǎng)度一致性,我們對(duì)機(jī)器翻譯的數(shù)據(jù)進(jìn)行了預(yù)處理,通過在源語(yǔ)言句子中添加重復(fù)和空符號(hào),模擬 CTC 路徑的格式。為了達(dá)到這個(gè)目的,我們訓(xùn)練了一個(gè) seq2seq 模型,該模型同時(shí)預(yù)測(cè)出現(xiàn)的詞以及重復(fù)的次數(shù),如圖2所示:

圖2:seq2seq 模型架構(gòu)

接著我們使用該模型處理 MT 數(shù)據(jù)集 M 并得到一個(gè)源語(yǔ)言帶有噪聲的偽數(shù)據(jù)集 M', 在訓(xùn)練 MT 模型時(shí),我們交替從 M 和 M’ 中采樣。

實(shí)驗(yàn)結(jié)果

1. 在 IWSLT18 En-De  數(shù)據(jù)集上基于 LSTM 的實(shí)驗(yàn)結(jié)果

在本實(shí)驗(yàn)中,我們采用了 LSTM 的結(jié)構(gòu),并采用了 subword 和 character 兩種解碼方式進(jìn)行實(shí)驗(yàn)。我們利用 TEDLIUM2 作為擴(kuò)充 ASR 數(shù)據(jù)集,WMT18 En-De 和 WIT3 作為擴(kuò)充 MT 數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如表2所示:

表2:IWSLT18 En-De 數(shù)據(jù)集上基于 LSTM 的實(shí)驗(yàn)結(jié)果

表2顯示,和傳統(tǒng)的預(yù)訓(xùn)練以及多任務(wù)學(xué)習(xí)方式相比,我們的方法顯著提升了翻譯性能。

2. 在IWSLT18 En-De 數(shù)據(jù)集上基于 Transformer 的實(shí)驗(yàn)結(jié)果

為了證明 TCEN 模型框架的適用性,我們進(jìn)一步采用了 Transformer 的模型結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),在該實(shí)驗(yàn)中,我們?nèi)允褂?TEDLIUM2 作為擴(kuò)充 ASR 數(shù)據(jù)集,僅使用 WIT3 作為 MT 數(shù)據(jù)集,并在 tst2013 上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示:

表3:IWSLT18 En-De 數(shù)據(jù)集上基于 Transformer 的實(shí)驗(yàn)結(jié)果


該結(jié)果證明我們的框架在 Transformer 結(jié)構(gòu)中依然有效。

3. 在 Librispeech En-Fr 數(shù)據(jù)集上的實(shí)驗(yàn)

在該實(shí)驗(yàn)中,我們使用了基于 LSTM 的網(wǎng)絡(luò)結(jié)構(gòu),沒有利用額外數(shù)據(jù)進(jìn)行 ASR 及 MT 模型的預(yù)訓(xùn)練。

表4:Librispeech En-Fr 數(shù)據(jù)集上基于 LSTM 的實(shí)驗(yàn)結(jié)果


實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)量小的情況下(100h ASR, 40k MT),我們的方法依然有效。

本文作者:王程一、吳俁、劉樹杰

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多