小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

絕佳的ASR學(xué)習(xí)方案:這是一套開源的中文語音識別系統(tǒng)

 taotao_2016 2019-02-11

作者:AI檸檬博主


語音識別目前已經(jīng)廣泛應(yīng)用于各種領(lǐng)域,那么你會想做一個自己的語音識別系統(tǒng)嗎?這篇文章介紹了一種開源的中文語音識別系統(tǒng),讀者可以借助它快速訓(xùn)練屬于自己的中文語音識別模型,或直接使用預(yù)訓(xùn)練模型測試效果。所以對于那些對語音識別感興趣的讀者而言,這是一個學(xué)習(xí)如何搭建 ASR 系統(tǒng)的極好資料。


ASRT 是一套基于深度學(xué)習(xí)實現(xiàn)的語音識別系統(tǒng),全稱為 Auto Speech Recognition Tool,由 AI 檸檬博主開發(fā)并在 GitHub 上開源(GPL 3.0 協(xié)議)。本項目聲學(xué)模型通過采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連接性時序分類(CTC)方法,使用大量中文語音數(shù)據(jù)集進行訓(xùn)練,將聲音轉(zhuǎn)錄為中文拼音,并通過語言模型,將拼音序列轉(zhuǎn)換為中文文本。基于該模型,作者在 Windows 平臺上實現(xiàn)了一個基于 ASRT 的語音識別應(yīng)用軟件它同樣也在 GitHub 上開源了。


  • ASRT 項目主頁:https://asrt.

  • GitHub 項目地址:https://github.com/nl8590687/ASRT_SpeechRecognition


這個開源項目主要用于語音識別的研究,作者希望它可以一步步發(fā)展為極高準(zhǔn)確率的 ASR 系統(tǒng)。此外,因為模型和訓(xùn)練代碼都是開源的,所以能節(jié)省開發(fā)者很多時間。同樣,如果開發(fā)者想要根據(jù)需求修改這個項目,那也非常簡單,因為 ASRT 的代碼都是經(jīng)過高度封裝的,所有模塊都是可以自定義的。如下展示了該項目的一些特征:



系統(tǒng)流程


特征提?。簩⑵胀ǖ?wav 語音信號通過分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號,即語譜圖。


聲學(xué)模型:基于 Keras 和 TensorFlow 框架,使用這種參考了 VGG 的深層的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,并訓(xùn)練。



CTC 解碼:在語音識別系統(tǒng)的聲學(xué)模型輸出中,往往包含了大量連續(xù)重復(fù)的符號,因此,我們需要將連續(xù)相同的符號合并為同一個符號,然后再去除靜音分隔標(biāo)記符,得到最終實際的語音拼音符號序列。



語言模型:使用統(tǒng)計語言模型,將拼音轉(zhuǎn)換為最終的識別文本并輸出。拼音轉(zhuǎn)文本本質(zhì)被建模為一條隱含馬爾可夫鏈,這種模型有著很高的準(zhǔn)確率。


使用流程


如果讀者希望直接使用預(yù)訓(xùn)練的中文語音識別系統(tǒng),那么直接下載 Release 的文件并運行就好了:


下載地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2


如果讀者希望修改某些模塊,或者在新的數(shù)據(jù)集上進行訓(xùn)練,那么我們可以復(fù)制整個項目到本地,再做進一步處理。首先我們通過 Git 將本項目復(fù)制到本地,并下載訓(xùn)練所需要的數(shù)據(jù)集。作者在項目 README 文件中提供了兩個數(shù)據(jù)集,即清華大學(xué) THCHS30 中文語音數(shù)據(jù)集和 AIShell-1 開源版數(shù)據(jù)集。


$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git


THCHS30 和 ST-CMDS 國內(nèi)下載鏡像:http://cn-mirror./


在下載數(shù)據(jù)集后,我們需要將 datalist 目錄下的所有文件復(fù)制到 dataset 目錄下,也就是將其與數(shù)據(jù)集放在一起:


$ cp -rf datalist/* dataset/


在開始訓(xùn)練前,我們還需要安裝一些依賴庫:


  • python_speech_features

  • TensorFlow

  • Keras

  • wave


當(dāng)然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常見的科學(xué)計算庫也都是需要的。一般有這些包后,環(huán)境應(yīng)該是沒什么問題的,有問題也可以根據(jù)報錯安裝對應(yīng)缺少的庫。


訓(xùn)練模型可以執(zhí)行命令行:


$ python3 train_mspeech.py


測試模型效果可以運行:


$ python3 test_mspeech.py


測試之前,請確保代碼中填寫的模型文件路徑存在。最后,更多的用法和特點可以查看原 GitHub 項目和文檔。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多