|
TTS之Seed-VC:Seed-VC的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略 Seed-VC 項(xiàng)目簡介2024年9月,Seed-VC是一個先進(jìn)的零樣本語音轉(zhuǎn)換和唱歌語音轉(zhuǎn)換模型,它利用上下文學(xué)習(xí)技術(shù),無需任何訓(xùn)練即可克隆語音。只需提供1到30秒的參考語音,Seed-VC就能轉(zhuǎn)換任意語音到目標(biāo)語音風(fēng)格。該項(xiàng)目目前支持零樣本語音轉(zhuǎn)換、零樣本實(shí)時語音轉(zhuǎn)換和零樣本唱歌語音轉(zhuǎn)換。 GitHub地址:https://github.com/Plachtaa/seed-vc 1、Seed-VC 的特點(diǎn)>> 零樣本語音轉(zhuǎn)換:無需針對目標(biāo)說話人進(jìn)行訓(xùn)練,即可將語音轉(zhuǎn)換成目標(biāo)說話人的聲音。 Seed-VC 的安裝和使用方法1、安裝建議使用Python 3.10版本在Windows或Linux系統(tǒng)上運(yùn)行。安裝依賴包:
2、使用方法:T1、命令行接口???????
參數(shù)說明: source:待轉(zhuǎn)換語音文件的路徑。 target:目標(biāo)語音(參考語音)文件的路徑。 output:輸出目錄的路徑。 diffusion-steps:擴(kuò)散步驟數(shù),默認(rèn)25,唱歌語音轉(zhuǎn)換建議使用50-100,快速轉(zhuǎn)換可以使用4-10。 length-adjust:長度調(diào)整因子,默認(rèn)1.0,小于1.0加快語音速度,大于1.0減慢語音速度。 inference-cfg-rate:對輸出有細(xì)微影響,默認(rèn)0.7。 f0-condition:是否根據(jù)源音頻的音高調(diào)整輸出音高,默認(rèn)False,唱歌語音轉(zhuǎn)換設(shè)置為True。 auto-f0-adjust:是否自動調(diào)整源音頻音高到目標(biāo)音高水平,默認(rèn)False,唱歌語音轉(zhuǎn)換通常不使用。 semi-tone-shift:唱歌語音轉(zhuǎn)換的音高偏移(半音),默認(rèn)0。 T2、Gradio 網(wǎng)頁界面運(yùn)行 python app.py,然后在瀏覽器打開 http://localhost:7860/ 使用網(wǎng)頁界面。
T3、在線測試測試地址:Seed-VC 3、實(shí)時語音轉(zhuǎn)換GUI運(yùn)行 python real-time-gui.py。強(qiáng)烈建議使用GPU進(jìn)行實(shí)時語音轉(zhuǎn)換。 項(xiàng)目中提供了不同GPU配置下的參數(shù)建議,以優(yōu)化性能和質(zhì)量。
Seed-VC 的案例應(yīng)用項(xiàng)目提供了大量的客觀評估結(jié)果,包括零樣本語音轉(zhuǎn)換和零樣本唱歌語音轉(zhuǎn)換的評估。 1、零樣本語音轉(zhuǎn)換評估使用LibriTTS-test-clean數(shù)據(jù)集的100個隨機(jī)語句作為源音頻,以及12個隨機(jī)選擇的真實(shí)語音作為參考音頻。評估指標(biāo)包括說話人嵌入余弦相似度(SECS)、詞錯誤率(WER)和字符錯誤率(CER)。結(jié)果表明,Seed-VC顯著優(yōu)于OpenVoice和CosyVoice基準(zhǔn)模型。 還與非零樣本模型(So-VITS-4.0)進(jìn)行了比較,結(jié)果顯示Seed-VC即使未在目標(biāo)說話人上進(jìn)行訓(xùn)練,也能取得更好的結(jié)果。
2、零樣本唱歌語音轉(zhuǎn)換評估使用M4Singer數(shù)據(jù)集進(jìn)行評估,比較了Seed-VC與針對每個說話人訓(xùn)練的RVCv2-f0-48k模型。評估指標(biāo)包括F0CORR、F0RMSE、SECS和CER。結(jié)果顯示,Seed-VC在說話人相似度和清晰度方面優(yōu)于RVCv2模型,但音頻質(zhì)量略低,項(xiàng)目組表示未來會優(yōu)先改進(jìn)音頻質(zhì)量。 |
|
|