小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

TTS之Seed-VC:Seed-VC的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

 處女座的程序猿 2024-11-18 發(fā)布于上海

TTS之Seed-VC:Seed-VC的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略


Seed-VC 項(xiàng)目簡介

2024年9月,Seed-VC是一個先進(jìn)的零樣本語音轉(zhuǎn)換和唱歌語音轉(zhuǎn)換模型,它利用上下文學(xué)習(xí)技術(shù)無需任何訓(xùn)練即可克隆語音。只需提供1到30秒的參考語音,Seed-VC就能轉(zhuǎn)換任意語音到目標(biāo)語音風(fēng)格。該項(xiàng)目目前支持零樣本語音轉(zhuǎn)換、零樣本實(shí)時語音轉(zhuǎn)換和零樣本唱歌語音轉(zhuǎn)換。

GitHub地址:https://github.com/Plachtaa/seed-vc

1、Seed-VC 的特點(diǎn)

>> 零樣本語音轉(zhuǎn)換:無需針對目標(biāo)說話人進(jìn)行訓(xùn)練,即可將語音轉(zhuǎn)換成目標(biāo)說話人的聲音。
>> 零樣本實(shí)時語音轉(zhuǎn)換:支持實(shí)時語音轉(zhuǎn)換,能夠進(jìn)行即時的語音克隆。
>> 零樣本唱歌語音轉(zhuǎn)換:能夠?qū)⒄Z音轉(zhuǎn)換成目標(biāo)說話人的歌聲。
>> 高性能:在客觀評估中,Seed-VC在語音清晰度和說話人相似度方面顯著優(yōu)于OpenVoice和CosyVoice等基準(zhǔn)模型,甚至在某些情況下也優(yōu)于一些非零樣本語音轉(zhuǎn)換模型(如So-VITS-4.0)。
>> 多語言支持:項(xiàng)目提供英文、簡體中文和日語的README文檔。
>> 多種接口:提供命令行接口、Gradio網(wǎng)頁界面和實(shí)時語音轉(zhuǎn)換GUI。

Seed-VC 的安裝和使用方法

1、安裝

建議使用Python 3.10版本在Windows或Linux系統(tǒng)上運(yùn)行。安裝依賴包:

pip install -r requirements.txt

2、使用方法:

T1、命令行接口???????

python inference.py --source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # recommended 50~100 for singingvoice conversion
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # set to True for singing voice conversion
--auto-f0-adjust False # set to True to auto adjust source pitch to target pitch level, normally not used in singing voice conversion
--semi-tone-shift 0 # pitch shift in semitones for singing voice conversion

參數(shù)說明:

source:待轉(zhuǎn)換語音文件的路徑。

target:目標(biāo)語音(參考語音)文件的路徑。

output:輸出目錄的路徑。

diffusion-steps:擴(kuò)散步驟數(shù),默認(rèn)25,唱歌語音轉(zhuǎn)換建議使用50-100,快速轉(zhuǎn)換可以使用4-10。

length-adjust:長度調(diào)整因子,默認(rèn)1.0,小于1.0加快語音速度,大于1.0減慢語音速度。

inference-cfg-rate:對輸出有細(xì)微影響,默認(rèn)0.7。

f0-condition:是否根據(jù)源音頻的音高調(diào)整輸出音高,默認(rèn)False,唱歌語音轉(zhuǎn)換設(shè)置為True。

auto-f0-adjust:是否自動調(diào)整源音頻音高到目標(biāo)音高水平,默認(rèn)False,唱歌語音轉(zhuǎn)換通常不使用。

semi-tone-shift:唱歌語音轉(zhuǎn)換的音高偏移(半音),默認(rèn)0。

T2、Gradio 網(wǎng)頁界面

運(yùn)行 python app.py,然后在瀏覽器打開 http://localhost:7860/ 使用網(wǎng)頁界面。

python app.py

T3、在線測試

測試地址Seed-VC

3、實(shí)時語音轉(zhuǎn)換GUI

運(yùn)行 python real-time-gui.py。強(qiáng)烈建議使用GPU進(jìn)行實(shí)時語音轉(zhuǎn)換。 項(xiàng)目中提供了不同GPU配置下的參數(shù)建議,以優(yōu)化性能和質(zhì)量。

python real-time-gui.py

Seed-VC 的案例應(yīng)用

項(xiàng)目提供了大量的客觀評估結(jié)果,包括零樣本語音轉(zhuǎn)換和零樣本唱歌語音轉(zhuǎn)換的評估。

1、零樣本語音轉(zhuǎn)換評估

使用LibriTTS-test-clean數(shù)據(jù)集的100個隨機(jī)語句作為源音頻,以及12個隨機(jī)選擇的真實(shí)語音作為參考音頻。評估指標(biāo)包括說話人嵌入余弦相似度(SECS)、詞錯誤率(WER)和字符錯誤率(CER)。結(jié)果表明,Seed-VC顯著優(yōu)于OpenVoice和CosyVoice基準(zhǔn)模型。 還與非零樣本模型(So-VITS-4.0)進(jìn)行了比較,結(jié)果顯示Seed-VC即使未在目標(biāo)說話人上進(jìn)行訓(xùn)練,也能取得更好的結(jié)果。

python eval.py 
--source ./examples/libritts-test-clean
--target ./examples/reference
--output ./examples/eval/converted
--diffusion-steps 25
--length-adjust 1.0
--inference-cfg-rate 0.7
--xvector-extractor "resemblyzer"
--baseline ""  # fill in openvoice or cosyvoice to compute baseline result
--max-samples 100  # max source utterances to go through

2、零樣本唱歌語音轉(zhuǎn)換評估

使用M4Singer數(shù)據(jù)集進(jìn)行評估,比較了Seed-VC與針對每個說話人訓(xùn)練的RVCv2-f0-48k模型。評估指標(biāo)包括F0CORR、F0RMSE、SECS和CER。結(jié)果顯示,Seed-VC在說話人相似度和清晰度方面優(yōu)于RVCv2模型,但音頻質(zhì)量略低,項(xiàng)目組表示未來會優(yōu)先改進(jìn)音頻質(zhì)量。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多