最近b站上的AI孫燕姿很火,那你知道如何用孫燕姿的聲音來制作一首歌嗎?想要得到最終的成品,需要通過模型的使用和模型的訓(xùn)練,對電腦配置有一定要求。建議可以先使用別人訓(xùn)練好的模型,這樣能降低一些門檻,會更簡單一些。
1、原始聲音的處理
要使用模型進(jìn)行推理的話首先需要一段已經(jīng)演唱好的聲音墊進(jìn)去,然后使用模型把原來的音色換成你模型訓(xùn)練好的音色(類似AI畫圖的img2img墊圖)。所以我們先對墊進(jìn)去的聲音進(jìn)行處理,去掉原始音樂里面的混響和樂器聲音,只留下人物的干聲這樣效果會好一些。
我們會使用UVR_v5.5.0這個軟件來處理聲音通過兩段處理保留人物的干聲。
首先是安裝,直接雙擊UVR_v5.5.0_setup.exe一直下一步就行,安裝完成后我們需要給UVR增加一個模型解壓UVR5模型文件將里面的兩個文件夾粘貼到安裝目錄下的Ultimate Vocal Remover\models就行。
在處理之前你需要把你聲音的格式轉(zhuǎn)換成WAV格式,因?yàn)镾o-VITS-SVC 4.0只認(rèn)WAV格式的音頻文件,現(xiàn)在處理了后面會省事點(diǎn)。
處理完音頻文件后我們就要開始利用UVR去掉背景音了,一共需要過兩次,每次的設(shè)置都是不同的,這樣能最大限度的保證不需要的聲音能被去除干凈。
在Select Input選擇你需要處理的音頻文件,處理完成后你可以在Output的文件夾下面找到處理完成的文件,后綴有(Vocals)就是人聲,后綴為(Instrumental)就是伴奏,伴奏先不要刪,我們后面合成的時候還需要。
2、推理過程
接下來我們就要運(yùn)行整合包的Web UI來推理聲音了,如果你用的其他人的模型的話你需要先把模型文件放進(jìn)整合包對應(yīng)的文件夾下面:
首先是GAN模型和Kmeans模型就是模型文件夾下面后綴為pth和pt的兩個文件放到整合包的\logs\44k文件夾下。
之后是配置文件,就是你下載下來的模型文件里那個叫config.json的json文件,放到整合包的\configs文件夾下面。
接下來我們就可以運(yùn)行整合包的Web UI了,打開整合包根目錄下的【啟動webui.bat】這個文件他會自動運(yùn)行并打開Web UI的網(wǎng)頁,經(jīng)常玩Stable Diffusion的朋友肯定對這個操作不陌生。 下面就是Web UI的界面我們使用模型的時候主要用的是推理這個功能。
之后就是選擇我們的模型,如果你剛才已經(jīng)把模型放到合適的位置的話你現(xiàn)在應(yīng)該能在下圖的兩個位置選擇到你的模型和配置文件,如果有報錯會在輸出信息的位置顯示。
選擇完模型之后我們需要點(diǎn)擊加載模型,等待一段時間Loading之后模型會加載完成。Output Message這里會輸出加載的結(jié)果。
3、音軌合并
之后就是上傳我們處理好的需要墊的音頻文件了,把文件拖動到紅框位置就行。
接下來是兩個比較重要的選項怕【聚類f0】會讓輸出效果更好,但是如果你的文件是歌聲的話不要勾選這個選項,不然會瘋狂跑調(diào)。【F0均值濾波】主要解決啞音問題,如果你輸出的內(nèi)容有比較明顯的啞音的話可以勾選嘗試一下,這個選項歌聲可以使用。
除了這兩個選項之外的其他選項不建議動。除非你理解它是什么意思。
設(shè)置好之后我們點(diǎn)擊【音頻轉(zhuǎn)換】按鈕之后經(jīng)過一段時間的運(yùn)算,就可以生成對應(yīng)的音樂了。
我們現(xiàn)在生成的是一段只有人聲的干聲,這時候我們剛才剝離出來的伴奏就有用了,把兩段音頻合成就行,我用的剪映,直接把兩段音軌拖進(jìn)去導(dǎo)出就行,也可以加張圖片變成視頻。(歸藏)
github地址是:https://github.com/svc-develop-team/so-vits-svc
關(guān)于我們 丨 聯(lián)系我們 丨 廣告合作 丨 誠聘英才 丨 網(wǎng)站地圖
Copyright © 2018 武漢門戶網(wǎng) www.jwzcgl.com鄂ICP備16007396號-6