-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
展示的demo效果用了多少语料 #18
Comments
aishell3+vctk+原神3.5,估计200小时左右,350个说话人吧。有泛化性,但集外数据还是容易不像。每个说话人不需要太多数据,1000+音色应该就能有不错的泛化性。 |
了解,训练事件大概多长呢。我这边有200个校对过的中文说话人数据,在30分钟-1小时之间。感觉可以叠加在ahell3和vctk之上试一下呢 |
demo的结果是在两张3090上训练了一天,训练更长时间音质会更好。bs设置是32,显存大概每张20g左右。 |
想询问原神的资料要如何取得,或是您是否能够提供连结下载呢? |
https://huggingface.co/datasets/Erythrocyte/Genshin_Datasets |
我使用一個250位語者的資料集,GPU一張,然後做訓練 bs設置32,不過我看預設的步數是100萬步,但總時長似乎需要666個小時,每2.5秒/it。 想問一下這樣子的速度是合理的嗎? 還是是有問題的。 您的兩張訓練一天大概是多少步數呢? |
可能是正常的,我有试过单卡3090,8bs 可以跑到3 it/s,两张卡32 bs大概是1.3 it/s。虽然设置了100万步,但其实30万步左右就能有不错的效果。如果很慢可以尝试调整num workers。loss没有太大参考价值,主要靠听tensorboard采样的结果。 |
感謝您的回覆,但如果是雙卡使用的話accelerate config 的 gpus 應該就要設定是兩個了。300000/1.3 /86000 = 2.6天左右, |
額外多問一下v2跟原始model的差別在哪呢? |
在readme中有写,主要就是去掉了encodec换成了mel,用vocos作为声码器。backbone换为unet1d,还加了一些从sd那里抄过来的结构,可以参照图示理解。 |
oh! 昨天有更新ReadMe,抱歉沒有注意到。 之前一直有follow 有發現多寫了在dataset的處理還有unet,所以還在思考是什麼方式。 |
@adelacvg 測試了一個1500+音色 600+hr的訓練資料集,測試集外數據還是會有大部分不太相似的情況。 |
我个人感觉,泛化性能可能得再增大数据量和模型的大小,有一种感觉就是,这个模型不是实现了vc功能,而是实现了,TTS功能 |
如题,demo展示的效果已经不错了,请教下是使用了多少说话人的的语料库
The text was updated successfully, but these errors were encountered: