Emu-Academic
/

sovits-emu-model

Model card Files Files and versions Community

MashiroSA commited on Apr 28, 2023

Commit

8d53d59

•

1 Parent(s): 443d4ce

feat: add new model

Browse files

Files changed (10) hide show

4.0_basemodel/D_0.pth +3 -0
4.0_basemodel/G_0.pth +3 -0
4.0_cluster/kmeans_emu.pt +3 -0
4.0_voice_canary/D_216800.pth +3 -0
4.0_voice_canary/G_216800.pth +3 -0
4.0_voice_canary/config.json +95 -0
4.0_voice_release/D_130400.pth +3 -0
4.0_voice_release/G_130400.pth +3 -0
{4.0-s1 → 4.0_voice_release}/config.json +0 -0
README.md +10 -6

4.0_basemodel/D_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd938414dae7b289213139763fb4c0cac71fdaf1b905336ae5a2985ce72b97bc
+size 561077841

4.0_basemodel/G_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af468297ec32aac918e59db21ce372dceb24d8e7b905d5b5de05aeadbb26db0d
+size 542634469

4.0_cluster/kmeans_emu.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2674563ab11f2cc33045eb4813ddc706361146b6a01fe970e2dab6412743bf6a
+size 3081773

4.0_voice_canary/D_216800.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6483ac7d6a96f9e44464e35d904c61e22cf2cfdde56156efce42e8080deb76de
+size 561099207

4.0_voice_canary/G_216800.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4319c7d11b207fed4a25a257d1e6028ea6b5d841f5b68b83bcd32062e1638c18
+size 542792923

4.0_voice_canary/config.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 800,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 0.0001,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 16,
+    "fp16_run": false,
+    "bf16_run": false,
+    "lr_decay": 0.999875,
+    "segment_size": 10240,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "use_sr": true,
+    "max_speclen": 512,
+    "port": "8001",
+    "keep_ckpts": 3,
+    "num_workers": 4
+  },
+  "data": {
+    "training_files": "filelists/44k/train.txt",
+    "validation_files": "filelists/44k/val.txt",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": 22050
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4,
+      4
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256,
+    "ssl_dim": 256,
+    "n_speakers": 200
+  },
+  "spk": {
+    "emu": 0
+  }
+}

4.0_voice_release/D_130400.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a68b82c36a341f1a8df548345354155c1ad654ad662b197d1a072fa2f949027
+size 561099143

4.0_voice_release/G_130400.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c8c978f630eb93fd2a9d7e5f764fd3206628d4f8489fdc5fd87c528a17acf38
+size 542792859

{4.0-s1 → 4.0_voice_release}/config.json RENAMED Viewed

File without changes

README.md CHANGED Viewed

@@ -17,19 +17,23 @@ metrics:
 - 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
 - 训练集样本数量：1398。
-- 拟合情况：在采集的样本下可能还可以优化，特征上最好使用`4.0-s1/G_130400.pth`。
 - 不定期更新，因为太喜欢emu惹😊。
 ## 文件结构
 ```
-├── 4.0-basemodel #底模，用于继续训练
 │   ├── D_0.pth
 │   └── G_0.pth
-├── 4.0-s1 #已经发布的emu的4.0模型第一代(S is meaning Stage!)
 │   ├── D_130400.pth #判别模型，无推理能力
 │   ├── G_130400.pth #生成模型，如果需要推理（即使用变音）请下载这个模型
 │   └── config.json #config，内记录了epoch、batch_size、step等信息，如果需要推理（即使用变音）也需要下载这个
-├── 4.0-s2 #尚未发布的4.0优化模型
 ├── README.md #README
 └── favicon.png #可爱的头像，我PS的，可爱吧
 ```
@@ -38,7 +42,7 @@ metrics:
 - 在当前情况下，使用该模型时，你**必须允许共享你的HuggingFace账户名和邮箱**，才能访问到模型。我们不会泄漏您的邮箱信息，仅用于避免模型滥用。若您担心隐私，你可以使用可联系的非主要邮箱。
 - 在用于推理时，请下载`G_x.pth`和`config.json`，切勿使用0模（即底模，音色不是emu）和D模（判别模，不具有任何推理能力）。
-- 在用于继续训练时，请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型（如4.0-s1/D_x.pth和4.0-s1/G_x.pth以及config.json），并将两个D模和两个G模都放在模型储存目录（通常是.../logs/），并（可选）将config.json放在配置文件目录（通常是.../configs/，非必要，因为通常sovits会依据你的训练集生成config），之后继续训练。
 - 若您继续计算和有更优秀的模型，欢迎您提出PR更新模型，我在此也感谢每一位使用和贡献模型的开发者们。
 ## 建议
@@ -66,7 +70,7 @@ This program is free software: you can redistribute it and/or modify
     GNU General Public License for more details.
 ```
-此外：所有训练集归`SEGA，Project Sekai，OtoriEmu角色的声优本人`所属，我们与SEGA无往来，无利益关系。
 推导模型是基于公开传播的音声资源所做的训练集生成的，但是，它仍然与原角色的音色有差异，因而不会对角色构成危害。
 使用该模型，即您同意所有风险自行承当，模型仅供学术交流，不可用于非法目的。

 - 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
 - 训练集样本数量：1398。
+- 拟合情况：在采集的样本下可能还可以优化，若您没有把握可以使用`4.0_voice_release/G_130400.pth`。
 - 不定期更新，因为太喜欢emu惹😊。
 ## 文件结构
 ```
+├── 4.0_basemodel #用于sovits4.0的通用底模，方便继续训练
 │   ├── D_0.pth
 │   └── G_0.pth
+├── 4.0_voice_release #emu的4.0模型，稳定模型，基于语音生成，歌曲效果可能欠佳
 │   ├── D_130400.pth #判别模型，无推理能力
 │   ├── G_130400.pth #生成模型，如果需要推理（即使用变音）请下载这个模型
 │   └── config.json #config，内记录了epoch、batch_size、step等信息，如果需要推理（即使用变音）也需要下载这个
+├── 4.0_voice_canary #emu的4.0模型，测试模型，效果不详，基于语音生成，歌曲效果可能欠佳
+│   ├── D_216800.pth #判别模型，功能同上述
+│   ├── G_216800.pth #生成模型，功能同上述
+│   └── config.json #config，功能同上述，注意不同版本的config可能不通用
+├── 4.0_cluster #聚类模型，用于使用聚类功能
 ├── README.md #README
 └── favicon.png #可爱的头像，我PS的，可爱吧
 ```
 - 在当前情况下，使用该模型时，你**必须允许共享你的HuggingFace账户名和邮箱**，才能访问到模型。我们不会泄漏您的邮箱信息，仅用于避免模型滥用。若您担心隐私，你可以使用可联系的非主要邮箱。
 - 在用于推理时，请下载`G_x.pth`和`config.json`，切勿使用0模（即底模，音色不是emu）和D模（判别模，不具有任何推理能力）。
+- 在用于继续训练时，请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型（如4.0_voice_release/D_x.pth和4.0_voice_release/G_x.pth以及config.json），并将两个D模和两个G模都放在模型储存目录（通常是.../logs/），并（可选）将config.json放在配置文件目录（通常是.../configs/，非必要，因为通常sovits会依据你的训练集生成config），之后继续训练。
 - 若您继续计算和有更优秀的模型，欢迎您提出PR更新模型，我在此也感谢每一位使用和贡献模型的开发者们。
 ## 建议
     GNU General Public License for more details.
 ```
+此外：所有训练集归`SEGA，Project Sekai，鳳えむ的声优本人`所属，我们与SEGA无往来，无利益关系。
 推导模型是基于公开传播的音声资源所做的训练集生成的，但是，它仍然与原角色的音色有差异，因而不会对角色构成危害。
 使用该模型，即您同意所有风险自行承当，模型仅供学术交流，不可用于非法目的。