MashiroSA
commited on
Commit
•
8d53d59
1
Parent(s):
443d4ce
feat: add new model
Browse files- 4.0_basemodel/D_0.pth +3 -0
- 4.0_basemodel/G_0.pth +3 -0
- 4.0_cluster/kmeans_emu.pt +3 -0
- 4.0_voice_canary/D_216800.pth +3 -0
- 4.0_voice_canary/G_216800.pth +3 -0
- 4.0_voice_canary/config.json +95 -0
- 4.0_voice_release/D_130400.pth +3 -0
- 4.0_voice_release/G_130400.pth +3 -0
- {4.0-s1 → 4.0_voice_release}/config.json +0 -0
- README.md +10 -6
4.0_basemodel/D_0.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cd938414dae7b289213139763fb4c0cac71fdaf1b905336ae5a2985ce72b97bc
|
3 |
+
size 561077841
|
4.0_basemodel/G_0.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:af468297ec32aac918e59db21ce372dceb24d8e7b905d5b5de05aeadbb26db0d
|
3 |
+
size 542634469
|
4.0_cluster/kmeans_emu.pt
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2674563ab11f2cc33045eb4813ddc706361146b6a01fe970e2dab6412743bf6a
|
3 |
+
size 3081773
|
4.0_voice_canary/D_216800.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:6483ac7d6a96f9e44464e35d904c61e22cf2cfdde56156efce42e8080deb76de
|
3 |
+
size 561099207
|
4.0_voice_canary/G_216800.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4319c7d11b207fed4a25a257d1e6028ea6b5d841f5b68b83bcd32062e1638c18
|
3 |
+
size 542792923
|
4.0_voice_canary/config.json
ADDED
@@ -0,0 +1,95 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"train": {
|
3 |
+
"log_interval": 200,
|
4 |
+
"eval_interval": 800,
|
5 |
+
"seed": 1234,
|
6 |
+
"epochs": 10000,
|
7 |
+
"learning_rate": 0.0001,
|
8 |
+
"betas": [
|
9 |
+
0.8,
|
10 |
+
0.99
|
11 |
+
],
|
12 |
+
"eps": 1e-09,
|
13 |
+
"batch_size": 16,
|
14 |
+
"fp16_run": false,
|
15 |
+
"bf16_run": false,
|
16 |
+
"lr_decay": 0.999875,
|
17 |
+
"segment_size": 10240,
|
18 |
+
"init_lr_ratio": 1,
|
19 |
+
"warmup_epochs": 0,
|
20 |
+
"c_mel": 45,
|
21 |
+
"c_kl": 1.0,
|
22 |
+
"use_sr": true,
|
23 |
+
"max_speclen": 512,
|
24 |
+
"port": "8001",
|
25 |
+
"keep_ckpts": 3,
|
26 |
+
"num_workers": 4
|
27 |
+
},
|
28 |
+
"data": {
|
29 |
+
"training_files": "filelists/44k/train.txt",
|
30 |
+
"validation_files": "filelists/44k/val.txt",
|
31 |
+
"max_wav_value": 32768.0,
|
32 |
+
"sampling_rate": 44100,
|
33 |
+
"filter_length": 2048,
|
34 |
+
"hop_length": 512,
|
35 |
+
"win_length": 2048,
|
36 |
+
"n_mel_channels": 80,
|
37 |
+
"mel_fmin": 0.0,
|
38 |
+
"mel_fmax": 22050
|
39 |
+
},
|
40 |
+
"model": {
|
41 |
+
"inter_channels": 192,
|
42 |
+
"hidden_channels": 192,
|
43 |
+
"filter_channels": 768,
|
44 |
+
"n_heads": 2,
|
45 |
+
"n_layers": 6,
|
46 |
+
"kernel_size": 3,
|
47 |
+
"p_dropout": 0.1,
|
48 |
+
"resblock": "1",
|
49 |
+
"resblock_kernel_sizes": [
|
50 |
+
3,
|
51 |
+
7,
|
52 |
+
11
|
53 |
+
],
|
54 |
+
"resblock_dilation_sizes": [
|
55 |
+
[
|
56 |
+
1,
|
57 |
+
3,
|
58 |
+
5
|
59 |
+
],
|
60 |
+
[
|
61 |
+
1,
|
62 |
+
3,
|
63 |
+
5
|
64 |
+
],
|
65 |
+
[
|
66 |
+
1,
|
67 |
+
3,
|
68 |
+
5
|
69 |
+
]
|
70 |
+
],
|
71 |
+
"upsample_rates": [
|
72 |
+
8,
|
73 |
+
8,
|
74 |
+
2,
|
75 |
+
2,
|
76 |
+
2
|
77 |
+
],
|
78 |
+
"upsample_initial_channel": 512,
|
79 |
+
"upsample_kernel_sizes": [
|
80 |
+
16,
|
81 |
+
16,
|
82 |
+
4,
|
83 |
+
4,
|
84 |
+
4
|
85 |
+
],
|
86 |
+
"n_layers_q": 3,
|
87 |
+
"use_spectral_norm": false,
|
88 |
+
"gin_channels": 256,
|
89 |
+
"ssl_dim": 256,
|
90 |
+
"n_speakers": 200
|
91 |
+
},
|
92 |
+
"spk": {
|
93 |
+
"emu": 0
|
94 |
+
}
|
95 |
+
}
|
4.0_voice_release/D_130400.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4a68b82c36a341f1a8df548345354155c1ad654ad662b197d1a072fa2f949027
|
3 |
+
size 561099143
|
4.0_voice_release/G_130400.pth
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:5c8c978f630eb93fd2a9d7e5f764fd3206628d4f8489fdc5fd87c528a17acf38
|
3 |
+
size 542792859
|
{4.0-s1 → 4.0_voice_release}/config.json
RENAMED
File without changes
|
README.md
CHANGED
@@ -17,19 +17,23 @@ metrics:
|
|
17 |
|
18 |
- 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
|
19 |
- 训练集样本数量:1398。
|
20 |
-
-
|
21 |
- 不定期更新,因为太喜欢emu惹😊。
|
22 |
|
23 |
## 文件结构
|
24 |
```
|
25 |
-
├── 4.0
|
26 |
│ ├── D_0.pth
|
27 |
│ └── G_0.pth
|
28 |
-
├── 4.
|
29 |
│ ├── D_130400.pth #判别模型,无推理能力
|
30 |
│ ├── G_130400.pth #生成模型,如果需要推理(即使用变音)请下载这个模型
|
31 |
│ └── config.json #config,内记录了epoch、batch_size、step等信息,如果需要推理(即使用变音)也需要下载这个
|
32 |
-
├── 4.
|
|
|
|
|
|
|
|
|
33 |
├── README.md #README
|
34 |
└── favicon.png #可爱的头像,我PS的,可爱吧
|
35 |
```
|
@@ -38,7 +42,7 @@ metrics:
|
|
38 |
|
39 |
- 在当前情况下,使用该模型时,你**必须允许共享你的HuggingFace账户名和邮箱**,才能访问到模型。我们不会泄漏您的邮箱信息,仅用于避免模型滥用。若您担心隐私,你可以使用可联系的非主要邮箱。
|
40 |
- 在用于推理时,请下载`G_x.pth`和`config.json`,切勿使用0模(即底模,音色不是emu)和D模(判别模,不具有任何推理能力)。
|
41 |
-
- 在用于继续训练时,请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型(如4.
|
42 |
- 若您继续计算和有更优秀的模型,欢迎您提出PR更新模型,我在此也感谢每一位使用和贡献模型的开发者们。
|
43 |
|
44 |
## 建议
|
@@ -66,7 +70,7 @@ This program is free software: you can redistribute it and/or modify
|
|
66 |
GNU General Public License for more details.
|
67 |
```
|
68 |
|
69 |
-
此外:所有训练集归`SEGA,Project Sekai
|
70 |
推导模型是基于公开传播的音声资源所做的训练集生成的,但是,它仍然与原角色的音色有差异,因而不会对角色构成危害。
|
71 |
使用该模型,即您同意所有风险自行承当,模型仅供学术交流,不可用于非法目的。
|
72 |
|
|
|
17 |
|
18 |
- 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
|
19 |
- 训练集样本数量:1398。
|
20 |
+
- 拟合情况:在采集的样本下可能还可以优化,若您没有把握可以使用`4.0_voice_release/G_130400.pth`。
|
21 |
- 不定期更新,因为太喜欢emu惹😊。
|
22 |
|
23 |
## 文件结构
|
24 |
```
|
25 |
+
├── 4.0_basemodel #用于sovits4.0的通用底模,方便继续训练
|
26 |
│ ├── D_0.pth
|
27 |
│ └── G_0.pth
|
28 |
+
├── 4.0_voice_release #emu的4.0模型,稳定模型,基于语音生成,歌曲效果可能欠佳
|
29 |
│ ├── D_130400.pth #判别模型,无推理能力
|
30 |
│ ├── G_130400.pth #生成模型,如果需要推理(即使用变音)请下载这个模型
|
31 |
│ └── config.json #config,内记录了epoch、batch_size、step等信息,如果需要推理(即使用变音)也需要下载这个
|
32 |
+
├── 4.0_voice_canary #emu的4.0模型,测试模型,效果不详,基于语音生成,歌曲效果可能欠佳
|
33 |
+
│ ├── D_216800.pth #判别模型,功能同上述
|
34 |
+
│ ├── G_216800.pth #生成模型,功能同上述
|
35 |
+
│ └── config.json #config,功能同上述,注意不同版本的config可能不通用
|
36 |
+
├── 4.0_cluster #聚类模型,用于使用聚类功能
|
37 |
├── README.md #README
|
38 |
└── favicon.png #可爱的头像,我PS的,可爱吧
|
39 |
```
|
|
|
42 |
|
43 |
- 在当前情况下,使用该模型时,你**必须允许共享你的HuggingFace账户名和邮箱**,才能访问到模型。我们不会泄漏您的邮箱信息,仅用于避免模型滥用。若您担心隐私,你可以使用可联系的非主要邮箱。
|
44 |
- 在用于推理时,请下载`G_x.pth`和`config.json`,切勿使用0模(即底模,音色不是emu)和D模(判别模,不具有任何推理能力)。
|
45 |
+
- 在用于继续训练时,请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型(如4.0_voice_release/D_x.pth和4.0_voice_release/G_x.pth以及config.json),并将两个D模和两个G模都放在模型储存目录(通常是.../logs/),并(可选)将config.json放在配置文件目录(通常是.../configs/,非必要,因为通常sovits会依据你的训练集生成config),之后继续训练。
|
46 |
- 若您继续计算和有更优秀的模型,欢迎您提出PR更新模型,我在此也感谢每一位使用和贡献模型的开发者们。
|
47 |
|
48 |
## 建议
|
|
|
70 |
GNU General Public License for more details.
|
71 |
```
|
72 |
|
73 |
+
此外:所有训练集归`SEGA,Project Sekai,鳳えむ的声优本人`所属,我们与SEGA无往来,无利益关系。
|
74 |
推导模型是基于公开传播的音声资源所做的训练集生成的,但是,它仍然与原角色的音色有差异,因而不会对角色构成危害。
|
75 |
使用该模型,即您同意所有风险自行承当,模型仅供学术交流,不可用于非法目的。
|
76 |
|