MashiroSA commited on
Commit
8d53d59
1 Parent(s): 443d4ce

feat: add new model

Browse files
4.0_basemodel/D_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd938414dae7b289213139763fb4c0cac71fdaf1b905336ae5a2985ce72b97bc
3
+ size 561077841
4.0_basemodel/G_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:af468297ec32aac918e59db21ce372dceb24d8e7b905d5b5de05aeadbb26db0d
3
+ size 542634469
4.0_cluster/kmeans_emu.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2674563ab11f2cc33045eb4813ddc706361146b6a01fe970e2dab6412743bf6a
3
+ size 3081773
4.0_voice_canary/D_216800.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6483ac7d6a96f9e44464e35d904c61e22cf2cfdde56156efce42e8080deb76de
3
+ size 561099207
4.0_voice_canary/G_216800.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4319c7d11b207fed4a25a257d1e6028ea6b5d841f5b68b83bcd32062e1638c18
3
+ size 542792923
4.0_voice_canary/config.json ADDED
@@ -0,0 +1,95 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "train": {
3
+ "log_interval": 200,
4
+ "eval_interval": 800,
5
+ "seed": 1234,
6
+ "epochs": 10000,
7
+ "learning_rate": 0.0001,
8
+ "betas": [
9
+ 0.8,
10
+ 0.99
11
+ ],
12
+ "eps": 1e-09,
13
+ "batch_size": 16,
14
+ "fp16_run": false,
15
+ "bf16_run": false,
16
+ "lr_decay": 0.999875,
17
+ "segment_size": 10240,
18
+ "init_lr_ratio": 1,
19
+ "warmup_epochs": 0,
20
+ "c_mel": 45,
21
+ "c_kl": 1.0,
22
+ "use_sr": true,
23
+ "max_speclen": 512,
24
+ "port": "8001",
25
+ "keep_ckpts": 3,
26
+ "num_workers": 4
27
+ },
28
+ "data": {
29
+ "training_files": "filelists/44k/train.txt",
30
+ "validation_files": "filelists/44k/val.txt",
31
+ "max_wav_value": 32768.0,
32
+ "sampling_rate": 44100,
33
+ "filter_length": 2048,
34
+ "hop_length": 512,
35
+ "win_length": 2048,
36
+ "n_mel_channels": 80,
37
+ "mel_fmin": 0.0,
38
+ "mel_fmax": 22050
39
+ },
40
+ "model": {
41
+ "inter_channels": 192,
42
+ "hidden_channels": 192,
43
+ "filter_channels": 768,
44
+ "n_heads": 2,
45
+ "n_layers": 6,
46
+ "kernel_size": 3,
47
+ "p_dropout": 0.1,
48
+ "resblock": "1",
49
+ "resblock_kernel_sizes": [
50
+ 3,
51
+ 7,
52
+ 11
53
+ ],
54
+ "resblock_dilation_sizes": [
55
+ [
56
+ 1,
57
+ 3,
58
+ 5
59
+ ],
60
+ [
61
+ 1,
62
+ 3,
63
+ 5
64
+ ],
65
+ [
66
+ 1,
67
+ 3,
68
+ 5
69
+ ]
70
+ ],
71
+ "upsample_rates": [
72
+ 8,
73
+ 8,
74
+ 2,
75
+ 2,
76
+ 2
77
+ ],
78
+ "upsample_initial_channel": 512,
79
+ "upsample_kernel_sizes": [
80
+ 16,
81
+ 16,
82
+ 4,
83
+ 4,
84
+ 4
85
+ ],
86
+ "n_layers_q": 3,
87
+ "use_spectral_norm": false,
88
+ "gin_channels": 256,
89
+ "ssl_dim": 256,
90
+ "n_speakers": 200
91
+ },
92
+ "spk": {
93
+ "emu": 0
94
+ }
95
+ }
4.0_voice_release/D_130400.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4a68b82c36a341f1a8df548345354155c1ad654ad662b197d1a072fa2f949027
3
+ size 561099143
4.0_voice_release/G_130400.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5c8c978f630eb93fd2a9d7e5f764fd3206628d4f8489fdc5fd87c528a17acf38
3
+ size 542792859
{4.0-s1 → 4.0_voice_release}/config.json RENAMED
File without changes
README.md CHANGED
@@ -17,19 +17,23 @@ metrics:
17
 
18
  - 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
19
  - 训练集样本数量:1398。
20
- - 拟合情况:在采集的样本下可能还可以优化,特征上最好使用`4.0-s1/G_130400.pth`。
21
  - 不定期更新,因为太喜欢emu惹😊。
22
 
23
  ## 文件结构
24
  ```
25
- ├── 4.0-basemodel #底模,用于继续训练
26
  │   ├── D_0.pth
27
  │   └── G_0.pth
28
- ├── 4.0-s1 #已经发布的emu的4.0模型第一代(S is meaning Stage!)
29
  │   ├── D_130400.pth #判别模型,无推理能力
30
  │   ├── G_130400.pth #生成模型,如果需要推理(即使用变音)请下载这个模型
31
  │   └── config.json #config,内记录了epoch、batch_size、step等信息,如果需要推理(即使用变音)也需要下载这个
32
- ├── 4.0-s2 #尚未发布的4.0优化模型
 
 
 
 
33
  ├── README.md #README
34
  └── favicon.png #可爱的头像,我PS的,可爱吧
35
  ```
@@ -38,7 +42,7 @@ metrics:
38
 
39
  - 在当前情况下,使用该模型时,你**必须允许共享你的HuggingFace账户名和邮箱**,才能访问到模型。我们不会泄漏您的邮箱信息,仅用于避免模型滥用。若您担心隐私,你可以使用可联系的非主要邮箱。
40
  - 在用于推理时,请下载`G_x.pth`和`config.json`,切勿使用0模(即底模,音色不是emu)和D模(判别模,不具有任何推理能力)。
41
- - 在用于继续训练时,请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型(如4.0-s1/D_x.pth和4.0-s1/G_x.pth以及config.json),并将两个D模和两个G模都放在模型储存目录(通常是.../logs/),并(可选)将config.json放在配置文件目录(通常是.../configs/,非必要,因为通常sovits会依据你的训练集生成config),之后继续训练。
42
  - 若您继续计算和有更优秀的模型,欢迎您提出PR更新模型,我在此也感谢每一位使用和贡献模型的开发者们。
43
 
44
  ## 建议
@@ -66,7 +70,7 @@ This program is free software: you can redistribute it and/or modify
66
  GNU General Public License for more details.
67
  ```
68
 
69
- 此外:所有训练集归`SEGA,Project Sekai,OtoriEmu角色的声优本人`所属,我们与SEGA无往来,无利益关系。
70
  推导模型是基于公开传播的音声资源所做的训练集生成的,但是,它仍然与原角色的音色有差异,因而不会对角色构成危害。
71
  使用该模型,即您同意所有风险自行承当,模型仅供学术交流,不可用于非法目的。
72
 
 
17
 
18
  - 这是Project Sekai(PJSK)中的`鳳えむ`的用于`so-vits-svc 4.0`的人声模型。
19
  - 训练集样本数量:1398。
20
+ - 拟合情况:在采集的样本下可能还可以优化,若您没有把握可以使用`4.0_voice_release/G_130400.pth`。
21
  - 不定期更新,因为太喜欢emu惹😊。
22
 
23
  ## 文件结构
24
  ```
25
+ ├── 4.0_basemodel #用于sovits4.0的通用底模,方便继续训练
26
  │   ├── D_0.pth
27
  │   └── G_0.pth
28
+ ├── 4.0_voice_release #emu的4.0模型,稳定模型,基于语音生成,歌曲效果可能欠佳
29
  │   ├── D_130400.pth #判别模型,无推理能力
30
  │   ├── G_130400.pth #生成模型,如果需要推理(即使用变音)请下载这个模型
31
  │   └── config.json #config,内记录了epoch、batch_size、step等信息,如果需要推理(即使用变音)也需要下载这个
32
+ ├── 4.0_voice_canary #emu的4.0模型,测试模型,效果不详,基于语音生成,歌曲效果可能欠佳
33
+ │   ├── D_216800.pth #判别模型,功能同上述
34
+ │   ├── G_216800.pth #生成模型,功能同上述
35
+ │   └── config.json #config,功能同上述,注意不同版本的config可能不通用
36
+ ├── 4.0_cluster #聚类模型,用于使用聚类功能
37
  ├── README.md #README
38
  └── favicon.png #可爱的头像,我PS的,可爱吧
39
  ```
 
42
 
43
  - 在当前情况下,使用该模型时,你**必须允许共享你的HuggingFace账户名和邮箱**,才能访问到模型。我们不会泄漏您的邮箱信息,仅用于避免模型滥用。若您担心隐私,你可以使用可联系的非主要邮箱。
44
  - 在用于推理时,请下载`G_x.pth`和`config.json`,切勿使用0模(即底模,音色不是emu)和D模(判别模,不具有任何推理能力)。
45
+ - 在用于继续训练时,请下载Repo里的basemodel(D_0.pth、G_0.pth)和你需要继续运算的模型(如4.0_voice_release/D_x.pth和4.0_voice_release/G_x.pth以及config.json),并将两个D模和两个G模都放在模型储存目录(通常是.../logs/),并(可选)将config.json放在配置文件目录(通常是.../configs/,非必要,因为通常sovits会依据你的训练集生成config),之后继续训练。
46
  - 若您继续计算和有更优秀的模型,欢迎您提出PR更新模型,我在此也感谢每一位使用和贡献模型的开发者们。
47
 
48
  ## 建议
 
70
  GNU General Public License for more details.
71
  ```
72
 
73
+ 此外:所有训练集归`SEGA,Project Sekai,鳳えむ的声优本人`所属,我们与SEGA无往来,无利益关系。
74
  推导模型是基于公开传播的音声资源所做的训练集生成的,但是,它仍然与原角色的音色有差异,因而不会对角色构成危害。
75
  使用该模型,即您同意所有风险自行承当,模型仅供学术交流,不可用于非法目的。
76