Update README.md
Browse files
README.md
CHANGED
@@ -8,6 +8,10 @@ license: apache-2.0
|
|
8 |
</h1>
|
9 |
</div>
|
10 |
|
|
|
|
|
|
|
|
|
11 |
星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
|
12 |
|
13 |
|
@@ -65,7 +69,7 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
65 |
|
66 |
## 字典准备
|
67 |
|
68 |
-
* 微调阶段,需要准备fairseq格式的 `dict.${label}.txt
|
69 |
```
|
70 |
是 2
|
71 |
好 3
|
@@ -91,7 +95,8 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
91 |
$ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
|
92 |
```
|
93 |
* 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
|
94 |
-
* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect
|
|
|
95 |
* 执行
|
96 |
```shell script
|
97 |
$ bash run_scripts/run_d2v_finetune.sh
|
@@ -131,12 +136,12 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
131 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
132 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
133 |
|
134 |
-
|
|
135 |
| ----------| -------- | ------- | ---- | ---- |
|
136 |
-
|
|
137 |
-
|
|
138 |
|
139 |
-
*WenetSpeech中的结果为分别使用 `train_s/train_m
|
140 |
|
141 |
# 声明与协议
|
142 |
## 声明
|
|
|
8 |
</h1>
|
9 |
</div>
|
10 |
|
11 |
+
<p align="center">
|
12 |
+
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️
|
13 |
+
</p>
|
14 |
+
|
15 |
星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
|
16 |
|
17 |
|
|
|
69 |
|
70 |
## 字典准备
|
71 |
|
72 |
+
* 微调阶段,需要准备fairseq格式的 `dict.${label}.txt`,`${label}`为建模单元类型,如ltr, bpe等。以`dict.ltr.txt`为例:
|
73 |
```
|
74 |
是 2
|
75 |
好 3
|
|
|
95 |
$ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
|
96 |
```
|
97 |
* 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
|
98 |
+
* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换
|
99 |
+
* 修改`task.data`为`.tsv`保存路径,如`task.data=/data/wenetspeech/train`
|
100 |
* 执行
|
101 |
```shell script
|
102 |
$ bash run_scripts/run_d2v_finetune.sh
|
|
|
136 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
137 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
138 |
|
139 |
+
| 模型版本 | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
|
140 |
| ----------| -------- | ------- | ---- | ---- |
|
141 |
+
| pretrain_base | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
|
142 |
+
| pretrain_large | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
|
143 |
|
144 |
+
*WenetSpeech中的结果为分别使用 `train_s/train_m`训练后,在Test_Meeting上的CER
|
145 |
|
146 |
# 声明与协议
|
147 |
## 声明
|