initial import

Files changed (15) hide show

README.md +57 -0
data/lang_bpe_250/L.pt +3 -0
data/lang_bpe_250/bpe.model +3 -0
data/lang_bpe_250/tokens.txt +252 -0
data/lang_bpe_250/words.txt +0 -0
exp/cpu_jit.pt +3 -0
exp/pretrained.pt +3 -0
log/errs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt +0 -0
log/log-decode-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model-2022-09-19-22-54-24 +22 -0
log/log-train-2022-09-17-00-39-59-0 +0 -0
log/log-train-2022-09-17-00-39-59-1 +0 -0
log/log-train-2022-09-19-08-50-42-0 +0 -0
log/log-train-2022-09-19-08-50-42-1 +0 -0
log/recogs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt +0 -0
log/wer-summary-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt +2 -0

README.md ADDED Viewed

	@@ -0,0 +1,57 @@

+---
+language:
+  - uk
+tags:
+- automatic-speech-recognition
+- audio
+license: cc-by-nc-sa-4.0
+datasets:
+- https://github.com/egorsmkv/speech-recognition-uk
+- mozilla-foundation/common_voice_10_0
+metrics:
+- wer
+model-index:
+- name: Ukrainian causal pruned_transducer_stateless5 v1.0.0
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice uk
+      type: mozilla-foundation/common_voice_10_0
+      split: validation
+      args: uk
+    metrics:
+       - name: Validation WER
+         type: wer
+         value: 17.26
+---
+Online variant of `pruned_transducer_stateless5` for Ukrainian: https://github.com/proger/icefall/tree/uk
+Decoding demo using [Sherpa](https://k2-fsa.github.io/sherpa/): [https://twitter.com/darkproger/status/1570733844114046976](https://twitter.com/darkproger/status/1570733844114046976)
+Trained on pseudolabels generated by [darkproger/pruned-transducer-stateless5-ukrainian-1](https://huggingface.co/darkproger/pruned-transducer-stateless5-ukrainian-1) on the training dataset.
+[Tensorboard run](https://tensorboard.dev/experiment/uMmMmZvwS2euyCrj7BlPOQ/)
+```
+./pruned_transducer_stateless5/train.py \
+  --world-size 2 \
+  --num-epochs 31 \
+  --start-epoch 1 \
+  --full-libri 1 \
+  --exp-dir pruned_transducer_stateless5/exp-uk-filtered2 \
+  --max-duration 600 \
+  --use-fp16 1 \
+  --num-encoder-layers 18 \
+  --dim-feedforward 1024 \
+  --nhead 4 \
+  --encoder-dim 256 \
+  --decoder-dim 512 \
+  --joiner-dim 512 \
+  --bpe-model uk/data/lang_bpe_250/bpe.model \
+  --causal-convolution True \
+  --dynamic-chunk-training True
+```

data/lang_bpe_250/L.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fca162b9c0a7d2263b3be95607063f6ae70ee357b6d7493d8f49a7ea32fbb484
+size 11433831

data/lang_bpe_250/bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1a465ab230e64d5f2a5cd07ac446f4ce0288925c6019683ee889396094bddfb
+size 241481

data/lang_bpe_250/tokens.txt ADDED Viewed

	@@ -0,0 +1,252 @@

+<blk> 0
+<sos/eos> 1
+<unk> 2
+▁ 3
+в 4
+н 5
+ти 6
+т 7
+й 8
+е 9
+с 10
+м 11
+▁на 12
+к 13
+р 14
+у 15
+д 16
+▁з 17
+▁с 18
+о 19
+▁в 20
+▁по 21
+х 22
+ли 23
+ва 24
+но 25
+ро 26
+я 27
+і 28
+ні 29
+з 30
+а 31
+и 32
+ю 33
+ра 34
+ка 35
+▁за 36
+▁не 37
+є 38
+▁і 39
+ла 40
+▁що 41
+на 42
+ки 43
+▁до 44
+ї 45
+ш 46
+ж 47
+ві 48
+ч 49
+во 50
+сь 51
+ко 52
+ни 53
+ло 54
+ри 55
+лі 56
+ль 57
+ви 58
+да 59
+▁у 60
+б 61
+ку 62
+▁про 63
+ці 64
+▁ви 65
+▁а 66
+▁це 67
+ди 68
+▁о 69
+то 70
+рі 71
+п 72
+ся 73
+мо 74
+ми 75
+ть 76
+ма 77
+ц 78
+г 79
+ну 80
+▁як 81
+▁я 82
+ого 83
+▁від 84
+ре 85
+▁та 86
+ме 87
+та 88
+▁п 89
+ті 90
+ле 91
+те 92
+ру 93
+чи 94
+га 95
+▁ко 96
+ст 97
+ту 98
+кі 99
+по 100
+▁ма 101
+' 102
+▁ми 103
+ді 104
+▁так 105
+сі 106
+мі 107
+бу 108
+ля 109
+▁мі 110
+не 111
+▁при 112
+ння 113
+▁мо 114
+же 115
+ду 116
+щ 117
+ча 118
+▁де 119
+до 120
+ому 121
+▁г 122
+▁к 123
+нь 124
+би 125
+сто 126
+▁д 127
+бі 128
+▁го 129
+ь 130
+▁то 131
+▁те 132
+лю 133
+ють 134
+че 135
+го 136
+де 137
+бо 138
+си 139
+за 140
+ер 141
+них 142
+▁але 143
+ста 144
+▁роз 145
+хо 146
+пи 147
+пі 148
+▁він 149
+ний 150
+му 151
+▁для 152
+пе 153
+ф 154
+ши 155
+▁б 156
+▁ш 157
+л 158
+▁україн 159
+▁під 160
+▁пере 161
+▁од 162
+ше 163
+ня 164
+со 165
+па 166
+жи 167
+▁па 168
+▁ба 169
+▁ка 170
+▁зна 171
+ять 172
+▁ф 173
+рів 174
+▁час 175
+▁ре 176
+ного 177
+▁ста 178
+лу 179
+▁його 180
+▁ні 181
+▁тому 182
+ба 183
+▁сам 184
+▁буде 185
+сті 186
+ця 187
+▁вони 188
+▁дуже 189
+▁пра 190
+ха 191
+▁нас 192
+▁хо 193
+ться 194
+ість 195
+▁со 196
+▁чи 197
+▁ді 198
+▁коли 199
+жу 200
+▁об 201
+▁бо 202
+чу 203
+▁які 204
+вер 205
+▁якщо 206
+▁три 207
+▁вже 208
+чі 209
+жа 210
+▁все 211
+▁було 212
+▁може 213
+▁буд 214
+▁вона 215
+▁два 216
+гу 217
+▁тут 218
+гі 219
+увати 220
+ення 221
+▁роб 222
+▁зараз 223
+▁того 224
+▁більш 225
+▁тисяч 226
+▁один 227
+▁перш 228
+▁можна 229
+▁люди 230
+▁цього 231
+▁їх 232
+▁село 233
+▁мене 234
+▁раз 235
+▁двадцять 236
+▁треба 237
+аємо 238
+▁навіть 239
+▁рад 240
+▁був 241
+▁сьогодні 242
+▁без 243
+▁тільки 244
+▁провулок 245
+▁сім 246
+ається 247
+▁свої 248
+ґ 249
+#0 250
+#1 251

data/lang_bpe_250/words.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

exp/cpu_jit.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b5a5ab6a26d88658922b6bcac970794547da8cc7840a11e31da156b0cf91288
+size 130759206

exp/pretrained.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:616abfdd0656aad03fa79bd5cf7f65cc92333737da49e7b571f8bcb0371e2896
+size 120505891

log/errs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-decode-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model-2022-09-19-22-54-24 ADDED Viewed

	@@ -0,0 +1,22 @@

+2022-09-19 22:54:24,045 INFO [decode.py:698] Decoding started
+2022-09-19 22:54:24,045 INFO [decode.py:704] Device: cpu
+2022-09-19 22:54:24,050 INFO [decode.py:719] {'best_train_loss': inf, 'best_valid_loss': inf, 'best_train_epoch': -1, 'best_valid_epoch': -1, 'batch_idx_train': 0, 'log_interval': 50, 'reset_interval': 200, 'valid_interval': 3000, 'feature_dim': 80, 'subsampling_factor': 4, 'model_warm_step': 3000, 'env_info': {'k2-version': '1.19', 'k2-build-type': 'Release', 'k2-with-cuda': True, 'k2-git-sha1': '125d34703f898b5ca54f6f4a925f2bc2d7a5ba98', 'k2-git-date': 'Wed Aug 31 04:50:54 2022', 'lhotse-version': '1.6.0', 'torch-version': '1.12.1+cu113', 'torch-cuda-available': False, 'torch-cuda-version': '11.3', 'python-version': '3.8', 'icefall-git-branch': 'uk', 'icefall-git-sha1': '42c4476-dirty', 'icefall-git-date': 'Thu Sep 15 16:29:29 2022', 'icefall-path': '/home/proger/icefall', 'k2-path': '/home/proger/.local/lib/python3.8/site-packages/k2-1.19.dev20220916+cuda11.3.torch1.12.1-py3.8-linux-x86_64.egg/k2/__init__.py', 'lhotse-path': '/home/proger/.local/lib/python3.8/site-packages/lhotse/__init__.py', 'hostname': 'rt', 'IP address': '127.0.1.1'}, 'epoch': 31, 'iter': 0, 'avg': 12, 'use_averaged_model': True, 'exp_dir': PosixPath('pruned_transducer_stateless5/exp-uk-filtered2'), 'bpe_model': 'uk/data/lang_bpe_250/bpe.model', 'lang_dir': PosixPath('uk/data/lang_bpe_250'), 'decoding_method': 'fast_beam_search_nbest_LG', 'beam_size': 4, 'beam': 20.0, 'ngram_lm_scale': 0.01, 'max_contexts': 8, 'max_states': 64, 'context_size': 2, 'max_sym_per_frame': 1, 'num_paths': 200, 'nbest_scale': 0.5, 'simulate_streaming': False, 'decode_chunk_size': 16, 'left_context': 64, 'num_encoder_layers': 18, 'dim_feedforward': 1024, 'nhead': 4, 'encoder_dim': 256, 'decoder_dim': 512, 'joiner_dim': 512, 'dynamic_chunk_training': True, 'causal_convolution': True, 'short_chunk_size': 25, 'num_left_chunks': 4, 'full_libri': True, 'manifest_dir': PosixPath('uk/data/fbank'), 'max_duration': 200.0, 'bucketing_sampler': True, 'num_buckets': 30, 'concatenate_cuts': False, 'duration_factor': 1.0, 'gap': 1.0, 'on_the_fly_feats': False, 'shuffle': True, 'drop_last': True, 'return_cuts': True, 'num_workers': 2, 'enable_spec_aug': True, 'spec_aug_time_warp_factor': 80, 'enable_musan': True, 'input_strategy': 'PrecomputedFeatures', 'res_dir': PosixPath('pruned_transducer_stateless5/exp-uk-filtered2/fast_beam_search_nbest_LG'), 'suffix': 'epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model', 'blank_id': 0, 'unk_id': 2, 'vocab_size': 250}
+2022-09-19 22:54:24,050 INFO [decode.py:721] About to create model
+2022-09-19 22:54:24,162 INFO [decode.py:788] Calculating the averaged model over epoch range from 19 (excluded) to 31
+2022-09-19 22:54:25,982 WARNING [decode.py:816] No uk/data/lang_bpe_250/LG.pt - using a trivial graph without a word table
+2022-09-19 22:54:25,989 INFO [decode.py:832] Number of model parameters: 30053246
+2022-09-19 22:54:25,989 INFO [asr_datamodule_uk.py:422] About to get ('train-other-shuffled-filtered2',) cuts
+2022-09-19 22:54:26,653 INFO [asr_datamodule_uk.py:441] About to get test-other cuts
+2022-09-19 22:54:43,726 INFO [decode.py:596] batch 0/?, cuts processed until now is 29
+2022-09-19 22:59:48,659 INFO [decode.py:596] batch 20/?, cuts processed until now is 659
+2022-09-19 23:04:53,039 INFO [decode.py:596] batch 40/?, cuts processed until now is 1323
+2022-09-19 23:09:53,214 INFO [decode.py:596] batch 60/?, cuts processed until now is 2057
+2022-09-19 23:14:57,627 INFO [decode.py:596] batch 80/?, cuts processed until now is 2763
+2022-09-19 23:17:57,558 INFO [decode.py:614] The transcripts are stored in pruned_transducer_stateless5/exp-uk-filtered2/fast_beam_search_nbest_LG/recogs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt
+2022-09-19 23:17:57,589 INFO [utils.py:428] [test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01] %WER 17.26% [4188 / 24269, 513 ins, 578 del, 3097 sub ]
+2022-09-19 23:17:57,668 INFO [decode.py:627] Wrote detailed error stats to pruned_transducer_stateless5/exp-uk-filtered2/fast_beam_search_nbest_LG/errs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt
+2022-09-19 23:17:57,669 INFO [decode.py:644]
+For test-other, WER of different settings are:
+beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01	17.26	best for test-other
+2022-09-19 23:17:57,669 INFO [decode.py:887] Done!

log/log-train-2022-09-17-00-39-59-0 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-train-2022-09-17-00-39-59-1 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-train-2022-09-19-08-50-42-0 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-train-2022-09-19-08-50-42-1 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/recogs-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

log/wer-summary-test-other-beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01-epoch-31-avg-12-beam-20.0-max-contexts-8-max-states-64-nbest-scale-0.5-num-paths-200-ngram-lm-scale-0.01-use-averaged-model.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ settings WER
2	+ beam_20.0_max_contexts_8_max_states_64_num_paths_200_nbest_scale_0.5_ngram_lm_scale_0.01 17.26