add best WER checkopoint at 3000 steps

Browse files

Files changed (9) hide show

checkpoint-3000/config.json +41 -0
checkpoint-3000/optimizer.pt +3 -0
checkpoint-3000/preprocessor_config.json +0 -0
checkpoint-3000/pytorch_model.bin +3 -0
checkpoint-3000/rng_state.pth +3 -0
checkpoint-3000/scaler.pt +3 -0
checkpoint-3000/scheduler.pt +3 -0
checkpoint-3000/trainer_state.json +934 -0
checkpoint-3000/training_args.bin +3 -0

checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": false,
+  "vocab_size": 51865
+}

checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69c6311664a33bc54b6c97e08f1e9c9235fda8590af92fe3a3ab687f57cf6778
+size 1934161093

checkpoint-3000/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5764b46edba29c43965ebbb92f48c0f108fbbbc77cfaa224dcfb807e88c5e55a
+size 967102601

checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40cb3deb4838cfec86261ac1bfe3ea3a3f050eb56b5930a641925eef640c40e4
+size 14575

checkpoint-3000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67052f7ccf0c314ec66f8a5e6561069877b7b24a3a43dcf29f3baded513f272d
+size 557

checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef06d0cdaf008a8194b49ac5e048244aa436a656f010611ec32a4be618c2ef4
+size 627

checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "best_metric": 230.27391041162227,
+  "best_model_checkpoint": "./checkpoint-100",
+  "epoch": 428.57142857142856,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.57,
+      "learning_rate": 1.32e-07,
+      "loss": 2.8512,
+      "step": 25
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 2.8199999999999996e-07,
+      "loss": 2.7082,
+      "step": 50
+    },
+    {
+      "epoch": 10.71,
+      "learning_rate": 2.9305263157894735e-07,
+      "loss": 2.3515,
+      "step": 75
+    },
+    {
+      "epoch": 14.29,
+      "learning_rate": 2.851578947368421e-07,
+      "loss": 2.0871,
+      "step": 100
+    },
+    {
+      "epoch": 14.29,
+      "eval_loss": 2.0101583003997803,
+      "eval_runtime": 720.7636,
+      "eval_samples_per_second": 0.71,
+      "eval_steps_per_second": 0.044,
+      "eval_wer": 230.27391041162227,
+      "step": 100
+    },
+    {
+      "epoch": 17.86,
+      "learning_rate": 2.7726315789473684e-07,
+      "loss": 1.8622,
+      "step": 125
+    },
+    {
+      "epoch": 21.43,
+      "learning_rate": 2.693684210526316e-07,
+      "loss": 1.7104,
+      "step": 150
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.614736842105263e-07,
+      "loss": 1.5736,
+      "step": 175
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 2.53578947368421e-07,
+      "loss": 1.465,
+      "step": 200
+    },
+    {
+      "epoch": 28.57,
+      "eval_loss": 1.4968725442886353,
+      "eval_runtime": 628.5425,
+      "eval_samples_per_second": 0.815,
+      "eval_steps_per_second": 0.051,
+      "eval_wer": 137.24273607748182,
+      "step": 200
+    },
+    {
+      "epoch": 32.14,
+      "learning_rate": 2.4568421052631577e-07,
+      "loss": 1.3669,
+      "step": 225
+    },
+    {
+      "epoch": 35.71,
+      "learning_rate": 2.3778947368421054e-07,
+      "loss": 1.2898,
+      "step": 250
+    },
+    {
+      "epoch": 39.29,
+      "learning_rate": 2.2989473684210523e-07,
+      "loss": 1.2205,
+      "step": 275
+    },
+    {
+      "epoch": 42.86,
+      "learning_rate": 2.2199999999999998e-07,
+      "loss": 1.1617,
+      "step": 300
+    },
+    {
+      "epoch": 42.86,
+      "eval_loss": 1.2715740203857422,
+      "eval_runtime": 499.3378,
+      "eval_samples_per_second": 1.025,
+      "eval_steps_per_second": 0.064,
+      "eval_wer": 76.32415254237289,
+      "step": 300
+    },
+    {
+      "epoch": 46.43,
+      "learning_rate": 2.1410526315789472e-07,
+      "loss": 1.1091,
+      "step": 325
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 2.0621052631578947e-07,
+      "loss": 1.0738,
+      "step": 350
+    },
+    {
+      "epoch": 53.57,
+      "learning_rate": 1.9831578947368419e-07,
+      "loss": 1.033,
+      "step": 375
+    },
+    {
+      "epoch": 57.14,
+      "learning_rate": 1.9042105263157893e-07,
+      "loss": 1.0019,
+      "step": 400
+    },
+    {
+      "epoch": 57.14,
+      "eval_loss": 1.16450834274292,
+      "eval_runtime": 480.3701,
+      "eval_samples_per_second": 1.066,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 71.37560532687651,
+      "step": 400
+    },
+    {
+      "epoch": 60.71,
+      "learning_rate": 1.8252631578947368e-07,
+      "loss": 0.9712,
+      "step": 425
+    },
+    {
+      "epoch": 64.29,
+      "learning_rate": 1.7463157894736842e-07,
+      "loss": 0.9437,
+      "step": 450
+    },
+    {
+      "epoch": 67.86,
+      "learning_rate": 1.6673684210526314e-07,
+      "loss": 0.9215,
+      "step": 475
+    },
+    {
+      "epoch": 71.43,
+      "learning_rate": 1.588421052631579e-07,
+      "loss": 0.9052,
+      "step": 500
+    },
+    {
+      "epoch": 71.43,
+      "eval_loss": 1.1051170825958252,
+      "eval_runtime": 486.3374,
+      "eval_samples_per_second": 1.053,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 69.78662227602905,
+      "step": 500
+    },
+    {
+      "epoch": 75.0,
+      "learning_rate": 1.5094736842105263e-07,
+      "loss": 0.8773,
+      "step": 525
+    },
+    {
+      "epoch": 78.57,
+      "learning_rate": 1.4305263157894735e-07,
+      "loss": 0.8643,
+      "step": 550
+    },
+    {
+      "epoch": 82.14,
+      "learning_rate": 1.351578947368421e-07,
+      "loss": 0.8449,
+      "step": 575
+    },
+    {
+      "epoch": 85.71,
+      "learning_rate": 1.2726315789473684e-07,
+      "loss": 0.8334,
+      "step": 600
+    },
+    {
+      "epoch": 85.71,
+      "eval_loss": 1.0691100358963013,
+      "eval_runtime": 478.3463,
+      "eval_samples_per_second": 1.07,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 68.26573849878935,
+      "step": 600
+    },
+    {
+      "epoch": 89.29,
+      "learning_rate": 1.1936842105263156e-07,
+      "loss": 0.8132,
+      "step": 625
+    },
+    {
+      "epoch": 92.86,
+      "learning_rate": 1.1147368421052631e-07,
+      "loss": 0.8058,
+      "step": 650
+    },
+    {
+      "epoch": 96.43,
+      "learning_rate": 1.0357894736842104e-07,
+      "loss": 0.7913,
+      "step": 675
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 9.568421052631579e-08,
+      "loss": 0.7838,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.0482958555221558,
+      "eval_runtime": 478.3861,
+      "eval_samples_per_second": 1.07,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 67.16858353510897,
+      "step": 700
+    },
+    {
+      "epoch": 103.57,
+      "learning_rate": 8.778947368421052e-08,
+      "loss": 0.7768,
+      "step": 725
+    },
+    {
+      "epoch": 107.14,
+      "learning_rate": 7.989473684210526e-08,
+      "loss": 0.7673,
+      "step": 750
+    },
+    {
+      "epoch": 110.71,
+      "learning_rate": 7.2e-08,
+      "loss": 0.7643,
+      "step": 775
+    },
+    {
+      "epoch": 114.29,
+      "learning_rate": 6.410526315789473e-08,
+      "loss": 0.7539,
+      "step": 800
+    },
+    {
+      "epoch": 114.29,
+      "eval_loss": 1.0362622737884521,
+      "eval_runtime": 484.8883,
+      "eval_samples_per_second": 1.056,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 66.41949152542372,
+      "step": 800
+    },
+    {
+      "epoch": 117.86,
+      "learning_rate": 5.621052631578947e-08,
+      "loss": 0.7527,
+      "step": 825
+    },
+    {
+      "epoch": 121.43,
+      "learning_rate": 4.8315789473684206e-08,
+      "loss": 0.7441,
+      "step": 850
+    },
+    {
+      "epoch": 125.0,
+      "learning_rate": 4.0421052631578945e-08,
+      "loss": 0.7417,
+      "step": 875
+    },
+    {
+      "epoch": 128.57,
+      "learning_rate": 3.2526315789473684e-08,
+      "loss": 0.7377,
+      "step": 900
+    },
+    {
+      "epoch": 128.57,
+      "eval_loss": 1.0297424793243408,
+      "eval_runtime": 471.9816,
+      "eval_samples_per_second": 1.085,
+      "eval_steps_per_second": 0.068,
+      "eval_wer": 66.20006053268766,
+      "step": 900
+    },
+    {
+      "epoch": 132.14,
+      "learning_rate": 2.463157894736842e-08,
+      "loss": 0.7387,
+      "step": 925
+    },
+    {
+      "epoch": 135.71,
+      "learning_rate": 1.673684210526316e-08,
+      "loss": 0.7329,
+      "step": 950
+    },
+    {
+      "epoch": 139.29,
+      "learning_rate": 8.842105263157895e-09,
+      "loss": 0.7312,
+      "step": 975
+    },
+    {
+      "epoch": 142.86,
+      "learning_rate": 9.473684210526316e-10,
+      "loss": 0.7325,
+      "step": 1000
+    },
+    {
+      "epoch": 142.86,
+      "eval_loss": 1.0276601314544678,
+      "eval_runtime": 477.2948,
+      "eval_samples_per_second": 1.073,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 66.00332929782083,
+      "step": 1000
+    },
+    {
+      "epoch": 146.43,
+      "learning_rate": 1.5046153846153844e-07,
+      "loss": 0.7238,
+      "step": 1025
+    },
+    {
+      "epoch": 150.0,
+      "learning_rate": 1.466153846153846e-07,
+      "loss": 0.7163,
+      "step": 1050
+    },
+    {
+      "epoch": 153.57,
+      "learning_rate": 1.4276923076923076e-07,
+      "loss": 0.7028,
+      "step": 1075
+    },
+    {
+      "epoch": 157.14,
+      "learning_rate": 1.389230769230769e-07,
+      "loss": 0.6952,
+      "step": 1100
+    },
+    {
+      "epoch": 157.14,
+      "eval_loss": 1.0121634006500244,
+      "eval_runtime": 471.3724,
+      "eval_samples_per_second": 1.086,
+      "eval_steps_per_second": 0.068,
+      "eval_wer": 65.05750605326877,
+      "step": 1100
+    },
+    {
+      "epoch": 160.71,
+      "learning_rate": 1.3507692307692308e-07,
+      "loss": 0.6843,
+      "step": 1125
+    },
+    {
+      "epoch": 164.29,
+      "learning_rate": 1.3123076923076923e-07,
+      "loss": 0.6699,
+      "step": 1150
+    },
+    {
+      "epoch": 167.86,
+      "learning_rate": 1.2738461538461538e-07,
+      "loss": 0.6671,
+      "step": 1175
+    },
+    {
+      "epoch": 171.43,
+      "learning_rate": 1.2353846153846153e-07,
+      "loss": 0.6531,
+      "step": 1200
+    },
+    {
+      "epoch": 171.43,
+      "eval_loss": 1.0014406442642212,
+      "eval_runtime": 475.4519,
+      "eval_samples_per_second": 1.077,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 64.42191283292978,
+      "step": 1200
+    },
+    {
+      "epoch": 175.0,
+      "learning_rate": 1.1969230769230767e-07,
+      "loss": 0.6487,
+      "step": 1225
+    },
+    {
+      "epoch": 178.57,
+      "learning_rate": 1.1584615384615385e-07,
+      "loss": 0.6369,
+      "step": 1250
+    },
+    {
+      "epoch": 182.14,
+      "learning_rate": 1.12e-07,
+      "loss": 0.6336,
+      "step": 1275
+    },
+    {
+      "epoch": 185.71,
+      "learning_rate": 1.0815384615384614e-07,
+      "loss": 0.6189,
+      "step": 1300
+    },
+    {
+      "epoch": 185.71,
+      "eval_loss": 0.9944669008255005,
+      "eval_runtime": 470.4039,
+      "eval_samples_per_second": 1.088,
+      "eval_steps_per_second": 0.068,
+      "eval_wer": 63.79388619854721,
+      "step": 1300
+    },
+    {
+      "epoch": 189.29,
+      "learning_rate": 1.043076923076923e-07,
+      "loss": 0.6213,
+      "step": 1325
+    },
+    {
+      "epoch": 192.86,
+      "learning_rate": 1.0046153846153845e-07,
+      "loss": 0.608,
+      "step": 1350
+    },
+    {
+      "epoch": 196.43,
+      "learning_rate": 9.66153846153846e-08,
+      "loss": 0.6029,
+      "step": 1375
+    },
+    {
+      "epoch": 200.0,
+      "learning_rate": 9.276923076923078e-08,
+      "loss": 0.5993,
+      "step": 1400
+    },
+    {
+      "epoch": 200.0,
+      "eval_loss": 0.9895604252815247,
+      "eval_runtime": 473.2431,
+      "eval_samples_per_second": 1.082,
+      "eval_steps_per_second": 0.068,
+      "eval_wer": 63.35502421307506,
+      "step": 1400
+    },
+    {
+      "epoch": 203.57,
+      "learning_rate": 8.892307692307692e-08,
+      "loss": 0.593,
+      "step": 1425
+    },
+    {
+      "epoch": 207.14,
+      "learning_rate": 8.507692307692307e-08,
+      "loss": 0.5817,
+      "step": 1450
+    },
+    {
+      "epoch": 210.71,
+      "learning_rate": 8.123076923076922e-08,
+      "loss": 0.5782,
+      "step": 1475
+    },
+    {
+      "epoch": 214.29,
+      "learning_rate": 7.738461538461538e-08,
+      "loss": 0.5757,
+      "step": 1500
+    },
+    {
+      "epoch": 214.29,
+      "eval_loss": 0.9864457845687866,
+      "eval_runtime": 474.414,
+      "eval_samples_per_second": 1.079,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 63.22639225181598,
+      "step": 1500
+    },
+    {
+      "epoch": 217.86,
+      "learning_rate": 7.353846153846153e-08,
+      "loss": 0.5706,
+      "step": 1525
+    },
+    {
+      "epoch": 221.43,
+      "learning_rate": 6.969230769230769e-08,
+      "loss": 0.5624,
+      "step": 1550
+    },
+    {
+      "epoch": 225.0,
+      "learning_rate": 6.584615384615385e-08,
+      "loss": 0.5638,
+      "step": 1575
+    },
+    {
+      "epoch": 228.57,
+      "learning_rate": 6.2e-08,
+      "loss": 0.5601,
+      "step": 1600
+    },
+    {
+      "epoch": 228.57,
+      "eval_loss": 0.9844600558280945,
+      "eval_runtime": 478.7212,
+      "eval_samples_per_second": 1.07,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 62.916162227602904,
+      "step": 1600
+    },
+    {
+      "epoch": 232.14,
+      "learning_rate": 5.815384615384615e-08,
+      "loss": 0.5537,
+      "step": 1625
+    },
+    {
+      "epoch": 235.71,
+      "learning_rate": 5.430769230769231e-08,
+      "loss": 0.5488,
+      "step": 1650
+    },
+    {
+      "epoch": 239.29,
+      "learning_rate": 5.0461538461538456e-08,
+      "loss": 0.5479,
+      "step": 1675
+    },
+    {
+      "epoch": 242.86,
+      "learning_rate": 4.661538461538461e-08,
+      "loss": 0.5482,
+      "step": 1700
+    },
+    {
+      "epoch": 242.86,
+      "eval_loss": 0.9833234548568726,
+      "eval_runtime": 488.3079,
+      "eval_samples_per_second": 1.049,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 62.817796610169495,
+      "step": 1700
+    },
+    {
+      "epoch": 246.43,
+      "learning_rate": 4.2769230769230765e-08,
+      "loss": 0.5441,
+      "step": 1725
+    },
+    {
+      "epoch": 250.0,
+      "learning_rate": 3.892307692307692e-08,
+      "loss": 0.54,
+      "step": 1750
+    },
+    {
+      "epoch": 253.57,
+      "learning_rate": 3.5076923076923074e-08,
+      "loss": 0.538,
+      "step": 1775
+    },
+    {
+      "epoch": 257.14,
+      "learning_rate": 3.123076923076923e-08,
+      "loss": 0.5382,
+      "step": 1800
+    },
+    {
+      "epoch": 257.14,
+      "eval_loss": 0.9826769828796387,
+      "eval_runtime": 486.3686,
+      "eval_samples_per_second": 1.053,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 62.84049636803874,
+      "step": 1800
+    },
+    {
+      "epoch": 260.71,
+      "learning_rate": 2.7384615384615387e-08,
+      "loss": 0.5343,
+      "step": 1825
+    },
+    {
+      "epoch": 264.29,
+      "learning_rate": 2.3538461538461535e-08,
+      "loss": 0.5313,
+      "step": 1850
+    },
+    {
+      "epoch": 267.86,
+      "learning_rate": 1.9692307692307693e-08,
+      "loss": 0.5318,
+      "step": 1875
+    },
+    {
+      "epoch": 271.43,
+      "learning_rate": 1.5846153846153844e-08,
+      "loss": 0.5325,
+      "step": 1900
+    },
+    {
+      "epoch": 271.43,
+      "eval_loss": 0.9823360443115234,
+      "eval_runtime": 483.6609,
+      "eval_samples_per_second": 1.059,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 62.76483050847458,
+      "step": 1900
+    },
+    {
+      "epoch": 275.0,
+      "learning_rate": 1.2e-08,
+      "loss": 0.529,
+      "step": 1925
+    },
+    {
+      "epoch": 278.57,
+      "learning_rate": 8.153846153846154e-09,
+      "loss": 0.5294,
+      "step": 1950
+    },
+    {
+      "epoch": 282.14,
+      "learning_rate": 4.307692307692307e-09,
+      "loss": 0.525,
+      "step": 1975
+    },
+    {
+      "epoch": 285.71,
+      "learning_rate": 4.615384615384615e-10,
+      "loss": 0.5287,
+      "step": 2000
+    },
+    {
+      "epoch": 285.71,
+      "eval_loss": 0.9822061061859131,
+      "eval_runtime": 484.044,
+      "eval_samples_per_second": 1.058,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 62.817796610169495,
+      "step": 2000
+    },
+    {
+      "epoch": 289.29,
+      "learning_rate": 1.9853333333333334e-07,
+      "loss": 0.523,
+      "step": 2025
+    },
+    {
+      "epoch": 292.86,
+      "learning_rate": 1.9686666666666667e-07,
+      "loss": 0.5133,
+      "step": 2050
+    },
+    {
+      "epoch": 296.43,
+      "learning_rate": 1.9519999999999997e-07,
+      "loss": 0.4999,
+      "step": 2075
+    },
+    {
+      "epoch": 300.0,
+      "learning_rate": 1.935333333333333e-07,
+      "loss": 0.4924,
+      "step": 2100
+    },
+    {
+      "epoch": 303.57,
+      "learning_rate": 1.9186666666666666e-07,
+      "loss": 0.4855,
+      "step": 2125
+    },
+    {
+      "epoch": 307.14,
+      "learning_rate": 1.902e-07,
+      "loss": 0.4701,
+      "step": 2150
+    },
+    {
+      "epoch": 310.71,
+      "learning_rate": 1.8853333333333333e-07,
+      "loss": 0.4601,
+      "step": 2175
+    },
+    {
+      "epoch": 314.29,
+      "learning_rate": 1.8686666666666669e-07,
+      "loss": 0.4525,
+      "step": 2200
+    },
+    {
+      "epoch": 317.86,
+      "learning_rate": 1.852e-07,
+      "loss": 0.4448,
+      "step": 2225
+    },
+    {
+      "epoch": 321.43,
+      "learning_rate": 1.8353333333333332e-07,
+      "loss": 0.4364,
+      "step": 2250
+    },
+    {
+      "epoch": 325.0,
+      "learning_rate": 1.8186666666666665e-07,
+      "loss": 0.4232,
+      "step": 2275
+    },
+    {
+      "epoch": 328.57,
+      "learning_rate": 1.8019999999999999e-07,
+      "loss": 0.4163,
+      "step": 2300
+    },
+    {
+      "epoch": 332.14,
+      "learning_rate": 1.7853333333333334e-07,
+      "loss": 0.4089,
+      "step": 2325
+    },
+    {
+      "epoch": 335.71,
+      "learning_rate": 1.7686666666666668e-07,
+      "loss": 0.4031,
+      "step": 2350
+    },
+    {
+      "epoch": 339.29,
+      "learning_rate": 1.7519999999999998e-07,
+      "loss": 0.3887,
+      "step": 2375
+    },
+    {
+      "epoch": 342.86,
+      "learning_rate": 1.735333333333333e-07,
+      "loss": 0.3826,
+      "step": 2400
+    },
+    {
+      "epoch": 346.43,
+      "learning_rate": 1.7186666666666667e-07,
+      "loss": 0.3766,
+      "step": 2425
+    },
+    {
+      "epoch": 350.0,
+      "learning_rate": 1.702e-07,
+      "loss": 0.3647,
+      "step": 2450
+    },
+    {
+      "epoch": 353.57,
+      "learning_rate": 1.6853333333333333e-07,
+      "loss": 0.3601,
+      "step": 2475
+    },
+    {
+      "epoch": 357.14,
+      "learning_rate": 1.6686666666666664e-07,
+      "loss": 0.3494,
+      "step": 2500
+    },
+    {
+      "epoch": 357.14,
+      "eval_loss": 1.0025562047958374,
+      "eval_runtime": 489.174,
+      "eval_samples_per_second": 1.047,
+      "eval_steps_per_second": 0.065,
+      "eval_wer": 61.61470944309927,
+      "step": 2500
+    },
+    {
+      "epoch": 360.71,
+      "learning_rate": 1.652e-07,
+      "loss": 0.3448,
+      "step": 2525
+    },
+    {
+      "epoch": 364.29,
+      "learning_rate": 1.6353333333333333e-07,
+      "loss": 0.3367,
+      "step": 2550
+    },
+    {
+      "epoch": 367.86,
+      "learning_rate": 1.6186666666666666e-07,
+      "loss": 0.3308,
+      "step": 2575
+    },
+    {
+      "epoch": 371.43,
+      "learning_rate": 1.602e-07,
+      "loss": 0.3226,
+      "step": 2600
+    },
+    {
+      "epoch": 375.0,
+      "learning_rate": 1.5853333333333335e-07,
+      "loss": 0.3165,
+      "step": 2625
+    },
+    {
+      "epoch": 378.57,
+      "learning_rate": 1.5686666666666666e-07,
+      "loss": 0.3099,
+      "step": 2650
+    },
+    {
+      "epoch": 382.14,
+      "learning_rate": 1.552e-07,
+      "loss": 0.3021,
+      "step": 2675
+    },
+    {
+      "epoch": 385.71,
+      "learning_rate": 1.5353333333333332e-07,
+      "loss": 0.2964,
+      "step": 2700
+    },
+    {
+      "epoch": 389.29,
+      "learning_rate": 1.5186666666666668e-07,
+      "loss": 0.2901,
+      "step": 2725
+    },
+    {
+      "epoch": 392.86,
+      "learning_rate": 1.502e-07,
+      "loss": 0.284,
+      "step": 2750
+    },
+    {
+      "epoch": 396.43,
+      "learning_rate": 1.4853333333333334e-07,
+      "loss": 0.279,
+      "step": 2775
+    },
+    {
+      "epoch": 400.0,
+      "learning_rate": 1.4686666666666667e-07,
+      "loss": 0.2715,
+      "step": 2800
+    },
+    {
+      "epoch": 403.57,
+      "learning_rate": 1.4519999999999998e-07,
+      "loss": 0.2646,
+      "step": 2825
+    },
+    {
+      "epoch": 407.14,
+      "learning_rate": 1.4353333333333333e-07,
+      "loss": 0.2606,
+      "step": 2850
+    },
+    {
+      "epoch": 410.71,
+      "learning_rate": 1.4186666666666667e-07,
+      "loss": 0.2564,
+      "step": 2875
+    },
+    {
+      "epoch": 414.29,
+      "learning_rate": 1.402e-07,
+      "loss": 0.2486,
+      "step": 2900
+    },
+    {
+      "epoch": 417.86,
+      "learning_rate": 1.3853333333333333e-07,
+      "loss": 0.2463,
+      "step": 2925
+    },
+    {
+      "epoch": 421.43,
+      "learning_rate": 1.3686666666666666e-07,
+      "loss": 0.239,
+      "step": 2950
+    },
+    {
+      "epoch": 425.0,
+      "learning_rate": 1.352e-07,
+      "loss": 0.2341,
+      "step": 2975
+    },
+    {
+      "epoch": 428.57,
+      "learning_rate": 1.3353333333333332e-07,
+      "loss": 0.2287,
+      "step": 3000
+    },
+    {
+      "epoch": 428.57,
+      "eval_loss": 1.0533033609390259,
+      "eval_runtime": 465.8233,
+      "eval_samples_per_second": 1.099,
+      "eval_steps_per_second": 0.069,
+      "eval_wer": 61.516343825665864,
+      "step": 3000
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 715,
+  "total_flos": 5.330864948871168e+19,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d15d72002cecf8323f6cd941cec892fce6b19d6e69aa1365a60139bd64d32ff
+size 3579