End of training

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Dec09_20-02-45_132-145-129-157/events.out.tfevents.1670625528.132-145-129-157.83404.2 +3 -0
train_results.json +5 -5
trainer_state.json +261 -63

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 57.14,
-    "eval_loss": 1.3860349655151367,
-    "eval_runtime": 506.4312,
-    "eval_samples_per_second": 1.011,
-    "eval_steps_per_second": 0.063,
-    "eval_wer": 89.14951573849879,
-    "train_loss": 1.6743954944610595,
-    "train_runtime": 3832.5455,
-    "train_samples_per_second": 6.68,
-    "train_steps_per_second": 0.104
 }

 {
+    "epoch": 142.86,
+    "eval_loss": 1.0276601314544678,
+    "eval_runtime": 472.1098,
+    "eval_samples_per_second": 1.084,
+    "eval_steps_per_second": 0.068,
+    "eval_wer": 66.00332929782083,
+    "train_loss": 1.129885540008545,
+    "train_runtime": 8800.2415,
+    "train_samples_per_second": 7.273,
+    "train_steps_per_second": 0.114
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 57.14,
-    "eval_loss": 1.3860349655151367,
-    "eval_runtime": 506.4312,
-    "eval_samples_per_second": 1.011,
-    "eval_steps_per_second": 0.063,
-    "eval_wer": 89.14951573849879
 }

 {
+    "epoch": 142.86,
+    "eval_loss": 1.0276601314544678,
+    "eval_runtime": 472.1098,
+    "eval_samples_per_second": 1.084,
+    "eval_steps_per_second": 0.068,
+    "eval_wer": 66.00332929782083
 }

runs/Dec09_20-02-45_132-145-129-157/events.out.tfevents.1670625528.132-145-129-157.83404.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a01540d7de792e2f55790a75780ffcacd77df30ed1033d765eea9e4e97d5d81
+size 358

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 57.14,
-    "train_loss": 1.6743954944610595,
-    "train_runtime": 3832.5455,
-    "train_samples_per_second": 6.68,
-    "train_steps_per_second": 0.104
 }

 {
+    "epoch": 142.86,
+    "train_loss": 1.129885540008545,
+    "train_runtime": 8800.2415,
+    "train_samples_per_second": 7.273,
+    "train_steps_per_second": 0.114
 }

trainer_state.json CHANGED Viewed

@@ -1,157 +1,355 @@
 {
-  "best_metric": 240.85956416464893,
   "best_model_checkpoint": "./checkpoint-100",
-  "epoch": 57.142857142857146,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.57,
-      "learning_rate": 2.9076923076923076e-07,
-      "loss": 2.8018,
       "step": 25
     },
     {
       "epoch": 7.14,
-      "learning_rate": 2.7153846153846153e-07,
-      "loss": 2.4337,
       "step": 50
     },
     {
       "epoch": 10.71,
-      "learning_rate": 2.523076923076923e-07,
-      "loss": 2.1631,
       "step": 75
     },
     {
       "epoch": 14.29,
-      "learning_rate": 2.3307692307692306e-07,
-      "loss": 1.9754,
       "step": 100
     },
     {
       "epoch": 14.29,
-      "eval_loss": 1.9261106252670288,
-      "eval_runtime": 721.539,
       "eval_samples_per_second": 0.71,
       "eval_steps_per_second": 0.044,
-      "eval_wer": 240.85956416464893,
       "step": 100
     },
     {
       "epoch": 17.86,
-      "learning_rate": 2.1384615384615385e-07,
-      "loss": 1.8067,
       "step": 125
     },
     {
       "epoch": 21.43,
-      "learning_rate": 1.9461538461538462e-07,
-      "loss": 1.7049,
       "step": 150
     },
     {
       "epoch": 25.0,
-      "learning_rate": 1.7538461538461539e-07,
-      "loss": 1.606,
       "step": 175
     },
     {
       "epoch": 28.57,
-      "learning_rate": 1.5615384615384615e-07,
-      "loss": 1.5323,
       "step": 200
     },
     {
       "epoch": 28.57,
-      "eval_loss": 1.5718045234680176,
-      "eval_runtime": 653.16,
-      "eval_samples_per_second": 0.784,
-      "eval_steps_per_second": 0.049,
-      "eval_wer": 168.5608353510896,
       "step": 200
     },
     {
       "epoch": 32.14,
-      "learning_rate": 1.3692307692307692e-07,
-      "loss": 1.4644,
       "step": 225
     },
     {
       "epoch": 35.71,
-      "learning_rate": 1.1769230769230768e-07,
-      "loss": 1.4134,
       "step": 250
     },
     {
       "epoch": 39.29,
-      "learning_rate": 9.846153846153846e-08,
-      "loss": 1.3706,
       "step": 275
     },
     {
       "epoch": 42.86,
-      "learning_rate": 7.923076923076923e-08,
-      "loss": 1.338,
       "step": 300
     },
     {
       "epoch": 42.86,
-      "eval_loss": 1.4249473810195923,
-      "eval_runtime": 548.9427,
-      "eval_samples_per_second": 0.933,
-      "eval_steps_per_second": 0.058,
-      "eval_wer": 96.64800242130751,
       "step": 300
     },
     {
       "epoch": 46.43,
-      "learning_rate": 6e-08,
-      "loss": 1.3112,
       "step": 325
     },
     {
       "epoch": 50.0,
-      "learning_rate": 4.076923076923077e-08,
-      "loss": 1.3008,
       "step": 350
     },
     {
       "epoch": 53.57,
-      "learning_rate": 2.1538461538461537e-08,
-      "loss": 1.2859,
       "step": 375
     },
     {
       "epoch": 57.14,
-      "learning_rate": 2.3076923076923076e-09,
-      "loss": 1.282,
       "step": 400
     },
     {
       "epoch": 57.14,
-      "eval_loss": 1.3860349655151367,
-      "eval_runtime": 506.783,
-      "eval_samples_per_second": 1.01,
-      "eval_steps_per_second": 0.063,
-      "eval_wer": 89.14951573849879,
       "step": 400
     },
     {
-      "epoch": 57.14,
-      "step": 400,
-      "total_flos": 7.10814699528192e+18,
-      "train_loss": 1.6743954944610595,
-      "train_runtime": 3832.5455,
-      "train_samples_per_second": 6.68,
-      "train_steps_per_second": 0.104
     }
   ],
-  "max_steps": 400,
-  "num_train_epochs": 58,
-  "total_flos": 7.10814699528192e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 230.27391041162227,
   "best_model_checkpoint": "./checkpoint-100",
+  "epoch": 142.85714285714286,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.57,
+      "learning_rate": 1.32e-07,
+      "loss": 2.8512,
       "step": 25
     },
     {
       "epoch": 7.14,
+      "learning_rate": 2.8199999999999996e-07,
+      "loss": 2.7082,
       "step": 50
     },
     {
       "epoch": 10.71,
+      "learning_rate": 2.9305263157894735e-07,
+      "loss": 2.3515,
       "step": 75
     },
     {
       "epoch": 14.29,
+      "learning_rate": 2.851578947368421e-07,
+      "loss": 2.0871,
       "step": 100
     },
     {
       "epoch": 14.29,
+      "eval_loss": 2.0101583003997803,
+      "eval_runtime": 720.7636,
       "eval_samples_per_second": 0.71,
       "eval_steps_per_second": 0.044,
+      "eval_wer": 230.27391041162227,
       "step": 100
     },
     {
       "epoch": 17.86,
+      "learning_rate": 2.7726315789473684e-07,
+      "loss": 1.8622,
       "step": 125
     },
     {
       "epoch": 21.43,
+      "learning_rate": 2.693684210526316e-07,
+      "loss": 1.7104,
       "step": 150
     },
     {
       "epoch": 25.0,
+      "learning_rate": 2.614736842105263e-07,
+      "loss": 1.5736,
       "step": 175
     },
     {
       "epoch": 28.57,
+      "learning_rate": 2.53578947368421e-07,
+      "loss": 1.465,
       "step": 200
     },
     {
       "epoch": 28.57,
+      "eval_loss": 1.4968725442886353,
+      "eval_runtime": 628.5425,
+      "eval_samples_per_second": 0.815,
+      "eval_steps_per_second": 0.051,
+      "eval_wer": 137.24273607748182,
       "step": 200
     },
     {
       "epoch": 32.14,
+      "learning_rate": 2.4568421052631577e-07,
+      "loss": 1.3669,
       "step": 225
     },
     {
       "epoch": 35.71,
+      "learning_rate": 2.3778947368421054e-07,
+      "loss": 1.2898,
       "step": 250
     },
     {
       "epoch": 39.29,
+      "learning_rate": 2.2989473684210523e-07,
+      "loss": 1.2205,
       "step": 275
     },
     {
       "epoch": 42.86,
+      "learning_rate": 2.2199999999999998e-07,
+      "loss": 1.1617,
       "step": 300
     },
     {
       "epoch": 42.86,
+      "eval_loss": 1.2715740203857422,
+      "eval_runtime": 499.3378,
+      "eval_samples_per_second": 1.025,
+      "eval_steps_per_second": 0.064,
+      "eval_wer": 76.32415254237289,
       "step": 300
     },
     {
       "epoch": 46.43,
+      "learning_rate": 2.1410526315789472e-07,
+      "loss": 1.1091,
       "step": 325
     },
     {
       "epoch": 50.0,
+      "learning_rate": 2.0621052631578947e-07,
+      "loss": 1.0738,
       "step": 350
     },
     {
       "epoch": 53.57,
+      "learning_rate": 1.9831578947368419e-07,
+      "loss": 1.033,
       "step": 375
     },
     {
       "epoch": 57.14,
+      "learning_rate": 1.9042105263157893e-07,
+      "loss": 1.0019,
       "step": 400
     },
     {
       "epoch": 57.14,
+      "eval_loss": 1.16450834274292,
+      "eval_runtime": 480.3701,
+      "eval_samples_per_second": 1.066,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 71.37560532687651,
       "step": 400
     },
     {
+      "epoch": 60.71,
+      "learning_rate": 1.8252631578947368e-07,
+      "loss": 0.9712,
+      "step": 425
+    },
+    {
+      "epoch": 64.29,
+      "learning_rate": 1.7463157894736842e-07,
+      "loss": 0.9437,
+      "step": 450
+    },
+    {
+      "epoch": 67.86,
+      "learning_rate": 1.6673684210526314e-07,
+      "loss": 0.9215,
+      "step": 475
+    },
+    {
+      "epoch": 71.43,
+      "learning_rate": 1.588421052631579e-07,
+      "loss": 0.9052,
+      "step": 500
+    },
+    {
+      "epoch": 71.43,
+      "eval_loss": 1.1051170825958252,
+      "eval_runtime": 486.3374,
+      "eval_samples_per_second": 1.053,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 69.78662227602905,
+      "step": 500
+    },
+    {
+      "epoch": 75.0,
+      "learning_rate": 1.5094736842105263e-07,
+      "loss": 0.8773,
+      "step": 525
+    },
+    {
+      "epoch": 78.57,
+      "learning_rate": 1.4305263157894735e-07,
+      "loss": 0.8643,
+      "step": 550
+    },
+    {
+      "epoch": 82.14,
+      "learning_rate": 1.351578947368421e-07,
+      "loss": 0.8449,
+      "step": 575
+    },
+    {
+      "epoch": 85.71,
+      "learning_rate": 1.2726315789473684e-07,
+      "loss": 0.8334,
+      "step": 600
+    },
+    {
+      "epoch": 85.71,
+      "eval_loss": 1.0691100358963013,
+      "eval_runtime": 478.3463,
+      "eval_samples_per_second": 1.07,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 68.26573849878935,
+      "step": 600
+    },
+    {
+      "epoch": 89.29,
+      "learning_rate": 1.1936842105263156e-07,
+      "loss": 0.8132,
+      "step": 625
+    },
+    {
+      "epoch": 92.86,
+      "learning_rate": 1.1147368421052631e-07,
+      "loss": 0.8058,
+      "step": 650
+    },
+    {
+      "epoch": 96.43,
+      "learning_rate": 1.0357894736842104e-07,
+      "loss": 0.7913,
+      "step": 675
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 9.568421052631579e-08,
+      "loss": 0.7838,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.0482958555221558,
+      "eval_runtime": 478.3861,
+      "eval_samples_per_second": 1.07,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 67.16858353510897,
+      "step": 700
+    },
+    {
+      "epoch": 103.57,
+      "learning_rate": 8.778947368421052e-08,
+      "loss": 0.7768,
+      "step": 725
+    },
+    {
+      "epoch": 107.14,
+      "learning_rate": 7.989473684210526e-08,
+      "loss": 0.7673,
+      "step": 750
+    },
+    {
+      "epoch": 110.71,
+      "learning_rate": 7.2e-08,
+      "loss": 0.7643,
+      "step": 775
+    },
+    {
+      "epoch": 114.29,
+      "learning_rate": 6.410526315789473e-08,
+      "loss": 0.7539,
+      "step": 800
+    },
+    {
+      "epoch": 114.29,
+      "eval_loss": 1.0362622737884521,
+      "eval_runtime": 484.8883,
+      "eval_samples_per_second": 1.056,
+      "eval_steps_per_second": 0.066,
+      "eval_wer": 66.41949152542372,
+      "step": 800
+    },
+    {
+      "epoch": 117.86,
+      "learning_rate": 5.621052631578947e-08,
+      "loss": 0.7527,
+      "step": 825
+    },
+    {
+      "epoch": 121.43,
+      "learning_rate": 4.8315789473684206e-08,
+      "loss": 0.7441,
+      "step": 850
+    },
+    {
+      "epoch": 125.0,
+      "learning_rate": 4.0421052631578945e-08,
+      "loss": 0.7417,
+      "step": 875
+    },
+    {
+      "epoch": 128.57,
+      "learning_rate": 3.2526315789473684e-08,
+      "loss": 0.7377,
+      "step": 900
+    },
+    {
+      "epoch": 128.57,
+      "eval_loss": 1.0297424793243408,
+      "eval_runtime": 471.9816,
+      "eval_samples_per_second": 1.085,
+      "eval_steps_per_second": 0.068,
+      "eval_wer": 66.20006053268766,
+      "step": 900
+    },
+    {
+      "epoch": 132.14,
+      "learning_rate": 2.463157894736842e-08,
+      "loss": 0.7387,
+      "step": 925
+    },
+    {
+      "epoch": 135.71,
+      "learning_rate": 1.673684210526316e-08,
+      "loss": 0.7329,
+      "step": 950
+    },
+    {
+      "epoch": 139.29,
+      "learning_rate": 8.842105263157895e-09,
+      "loss": 0.7312,
+      "step": 975
+    },
+    {
+      "epoch": 142.86,
+      "learning_rate": 9.473684210526316e-10,
+      "loss": 0.7325,
+      "step": 1000
+    },
+    {
+      "epoch": 142.86,
+      "eval_loss": 1.0276601314544678,
+      "eval_runtime": 477.2948,
+      "eval_samples_per_second": 1.073,
+      "eval_steps_per_second": 0.067,
+      "eval_wer": 66.00332929782083,
+      "step": 1000
+    },
+    {
+      "epoch": 142.86,
+      "step": 1000,
+      "total_flos": 1.777282046410752e+19,
+      "train_loss": 1.129885540008545,
+      "train_runtime": 8800.2415,
+      "train_samples_per_second": 7.273,
+      "train_steps_per_second": 0.114
     }
   ],
+  "max_steps": 1000,
+  "num_train_epochs": 143,
+  "total_flos": 1.777282046410752e+19,
   "trial_name": null,
   "trial_params": null
 }