Training in progress, step 500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -9
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +254 -254
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -9,16 +9,8 @@
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
-  "id2label": {
-    "0": "non-suicide",
-    "1": "suicide"
-  },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
-  "label2id": {
-    "non-suicide": 0,
-    "suicide": 1
-  },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
@@ -33,7 +25,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.41.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 21628

   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "model_type": "bert",
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 21628

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0cae98f2984553c6f685f9e8e28167815d01df53d3174ff7b9c94d82e636094
 size 410636248

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6e214c04195e499ad3c1f1101a010a1d7e5fbaf3db25a7310fd72a63494bbb2
 size 410636248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c519129fe07356101db3da3276238cfbfe3764e3ce9cfb856d2128fe131bc3e
 size 821393658

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5a60bc7661f70bd637dcf01a52362f3f33ca1187127a2d80be61d3e4cfa6474
 size 821393658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347fd2016e0db3c1f0b839dd747224fc90878594d016b9aee34d4fc23c72b0d4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b2be66fc445ad5b9b95c74f00e2829a3ab00fd604aa9b735f80f31e8d67a8a3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db1fe5f37124dbfc634cbe41dc7f546d88bc742d43b693450f047c48ecddd6a7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3ab3fae6bcbaddd22accfbc804c2c716cc71d2097adfaaa313faeb8455aa736
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.00016613505431450903,
   "best_model_checkpoint": "./results/checkpoint-500",
-  "epoch": 4.62962962962963,
   "eval_steps": 20,
   "global_step": 500,
   "is_hyper_param_search": false,
@@ -9,408 +9,408 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.18518518518518517,
-      "grad_norm": 15.828068733215332,
-      "learning_rate": 1.925925925925926e-05,
-      "loss": 0.3468,
       "step": 20
     },
     {
-      "epoch": 0.18518518518518517,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.20517832040786743,
-      "eval_runtime": 0.628,
-      "eval_samples_per_second": 81.206,
-      "eval_steps_per_second": 20.699,
       "step": 20
     },
     {
-      "epoch": 0.37037037037037035,
-      "grad_norm": 9.892717361450195,
-      "learning_rate": 1.851851851851852e-05,
-      "loss": 0.2089,
       "step": 40
     },
     {
-      "epoch": 0.37037037037037035,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.12760986387729645,
-      "eval_runtime": 0.6405,
-      "eval_samples_per_second": 79.628,
-      "eval_steps_per_second": 20.297,
       "step": 40
     },
     {
-      "epoch": 0.5555555555555556,
-      "grad_norm": 0.21783480048179626,
-      "learning_rate": 1.7777777777777777e-05,
-      "loss": 0.214,
       "step": 60
     },
     {
-      "epoch": 0.5555555555555556,
-      "eval_accuracy": 0.9803921568627451,
-      "eval_loss": 0.02514837123453617,
-      "eval_runtime": 0.632,
-      "eval_samples_per_second": 80.694,
-      "eval_steps_per_second": 20.569,
       "step": 60
     },
     {
-      "epoch": 0.7407407407407407,
-      "grad_norm": 0.05077819526195526,
-      "learning_rate": 1.7037037037037038e-05,
-      "loss": 0.0807,
       "step": 80
     },
     {
-      "epoch": 0.7407407407407407,
-      "eval_accuracy": 0.9803921568627451,
-      "eval_loss": 0.016518110409379005,
-      "eval_runtime": 0.629,
-      "eval_samples_per_second": 81.079,
-      "eval_steps_per_second": 20.667,
       "step": 80
     },
     {
-      "epoch": 0.9259259259259259,
-      "grad_norm": 0.04394271969795227,
-      "learning_rate": 1.6296296296296297e-05,
-      "loss": 0.1064,
       "step": 100
     },
     {
-      "epoch": 0.9259259259259259,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0030651080887764692,
-      "eval_runtime": 0.6365,
-      "eval_samples_per_second": 80.124,
-      "eval_steps_per_second": 20.424,
       "step": 100
     },
     {
-      "epoch": 1.1111111111111112,
-      "grad_norm": 0.08775356411933899,
-      "learning_rate": 1.555555555555556e-05,
-      "loss": 0.0134,
       "step": 120
     },
     {
-      "epoch": 1.1111111111111112,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.002504199743270874,
-      "eval_runtime": 0.6271,
-      "eval_samples_per_second": 81.321,
-      "eval_steps_per_second": 20.729,
       "step": 120
     },
     {
-      "epoch": 1.2962962962962963,
-      "grad_norm": 0.028400583192706108,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.0349,
       "step": 140
     },
     {
-      "epoch": 1.2962962962962963,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0006583676440641284,
-      "eval_runtime": 0.6233,
-      "eval_samples_per_second": 81.817,
-      "eval_steps_per_second": 20.855,
       "step": 140
     },
     {
-      "epoch": 1.4814814814814814,
-      "grad_norm": 0.00876949355006218,
-      "learning_rate": 1.4074074074074075e-05,
-      "loss": 0.0819,
       "step": 160
     },
     {
-      "epoch": 1.4814814814814814,
-      "eval_accuracy": 0.9607843137254902,
-      "eval_loss": 0.07063630223274231,
-      "eval_runtime": 0.6218,
-      "eval_samples_per_second": 82.021,
-      "eval_steps_per_second": 20.907,
       "step": 160
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.014950844459235668,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.0586,
       "step": 180
     },
     {
-      "epoch": 1.6666666666666665,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0005163149326108396,
-      "eval_runtime": 0.6311,
-      "eval_samples_per_second": 80.809,
-      "eval_steps_per_second": 20.598,
       "step": 180
     },
     {
-      "epoch": 1.8518518518518519,
-      "grad_norm": 0.01813225820660591,
-      "learning_rate": 1.2592592592592593e-05,
-      "loss": 0.0368,
       "step": 200
     },
     {
-      "epoch": 1.8518518518518519,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0004809926904272288,
-      "eval_runtime": 0.6213,
-      "eval_samples_per_second": 82.09,
-      "eval_steps_per_second": 20.925,
       "step": 200
     },
     {
-      "epoch": 2.037037037037037,
-      "grad_norm": 0.018220530822873116,
-      "learning_rate": 1.1851851851851852e-05,
-      "loss": 0.0485,
       "step": 220
     },
     {
-      "epoch": 2.037037037037037,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.003055064007639885,
-      "eval_runtime": 0.6259,
-      "eval_samples_per_second": 81.483,
-      "eval_steps_per_second": 20.77,
       "step": 220
     },
     {
-      "epoch": 2.2222222222222223,
-      "grad_norm": 0.012761042453348637,
-      "learning_rate": 1.1111111111111113e-05,
-      "loss": 0.017,
       "step": 240
     },
     {
-      "epoch": 2.2222222222222223,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0003475048579275608,
-      "eval_runtime": 0.6263,
-      "eval_samples_per_second": 81.436,
-      "eval_steps_per_second": 20.758,
       "step": 240
     },
     {
-      "epoch": 2.4074074074074074,
-      "grad_norm": 0.012553339824080467,
-      "learning_rate": 1.037037037037037e-05,
-      "loss": 0.0017,
       "step": 260
     },
     {
-      "epoch": 2.4074074074074074,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0020730593241751194,
-      "eval_runtime": 0.623,
-      "eval_samples_per_second": 81.864,
-      "eval_steps_per_second": 20.867,
       "step": 260
     },
     {
-      "epoch": 2.5925925925925926,
-      "grad_norm": 0.009718580171465874,
-      "learning_rate": 9.62962962962963e-06,
-      "loss": 0.0004,
       "step": 280
     },
     {
-      "epoch": 2.5925925925925926,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0004216369998175651,
-      "eval_runtime": 0.6294,
-      "eval_samples_per_second": 81.028,
-      "eval_steps_per_second": 20.654,
       "step": 280
     },
     {
-      "epoch": 2.7777777777777777,
-      "grad_norm": 0.009635565802454948,
-      "learning_rate": 8.888888888888888e-06,
-      "loss": 0.0444,
       "step": 300
     },
     {
-      "epoch": 2.7777777777777777,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00025334919337183237,
-      "eval_runtime": 0.6299,
-      "eval_samples_per_second": 80.96,
-      "eval_steps_per_second": 20.637,
       "step": 300
     },
     {
-      "epoch": 2.962962962962963,
-      "grad_norm": 0.005175964906811714,
-      "learning_rate": 8.148148148148148e-06,
-      "loss": 0.0005,
       "step": 320
     },
     {
-      "epoch": 2.962962962962963,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00028179946821182966,
-      "eval_runtime": 0.6242,
-      "eval_samples_per_second": 81.709,
-      "eval_steps_per_second": 20.828,
       "step": 320
     },
     {
-      "epoch": 3.148148148148148,
-      "grad_norm": 0.008158649317920208,
-      "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.0003,
       "step": 340
     },
     {
-      "epoch": 3.148148148148148,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0002456614456605166,
-      "eval_runtime": 0.6258,
-      "eval_samples_per_second": 81.502,
-      "eval_steps_per_second": 20.775,
       "step": 340
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 0.004232426173985004,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.0238,
       "step": 360
     },
     {
-      "epoch": 3.3333333333333335,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00026214588433504105,
-      "eval_runtime": 0.6234,
-      "eval_samples_per_second": 81.814,
-      "eval_steps_per_second": 20.855,
       "step": 360
     },
     {
-      "epoch": 3.5185185185185186,
-      "grad_norm": 0.004335971549153328,
-      "learning_rate": 5.925925925925926e-06,
-      "loss": 0.0003,
       "step": 380
     },
     {
-      "epoch": 3.5185185185185186,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0002457990194670856,
-      "eval_runtime": 0.6226,
-      "eval_samples_per_second": 81.91,
-      "eval_steps_per_second": 20.879,
       "step": 380
     },
     {
-      "epoch": 3.7037037037037037,
-      "grad_norm": 0.007228133734315634,
-      "learning_rate": 5.185185185185185e-06,
-      "loss": 0.0003,
       "step": 400
     },
     {
-      "epoch": 3.7037037037037037,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0002311759744770825,
-      "eval_runtime": 0.6205,
-      "eval_samples_per_second": 82.185,
-      "eval_steps_per_second": 20.949,
       "step": 400
     },
     {
-      "epoch": 3.888888888888889,
-      "grad_norm": 0.004542021080851555,
-      "learning_rate": 4.444444444444444e-06,
-      "loss": 0.0003,
       "step": 420
     },
     {
-      "epoch": 3.888888888888889,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0002200859016738832,
-      "eval_runtime": 0.6236,
-      "eval_samples_per_second": 81.782,
-      "eval_steps_per_second": 20.846,
       "step": 420
     },
     {
-      "epoch": 4.074074074074074,
-      "grad_norm": 0.004315598402172327,
-      "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.0007,
       "step": 440
     },
     {
-      "epoch": 4.074074074074074,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0001800174795789644,
-      "eval_runtime": 0.6201,
-      "eval_samples_per_second": 82.247,
-      "eval_steps_per_second": 20.965,
       "step": 440
     },
     {
-      "epoch": 4.2592592592592595,
-      "grad_norm": 0.014702328480780125,
-      "learning_rate": 2.962962962962963e-06,
-      "loss": 0.0002,
       "step": 460
     },
     {
-      "epoch": 4.2592592592592595,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00017176676192320883,
-      "eval_runtime": 0.6211,
-      "eval_samples_per_second": 82.115,
-      "eval_steps_per_second": 20.931,
       "step": 460
     },
     {
-      "epoch": 4.444444444444445,
-      "grad_norm": 0.005943182855844498,
-      "learning_rate": 2.222222222222222e-06,
-      "loss": 0.0003,
       "step": 480
     },
     {
-      "epoch": 4.444444444444445,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00016821030294522643,
-      "eval_runtime": 0.6229,
-      "eval_samples_per_second": 81.877,
-      "eval_steps_per_second": 20.871,
       "step": 480
     },
     {
-      "epoch": 4.62962962962963,
-      "grad_norm": 0.036252692341804504,
-      "learning_rate": 1.4814814814814815e-06,
-      "loss": 0.0002,
       "step": 500
     },
     {
-      "epoch": 4.62962962962963,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00016613505431450903,
-      "eval_runtime": 0.627,
-      "eval_samples_per_second": 81.342,
-      "eval_steps_per_second": 20.734,
       "step": 500
     }
   ],
   "logging_steps": 20,
-  "max_steps": 540,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -426,7 +426,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 411116162887800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11589507758617401,
   "best_model_checkpoint": "./results/checkpoint-500",
+  "epoch": 2.4038461538461537,
   "eval_steps": 20,
   "global_step": 500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.09615384615384616,
+      "grad_norm": 2.879941701889038,
+      "learning_rate": 1.9615384615384617e-05,
+      "loss": 0.5169,
       "step": 20
     },
     {
+      "epoch": 0.09615384615384616,
+      "eval_accuracy": 0.8064516129032258,
+      "eval_loss": 0.43645337224006653,
+      "eval_runtime": 2.8523,
+      "eval_samples_per_second": 32.606,
+      "eval_steps_per_second": 8.414,
       "step": 20
     },
     {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 0.7589161396026611,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.3487,
       "step": 40
     },
     {
+      "epoch": 0.19230769230769232,
+      "eval_accuracy": 0.8602150537634409,
+      "eval_loss": 0.32320985198020935,
+      "eval_runtime": 2.9393,
+      "eval_samples_per_second": 31.641,
+      "eval_steps_per_second": 8.165,
       "step": 40
     },
     {
+      "epoch": 0.28846153846153844,
+      "grad_norm": 22.88661766052246,
+      "learning_rate": 1.8846153846153846e-05,
+      "loss": 0.1785,
       "step": 60
     },
     {
+      "epoch": 0.28846153846153844,
+      "eval_accuracy": 0.946236559139785,
+      "eval_loss": 0.1469801366329193,
+      "eval_runtime": 3.241,
+      "eval_samples_per_second": 28.695,
+      "eval_steps_per_second": 7.405,
       "step": 60
     },
     {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 0.04444374889135361,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.192,
       "step": 80
     },
     {
+      "epoch": 0.38461538461538464,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.12639252841472626,
+      "eval_runtime": 2.8312,
+      "eval_samples_per_second": 32.849,
+      "eval_steps_per_second": 8.477,
       "step": 80
     },
     {
+      "epoch": 0.4807692307692308,
+      "grad_norm": 1.9381160736083984,
+      "learning_rate": 1.807692307692308e-05,
+      "loss": 0.0329,
       "step": 100
     },
     {
+      "epoch": 0.4807692307692308,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.18568147718906403,
+      "eval_runtime": 2.7388,
+      "eval_samples_per_second": 33.956,
+      "eval_steps_per_second": 8.763,
       "step": 100
     },
     {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 0.0944330021739006,
+      "learning_rate": 1.7692307692307694e-05,
+      "loss": 0.1432,
       "step": 120
     },
     {
+      "epoch": 0.5769230769230769,
+      "eval_accuracy": 0.9247311827956989,
+      "eval_loss": 0.2023310661315918,
+      "eval_runtime": 2.6839,
+      "eval_samples_per_second": 34.651,
+      "eval_steps_per_second": 8.942,
       "step": 120
     },
     {
+      "epoch": 0.6730769230769231,
+      "grad_norm": 36.735008239746094,
+      "learning_rate": 1.730769230769231e-05,
+      "loss": 0.3458,
       "step": 140
     },
     {
+      "epoch": 0.6730769230769231,
+      "eval_accuracy": 0.967741935483871,
+      "eval_loss": 0.12693293392658234,
+      "eval_runtime": 2.6852,
+      "eval_samples_per_second": 34.634,
+      "eval_steps_per_second": 8.938,
       "step": 140
     },
     {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 13.383593559265137,
+      "learning_rate": 1.6923076923076924e-05,
+      "loss": 0.234,
       "step": 160
     },
     {
+      "epoch": 0.7692307692307693,
+      "eval_accuracy": 0.946236559139785,
+      "eval_loss": 0.15099573135375977,
+      "eval_runtime": 2.7092,
+      "eval_samples_per_second": 34.327,
+      "eval_steps_per_second": 8.859,
       "step": 160
     },
     {
+      "epoch": 0.8653846153846154,
+      "grad_norm": 0.04881865903735161,
+      "learning_rate": 1.653846153846154e-05,
+      "loss": 0.179,
       "step": 180
     },
     {
+      "epoch": 0.8653846153846154,
+      "eval_accuracy": 0.967741935483871,
+      "eval_loss": 0.11019934713840485,
+      "eval_runtime": 2.7609,
+      "eval_samples_per_second": 33.685,
+      "eval_steps_per_second": 8.693,
       "step": 180
     },
     {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 0.1799299567937851,
+      "learning_rate": 1.6153846153846154e-05,
+      "loss": 0.1873,
       "step": 200
     },
     {
+      "epoch": 0.9615384615384616,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.11402961611747742,
+      "eval_runtime": 2.7766,
+      "eval_samples_per_second": 33.494,
+      "eval_steps_per_second": 8.644,
       "step": 200
     },
     {
+      "epoch": 1.0576923076923077,
+      "grad_norm": 0.45117759704589844,
+      "learning_rate": 1.576923076923077e-05,
+      "loss": 0.1519,
       "step": 220
     },
     {
+      "epoch": 1.0576923076923077,
+      "eval_accuracy": 0.946236559139785,
+      "eval_loss": 0.2102302461862564,
+      "eval_runtime": 2.7619,
+      "eval_samples_per_second": 33.672,
+      "eval_steps_per_second": 8.69,
       "step": 220
     },
     {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 55.769256591796875,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.0453,
       "step": 240
     },
     {
+      "epoch": 1.1538461538461537,
+      "eval_accuracy": 0.9247311827956989,
+      "eval_loss": 0.31499457359313965,
+      "eval_runtime": 2.7752,
+      "eval_samples_per_second": 33.511,
+      "eval_steps_per_second": 8.648,
       "step": 240
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 0.028473777696490288,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0341,
       "step": 260
     },
     {
+      "epoch": 1.25,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.1401311606168747,
+      "eval_runtime": 2.7614,
+      "eval_samples_per_second": 33.678,
+      "eval_steps_per_second": 8.691,
       "step": 260
     },
     {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 0.04881782829761505,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 0.0316,
       "step": 280
     },
     {
+      "epoch": 1.3461538461538463,
+      "eval_accuracy": 0.967741935483871,
+      "eval_loss": 0.16341440379619598,
+      "eval_runtime": 2.7702,
+      "eval_samples_per_second": 33.572,
+      "eval_steps_per_second": 8.664,
       "step": 280
     },
     {
+      "epoch": 1.4423076923076923,
+      "grad_norm": 0.040301088243722916,
+      "learning_rate": 1.4230769230769232e-05,
+      "loss": 0.1082,
       "step": 300
     },
     {
+      "epoch": 1.4423076923076923,
+      "eval_accuracy": 0.978494623655914,
+      "eval_loss": 0.10686944425106049,
+      "eval_runtime": 2.7502,
+      "eval_samples_per_second": 33.816,
+      "eval_steps_per_second": 8.727,
       "step": 300
     },
     {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 27.52263641357422,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.0954,
       "step": 320
     },
     {
+      "epoch": 1.5384615384615383,
+      "eval_accuracy": 0.978494623655914,
+      "eval_loss": 0.08186855167150497,
+      "eval_runtime": 2.7311,
+      "eval_samples_per_second": 34.052,
+      "eval_steps_per_second": 8.788,
       "step": 320
     },
     {
+      "epoch": 1.6346153846153846,
+      "grad_norm": 0.013332587666809559,
+      "learning_rate": 1.3461538461538463e-05,
+      "loss": 0.0472,
       "step": 340
     },
     {
+      "epoch": 1.6346153846153846,
+      "eval_accuracy": 0.967741935483871,
+      "eval_loss": 0.1686173677444458,
+      "eval_runtime": 2.733,
+      "eval_samples_per_second": 34.029,
+      "eval_steps_per_second": 8.782,
       "step": 340
     },
     {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 0.05663549154996872,
+      "learning_rate": 1.3076923076923078e-05,
+      "loss": 0.1563,
       "step": 360
     },
     {
+      "epoch": 1.7307692307692308,
+      "eval_accuracy": 0.978494623655914,
+      "eval_loss": 0.037865716964006424,
+      "eval_runtime": 2.7489,
+      "eval_samples_per_second": 33.832,
+      "eval_steps_per_second": 8.731,
       "step": 360
     },
     {
+      "epoch": 1.8269230769230769,
+      "grad_norm": 8.364692687988281,
+      "learning_rate": 1.2692307692307693e-05,
+      "loss": 0.1812,
       "step": 380
     },
     {
+      "epoch": 1.8269230769230769,
+      "eval_accuracy": 0.967741935483871,
+      "eval_loss": 0.12184549123048782,
+      "eval_runtime": 2.7376,
+      "eval_samples_per_second": 33.971,
+      "eval_steps_per_second": 8.767,
       "step": 380
     },
     {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 0.173508420586586,
+      "learning_rate": 1.230769230769231e-05,
+      "loss": 0.1276,
       "step": 400
     },
     {
+      "epoch": 1.9230769230769231,
+      "eval_accuracy": 0.989247311827957,
+      "eval_loss": 0.07845792919397354,
+      "eval_runtime": 2.7605,
+      "eval_samples_per_second": 33.689,
+      "eval_steps_per_second": 8.694,
       "step": 400
     },
     {
+      "epoch": 2.019230769230769,
+      "grad_norm": 0.009747051633894444,
+      "learning_rate": 1.1923076923076925e-05,
+      "loss": 0.0772,
       "step": 420
     },
     {
+      "epoch": 2.019230769230769,
+      "eval_accuracy": 0.989247311827957,
+      "eval_loss": 0.07875293493270874,
+      "eval_runtime": 2.7654,
+      "eval_samples_per_second": 33.63,
+      "eval_steps_per_second": 8.679,
       "step": 420
     },
     {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 0.017300551757216454,
+      "learning_rate": 1.1538461538461538e-05,
+      "loss": 0.0022,
       "step": 440
     },
     {
+      "epoch": 2.1153846153846154,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.102827288210392,
+      "eval_runtime": 2.769,
+      "eval_samples_per_second": 33.587,
+      "eval_steps_per_second": 8.667,
       "step": 440
     },
     {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 0.019045885652303696,
+      "learning_rate": 1.1153846153846154e-05,
+      "loss": 0.0011,
       "step": 460
     },
     {
+      "epoch": 2.2115384615384617,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.15620151162147522,
+      "eval_runtime": 2.7371,
+      "eval_samples_per_second": 33.977,
+      "eval_steps_per_second": 8.768,
       "step": 460
     },
     {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.005280839279294014,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.076,
       "step": 480
     },
     {
+      "epoch": 2.3076923076923075,
+      "eval_accuracy": 0.978494623655914,
+      "eval_loss": 0.12186174839735031,
+      "eval_runtime": 2.7523,
+      "eval_samples_per_second": 33.789,
+      "eval_steps_per_second": 8.72,
       "step": 480
     },
     {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 0.01168849878013134,
+      "learning_rate": 1.0384615384615386e-05,
+      "loss": 0.0012,
       "step": 500
     },
     {
+      "epoch": 2.4038461538461537,
+      "eval_accuracy": 0.956989247311828,
+      "eval_loss": 0.11589507758617401,
+      "eval_runtime": 2.7518,
+      "eval_samples_per_second": 33.796,
+      "eval_steps_per_second": 8.721,
       "step": 500
     }
   ],
   "logging_steps": 20,
+  "max_steps": 1040,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 489118826915220.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82998ebf4315f777d4afb520b9ab57fc977bde0f37ef3c7e7370b36f34e8a485
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:27fa1e1529bd8193e84d4f9fcaca6c5833806923edc0d3e169c3b554b74ed8ed
 size 5112