Training in progress, epoch 2

Browse files

Files changed (11) hide show

model.safetensors +1 -1
run-2/checkpoint-4276/config.json +1 -1
run-2/checkpoint-4276/model.safetensors +1 -1
run-2/checkpoint-4276/optimizer.pt +1 -1
run-2/checkpoint-4276/rng_state.pth +2 -2
run-2/checkpoint-4276/scheduler.pt +1 -1
run-2/checkpoint-4276/tokenizer.json +1 -6
run-2/checkpoint-4276/tokenizer_config.json +1 -1
run-2/checkpoint-4276/trainer_state.json +49 -49
run-2/checkpoint-4276/training_args.bin +2 -2
runs/Apr23_13-58-51_309eb7d6022b/events.out.tfevents.1713891455.309eb7d6022b.9612.4 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2292682bda06383e4668b0f29444519a7ce7f188949e7579abc9eba8b70995bd
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d0421dc47b926c2840c228ee01c46404b91fd24388c0d321c2513a6583b59ea
 size 267832560

run-2/checkpoint-4276/config.json CHANGED Viewed

@@ -20,6 +20,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
   "vocab_size": 30522
 }

run-2/checkpoint-4276/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82700449774cce96b693a4c87b08b083e8233ce9ed54d6290f43569a35f749cb
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d0421dc47b926c2840c228ee01c46404b91fd24388c0d321c2513a6583b59ea
 size 267832560

run-2/checkpoint-4276/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bce1a13ed5e5a9657c164269557ab8f6f4ea1599abc75fcb8fcc299bb0a197f
 size 535724410

 version https://git-lfs.github.com/spec/v1
+oid sha256:c996a0b02f6f71551dc039d2ce6f46ab0819c2c053fb5387c3e588bab9248896
 size 535724410

run-2/checkpoint-4276/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8b0fa003be807b362116e9efa03eaa0f9017687da7cec521d6f081fab78dc51
-size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:86044a96805abcc5ec410173dde789e984c3ac581ef4af6fb925267ffb02cba7
+size 13990

run-2/checkpoint-4276/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac410544bd488aa6c43a13a36f312e27787ff675b026b57d89734f105d4a281c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50a65612273dbc8e83498db6c4bbf875a36e0e108643570f2255814b11043015
 size 1064

run-2/checkpoint-4276/tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

run-2/checkpoint-4276/tokenizer_config.json CHANGED Viewed

@@ -45,7 +45,7 @@
   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
-  "model_max_length": 512,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,

   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,

run-2/checkpoint-4276/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.24283245427340167,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-cola/run-2/checkpoint-4276",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -9,92 +9,92 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.23,
-      "grad_norm": 3.03009033203125,
-      "learning_rate": 6.435826529339398e-05,
-      "loss": 0.6104,
       "step": 500
     },
     {
-      "epoch": 0.47,
-      "grad_norm": 3.0893821716308594,
-      "learning_rate": 6.120035237418916e-05,
-      "loss": 0.599,
       "step": 1000
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 4.689079284667969,
-      "learning_rate": 5.804243945498436e-05,
-      "loss": 0.6233,
       "step": 1500
     },
     {
-      "epoch": 0.94,
-      "grad_norm": 2.1753005981445312,
-      "learning_rate": 5.488452653577955e-05,
-      "loss": 0.6504,
       "step": 2000
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.6044347286224365,
-      "eval_matthews_correlation": 0.16393153624590007,
-      "eval_runtime": 30.5852,
-      "eval_samples_per_second": 34.102,
-      "eval_steps_per_second": 2.158,
       "step": 2138
     },
     {
-      "epoch": 1.17,
-      "grad_norm": 21.40749740600586,
-      "learning_rate": 5.1726613616574746e-05,
-      "loss": 0.5778,
       "step": 2500
     },
     {
-      "epoch": 1.4,
-      "grad_norm": 2.966848850250244,
-      "learning_rate": 4.856870069736993e-05,
-      "loss": 0.5597,
       "step": 3000
     },
     {
-      "epoch": 1.64,
-      "grad_norm": 0.6385752558708191,
-      "learning_rate": 4.541078777816513e-05,
-      "loss": 0.5879,
       "step": 3500
     },
     {
-      "epoch": 1.87,
-      "grad_norm": 5.519526481628418,
-      "learning_rate": 4.225287485896032e-05,
-      "loss": 0.5867,
       "step": 4000
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.6037802696228027,
-      "eval_matthews_correlation": 0.24283245427340167,
-      "eval_runtime": 35.8964,
-      "eval_samples_per_second": 29.056,
-      "eval_steps_per_second": 1.839,
       "step": 4276
     }
   ],
   "logging_steps": 500,
-  "max_steps": 10690,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 65355585361128.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 6.751617821259878e-05,
-    "num_train_epochs": 5,
     "per_device_train_batch_size": 4,
-    "seed": 13
   }
 }

 {
+  "best_metric": 0.4684306730842575,
   "best_model_checkpoint": "distilbert-base-uncased-finetuned-cola/run-2/checkpoint-4276",
   "epoch": 2.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.23386342376052385,
+      "grad_norm": 6.864675998687744,
+      "learning_rate": 7.257742157959134e-06,
+      "loss": 0.6169,
       "step": 500
     },
     {
+      "epoch": 0.4677268475210477,
+      "grad_norm": 18.30718421936035,
+      "learning_rate": 6.296706384924291e-06,
+      "loss": 0.5397,
       "step": 1000
     },
     {
+      "epoch": 0.7015902712815716,
+      "grad_norm": 14.399059295654297,
+      "learning_rate": 5.335670611889448e-06,
+      "loss": 0.5124,
       "step": 1500
     },
     {
+      "epoch": 0.9354536950420954,
+      "grad_norm": 33.269954681396484,
+      "learning_rate": 4.3746348388546045e-06,
+      "loss": 0.5342,
       "step": 2000
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.543093740940094,
+      "eval_matthews_correlation": 0.42239354524181305,
+      "eval_runtime": 28.1501,
+      "eval_samples_per_second": 37.051,
+      "eval_steps_per_second": 2.345,
       "step": 2138
     },
     {
+      "epoch": 1.1693171188026192,
+      "grad_norm": 22.531862258911133,
+      "learning_rate": 3.4135990658197624e-06,
+      "loss": 0.4632,
       "step": 2500
     },
     {
+      "epoch": 1.4031805425631432,
+      "grad_norm": 74.506591796875,
+      "learning_rate": 2.452563292784919e-06,
+      "loss": 0.4507,
       "step": 3000
     },
     {
+      "epoch": 1.637043966323667,
+      "grad_norm": 4.516487121582031,
+      "learning_rate": 1.4915275197500763e-06,
+      "loss": 0.5051,
       "step": 3500
     },
     {
+      "epoch": 1.8709073900841908,
+      "grad_norm": 36.62056350708008,
+      "learning_rate": 5.304917467152333e-07,
+      "loss": 0.4854,
       "step": 4000
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.7269829511642456,
+      "eval_matthews_correlation": 0.4684306730842575,
+      "eval_runtime": 30.1294,
+      "eval_samples_per_second": 34.617,
+      "eval_steps_per_second": 2.191,
       "step": 4276
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4276,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 65144982895296.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 8.218777930993977e-06,
+    "num_train_epochs": 2,
     "per_device_train_batch_size": 4,
+    "seed": 38
   }
 }

run-2/checkpoint-4276/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5c5c7be0f50a61c6e9e22c6c96912df518c2bf9ae78538097c92c4dbd3fca91
-size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:52a3b2e1ec5a1c8f67e0f69b146b5cfc61a90f4dd76ed7c7f6e062bc7284397e
+size 5048

runs/Apr23_13-58-51_309eb7d6022b/events.out.tfevents.1713891455.309eb7d6022b.9612.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65bf00178bc1f8c40047d100076acb7b102065294378fdaf2cda23e9c08234dc
-size 5828

 version https://git-lfs.github.com/spec/v1
+oid sha256:6927f5048739ea7580977a0eef7d1ed26fedef3d3805a33709cadbc5fa1642dd
+size 7361