Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:555574676bf82701e138e3ca21a92042bbc7675089c03558544ded455b350cfc
 size 536906096

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f914ea3dc68224bd55d7107b08f59ed23bf5bf397814ee9b20fe839f6a26204
 size 536906096

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a81d07edb7f0f44b53df73d709005805598b8d12b478eb8eb1977462a99847d
 size 269267284

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cf21319f12883ef19a21dd10c8f43a0a77836b0ede2357a2fb6f15dc87066b3
 size 269267284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71a03f6324f56b4352f9f75e96c34e46e436ab624f8b991c35f76c617af0f11f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5241e37cffc4e4b4f74447637f4dfcba8fa80c5a3822bf57d56e725a1724e3b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b80fcc7599efca0c6313d990c467c2eb3001742b23ddaadc22e3499c12cea79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee2b620608ef64c9c8f70ed72f3a0e1bf233746a6ec27ad47abebf797bd2580
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2,
   "eval_steps": 500,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,13 +307,163 @@
       "learning_rate": 0.0002,
       "loss": 0.3281,
       "step": 50
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 3887545657098240.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3,
   "eval_steps": 500,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.3281,
       "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002,
+      "loss": 0.6814,
+      "step": 51
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002,
+      "loss": 0.6904,
+      "step": 52
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002,
+      "loss": 0.6387,
+      "step": 53
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002,
+      "loss": 0.6075,
+      "step": 54
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5507,
+      "step": 55
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5008,
+      "step": 56
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002,
+      "loss": 0.5305,
+      "step": 57
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002,
+      "loss": 0.4997,
+      "step": 58
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002,
+      "loss": 0.4824,
+      "step": 59
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5156,
+      "step": 60
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002,
+      "loss": 0.4761,
+      "step": 61
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002,
+      "loss": 0.5306,
+      "step": 62
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002,
+      "loss": 0.4929,
+      "step": 63
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002,
+      "loss": 0.4895,
+      "step": 64
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5044,
+      "step": 65
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5326,
+      "step": 66
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5032,
+      "step": 67
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002,
+      "loss": 0.4838,
+      "step": 68
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002,
+      "loss": 0.4525,
+      "step": 69
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002,
+      "loss": 0.4486,
+      "step": 70
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002,
+      "loss": 0.4566,
+      "step": 71
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002,
+      "loss": 0.4455,
+      "step": 72
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002,
+      "loss": 0.4226,
+      "step": 73
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4411,
+      "step": 74
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4551,
+      "step": 75
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 6048210105630720.0,
   "trial_name": null,
   "trial_params": null
 }