udpate new checkpint 15K

Browse files

Files changed (14) hide show

.gitattributes +1 -0
{checkpoint-15000 → checkpoint-20000}/config.json +0 -0
{checkpoint-15000 → checkpoint-20000}/generation_config.json +0 -0
{checkpoint-15000 → checkpoint-20000}/optimizer.pt +1 -1
{checkpoint-15000 → checkpoint-20000}/pytorch_model.bin +1 -1
{checkpoint-15000 → checkpoint-20000}/rng_state.pth +1 -1
{checkpoint-15000 → checkpoint-20000}/scheduler.pt +1 -1
{checkpoint-15000 → checkpoint-20000}/trainer_state.json +143 -3
{checkpoint-15000 → checkpoint-20000}/training_args.bin +0 -0
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -143

.gitattributes CHANGED Viewed

@@ -38,3 +38,4 @@ checkpoint-5000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 old/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 checkpoint-10000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 checkpoint-15000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

 old/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 checkpoint-10000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 checkpoint-15000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-20000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

{checkpoint-15000 → checkpoint-20000}/config.json RENAMED Viewed

File without changes

{checkpoint-15000 → checkpoint-20000}/generation_config.json RENAMED Viewed

File without changes

{checkpoint-15000 → checkpoint-20000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e164f9fad0641e64a32b9d367cf6e92483eb5cd7df7a4dd42c3ddddc0cadebe1
 size 2371333

 version https://git-lfs.github.com/spec/v1
+oid sha256:faf89a989d29c28e1adcc3475b1c824fe5329491ea1430eecc8d0e670a8fbcd3
 size 2371333

{checkpoint-15000 → checkpoint-20000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42f1dac77bf4d254203f8f6dd684ada1cf998f26b81addd2e8dd06b2eeab8cd6
 size 990408885

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a68794e67b4a15b3adf98c8974799b4e08a27b56f9154e118dd392087fffa56
 size 990408885

{checkpoint-15000 → checkpoint-20000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fca6bd4f2027e9f6a64120d4dd9cfacab4778f895ae586fd5c13f7cff62aac59
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1ff062526219ffde93f9f292e9365f17879a9afff6660d569e10c57e0a90df4
 size 14575

{checkpoint-15000 → checkpoint-20000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62b793f9ea6eba39185d82063b1e7434411e2aeca1bab5a010024f955d1696b3
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f58a0653df4cbbcf9d6cc03d846193b654e5e1cc8a7d6462c99377d7fbe445ea
 size 627

{checkpoint-15000 → checkpoint-20000}/trainer_state.json RENAMED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8896447467876039,
   "eval_steps": 500,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -427,13 +427,153 @@
       "eval_samples_per_second": 74.876,
       "eval_steps_per_second": 37.438,
       "step": 15000
     }
   ],
   "logging_steps": 500,
   "max_steps": 20000,
   "num_train_epochs": 3,
   "save_steps": 5000,
-  "total_flos": 2.66437480937472e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.5195263290501386,
   "eval_steps": 500,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 74.876,
       "eval_steps_per_second": 37.438,
       "step": 15000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.5422,
+      "step": 15500
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.6929380297660828,
+      "eval_runtime": 4.107,
+      "eval_samples_per_second": 73.047,
+      "eval_steps_per_second": 36.523,
+      "step": 15500
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5104,
+      "step": 16000
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.7098422050476074,
+      "eval_runtime": 4.0323,
+      "eval_samples_per_second": 74.4,
+      "eval_steps_per_second": 37.2,
+      "step": 16000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.000175,
+      "loss": 0.3835,
+      "step": 16500
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.7105218768119812,
+      "eval_runtime": 4.0594,
+      "eval_samples_per_second": 73.903,
+      "eval_steps_per_second": 36.952,
+      "step": 16500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00015,
+      "loss": 0.3805,
+      "step": 17000
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.7144222855567932,
+      "eval_runtime": 4.0853,
+      "eval_samples_per_second": 73.434,
+      "eval_steps_per_second": 36.717,
+      "step": 17000
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.000125,
+      "loss": 0.3718,
+      "step": 17500
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.7210414409637451,
+      "eval_runtime": 5.0511,
+      "eval_samples_per_second": 59.393,
+      "eval_steps_per_second": 29.697,
+      "step": 17500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0001,
+      "loss": 0.3688,
+      "step": 18000
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.7145898342132568,
+      "eval_runtime": 4.7793,
+      "eval_samples_per_second": 62.77,
+      "eval_steps_per_second": 31.385,
+      "step": 18000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 7.5e-05,
+      "loss": 0.3645,
+      "step": 18500
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.7136221528053284,
+      "eval_runtime": 4.0171,
+      "eval_samples_per_second": 74.681,
+      "eval_steps_per_second": 37.34,
+      "step": 18500
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 5e-05,
+      "loss": 0.3865,
+      "step": 19000
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 0.7075753808021545,
+      "eval_runtime": 3.9658,
+      "eval_samples_per_second": 75.646,
+      "eval_steps_per_second": 37.823,
+      "step": 19000
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3633,
+      "step": 19500
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.7097809314727783,
+      "eval_runtime": 4.0163,
+      "eval_samples_per_second": 74.696,
+      "eval_steps_per_second": 37.348,
+      "step": 19500
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0,
+      "loss": 0.3674,
+      "step": 20000
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 0.7079904079437256,
+      "eval_runtime": 4.0804,
+      "eval_samples_per_second": 73.522,
+      "eval_steps_per_second": 36.761,
+      "step": 20000
     }
   ],
   "logging_steps": 500,
   "max_steps": 20000,
   "num_train_epochs": 3,
   "save_steps": 5000,
+  "total_flos": 3.549121832463667e+16,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-15000 → checkpoint-20000}/training_args.bin RENAMED Viewed

File without changes

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faf89a989d29c28e1adcc3475b1c824fe5329491ea1430eecc8d0e670a8fbcd3
 size 2371333

 version https://git-lfs.github.com/spec/v1
+oid sha256:e164f9fad0641e64a32b9d367cf6e92483eb5cd7df7a4dd42c3ddddc0cadebe1
 size 2371333

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a68794e67b4a15b3adf98c8974799b4e08a27b56f9154e118dd392087fffa56
 size 990408885

 version https://git-lfs.github.com/spec/v1
+oid sha256:42f1dac77bf4d254203f8f6dd684ada1cf998f26b81addd2e8dd06b2eeab8cd6
 size 990408885

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ff062526219ffde93f9f292e9365f17879a9afff6660d569e10c57e0a90df4
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca6bd4f2027e9f6a64120d4dd9cfacab4778f895ae586fd5c13f7cff62aac59
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f58a0653df4cbbcf9d6cc03d846193b654e5e1cc8a7d6462c99377d7fbe445ea
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:62b793f9ea6eba39185d82063b1e7434411e2aeca1bab5a010024f955d1696b3
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.5195263290501386,
   "eval_steps": 500,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -427,153 +427,13 @@
       "eval_samples_per_second": 74.876,
       "eval_steps_per_second": 37.438,
       "step": 15000
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.00022500000000000002,
-      "loss": 0.5422,
-      "step": 15500
-    },
-    {
-      "epoch": 1.95,
-      "eval_loss": 0.6929380297660828,
-      "eval_runtime": 4.107,
-      "eval_samples_per_second": 73.047,
-      "eval_steps_per_second": 36.523,
-      "step": 15500
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5104,
-      "step": 16000
-    },
-    {
-      "epoch": 2.02,
-      "eval_loss": 0.7098422050476074,
-      "eval_runtime": 4.0323,
-      "eval_samples_per_second": 74.4,
-      "eval_steps_per_second": 37.2,
-      "step": 16000
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.000175,
-      "loss": 0.3835,
-      "step": 16500
-    },
-    {
-      "epoch": 2.08,
-      "eval_loss": 0.7105218768119812,
-      "eval_runtime": 4.0594,
-      "eval_samples_per_second": 73.903,
-      "eval_steps_per_second": 36.952,
-      "step": 16500
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.00015,
-      "loss": 0.3805,
-      "step": 17000
-    },
-    {
-      "epoch": 2.14,
-      "eval_loss": 0.7144222855567932,
-      "eval_runtime": 4.0853,
-      "eval_samples_per_second": 73.434,
-      "eval_steps_per_second": 36.717,
-      "step": 17000
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 0.000125,
-      "loss": 0.3718,
-      "step": 17500
-    },
-    {
-      "epoch": 2.2,
-      "eval_loss": 0.7210414409637451,
-      "eval_runtime": 5.0511,
-      "eval_samples_per_second": 59.393,
-      "eval_steps_per_second": 29.697,
-      "step": 17500
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0001,
-      "loss": 0.3688,
-      "step": 18000
-    },
-    {
-      "epoch": 2.27,
-      "eval_loss": 0.7145898342132568,
-      "eval_runtime": 4.7793,
-      "eval_samples_per_second": 62.77,
-      "eval_steps_per_second": 31.385,
-      "step": 18000
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 7.5e-05,
-      "loss": 0.3645,
-      "step": 18500
-    },
-    {
-      "epoch": 2.33,
-      "eval_loss": 0.7136221528053284,
-      "eval_runtime": 4.0171,
-      "eval_samples_per_second": 74.681,
-      "eval_steps_per_second": 37.34,
-      "step": 18500
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 5e-05,
-      "loss": 0.3865,
-      "step": 19000
-    },
-    {
-      "epoch": 2.39,
-      "eval_loss": 0.7075753808021545,
-      "eval_runtime": 3.9658,
-      "eval_samples_per_second": 75.646,
-      "eval_steps_per_second": 37.823,
-      "step": 19000
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 2.5e-05,
-      "loss": 0.3633,
-      "step": 19500
-    },
-    {
-      "epoch": 2.46,
-      "eval_loss": 0.7097809314727783,
-      "eval_runtime": 4.0163,
-      "eval_samples_per_second": 74.696,
-      "eval_steps_per_second": 37.348,
-      "step": 19500
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.0,
-      "loss": 0.3674,
-      "step": 20000
-    },
-    {
-      "epoch": 2.52,
-      "eval_loss": 0.7079904079437256,
-      "eval_runtime": 4.0804,
-      "eval_samples_per_second": 73.522,
-      "eval_steps_per_second": 36.761,
-      "step": 20000
     }
   ],
   "logging_steps": 500,
   "max_steps": 20000,
   "num_train_epochs": 3,
   "save_steps": 5000,
-  "total_flos": 3.549121832463667e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8896447467876039,
   "eval_steps": 500,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 74.876,
       "eval_steps_per_second": 37.438,
       "step": 15000
     }
   ],
   "logging_steps": 500,
   "max_steps": 20000,
   "num_train_epochs": 3,
   "save_steps": 5000,
+  "total_flos": 2.66437480937472e+16,
   "trial_name": null,
   "trial_params": null
 }