Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

checkpoint-100/adapter_config.json +1 -1
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +63 -63
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,9 +20,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "o_proj",
     "q_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "q_proj",
+    "k_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4a35472e9ae12a1a1de96079b818f53414388c49faccf5a06aab086a1e2ea32
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:8204c22c3e3d5a41ea66ebf806f58168719a2fd235638d163fd97c5b42c39ec0
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9112328adff1f72ec8fa804d5cee0123e78538f1770e6467688a73d51d9daf8a
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:d555711955935cd1a5e4ead0e6392f6e3236611ae71a091b7218017f9a9cd0b6
 size 109267450

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e02551058f4c15b54072fe3f1ebd5cdef73af70d49025c870355b586a3af937
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d18870198c31c5821df8b9e9d648f47112d84cad0aef4ef7508fe2f35542f854
 size 1064

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.47333332896232605,
   "best_model_checkpoint": "./zephyr/05-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.1-KTO_testing kto dataset during training-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
@@ -10,94 +10,94 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 4.223984241485596,
-      "kl": 50.472633361816406,
-      "learning_rate": 0.00019,
-      "logps/chosen": -516.6061401367188,
-      "logps/rejected": -730.8901977539062,
-      "loss": 0.4891,
-      "rewards/chosen": -2.2866313457489014,
-      "rewards/margins": 9.197293281555176,
-      "rewards/rejected": -11.027228355407715,
       "step": 20
     },
     {
       "epoch": 0.27,
-      "grad_norm": 4.9320197105407715,
-      "kl": 227.55972290039062,
-      "learning_rate": 0.00016142857142857145,
-      "logps/chosen": -400.697998046875,
-      "logps/rejected": -375.78631591796875,
-      "loss": 0.5465,
-      "rewards/chosen": 8.534103393554688,
-      "rewards/margins": -13.850674629211426,
-      "rewards/rejected": 23.049671173095703,
       "step": 40
     },
     {
       "epoch": 0.34,
-      "eval_kl": 45.850624084472656,
-      "eval_logps/chosen": -710.6041870117188,
-      "eval_logps/rejected": -693.1708374023438,
-      "eval_loss": 0.5112424492835999,
-      "eval_rewards/chosen": -20.341365814208984,
-      "eval_rewards/margins": -17.1827449798584,
-      "eval_rewards/rejected": -4.146603107452393,
-      "eval_runtime": 138.4214,
-      "eval_samples_per_second": 2.167,
       "eval_steps_per_second": 0.542,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": 0.0030494395177811384,
-      "kl": 210.3240966796875,
-      "learning_rate": 0.00013285714285714287,
-      "logps/chosen": -414.4272155761719,
-      "logps/rejected": -540.6943969726562,
-      "loss": 0.4697,
-      "rewards/chosen": 17.047597885131836,
-      "rewards/margins": 2.3560233116149902,
-      "rewards/rejected": 15.122901916503906,
       "step": 60
     },
     {
       "epoch": 0.55,
-      "grad_norm": 52.698368072509766,
-      "kl": 257.76116943359375,
-      "learning_rate": 0.0001042857142857143,
-      "logps/chosen": -320.7880859375,
-      "logps/rejected": -430.06829833984375,
-      "loss": 0.5455,
-      "rewards/chosen": 19.29902458190918,
-      "rewards/margins": -8.448366165161133,
-      "rewards/rejected": 28.257070541381836,
       "step": 80
     },
     {
       "epoch": 0.68,
-      "grad_norm": 0.0,
-      "kl": 40.73902130126953,
-      "learning_rate": 7.571428571428571e-05,
-      "logps/chosen": -1188.35693359375,
-      "logps/rejected": -1296.0433349609375,
-      "loss": 0.4745,
-      "rewards/chosen": -56.30565643310547,
-      "rewards/margins": 8.954660415649414,
-      "rewards/rejected": -68.27855682373047,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
-      "eval_logps/chosen": -2394.681884765625,
-      "eval_logps/rejected": -2418.263916015625,
-      "eval_loss": 0.47333332896232605,
-      "eval_rewards/chosen": -188.7490997314453,
-      "eval_rewards/margins": -12.401326179504395,
-      "eval_rewards/rejected": -176.65597534179688,
-      "eval_runtime": 138.4851,
-      "eval_samples_per_second": 2.166,
       "eval_steps_per_second": 0.542,
       "step": 100
     }

 {
+  "best_metric": 0.4733425974845886,
   "best_model_checkpoint": "./zephyr/05-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.1-KTO_testing kto dataset during training-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 8.764093399047852,
+      "kl": 11.000414848327637,
+      "learning_rate": 0.00018285714285714286,
+      "logps/chosen": -320.3092041015625,
+      "logps/rejected": -296.3908386230469,
+      "loss": 0.432,
+      "rewards/chosen": 1.4254474639892578,
+      "rewards/margins": 1.3692480325698853,
+      "rewards/rejected": 0.0951162651181221,
       "step": 20
     },
     {
       "epoch": 0.27,
+      "grad_norm": 5.878363609313965,
+      "kl": 1.2673273086547852,
+      "learning_rate": 0.0001542857142857143,
+      "logps/chosen": -307.4684753417969,
+      "logps/rejected": -375.4805603027344,
+      "loss": 0.4081,
+      "rewards/chosen": -1.0870614051818848,
+      "rewards/margins": 3.670943021774292,
+      "rewards/rejected": -4.587001800537109,
       "step": 40
     },
     {
       "epoch": 0.34,
+      "eval_kl": 1.7102612257003784,
+      "eval_logps/chosen": -316.2467346191406,
+      "eval_logps/rejected": -332.64117431640625,
+      "eval_loss": 0.38967660069465637,
+      "eval_rewards/chosen": -0.9805464744567871,
+      "eval_rewards/margins": 3.1516332626342773,
+      "eval_rewards/rejected": -3.9925851821899414,
+      "eval_runtime": 138.3084,
+      "eval_samples_per_second": 2.169,
       "eval_steps_per_second": 0.542,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 12.671459197998047,
+      "kl": 2.424811840057373,
+      "learning_rate": 0.00012714285714285714,
+      "logps/chosen": -321.6191101074219,
+      "logps/rejected": -360.3143310546875,
+      "loss": 0.4136,
+      "rewards/chosen": -0.7625396847724915,
+      "rewards/margins": 2.869812250137329,
+      "rewards/rejected": -3.8002796173095703,
       "step": 60
     },
     {
       "epoch": 0.55,
+      "grad_norm": 6.753478050231934,
+      "kl": 5.016882419586182,
+      "learning_rate": 9.857142857142858e-05,
+      "logps/chosen": -314.6625671386719,
+      "logps/rejected": -389.6596374511719,
+      "loss": 0.4034,
+      "rewards/chosen": -1.544058084487915,
+      "rewards/margins": 5.419744968414307,
+      "rewards/rejected": -7.084101676940918,
       "step": 80
     },
     {
       "epoch": 0.68,
+      "grad_norm": 0.0027679901104420424,
+      "kl": 0.5703033208847046,
+      "learning_rate": 7e-05,
+      "logps/chosen": -532.3701171875,
+      "logps/rejected": -549.9442749023438,
+      "loss": 0.4304,
+      "rewards/chosen": -21.35959243774414,
+      "rewards/margins": 2.940380096435547,
+      "rewards/rejected": -22.644678115844727,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
+      "eval_logps/chosen": -1804.134765625,
+      "eval_logps/rejected": -1664.4483642578125,
+      "eval_loss": 0.4733425974845886,
+      "eval_rewards/chosen": -149.7693634033203,
+      "eval_rewards/margins": -9.425224304199219,
+      "eval_rewards/rejected": -137.1732940673828,
+      "eval_runtime": 138.3606,
+      "eval_samples_per_second": 2.168,
       "eval_steps_per_second": 0.542,
       "step": 100
     }

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68dbc5e72b65b87b063b5faca48c6ef2395c18f07ebe11f21e9dd5f73adb82f3
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6dcfcc81142dd54ec7ba9ddeb9a8bec23710b9520aa79594742249d14654995
 size 5624