Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +47 -47
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "v_proj",
     "q_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:603a74aeab3b3eff9e1d319f75ed6415c1a5985eec65c7d1dd3e87ac0b56027d
 size 872450448

 version https://git-lfs.github.com/spec/v1
+oid sha256:f30e5cab4159743259ea25988060ddd0796aa045be1b0d895d433c3835a71464
 size 872450448

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5fde258656a5b9c4d18f413bb92802e4f42b42ef2bbfad6ee2dd5aa9d687c70
 size 1745047034

 version https://git-lfs.github.com/spec/v1
+oid sha256:17e4f2ce1e411941009ba9612f26c008414cb32e1d3562295057d2e3d6edaea8
 size 1745047034

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -12,93 +12,93 @@
       "epoch": 0.14,
       "grad_norm": 0.0,
       "learning_rate": 0.0001785714285714286,
-      "loss": 0.4702,
       "step": 20,
-      "train/kl": 1.6849148273468018,
-      "train/logps/chosen": -1618.1463162251655,
-      "train/logps/rejected": -1295.1127958579882,
-      "train/rewards/chosen": -132.69128983857615,
-      "train/rewards/margins": -29.578933144789175,
-      "train/rewards/rejected": -103.11235669378698
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
       "learning_rate": 0.00015000000000000001,
-      "loss": 0.4656,
       "step": 40,
       "train/kl": 0.0,
-      "train/logps/chosen": -2371.8139681208054,
-      "train/logps/rejected": -2313.2637061403507,
-      "train/rewards/chosen": -208.93059196728188,
-      "train/rewards/margins": -7.677827895644469,
-      "train/rewards/rejected": -201.25276407163742
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2227.4610475352115,
-      "eval/logps/rejected": -2008.870450949367,
-      "eval/rewards/chosen": -194.38010288292253,
-      "eval/rewards/margins": -19.92920296203644,
-      "eval/rewards/rejected": -174.4508999208861,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 139.1749,
-      "eval_samples_per_second": 2.156,
-      "eval_steps_per_second": 0.539,
       "step": 50
     },
     {
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012142857142857143,
-      "loss": 0.5031,
       "step": 60,
       "train/kl": 0.0,
-      "train/logps/chosen": -2485.0271739130435,
-      "train/logps/rejected": -2157.665290880503,
-      "train/rewards/chosen": -218.93124029503105,
-      "train/rewards/margins": -31.22730456389897,
-      "train/rewards/rejected": -187.70393573113208
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.285714285714286e-05,
-      "loss": 0.4531,
       "step": 80,
       "train/kl": 0.0,
-      "train/logps/chosen": -2503.5771551724138,
-      "train/logps/rejected": -2335.25625,
-      "train/rewards/chosen": -220.85786637931034,
-      "train/rewards/margins": -17.837732450738912,
-      "train/rewards/rejected": -203.02013392857143
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.428571428571429e-05,
-      "loss": 0.475,
       "step": 100,
       "train/kl": 0.0,
-      "train/logps/chosen": -2296.3406661184213,
-      "train/logps/rejected": -2325.2672991071427,
-      "train/rewards/chosen": -201.25251850328948,
-      "train/rewards/margins": 2.011455641055761,
-      "train/rewards/rejected": -203.26397414434524
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2229.6269806338028,
-      "eval/logps/rejected": -2010.570411392405,
-      "eval/rewards/chosen": -194.59670719630282,
-      "eval/rewards/margins": -19.975811231112942,
-      "eval/rewards/rejected": -174.62089596518987,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 139.1463,
-      "eval_samples_per_second": 2.156,
-      "eval_steps_per_second": 0.539,
       "step": 100
     }
   ],

       "epoch": 0.14,
       "grad_norm": 0.0,
       "learning_rate": 0.0001785714285714286,
+      "loss": 0.4625,
       "step": 20,
+      "train/kl": 0.0,
+      "train/logps/chosen": -1776.8545590753424,
+      "train/logps/rejected": -1942.4822198275863,
+      "train/rewards/chosen": -150.52799925085617,
+      "train/rewards/margins": 14.066132394258773,
+      "train/rewards/rejected": -164.59413164511494
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
       "learning_rate": 0.00015000000000000001,
+      "loss": 0.5125,
       "step": 40,
       "train/kl": 0.0,
+      "train/logps/chosen": -2509.815929878049,
+      "train/logps/rejected": -2293.327123397436,
+      "train/rewards/chosen": -221.2838700457317,
+      "train/rewards/margins": -20.546890879065046,
+      "train/rewards/rejected": -200.73697916666666
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -2216.0310299295775,
+      "eval/logps/rejected": -2032.4711234177216,
+      "eval/rewards/chosen": -193.23674075704224,
+      "eval/rewards/margins": -16.426811959573882,
+      "eval/rewards/rejected": -176.80992879746836,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 140.9169,
+      "eval_samples_per_second": 2.129,
+      "eval_steps_per_second": 0.532,
       "step": 50
     },
     {
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012142857142857143,
+      "loss": 0.5344,
       "step": 60,
       "train/kl": 0.0,
+      "train/logps/chosen": -2424.8951023391814,
+      "train/logps/rejected": -2159.9033137583892,
+      "train/rewards/chosen": -213.98085709064327,
+      "train/rewards/margins": -25.586968143495625,
+      "train/rewards/rejected": -188.39388894714764
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.285714285714286e-05,
+      "loss": 0.4469,
       "step": 80,
       "train/kl": 0.0,
+      "train/logps/chosen": -2407.7829982517483,
+      "train/logps/rejected": -2151.3718220338983,
+      "train/rewards/chosen": -211.3436680506993,
+      "train/rewards/margins": -24.664863319060885,
+      "train/rewards/rejected": -186.67880473163842
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.428571428571429e-05,
+      "loss": 0.4281,
       "step": 100,
       "train/kl": 0.0,
+      "train/logps/chosen": -2460.182253649635,
+      "train/logps/rejected": -2252.468920765027,
+      "train/rewards/chosen": -215.44699475364965,
+      "train/rewards/margins": -18.727454965398294,
+      "train/rewards/rejected": -196.71953978825135
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -2217.5072623239435,
+      "eval/logps/rejected": -2035.4477848101267,
+      "eval/rewards/chosen": -193.3844080105634,
+      "eval/rewards/margins": -16.276813073854527,
+      "eval/rewards/rejected": -177.10759493670886,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 140.8307,
+      "eval_samples_per_second": 2.13,
+      "eval_steps_per_second": 0.533,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77c814993c2057be711ec222bc382448d81d443148cd73412b34da878710f4ac
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8af4fa13b4cd94fa3928354a40920f92728810d4e9e99adc8fe770546867309
 size 5688