Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

checkpoint-100/adapter_config.json +2 -2
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +66 -66
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "k_proj",
     "o_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38ebc3730d36dbd03fbfb234f238834dd4abe661a385e43dcce74b951e33a05c
 size 109086416

 version https://git-lfs.github.com/spec/v1
+oid sha256:551e232badaf7526a0f1262fbc6900dcfc9afa2b5d50db98b78dbaea0f9c50cc
 size 109086416

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e054766983387d2a0020d135225680ff34433efa2d117f6e0d2eeee35ce48bc6
 size 218319354

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ab667ba15f7759794fd7de119f94df81faad578bec98f82e293537f1230a273
 size 218319354

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d18870198c31c5821df8b9e9d648f47112d84cad0aef4ef7508fe2f35542f854
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:227afea00680bdcdcf19d54b572f61ab2e563bd954561db8d7fee74cde40c145
 size 1064

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.3619329333305359,
   "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.17-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 6.565266132354736,
-      "learning_rate": 0.00018142857142857142,
-      "loss": 0.3847,
       "step": 20,
-      "train/kl": 3.3989148139953613,
-      "train/logps/chosen": -298.30405479753523,
-      "train/logps/rejected": -317.74027826544943,
-      "train/rewards/chosen": 0.4325446276597574,
-      "train/rewards/margins": 3.3660581404318783,
-      "train/rewards/rejected": -2.933513512772121
     },
     {
       "epoch": 0.27,
-      "grad_norm": 2.64931583404541,
-      "learning_rate": 0.00015285714285714287,
-      "loss": 0.4039,
       "step": 40,
-      "train/kl": 0.9900484085083008,
-      "train/logps/chosen": -305.07652368012424,
-      "train/logps/rejected": -347.4229805424528,
-      "train/rewards/chosen": -2.13509221995099,
-      "train/rewards/margins": 5.288080256955457,
-      "train/rewards/rejected": -7.423172476906447
     },
     {
       "epoch": 0.34,
-      "eval/kl": 0.7344650030136108,
-      "eval/logps/chosen": -329.9394806338028,
-      "eval/logps/rejected": -444.9535700158228,
-      "eval/rewards/chosen": -4.62774013465559,
-      "eval/rewards/margins": 13.430626471851532,
-      "eval/rewards/rejected": -18.05836660650712,
-      "eval_loss": 0.37672173976898193,
-      "eval_runtime": 140.2349,
-      "eval_samples_per_second": 2.139,
-      "eval_steps_per_second": 0.535,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": 8.288690567016602,
-      "learning_rate": 0.00012714285714285714,
-      "loss": 0.3602,
       "step": 60,
-      "train/kl": 2.266563653945923,
-      "train/logps/chosen": -318.9802876655629,
-      "train/logps/rejected": -473.3688517011834,
-      "train/rewards/chosen": -3.7534725366049253,
-      "train/rewards/margins": 16.50871138073975,
-      "train/rewards/rejected": -20.262183917344675
     },
     {
       "epoch": 0.55,
-      "grad_norm": 4.295706748962402,
-      "learning_rate": 9.857142857142858e-05,
-      "loss": 0.3496,
       "step": 80,
-      "train/kl": 0.8752914667129517,
-      "train/logps/chosen": -335.9194670376712,
-      "train/logps/rejected": -405.97503591954023,
-      "train/rewards/chosen": -3.1786450947800726,
-      "train/rewards/margins": 7.811195007141622,
-      "train/rewards/rejected": -10.989840101921695
     },
     {
       "epoch": 0.68,
-      "grad_norm": 5.850632667541504,
-      "learning_rate": 7e-05,
-      "loss": 0.302,
       "step": 100,
-      "train/kl": 0.4592212736606598,
-      "train/logps/chosen": -277.03286903782896,
-      "train/logps/rejected": -392.9672154017857,
-      "train/rewards/chosen": 0.3360620799817537,
-      "train/rewards/margins": 9.165781260134283,
-      "train/rewards/rejected": -8.82971918015253
     },
     {
       "epoch": 0.68,
-      "eval/kl": 3.9467480182647705,
-      "eval/logps/chosen": -265.8084286971831,
-      "eval/logps/rejected": -297.73909711234177,
-      "eval/rewards/chosen": 1.7853647151463468,
-      "eval/rewards/margins": 5.122287276212407,
-      "eval/rewards/rejected": -3.3369225610660602,
-      "eval_loss": 0.3619329333305359,
-      "eval_runtime": 140.261,
-      "eval_samples_per_second": 2.139,
-      "eval_steps_per_second": 0.535,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.47333332896232605,
   "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.17-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 0.0,
+      "learning_rate": 0.00018,
+      "loss": 0.4638,
       "step": 20,
+      "train/kl": 7.083856105804443,
+      "train/logps/chosen": -426.40190360915494,
+      "train/logps/rejected": -550.5845768960675,
+      "train/rewards/chosen": -14.309082890900088,
+      "train/rewards/margins": 11.978627234626599,
+      "train/rewards/rejected": -26.287710125526687
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.0,
+      "learning_rate": 0.00015142857142857143,
+      "loss": 0.4844,
       "step": 40,
+      "train/kl": 0.0,
+      "train/logps/chosen": -3204.072177419355,
+      "train/logps/rejected": -3086.9876893939395,
+      "train/rewards/chosen": -292.8815524193548,
+      "train/rewards/margins": -13.51173707844572,
+      "train/rewards/rejected": -279.3698153409091
     },
     {
       "epoch": 0.34,
+      "eval/kl": 0.0,
+      "eval/logps/chosen": -2537.9452024647885,
+      "eval/logps/rejected": -2313.8192246835442,
+      "eval/rewards/chosen": -225.4286971830986,
+      "eval/rewards/margins": -20.483273429142884,
+      "eval/rewards/rejected": -204.9454237539557,
+      "eval_loss": 0.47333332896232605,
+      "eval_runtime": 143.3034,
+      "eval_samples_per_second": 2.093,
+      "eval_steps_per_second": 0.523,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 0.0,
+      "learning_rate": 0.00012285714285714287,
+      "loss": 0.5,
       "step": 60,
+      "train/kl": 0.0,
+      "train/logps/chosen": -2750.593359375,
+      "train/logps/rejected": -2645.1216796875,
+      "train/rewards/chosen": -247.13798828125,
+      "train/rewards/margins": -11.170458984374989,
+      "train/rewards/rejected": -235.967529296875
     },
     {
       "epoch": 0.55,
+      "grad_norm": 0.0,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 0.425,
       "step": 80,
+      "train/kl": 0.0,
+      "train/logps/chosen": -2778.7603400735293,
+      "train/logps/rejected": -2450.7654551630435,
+      "train/rewards/chosen": -248.5206801470588,
+      "train/rewards/margins": -31.70898687260228,
+      "train/rewards/rejected": -216.81169327445653
     },
     {
       "epoch": 0.68,
+      "grad_norm": 0.0,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.5031,
       "step": 100,
+      "train/kl": 0.0,
+      "train/logps/chosen": -2629.9400232919256,
+      "train/logps/rejected": -2546.1786556603774,
+      "train/rewards/chosen": -234.98452057453417,
+      "train/rewards/margins": -9.083110393716566,
+      "train/rewards/rejected": -225.9014101808176
     },
     {
       "epoch": 0.68,
+      "eval/kl": 0.0,
+      "eval/logps/chosen": -2499.3208626760565,
+      "eval/logps/rejected": -2280.931566455696,
+      "eval/rewards/chosen": -221.56628246038733,
+      "eval/rewards/margins": -19.909649252317706,
+      "eval/rewards/rejected": -201.65663320806962,
+      "eval_loss": 0.47333332896232605,
+      "eval_runtime": 143.2853,
+      "eval_samples_per_second": 2.094,
+      "eval_steps_per_second": 0.523,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a574e32bac339da3debf7e39909a7bfe90cb3888fff4b015f4c34b164ca9e2e
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd18023b644a9c2cdabcdaac6dfa1e6300a37cd115e09b5390aafe409cf852a
 size 5688