Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

checkpoint-100/adapter_config.json +1 -1
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +66 -66
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,9 +20,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "o_proj",
     "v_proj",
     "k_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
+    "q_proj",
     "k_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cbe963b48301ba88c612d722a934c173b3e8aee704730f9f2e638316a624ad7
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f62c273336a7b98480a304521101fe04fdd590ee43f6f0dea258f4d29dfeb79
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85936e832477583b5302c221a0f9d265b4f7af407c808675904669b4084b7f0
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:a752e7840d77c51034a0de171e20aa29476e87c45da45df9749fcbb9e795eb82
 size 109267450

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4ce0b279631b0b5282c6845685570f98d121f98c20888d3cde7c94f3bf8fa9b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:363bcb1976d3d8f69d575a3bb74fad2f79e9d75da57793c889da5e2ae17ef801
 size 1064

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": NaN,
   "best_model_checkpoint": "./mixstral/05-04-24-Weni-WeniGPT-Agents-Mixstral-Instruct-2.0.0-KTO_KTO with Agents 1.2.0 dataset and Mixstral model-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 3.6165390014648438,
-      "kl": 1.9972060918807983,
-      "learning_rate": 0.00018142857142857142,
-      "logps/chosen": -245.00869750976562,
-      "logps/rejected": -241.55165100097656,
-      "loss": 0.4678,
-      "rewards/chosen": 0.044715628027915955,
-      "rewards/margins": 0.5635281205177307,
-      "rewards/rejected": -0.5842480063438416,
       "step": 20
     },
     {
       "epoch": 0.27,
-      "grad_norm": 3.311204671859741,
-      "kl": NaN,
-      "learning_rate": 0.0001542857142857143,
-      "logps/chosen": -232.5364532470703,
-      "logps/rejected": -269.9206237792969,
-      "loss": 0.4625,
-      "rewards/chosen": -0.920975923538208,
-      "rewards/margins": 3.3125476837158203,
-      "rewards/rejected": -4.193856716156006,
       "step": 40
     },
     {
       "epoch": 0.34,
-      "eval_kl": NaN,
-      "eval_logps/chosen": -217.65966796875,
-      "eval_logps/rejected": -235.0032196044922,
-      "eval_loss": NaN,
-      "eval_rewards/chosen": 1.1550920009613037,
-      "eval_rewards/margins": 1.6945449113845825,
-      "eval_rewards/rejected": -0.46676430106163025,
-      "eval_runtime": 353.7939,
-      "eval_samples_per_second": 0.848,
-      "eval_steps_per_second": 0.212,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": NaN,
-      "kl": NaN,
-      "learning_rate": 0.00012857142857142858,
-      "logps/chosen": -251.53494262695312,
-      "logps/rejected": -272.7889709472656,
-      "loss": 0.4154,
-      "rewards/chosen": -0.21331408619880676,
-      "rewards/margins": 2.0234382152557373,
-      "rewards/rejected": -2.6234018802642822,
       "step": 60
     },
     {
       "epoch": 0.55,
-      "grad_norm": 3.4451451301574707,
-      "kl": NaN,
-      "learning_rate": 0.00010571428571428572,
-      "logps/chosen": -281.3064270019531,
-      "logps/rejected": -319.31500244140625,
-      "loss": 0.5082,
-      "rewards/chosen": -4.3177809715271,
-      "rewards/margins": 3.9624247550964355,
-      "rewards/rejected": -8.34419059753418,
       "step": 80
     },
     {
       "epoch": 0.68,
-      "grad_norm": 4.457475185394287,
-      "kl": NaN,
-      "learning_rate": 8e-05,
-      "logps/chosen": -227.8453826904297,
-      "logps/rejected": -306.9755859375,
-      "loss": 0.3511,
-      "rewards/chosen": -0.2338699847459793,
-      "rewards/margins": 6.2684006690979,
-      "rewards/rejected": -6.247352600097656,
       "step": 100
     },
     {
       "epoch": 0.68,
-      "eval_kl": NaN,
-      "eval_logps/chosen": -287.4195251464844,
-      "eval_logps/rejected": -352.2350769042969,
-      "eval_loss": NaN,
-      "eval_rewards/chosen": -5.434815883636475,
-      "eval_rewards/margins": 7.475613594055176,
-      "eval_rewards/rejected": -12.600561141967773,
-      "eval_runtime": 353.0809,
-      "eval_samples_per_second": 0.85,
-      "eval_steps_per_second": 0.212,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.38556817173957825,
   "best_model_checkpoint": "./mixstral/05-04-24-Weni-WeniGPT-Agents-Mixstral-Instruct-2.0.0-KTO_KTO with Agents 1.2.0 dataset and Mixstral model-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 2.368553638458252,
+      "kl": 0.5817955732345581,
+      "learning_rate": 0.00018,
+      "logps/chosen": -227.94122314453125,
+      "logps/rejected": -240.64300537109375,
+      "loss": 0.475,
+      "rewards/chosen": -0.784079372882843,
+      "rewards/margins": 0.5924594402313232,
+      "rewards/rejected": -1.3401262760162354,
       "step": 20
     },
     {
       "epoch": 0.27,
+      "grad_norm": 1.441540241241455,
+      "kl": 10.41219425201416,
+      "learning_rate": 0.00015142857142857143,
+      "logps/chosen": -233.67567443847656,
+      "logps/rejected": -243.45187377929688,
+      "loss": 0.4403,
+      "rewards/chosen": 0.15312156081199646,
+      "rewards/margins": 0.6628362536430359,
+      "rewards/rejected": -0.5719818472862244,
       "step": 40
     },
     {
       "epoch": 0.34,
+      "eval_kl": 0.5120495557785034,
+      "eval_logps/chosen": -248.310302734375,
+      "eval_logps/rejected": -253.4099578857422,
+      "eval_loss": 0.4195210039615631,
+      "eval_rewards/chosen": -1.1683257818222046,
+      "eval_rewards/margins": 2.6137375831604004,
+      "eval_rewards/rejected": -3.615262269973755,
+      "eval_runtime": 357.6046,
+      "eval_samples_per_second": 0.839,
+      "eval_steps_per_second": 0.21,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 2.9933063983917236,
+      "kl": 1.537040114402771,
+      "learning_rate": 0.00012285714285714287,
+      "logps/chosen": -244.6122283935547,
+      "logps/rejected": -288.9703674316406,
+      "loss": 0.3877,
+      "rewards/chosen": -0.880365252494812,
+      "rewards/margins": 3.219341516494751,
+      "rewards/rejected": -4.040163516998291,
       "step": 60
     },
     {
       "epoch": 0.55,
+      "grad_norm": 1.7866162061691284,
+      "kl": 8.153600692749023,
+      "learning_rate": 9.428571428571429e-05,
+      "logps/chosen": -193.49400329589844,
+      "logps/rejected": -239.42953491210938,
+      "loss": 0.3612,
+      "rewards/chosen": 1.8910856246948242,
+      "rewards/margins": 2.9180142879486084,
+      "rewards/rejected": -1.0155872106552124,
       "step": 80
     },
     {
       "epoch": 0.68,
+      "grad_norm": 1.8967958688735962,
+      "kl": 5.099704742431641,
+      "learning_rate": 6.714285714285714e-05,
+      "logps/chosen": -210.8452911376953,
+      "logps/rejected": -259.0009460449219,
+      "loss": 0.3518,
+      "rewards/chosen": 1.323478102684021,
+      "rewards/margins": 3.5613787174224854,
+      "rewards/rejected": -2.316351890563965,
       "step": 100
     },
     {
       "epoch": 0.68,
+      "eval_kl": 0.0,
+      "eval_logps/chosen": -263.7559509277344,
+      "eval_logps/rejected": -282.9854431152344,
+      "eval_loss": 0.38556817173957825,
+      "eval_rewards/chosen": -2.7128894329071045,
+      "eval_rewards/margins": 3.9057483673095703,
+      "eval_rewards/rejected": -6.572808265686035,
+      "eval_runtime": 356.8194,
+      "eval_samples_per_second": 0.841,
+      "eval_steps_per_second": 0.21,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da474f70c0f6f8b6f82743af310b6f75ed1c226566b249708fa5a72912d0eb50
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:1231c64b0f80048096d711cb4b87ae11f12db73d4d3dee38c242e8b85d18f2b4
 size 5688