Model save

Browse files

Files changed (5) hide show

README.md +18 -19
all_results.json +16 -16
eval_results.json +12 -12
train_results.json +5 -5
trainer_state.json +1896 -506

README.md CHANGED Viewed

@@ -1,11 +1,8 @@
 ---
-license: apache-2.0
-base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b-dpo-lora
   results: []
@@ -16,17 +13,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-lora
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5650
-- Rewards/chosen: 0.0816
-- Rewards/rejected: -0.2564
-- Rewards/accuracies: 0.7695
-- Rewards/margins: 0.3380
-- Logps/rejected: -175.5244
-- Logps/chosen: -271.4002
-- Logits/rejected: -3.0699
-- Logits/chosen: -3.0344
 ## Model description
@@ -45,7 +42,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-07
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -56,18 +53,20 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.482         | 1.0   | 485  | 0.5650          | 0.0816         | -0.2564          | 0.7695             | 0.3380          | -175.5244      | -271.4002    | -3.0699         | -3.0344       |
 ### Framework versions
 - Transformers 4.35.0
-- Pytorch 2.1.1+cu121
 - Datasets 2.14.6
 - Tokenizers 0.14.1

 ---
+license: mit
+base_model: HuggingFaceH4/mistral-7b-sft-beta
 tags:
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-dpo-lora
   results: []
 # zephyr-7b-dpo-lora
+This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4553
+- Rewards/chosen: -0.5876
+- Rewards/rejected: -2.1911
+- Rewards/accuracies: 0.8359
+- Rewards/margins: 1.6035
+- Logps/rejected: -246.6992
+- Logps/chosen: -279.5245
+- Logits/rejected: -2.8331
+- Logits/chosen: -2.8422
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.4771        | 1.0   | 485  | 0.4617          | -0.0843        | -1.3520          | 0.7891             | 1.2677          | -238.3082      | -274.4911    | -2.8501         | -2.8796       |
+| 0.4124        | 2.0   | 970  | 0.4545          | -0.3551        | -1.7590          | 0.8164             | 1.4038          | -242.3781      | -277.1996    | -2.8563         | -2.8659       |
+| 0.3549        | 3.0   | 1455 | 0.4553          | -0.5876        | -2.1911          | 0.8359             | 1.6035          | -246.6992      | -279.5245    | -2.8331         | -2.8422       |
 ### Framework versions
 - Transformers 4.35.0
+- Pytorch 2.1.0+cu121
 - Datasets 2.14.6
 - Tokenizers 0.14.1

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": -3.034407377243042,
-    "eval_logits/rejected": -3.069913864135742,
-    "eval_logps/chosen": -271.40020751953125,
-    "eval_logps/rejected": -175.5244140625,
-    "eval_loss": 0.5650191903114319,
-    "eval_rewards/accuracies": 0.76953125,
-    "eval_rewards/chosen": 0.08157022297382355,
-    "eval_rewards/margins": 0.33799096941947937,
-    "eval_rewards/rejected": -0.25642073154449463,
-    "eval_runtime": 254.1285,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.87,
     "eval_steps_per_second": 0.063,
-    "train_loss": 0.5539181610972611,
-    "train_runtime": 15602.6148,
-    "train_samples": 62064,
-    "train_samples_per_second": 3.978,
     "train_steps_per_second": 0.031
 }

 {
+    "epoch": 3.0,
+    "eval_logits/chosen": -2.842160701751709,
+    "eval_logits/rejected": -2.833141326904297,
+    "eval_logps/chosen": -279.5245056152344,
+    "eval_logps/rejected": -246.69915771484375,
+    "eval_loss": 0.45531293749809265,
+    "eval_rewards/accuracies": 0.8359375,
+    "eval_rewards/chosen": -0.5876308083534241,
+    "eval_rewards/margins": 1.6034575700759888,
+    "eval_rewards/rejected": -2.1910881996154785,
+    "eval_runtime": 252.3832,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.924,
     "eval_steps_per_second": 0.063,
+    "train_loss": 0.43281792414557074,
+    "train_runtime": 46468.4841,
+    "train_samples": 61966,
+    "train_samples_per_second": 4.001,
     "train_steps_per_second": 0.031
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": -3.034407377243042,
-    "eval_logits/rejected": -3.069913864135742,
-    "eval_logps/chosen": -271.40020751953125,
-    "eval_logps/rejected": -175.5244140625,
-    "eval_loss": 0.5650191903114319,
-    "eval_rewards/accuracies": 0.76953125,
-    "eval_rewards/chosen": 0.08157022297382355,
-    "eval_rewards/margins": 0.33799096941947937,
-    "eval_rewards/rejected": -0.25642073154449463,
-    "eval_runtime": 254.1285,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.87,
     "eval_steps_per_second": 0.063
 }

 {
+    "epoch": 3.0,
+    "eval_logits/chosen": -2.842160701751709,
+    "eval_logits/rejected": -2.833141326904297,
+    "eval_logps/chosen": -279.5245056152344,
+    "eval_logps/rejected": -246.69915771484375,
+    "eval_loss": 0.45531293749809265,
+    "eval_rewards/accuracies": 0.8359375,
+    "eval_rewards/chosen": -0.5876308083534241,
+    "eval_rewards/margins": 1.6034575700759888,
+    "eval_rewards/rejected": -2.1910881996154785,
+    "eval_runtime": 252.3832,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.924,
     "eval_steps_per_second": 0.063
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.5539181610972611,
-    "train_runtime": 15602.6148,
-    "train_samples": 62064,
-    "train_samples_per_second": 3.978,
     "train_steps_per_second": 0.031
 }

 {
+    "epoch": 3.0,
+    "train_loss": 0.43281792414557074,
+    "train_runtime": 46468.4841,
+    "train_samples": 61966,
+    "train_samples_per_second": 4.001,
     "train_steps_per_second": 0.031
 }

trainer_state.json CHANGED Viewed

@@ -1,20 +1,20 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 485,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.020408163265306e-08,
-      "logits/chosen": -3.094454526901245,
-      "logits/rejected": -3.0498220920562744,
-      "logps/chosen": -242.99183654785156,
-      "logps/rejected": -74.66817474365234,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -24,705 +24,2095 @@
     },
     {
       "epoch": 0.02,
-      "learning_rate": 1.0204081632653061e-07,
-      "logits/chosen": -3.032047986984253,
-      "logits/rejected": -3.029446840286255,
-      "logps/chosen": -290.1824645996094,
-      "logps/rejected": -75.82839965820312,
-      "loss": 0.6935,
-      "rewards/accuracies": 0.4027777910232544,
-      "rewards/chosen": -0.007104851305484772,
-      "rewards/margins": -0.0044839149340987206,
-      "rewards/rejected": -0.0026209354400634766,
       "step": 10
     },
     {
       "epoch": 0.04,
-      "learning_rate": 2.0408163265306121e-07,
-      "logits/chosen": -2.9773757457733154,
-      "logits/rejected": -2.967517852783203,
-      "logps/chosen": -297.57342529296875,
-      "logps/rejected": -77.62318420410156,
-      "loss": 0.692,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.00020697650325018913,
-      "rewards/margins": 0.003021990181878209,
-      "rewards/rejected": -0.0028150142170488834,
       "step": 20
     },
     {
       "epoch": 0.06,
-      "learning_rate": 3.0612244897959183e-07,
-      "logits/chosen": -2.983607769012451,
-      "logits/rejected": -2.9363152980804443,
-      "logps/chosen": -288.51458740234375,
-      "logps/rejected": -75.65086364746094,
-      "loss": 0.6892,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": -0.0037677965592592955,
-      "rewards/margins": 0.004846884869039059,
-      "rewards/rejected": -0.008614679798483849,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.0816326530612243e-07,
-      "logits/chosen": -3.0467514991760254,
-      "logits/rejected": -3.010239362716675,
-      "logps/chosen": -243.7971954345703,
-      "logps/rejected": -81.06056213378906,
-      "loss": 0.685,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.0063628097996115685,
-      "rewards/margins": 0.02118637040257454,
-      "rewards/rejected": -0.014823561534285545,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 4.988532110091743e-07,
-      "logits/chosen": -3.0095317363739014,
-      "logits/rejected": -3.0367846488952637,
-      "logps/chosen": -251.5819854736328,
-      "logps/rejected": -78.19547271728516,
-      "loss": 0.6784,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.005416669882833958,
-      "rewards/margins": 0.023932188749313354,
-      "rewards/rejected": -0.018515516072511673,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 4.873853211009174e-07,
-      "logits/chosen": -3.0116028785705566,
-      "logits/rejected": -3.0300631523132324,
-      "logps/chosen": -281.01361083984375,
-      "logps/rejected": -75.49365997314453,
-      "loss": 0.6715,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": 0.015385298058390617,
-      "rewards/margins": 0.050571341067552567,
-      "rewards/rejected": -0.0351860448718071,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 4.7591743119266054e-07,
-      "logits/chosen": -3.0327250957489014,
-      "logits/rejected": -3.0184121131896973,
-      "logps/chosen": -262.8722229003906,
-      "logps/rejected": -71.65990447998047,
-      "loss": 0.6649,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 0.016824517399072647,
-      "rewards/margins": 0.06025807186961174,
-      "rewards/rejected": -0.043433547019958496,
       "step": 70
     },
     {
       "epoch": 0.16,
-      "learning_rate": 4.644495412844037e-07,
-      "logits/chosen": -3.0364532470703125,
-      "logits/rejected": -2.988002300262451,
-      "logps/chosen": -254.49423217773438,
-      "logps/rejected": -70.27412414550781,
-      "loss": 0.6556,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": 0.022701723501086235,
-      "rewards/margins": 0.07623252272605896,
-      "rewards/rejected": -0.05353079363703728,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 4.5298165137614677e-07,
-      "logits/chosen": -3.068497657775879,
-      "logits/rejected": -3.0402565002441406,
-      "logps/chosen": -266.61614990234375,
-      "logps/rejected": -81.87393951416016,
-      "loss": 0.6455,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 0.026070792227983475,
-      "rewards/margins": 0.10358123481273651,
-      "rewards/rejected": -0.07751044631004333,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 4.4151376146788986e-07,
-      "logits/chosen": -3.0521655082702637,
-      "logits/rejected": -3.057821750640869,
-      "logps/chosen": -286.0577087402344,
-      "logps/rejected": -77.96414947509766,
-      "loss": 0.6336,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": 0.033475782722234726,
-      "rewards/margins": 0.14013811945915222,
-      "rewards/rejected": -0.10666234791278839,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 4.30045871559633e-07,
-      "logits/chosen": -3.003532886505127,
-      "logits/rejected": -2.995978355407715,
-      "logps/chosen": -276.5457458496094,
-      "logps/rejected": -80.02079010009766,
-      "loss": 0.6234,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": 0.0331401564180851,
-      "rewards/margins": 0.14480046927928925,
-      "rewards/rejected": -0.11166031658649445,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 4.1857798165137613e-07,
-      "logits/chosen": -3.0330376625061035,
-      "logits/rejected": -3.030214548110962,
-      "logps/chosen": -276.41632080078125,
-      "logps/rejected": -77.67643737792969,
-      "loss": 0.6164,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": 0.043682295829057693,
-      "rewards/margins": 0.177944153547287,
-      "rewards/rejected": -0.1342618763446808,
       "step": 120
     },
     {
       "epoch": 0.27,
-      "learning_rate": 4.071100917431192e-07,
-      "logits/chosen": -2.9754703044891357,
-      "logits/rejected": -2.9898681640625,
-      "logps/chosen": -283.3277587890625,
-      "logps/rejected": -83.87138366699219,
-      "loss": 0.6121,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": 0.048630841076374054,
-      "rewards/margins": 0.19439519941806793,
-      "rewards/rejected": -0.14576435089111328,
       "step": 130
     },
     {
       "epoch": 0.29,
-      "learning_rate": 3.9564220183486236e-07,
-      "logits/chosen": -3.0477757453918457,
-      "logits/rejected": -3.0237550735473633,
-      "logps/chosen": -291.98065185546875,
-      "logps/rejected": -82.53144073486328,
-      "loss": 0.5997,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": 0.034745730459690094,
-      "rewards/margins": 0.20989501476287842,
-      "rewards/rejected": -0.17514929175376892,
       "step": 140
     },
     {
       "epoch": 0.31,
-      "learning_rate": 3.841743119266055e-07,
-      "logits/chosen": -3.033001661300659,
-      "logits/rejected": -3.015845775604248,
-      "logps/chosen": -289.15582275390625,
-      "logps/rejected": -76.08447265625,
-      "loss": 0.5925,
-      "rewards/accuracies": 0.9437500238418579,
-      "rewards/chosen": 0.0425817035138607,
-      "rewards/margins": 0.21189098060131073,
-      "rewards/rejected": -0.16930925846099854,
       "step": 150
     },
     {
       "epoch": 0.33,
-      "learning_rate": 3.7270642201834864e-07,
-      "logits/chosen": -3.0720551013946533,
-      "logits/rejected": -3.0518932342529297,
-      "logps/chosen": -271.08258056640625,
-      "logps/rejected": -75.97576141357422,
-      "loss": 0.5874,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.03000471368432045,
-      "rewards/margins": 0.20934228599071503,
-      "rewards/rejected": -0.17933759093284607,
       "step": 160
     },
     {
       "epoch": 0.35,
-      "learning_rate": 3.612385321100918e-07,
-      "logits/chosen": -3.026865243911743,
-      "logits/rejected": -3.030813455581665,
-      "logps/chosen": -287.5133361816406,
-      "logps/rejected": -77.84892272949219,
-      "loss": 0.5811,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": 0.050167638808488846,
-      "rewards/margins": 0.24577708542346954,
-      "rewards/rejected": -0.1956094205379486,
       "step": 170
     },
     {
       "epoch": 0.37,
-      "learning_rate": 3.497706422018348e-07,
-      "logits/chosen": -3.064037322998047,
-      "logits/rejected": -3.0434131622314453,
-      "logps/chosen": -270.81378173828125,
-      "logps/rejected": -78.64222717285156,
-      "loss": 0.5708,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": 0.0572846345603466,
-      "rewards/margins": 0.27750909328460693,
-      "rewards/rejected": -0.2202244997024536,
       "step": 180
     },
     {
       "epoch": 0.39,
-      "learning_rate": 3.3830275229357795e-07,
-      "logits/chosen": -3.0381369590759277,
-      "logits/rejected": -3.031832456588745,
-      "logps/chosen": -273.7306823730469,
-      "logps/rejected": -79.31744384765625,
-      "loss": 0.5604,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": 0.05553610250353813,
-      "rewards/margins": 0.29081013798713684,
-      "rewards/rejected": -0.2352740317583084,
       "step": 190
     },
     {
       "epoch": 0.41,
-      "learning_rate": 3.268348623853211e-07,
-      "logits/chosen": -3.036811113357544,
-      "logits/rejected": -3.0287680625915527,
-      "logps/chosen": -266.4691467285156,
-      "logps/rejected": -77.38215637207031,
-      "loss": 0.5504,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": 0.08118367195129395,
-      "rewards/margins": 0.3425747752189636,
-      "rewards/rejected": -0.2613911032676697,
       "step": 200
     },
     {
       "epoch": 0.43,
-      "learning_rate": 3.1536697247706423e-07,
-      "logits/chosen": -3.061699867248535,
-      "logits/rejected": -3.042888641357422,
-      "logps/chosen": -269.961181640625,
-      "logps/rejected": -89.21647644042969,
-      "loss": 0.5501,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.07142322510480881,
-      "rewards/margins": 0.3240587115287781,
-      "rewards/rejected": -0.25263547897338867,
       "step": 210
     },
     {
       "epoch": 0.45,
-      "learning_rate": 3.038990825688073e-07,
-      "logits/chosen": -3.04771089553833,
-      "logits/rejected": -3.018721103668213,
-      "logps/chosen": -250.44091796875,
-      "logps/rejected": -72.33317565917969,
-      "loss": 0.5488,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": 0.06637217104434967,
-      "rewards/margins": 0.3276647627353668,
-      "rewards/rejected": -0.26129260659217834,
       "step": 220
     },
     {
       "epoch": 0.47,
-      "learning_rate": 2.9243119266055045e-07,
-      "logits/chosen": -2.9626972675323486,
-      "logits/rejected": -2.9827158451080322,
-      "logps/chosen": -293.9212646484375,
-      "logps/rejected": -72.2821044921875,
-      "loss": 0.5313,
-      "rewards/accuracies": 0.981249988079071,
-      "rewards/chosen": 0.08349540829658508,
-      "rewards/margins": 0.3892216682434082,
-      "rewards/rejected": -0.30572623014450073,
       "step": 230
     },
     {
       "epoch": 0.49,
-      "learning_rate": 2.809633027522936e-07,
-      "logits/chosen": -3.034790277481079,
-      "logits/rejected": -3.016634225845337,
-      "logps/chosen": -280.6105651855469,
-      "logps/rejected": -76.09197235107422,
-      "loss": 0.5333,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": 0.08378176391124725,
-      "rewards/margins": 0.4068339467048645,
-      "rewards/rejected": -0.32305219769477844,
       "step": 240
     },
     {
       "epoch": 0.52,
-      "learning_rate": 2.6949541284403673e-07,
-      "logits/chosen": -3.0789849758148193,
-      "logits/rejected": -3.0785841941833496,
-      "logps/chosen": -264.5536804199219,
-      "logps/rejected": -82.22047424316406,
-      "loss": 0.5282,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": 0.06328760087490082,
-      "rewards/margins": 0.40200409293174744,
-      "rewards/rejected": -0.3387165069580078,
       "step": 250
     },
     {
       "epoch": 0.54,
-      "learning_rate": 2.5802752293577976e-07,
-      "logits/chosen": -2.9741625785827637,
-      "logits/rejected": -2.9866743087768555,
-      "logps/chosen": -282.30902099609375,
-      "logps/rejected": -70.76858520507812,
-      "loss": 0.5277,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": 0.10191468149423599,
-      "rewards/margins": 0.39590951800346375,
-      "rewards/rejected": -0.29399481415748596,
       "step": 260
     },
     {
       "epoch": 0.56,
-      "learning_rate": 2.465596330275229e-07,
-      "logits/chosen": -3.032557964324951,
-      "logits/rejected": -3.03240704536438,
-      "logps/chosen": -274.0851135253906,
-      "logps/rejected": -86.98384094238281,
-      "loss": 0.5135,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": 0.07479412853717804,
-      "rewards/margins": 0.4109489321708679,
-      "rewards/rejected": -0.3361548185348511,
       "step": 270
     },
     {
       "epoch": 0.58,
-      "learning_rate": 2.3509174311926604e-07,
-      "logits/chosen": -3.060285806655884,
-      "logits/rejected": -2.9775302410125732,
-      "logps/chosen": -253.785888671875,
-      "logps/rejected": -70.39444732666016,
-      "loss": 0.5183,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": 0.07235217839479446,
-      "rewards/margins": 0.3860532343387604,
-      "rewards/rejected": -0.31370100378990173,
       "step": 280
     },
     {
       "epoch": 0.6,
-      "learning_rate": 2.2362385321100916e-07,
-      "logits/chosen": -3.029343843460083,
-      "logits/rejected": -3.0406129360198975,
-      "logps/chosen": -276.57196044921875,
-      "logps/rejected": -84.54597473144531,
-      "loss": 0.5107,
-      "rewards/accuracies": 0.9437500238418579,
-      "rewards/chosen": 0.08857797086238861,
-      "rewards/margins": 0.4803849756717682,
-      "rewards/rejected": -0.3918069899082184,
       "step": 290
     },
     {
       "epoch": 0.62,
-      "learning_rate": 2.121559633027523e-07,
-      "logits/chosen": -2.9938578605651855,
-      "logits/rejected": -2.9954426288604736,
-      "logps/chosen": -273.7822265625,
-      "logps/rejected": -77.98421478271484,
-      "loss": 0.5079,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.08799968659877777,
-      "rewards/margins": 0.40502768754959106,
-      "rewards/rejected": -0.3170279860496521,
       "step": 300
     },
     {
       "epoch": 0.64,
-      "learning_rate": 2.0068807339449538e-07,
-      "logits/chosen": -3.052614212036133,
-      "logits/rejected": -3.0461201667785645,
-      "logps/chosen": -281.28814697265625,
-      "logps/rejected": -81.84606170654297,
-      "loss": 0.5038,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.05326849967241287,
-      "rewards/margins": 0.46244749426841736,
-      "rewards/rejected": -0.4091789722442627,
       "step": 310
     },
     {
       "epoch": 0.66,
-      "learning_rate": 1.8922018348623852e-07,
-      "logits/chosen": -3.031501054763794,
-      "logits/rejected": -3.042961597442627,
-      "logps/chosen": -271.274658203125,
-      "logps/rejected": -87.3827133178711,
-      "loss": 0.5003,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": 0.07084844261407852,
-      "rewards/margins": 0.445441871881485,
-      "rewards/rejected": -0.37459343671798706,
       "step": 320
     },
     {
       "epoch": 0.68,
-      "learning_rate": 1.7775229357798163e-07,
-      "logits/chosen": -3.0476019382476807,
-      "logits/rejected": -3.0447893142700195,
-      "logps/chosen": -249.735595703125,
-      "logps/rejected": -73.10395812988281,
-      "loss": 0.4976,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": 0.06198754906654358,
-      "rewards/margins": 0.43834322690963745,
-      "rewards/rejected": -0.37635567784309387,
       "step": 330
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1.6628440366972477e-07,
-      "logits/chosen": -3.055901288986206,
-      "logits/rejected": -3.0517029762268066,
-      "logps/chosen": -273.3477478027344,
-      "logps/rejected": -85.53290557861328,
-      "loss": 0.496,
-      "rewards/accuracies": 0.987500011920929,
-      "rewards/chosen": 0.08338963240385056,
-      "rewards/margins": 0.5042273998260498,
-      "rewards/rejected": -0.42083778977394104,
       "step": 340
     },
     {
       "epoch": 0.72,
-      "learning_rate": 1.5481651376146786e-07,
-      "logits/chosen": -3.063744306564331,
-      "logits/rejected": -3.066366195678711,
-      "logps/chosen": -277.1488952636719,
-      "logps/rejected": -88.2572250366211,
-      "loss": 0.4931,
-      "rewards/accuracies": 0.987500011920929,
-      "rewards/chosen": 0.07289155572652817,
-      "rewards/margins": 0.5126849412918091,
-      "rewards/rejected": -0.4397934079170227,
       "step": 350
     },
     {
       "epoch": 0.74,
-      "learning_rate": 1.43348623853211e-07,
-      "logits/chosen": -3.0237436294555664,
-      "logits/rejected": -3.0258359909057617,
-      "logps/chosen": -292.0096740722656,
-      "logps/rejected": -81.93167114257812,
-      "loss": 0.4951,
-      "rewards/accuracies": 0.9937499761581421,
-      "rewards/chosen": 0.07367613166570663,
-      "rewards/margins": 0.49797001481056213,
-      "rewards/rejected": -0.4242939352989197,
       "step": 360
     },
     {
       "epoch": 0.76,
-      "learning_rate": 1.318807339449541e-07,
-      "logits/chosen": -2.9882092475891113,
-      "logits/rejected": -2.9637956619262695,
-      "logps/chosen": -274.551513671875,
-      "logps/rejected": -73.8973388671875,
-      "loss": 0.496,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": 0.0880483016371727,
-      "rewards/margins": 0.49274787306785583,
-      "rewards/rejected": -0.4046996533870697,
       "step": 370
     },
     {
       "epoch": 0.78,
-      "learning_rate": 1.2041284403669725e-07,
-      "logits/chosen": -3.070621967315674,
-      "logits/rejected": -3.0683789253234863,
-      "logps/chosen": -266.607177734375,
-      "logps/rejected": -81.02775573730469,
-      "loss": 0.493,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": 0.10891600698232651,
-      "rewards/margins": 0.5303564071655273,
-      "rewards/rejected": -0.42144036293029785,
       "step": 380
     },
     {
       "epoch": 0.8,
-      "learning_rate": 1.0894495412844036e-07,
-      "logits/chosen": -3.0497114658355713,
-      "logits/rejected": -3.053192615509033,
-      "logps/chosen": -280.43218994140625,
-      "logps/rejected": -80.42735290527344,
-      "loss": 0.4892,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": 0.10893626511096954,
-      "rewards/margins": 0.5605167746543884,
-      "rewards/rejected": -0.4515805244445801,
       "step": 390
     },
     {
       "epoch": 0.82,
-      "learning_rate": 9.747706422018348e-08,
-      "logits/chosen": -3.002933979034424,
-      "logits/rejected": -3.0063657760620117,
-      "logps/chosen": -241.24276733398438,
-      "logps/rejected": -75.92924499511719,
-      "loss": 0.4833,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.07781459391117096,
-      "rewards/margins": 0.46425342559814453,
-      "rewards/rejected": -0.38643890619277954,
       "step": 400
     },
     {
       "epoch": 0.85,
-      "learning_rate": 8.60091743119266e-08,
-      "logits/chosen": -3.0454163551330566,
-      "logits/rejected": -3.035583972930908,
-      "logps/chosen": -264.18585205078125,
-      "logps/rejected": -78.031982421875,
-      "loss": 0.4744,
-      "rewards/accuracies": 0.987500011920929,
-      "rewards/chosen": 0.09802711009979248,
-      "rewards/margins": 0.5436574816703796,
-      "rewards/rejected": -0.44563040137290955,
       "step": 410
     },
     {
       "epoch": 0.87,
-      "learning_rate": 7.454128440366971e-08,
-      "logits/chosen": -3.0196666717529297,
-      "logits/rejected": -3.0026302337646484,
-      "logps/chosen": -272.02630615234375,
-      "logps/rejected": -82.01240539550781,
-      "loss": 0.481,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.08279488980770111,
-      "rewards/margins": 0.5704164505004883,
-      "rewards/rejected": -0.48762160539627075,
       "step": 420
     },
     {
       "epoch": 0.89,
-      "learning_rate": 6.307339449541284e-08,
-      "logits/chosen": -3.0509345531463623,
-      "logits/rejected": -3.0137345790863037,
-      "logps/chosen": -262.2018127441406,
-      "logps/rejected": -77.63418579101562,
-      "loss": 0.4731,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": 0.1073322519659996,
-      "rewards/margins": 0.5776056051254272,
-      "rewards/rejected": -0.4702734053134918,
       "step": 430
     },
     {
       "epoch": 0.91,
-      "learning_rate": 5.1605504587155966e-08,
-      "logits/chosen": -3.0285000801086426,
-      "logits/rejected": -3.0236475467681885,
-      "logps/chosen": -266.83599853515625,
-      "logps/rejected": -77.38362121582031,
-      "loss": 0.476,
-      "rewards/accuracies": 0.9437500238418579,
-      "rewards/chosen": 0.08291526138782501,
-      "rewards/margins": 0.4984784722328186,
-      "rewards/rejected": -0.41556310653686523,
       "step": 440
     },
     {
       "epoch": 0.93,
-      "learning_rate": 4.0137614678899086e-08,
-      "logits/chosen": -3.02640438079834,
-      "logits/rejected": -3.011373996734619,
-      "logps/chosen": -295.5868835449219,
-      "logps/rejected": -80.76414489746094,
-      "loss": 0.4707,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": 0.09663239866495132,
-      "rewards/margins": 0.5815601944923401,
-      "rewards/rejected": -0.48492780327796936,
       "step": 450
     },
     {
       "epoch": 0.95,
-      "learning_rate": 2.86697247706422e-08,
-      "logits/chosen": -3.0195059776306152,
-      "logits/rejected": -2.988323926925659,
-      "logps/chosen": -300.5026550292969,
-      "logps/rejected": -86.79838562011719,
-      "loss": 0.4808,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": 0.11054690927267075,
-      "rewards/margins": 0.5899176001548767,
-      "rewards/rejected": -0.47937074303627014,
       "step": 460
     },
     {
       "epoch": 0.97,
-      "learning_rate": 1.720183486238532e-08,
-      "logits/chosen": -3.0426931381225586,
-      "logits/rejected": -3.0394179821014404,
-      "logps/chosen": -235.52706909179688,
-      "logps/rejected": -73.9857406616211,
-      "loss": 0.4819,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": 0.08785500377416611,
-      "rewards/margins": 0.5274263620376587,
-      "rewards/rejected": -0.4395713806152344,
       "step": 470
     },
     {
       "epoch": 0.99,
-      "learning_rate": 5.73394495412844e-09,
-      "logits/chosen": -3.0092616081237793,
-      "logits/rejected": -2.972731590270996,
-      "logps/chosen": -249.88876342773438,
-      "logps/rejected": -85.80451965332031,
-      "loss": 0.482,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": 0.07512323558330536,
-      "rewards/margins": 0.5230099558830261,
-      "rewards/rejected": -0.44788676500320435,
       "step": 480
     },
     {
       "epoch": 1.0,
-      "eval_logits/chosen": -3.034407377243042,
-      "eval_logits/rejected": -3.069913864135742,
-      "eval_logps/chosen": -271.40020751953125,
-      "eval_logps/rejected": -175.5244140625,
-      "eval_loss": 0.5650191903114319,
-      "eval_rewards/accuracies": 0.76953125,
-      "eval_rewards/chosen": 0.08157022297382355,
-      "eval_rewards/margins": 0.33799096941947937,
-      "eval_rewards/rejected": -0.25642073154449463,
-      "eval_runtime": 256.4523,
-      "eval_samples_per_second": 7.799,
-      "eval_steps_per_second": 0.062,
       "step": 485
     },
     {
-      "epoch": 1.0,
-      "step": 485,
       "total_flos": 0.0,
-      "train_loss": 0.5539181610972611,
-      "train_runtime": 15602.6148,
-      "train_samples_per_second": 3.978,
       "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 10,
-  "max_steps": 485,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "total_flos": 0.0,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 1455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.36986301369863e-07,
+      "logits/chosen": -2.6635093688964844,
+      "logits/rejected": -2.7324111461639404,
+      "logps/chosen": -135.12002563476562,
+      "logps/rejected": -103.28743743896484,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     },
     {
       "epoch": 0.02,
+      "learning_rate": 1.3698630136986302e-06,
+      "logits/chosen": -2.783435583114624,
+      "logits/rejected": -2.754120111465454,
+      "logps/chosen": -311.785400390625,
+      "logps/rejected": -273.2391357421875,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.4513888955116272,
+      "rewards/chosen": -0.005032465327531099,
+      "rewards/margins": -0.004827913362532854,
+      "rewards/rejected": -0.00020455113553907722,
       "step": 10
     },
     {
       "epoch": 0.04,
+      "learning_rate": 2.7397260273972604e-06,
+      "logits/chosen": -2.8342247009277344,
+      "logits/rejected": -2.8470585346221924,
+      "logps/chosen": -283.9891662597656,
+      "logps/rejected": -250.61019897460938,
+      "loss": 0.6861,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.006812130566686392,
+      "rewards/margins": 0.014938007108867168,
+      "rewards/rejected": -0.008125877007842064,
       "step": 20
     },
     {
       "epoch": 0.06,
+      "learning_rate": 4.109589041095891e-06,
+      "logits/chosen": -2.816066026687622,
+      "logits/rejected": -2.8595542907714844,
+      "logps/chosen": -282.41351318359375,
+      "logps/rejected": -200.7602081298828,
+      "loss": 0.6719,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.009923343546688557,
+      "rewards/margins": 0.052515141665935516,
+      "rewards/rejected": -0.04259180277585983,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 5.479452054794521e-06,
+      "logits/chosen": -2.8367600440979004,
+      "logits/rejected": -2.777651309967041,
+      "logps/chosen": -292.46136474609375,
+      "logps/rejected": -239.9720001220703,
+      "loss": 0.6352,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.041534725576639175,
+      "rewards/margins": 0.1540035903453827,
+      "rewards/rejected": -0.11246886104345322,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 6.849315068493151e-06,
+      "logits/chosen": -2.789390802383423,
+      "logits/rejected": -2.7937839031219482,
+      "logps/chosen": -296.8035583496094,
+      "logps/rejected": -220.61669921875,
+      "loss": 0.5922,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": 0.07272736728191376,
+      "rewards/margins": 0.3851665258407593,
+      "rewards/rejected": -0.3124391436576843,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 8.219178082191782e-06,
+      "logits/chosen": -2.8027291297912598,
+      "logits/rejected": -2.8161094188690186,
+      "logps/chosen": -298.8342590332031,
+      "logps/rejected": -248.74533081054688,
+      "loss": 0.5742,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.023758064955472946,
+      "rewards/margins": 0.40244102478027344,
+      "rewards/rejected": -0.4261991083621979,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 9.589041095890411e-06,
+      "logits/chosen": -2.8271241188049316,
+      "logits/rejected": -2.833664894104004,
+      "logps/chosen": -282.1733703613281,
+      "logps/rejected": -261.71844482421875,
+      "loss": 0.5511,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.05103034898638725,
+      "rewards/margins": 0.4532381594181061,
+      "rewards/rejected": -0.5042685270309448,
       "step": 70
     },
     {
       "epoch": 0.16,
+      "learning_rate": 1.0958904109589042e-05,
+      "logits/chosen": -2.8094613552093506,
+      "logits/rejected": -2.8167314529418945,
+      "logps/chosen": -302.01190185546875,
+      "logps/rejected": -241.74282836914062,
+      "loss": 0.538,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.05076650530099869,
+      "rewards/margins": 0.729707658290863,
+      "rewards/rejected": -0.7804741263389587,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 1.2328767123287673e-05,
+      "logits/chosen": -2.7917096614837646,
+      "logits/rejected": -2.8236160278320312,
+      "logps/chosen": -255.85238647460938,
+      "logps/rejected": -210.2568359375,
+      "loss": 0.5137,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.12663120031356812,
+      "rewards/margins": 0.7104201316833496,
+      "rewards/rejected": -0.8370513916015625,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 1.3698630136986302e-05,
+      "logits/chosen": -2.8499982357025146,
+      "logits/rejected": -2.8203647136688232,
+      "logps/chosen": -261.9218444824219,
+      "logps/rejected": -243.7086639404297,
+      "loss": 0.5222,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.13231949508190155,
+      "rewards/margins": 0.815433144569397,
+      "rewards/rejected": -0.9477526545524597,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 1.5068493150684933e-05,
+      "logits/chosen": -2.8208096027374268,
+      "logits/rejected": -2.8195183277130127,
+      "logps/chosen": -278.68377685546875,
+      "logps/rejected": -239.5231170654297,
+      "loss": 0.4973,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.1940581500530243,
+      "rewards/margins": 0.9298496246337891,
+      "rewards/rejected": -1.1239076852798462,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 1.6438356164383563e-05,
+      "logits/chosen": -2.8535244464874268,
+      "logits/rejected": -2.8457090854644775,
+      "logps/chosen": -299.8865661621094,
+      "logps/rejected": -211.28964233398438,
+      "loss": 0.503,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.1717432737350464,
+      "rewards/margins": 0.9522634744644165,
+      "rewards/rejected": -1.124006748199463,
       "step": 120
     },
     {
       "epoch": 0.27,
+      "learning_rate": 1.7808219178082194e-05,
+      "logits/chosen": -2.806631565093994,
+      "logits/rejected": -2.8321399688720703,
+      "logps/chosen": -273.78619384765625,
+      "logps/rejected": -232.2666015625,
+      "loss": 0.5137,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.3173758387565613,
+      "rewards/margins": 0.8668048977851868,
+      "rewards/rejected": -1.1841806173324585,
       "step": 130
     },
     {
       "epoch": 0.29,
+      "learning_rate": 1.9178082191780822e-05,
+      "logits/chosen": -2.8575327396392822,
+      "logits/rejected": -2.8858590126037598,
+      "logps/chosen": -291.01837158203125,
+      "logps/rejected": -233.05001831054688,
+      "loss": 0.528,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.21833661198616028,
+      "rewards/margins": 0.7500525712966919,
+      "rewards/rejected": -0.9683893322944641,
       "step": 140
     },
     {
       "epoch": 0.31,
+      "learning_rate": 1.9938884644767e-05,
+      "logits/chosen": -2.8324332237243652,
+      "logits/rejected": -2.8657970428466797,
+      "logps/chosen": -263.90875244140625,
+      "logps/rejected": -248.7552490234375,
+      "loss": 0.5066,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.226444810628891,
+      "rewards/margins": 0.6770893335342407,
+      "rewards/rejected": -0.9035340547561646,
       "step": 150
     },
     {
       "epoch": 0.33,
+      "learning_rate": 1.9786096256684494e-05,
+      "logits/chosen": -2.85012149810791,
+      "logits/rejected": -2.920163869857788,
+      "logps/chosen": -313.2906494140625,
+      "logps/rejected": -240.2455596923828,
+      "loss": 0.514,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.15915456414222717,
+      "rewards/margins": 0.9070942997932434,
+      "rewards/rejected": -1.066248893737793,
       "step": 160
     },
     {
       "epoch": 0.35,
+      "learning_rate": 1.9633307868601987e-05,
+      "logits/chosen": -2.8070321083068848,
+      "logits/rejected": -2.8099472522735596,
+      "logps/chosen": -302.35736083984375,
+      "logps/rejected": -241.8223419189453,
+      "loss": 0.5346,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.07760269939899445,
+      "rewards/margins": 0.7661724090576172,
+      "rewards/rejected": -0.8437750935554504,
       "step": 170
     },
     {
       "epoch": 0.37,
+      "learning_rate": 1.9480519480519483e-05,
+      "logits/chosen": -2.7994544506073,
+      "logits/rejected": -2.8084394931793213,
+      "logps/chosen": -302.2978820800781,
+      "logps/rejected": -248.54586791992188,
+      "loss": 0.4909,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.09264491498470306,
+      "rewards/margins": 0.8108696937561035,
+      "rewards/rejected": -0.9035146832466125,
       "step": 180
     },
     {
       "epoch": 0.39,
+      "learning_rate": 1.9327731092436976e-05,
+      "logits/chosen": -2.867279052734375,
+      "logits/rejected": -2.8662352561950684,
+      "logps/chosen": -294.74139404296875,
+      "logps/rejected": -247.1249542236328,
+      "loss": 0.5157,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.023864692077040672,
+      "rewards/margins": 1.0177843570709229,
+      "rewards/rejected": -1.0416491031646729,
       "step": 190
     },
     {
       "epoch": 0.41,
+      "learning_rate": 1.9174942704354472e-05,
+      "logits/chosen": -2.7849340438842773,
+      "logits/rejected": -2.8029227256774902,
+      "logps/chosen": -274.12408447265625,
+      "logps/rejected": -234.2401885986328,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.18910327553749084,
+      "rewards/margins": 0.9559990763664246,
+      "rewards/rejected": -1.1451025009155273,
       "step": 200
     },
     {
       "epoch": 0.43,
+      "learning_rate": 1.9022154316271965e-05,
+      "logits/chosen": -2.886434555053711,
+      "logits/rejected": -2.8876872062683105,
+      "logps/chosen": -285.2301940917969,
+      "logps/rejected": -270.3388977050781,
+      "loss": 0.5246,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.0919012501835823,
+      "rewards/margins": 1.0152003765106201,
+      "rewards/rejected": -1.1071016788482666,
       "step": 210
     },
     {
       "epoch": 0.45,
+      "learning_rate": 1.8869365928189458e-05,
+      "logits/chosen": -2.8153045177459717,
+      "logits/rejected": -2.8722925186157227,
+      "logps/chosen": -295.7647399902344,
+      "logps/rejected": -241.56723022460938,
+      "loss": 0.4931,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.16732807457447052,
+      "rewards/margins": 0.9812033772468567,
+      "rewards/rejected": -1.1485313177108765,
       "step": 220
     },
     {
       "epoch": 0.47,
+      "learning_rate": 1.8716577540106954e-05,
+      "logits/chosen": -2.890263080596924,
+      "logits/rejected": -2.870927333831787,
+      "logps/chosen": -300.0990905761719,
+      "logps/rejected": -243.5838165283203,
+      "loss": 0.5021,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.1739131659269333,
+      "rewards/margins": 0.8733876943588257,
+      "rewards/rejected": -1.047300934791565,
       "step": 230
     },
     {
       "epoch": 0.49,
+      "learning_rate": 1.8563789152024447e-05,
+      "logits/chosen": -2.792865753173828,
+      "logits/rejected": -2.8081324100494385,
+      "logps/chosen": -249.1541748046875,
+      "logps/rejected": -221.9134979248047,
+      "loss": 0.4763,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.2561655640602112,
+      "rewards/margins": 1.2132002115249634,
+      "rewards/rejected": -1.4693658351898193,
       "step": 240
     },
     {
       "epoch": 0.52,
+      "learning_rate": 1.8411000763941943e-05,
+      "logits/chosen": -2.780810594558716,
+      "logits/rejected": -2.8007028102874756,
+      "logps/chosen": -289.1332702636719,
+      "logps/rejected": -259.22491455078125,
+      "loss": 0.488,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.20490197837352753,
+      "rewards/margins": 0.9276278614997864,
+      "rewards/rejected": -1.132529854774475,
       "step": 250
     },
     {
       "epoch": 0.54,
+      "learning_rate": 1.8258212375859436e-05,
+      "logits/chosen": -2.7935876846313477,
+      "logits/rejected": -2.795382022857666,
+      "logps/chosen": -300.5179748535156,
+      "logps/rejected": -260.3360900878906,
+      "loss": 0.4823,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.22746071219444275,
+      "rewards/margins": 1.0280539989471436,
+      "rewards/rejected": -1.2555148601531982,
       "step": 260
     },
     {
       "epoch": 0.56,
+      "learning_rate": 1.8105423987776932e-05,
+      "logits/chosen": -2.8180222511291504,
+      "logits/rejected": -2.7675962448120117,
+      "logps/chosen": -264.4036560058594,
+      "logps/rejected": -242.5054931640625,
+      "loss": 0.4994,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.12344682216644287,
+      "rewards/margins": 1.0876801013946533,
+      "rewards/rejected": -1.2111269235610962,
       "step": 270
     },
     {
       "epoch": 0.58,
+      "learning_rate": 1.7952635599694425e-05,
+      "logits/chosen": -2.859412908554077,
+      "logits/rejected": -2.7997498512268066,
+      "logps/chosen": -274.4200744628906,
+      "logps/rejected": -253.32235717773438,
+      "loss": 0.4921,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.08681371808052063,
+      "rewards/margins": 0.9918006658554077,
+      "rewards/rejected": -1.078614354133606,
       "step": 280
     },
     {
       "epoch": 0.6,
+      "learning_rate": 1.7799847211611917e-05,
+      "logits/chosen": -2.8540239334106445,
+      "logits/rejected": -2.8323752880096436,
+      "logps/chosen": -297.4104309082031,
+      "logps/rejected": -258.0458984375,
+      "loss": 0.4741,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.1035405844449997,
+      "rewards/margins": 1.009918451309204,
+      "rewards/rejected": -1.1134589910507202,
       "step": 290
     },
     {
       "epoch": 0.62,
+      "learning_rate": 1.7647058823529414e-05,
+      "logits/chosen": -2.835106372833252,
+      "logits/rejected": -2.8273653984069824,
+      "logps/chosen": -251.33984375,
+      "logps/rejected": -243.59890747070312,
+      "loss": 0.4957,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.1399732530117035,
+      "rewards/margins": 0.9917305111885071,
+      "rewards/rejected": -1.1317037343978882,
       "step": 300
     },
     {
       "epoch": 0.64,
+      "learning_rate": 1.7494270435446906e-05,
+      "logits/chosen": -2.8415441513061523,
+      "logits/rejected": -2.7994866371154785,
+      "logps/chosen": -260.0638732910156,
+      "logps/rejected": -227.3611602783203,
+      "loss": 0.5106,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.05403571575880051,
+      "rewards/margins": 1.2989342212677002,
+      "rewards/rejected": -1.3529701232910156,
       "step": 310
     },
     {
       "epoch": 0.66,
+      "learning_rate": 1.7341482047364403e-05,
+      "logits/chosen": -2.870739698410034,
+      "logits/rejected": -2.808722496032715,
+      "logps/chosen": -252.57870483398438,
+      "logps/rejected": -238.3760528564453,
+      "loss": 0.4714,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.3325572907924652,
+      "rewards/margins": 1.0449466705322266,
+      "rewards/rejected": -1.3775039911270142,
       "step": 320
     },
     {
       "epoch": 0.68,
+      "learning_rate": 1.7188693659281895e-05,
+      "logits/chosen": -2.870849132537842,
+      "logits/rejected": -2.8693222999572754,
+      "logps/chosen": -296.0721435546875,
+      "logps/rejected": -252.4921875,
+      "loss": 0.4776,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.14332377910614014,
+      "rewards/margins": 1.1690990924835205,
+      "rewards/rejected": -1.312422752380371,
       "step": 330
     },
     {
       "epoch": 0.7,
+      "learning_rate": 1.703590527119939e-05,
+      "logits/chosen": -2.82586669921875,
+      "logits/rejected": -2.780189037322998,
+      "logps/chosen": -315.26727294921875,
+      "logps/rejected": -268.7083740234375,
+      "loss": 0.5107,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.26427751779556274,
+      "rewards/margins": 0.9479537010192871,
+      "rewards/rejected": -1.2122312784194946,
       "step": 340
     },
     {
       "epoch": 0.72,
+      "learning_rate": 1.6883116883116884e-05,
+      "logits/chosen": -2.8107895851135254,
+      "logits/rejected": -2.8060848712921143,
+      "logps/chosen": -242.031494140625,
+      "logps/rejected": -227.6324920654297,
+      "loss": 0.5167,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.1813223510980606,
+      "rewards/margins": 0.9393804669380188,
+      "rewards/rejected": -1.1207029819488525,
       "step": 350
     },
     {
       "epoch": 0.74,
+      "learning_rate": 1.6730328495034377e-05,
+      "logits/chosen": -2.8176794052124023,
+      "logits/rejected": -2.76552152633667,
+      "logps/chosen": -263.55047607421875,
+      "logps/rejected": -240.71484375,
+      "loss": 0.5146,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.1424541026353836,
+      "rewards/margins": 0.9593822360038757,
+      "rewards/rejected": -1.1018364429473877,
       "step": 360
     },
     {
       "epoch": 0.76,
+      "learning_rate": 1.6577540106951873e-05,
+      "logits/chosen": -2.8674864768981934,
+      "logits/rejected": -2.8338735103607178,
+      "logps/chosen": -288.48687744140625,
+      "logps/rejected": -261.1170349121094,
+      "loss": 0.4945,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.24135860800743103,
+      "rewards/margins": 0.9816256761550903,
+      "rewards/rejected": -1.2229843139648438,
       "step": 370
     },
     {
       "epoch": 0.78,
+      "learning_rate": 1.6424751718869366e-05,
+      "logits/chosen": -2.8083739280700684,
+      "logits/rejected": -2.7698397636413574,
+      "logps/chosen": -243.06356811523438,
+      "logps/rejected": -258.90496826171875,
+      "loss": 0.4858,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.4036439061164856,
+      "rewards/margins": 1.0016567707061768,
+      "rewards/rejected": -1.4053006172180176,
       "step": 380
     },
     {
       "epoch": 0.8,
+      "learning_rate": 1.6271963330786862e-05,
+      "logits/chosen": -2.8200416564941406,
+      "logits/rejected": -2.809105634689331,
+      "logps/chosen": -317.0741882324219,
+      "logps/rejected": -248.5664825439453,
+      "loss": 0.4763,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.23517903685569763,
+      "rewards/margins": 1.1138803958892822,
+      "rewards/rejected": -1.3490597009658813,
       "step": 390
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.6119174942704355e-05,
+      "logits/chosen": -2.860297679901123,
+      "logits/rejected": -2.8406786918640137,
+      "logps/chosen": -281.96527099609375,
+      "logps/rejected": -261.6462707519531,
+      "loss": 0.4637,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.20879487693309784,
+      "rewards/margins": 1.0736795663833618,
+      "rewards/rejected": -1.2824745178222656,
       "step": 400
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.596638655462185e-05,
+      "logits/chosen": -2.8639817237854004,
+      "logits/rejected": -2.8506665229797363,
+      "logps/chosen": -295.0474853515625,
+      "logps/rejected": -243.6042938232422,
+      "loss": 0.4449,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.20277197659015656,
+      "rewards/margins": 1.3167582750320435,
+      "rewards/rejected": -1.519530177116394,
       "step": 410
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.5813598166539344e-05,
+      "logits/chosen": -2.83903431892395,
+      "logits/rejected": -2.8222603797912598,
+      "logps/chosen": -279.1824035644531,
+      "logps/rejected": -243.2361297607422,
+      "loss": 0.4928,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.4378887712955475,
+      "rewards/margins": 1.1546775102615356,
+      "rewards/rejected": -1.5925662517547607,
       "step": 420
     },
     {
       "epoch": 0.89,
+      "learning_rate": 1.5660809778456837e-05,
+      "logits/chosen": -2.8503293991088867,
+      "logits/rejected": -2.8215270042419434,
+      "logps/chosen": -260.7596130371094,
+      "logps/rejected": -272.5841979980469,
+      "loss": 0.49,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.2955819368362427,
+      "rewards/margins": 0.9733622670173645,
+      "rewards/rejected": -1.268944263458252,
       "step": 430
     },
     {
       "epoch": 0.91,
+      "learning_rate": 1.5508021390374333e-05,
+      "logits/chosen": -2.820071220397949,
+      "logits/rejected": -2.7907521724700928,
+      "logps/chosen": -307.09576416015625,
+      "logps/rejected": -249.6613006591797,
+      "loss": 0.4867,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.3214530348777771,
+      "rewards/margins": 1.281368613243103,
+      "rewards/rejected": -1.602821707725525,
       "step": 440
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.5355233002291826e-05,
+      "logits/chosen": -2.8464276790618896,
+      "logits/rejected": -2.7966537475585938,
+      "logps/chosen": -296.7311706542969,
+      "logps/rejected": -254.079833984375,
+      "loss": 0.4991,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.35059598088264465,
+      "rewards/margins": 1.165145993232727,
+      "rewards/rejected": -1.5157420635223389,
       "step": 450
     },
     {
       "epoch": 0.95,
+      "learning_rate": 1.5202444614209322e-05,
+      "logits/chosen": -2.8699872493743896,
+      "logits/rejected": -2.8504984378814697,
+      "logps/chosen": -262.0877990722656,
+      "logps/rejected": -247.0086212158203,
+      "loss": 0.4908,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.2521810531616211,
+      "rewards/margins": 1.0113656520843506,
+      "rewards/rejected": -1.2635467052459717,
       "step": 460
     },
     {
       "epoch": 0.97,
+      "learning_rate": 1.5049656226126816e-05,
+      "logits/chosen": -2.846945285797119,
+      "logits/rejected": -2.849860191345215,
+      "logps/chosen": -292.128173828125,
+      "logps/rejected": -255.2592315673828,
+      "loss": 0.48,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.06887436658143997,
+      "rewards/margins": 1.2138417959213257,
+      "rewards/rejected": -1.282716155052185,
       "step": 470
     },
     {
       "epoch": 0.99,
+      "learning_rate": 1.489686783804431e-05,
+      "logits/chosen": -2.872967481613159,
+      "logits/rejected": -2.8441576957702637,
+      "logps/chosen": -263.8342590332031,
+      "logps/rejected": -239.5003204345703,
+      "loss": 0.4771,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.3044741153717041,
+      "rewards/margins": 0.980197548866272,
+      "rewards/rejected": -1.2846715450286865,
       "step": 480
     },
     {
       "epoch": 1.0,
+      "eval_logits/chosen": -2.8796305656433105,
+      "eval_logits/rejected": -2.8501133918762207,
+      "eval_logps/chosen": -274.4910583496094,
+      "eval_logps/rejected": -238.3082275390625,
+      "eval_loss": 0.4616946280002594,
+      "eval_rewards/accuracies": 0.7890625,
+      "eval_rewards/chosen": -0.0842861607670784,
+      "eval_rewards/margins": 1.2677102088928223,
+      "eval_rewards/rejected": -1.3519961833953857,
+      "eval_runtime": 253.7733,
+      "eval_samples_per_second": 7.881,
+      "eval_steps_per_second": 0.063,
       "step": 485
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 1.4744079449961804e-05,
+      "logits/chosen": -2.8916447162628174,
+      "logits/rejected": -2.836836576461792,
+      "logps/chosen": -317.30328369140625,
+      "logps/rejected": -261.12030029296875,
+      "loss": 0.4271,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.1437714546918869,
+      "rewards/margins": 1.377268671989441,
+      "rewards/rejected": -1.5210400819778442,
+      "step": 490
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.4591291061879298e-05,
+      "logits/chosen": -2.8427810668945312,
+      "logits/rejected": -2.8195979595184326,
+      "logps/chosen": -262.42047119140625,
+      "logps/rejected": -256.4164733886719,
+      "loss": 0.4627,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.3208313584327698,
+      "rewards/margins": 1.1283810138702393,
+      "rewards/rejected": -1.4492123126983643,
+      "step": 500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.4438502673796793e-05,
+      "logits/chosen": -2.8156418800354004,
+      "logits/rejected": -2.843306064605713,
+      "logps/chosen": -267.56536865234375,
+      "logps/rejected": -224.3167266845703,
+      "loss": 0.4201,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.24222290515899658,
+      "rewards/margins": 1.2655701637268066,
+      "rewards/rejected": -1.5077931880950928,
+      "step": 510
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.4285714285714287e-05,
+      "logits/chosen": -2.7805769443511963,
+      "logits/rejected": -2.8112196922302246,
+      "logps/chosen": -287.56451416015625,
+      "logps/rejected": -262.3890075683594,
+      "loss": 0.4203,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.2784760892391205,
+      "rewards/margins": 1.08200204372406,
+      "rewards/rejected": -1.360478162765503,
+      "step": 520
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.4132925897631782e-05,
+      "logits/chosen": -2.815563678741455,
+      "logits/rejected": -2.839988946914673,
+      "logps/chosen": -295.6175842285156,
+      "logps/rejected": -235.90164184570312,
+      "loss": 0.4009,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.23429016768932343,
+      "rewards/margins": 1.343583106994629,
+      "rewards/rejected": -1.5778734683990479,
+      "step": 530
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.3980137509549276e-05,
+      "logits/chosen": -2.8498940467834473,
+      "logits/rejected": -2.830718517303467,
+      "logps/chosen": -318.00909423828125,
+      "logps/rejected": -257.63348388671875,
+      "loss": 0.4186,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.3423912525177002,
+      "rewards/margins": 1.4794024229049683,
+      "rewards/rejected": -1.821793794631958,
+      "step": 540
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.3827349121466769e-05,
+      "logits/chosen": -2.7992899417877197,
+      "logits/rejected": -2.8059680461883545,
+      "logps/chosen": -258.46514892578125,
+      "logps/rejected": -210.663818359375,
+      "loss": 0.426,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.40961843729019165,
+      "rewards/margins": 1.0720117092132568,
+      "rewards/rejected": -1.4816303253173828,
+      "step": 550
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.3674560733384263e-05,
+      "logits/chosen": -2.862682580947876,
+      "logits/rejected": -2.865583658218384,
+      "logps/chosen": -281.8017883300781,
+      "logps/rejected": -257.26690673828125,
+      "loss": 0.4007,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.2565487325191498,
+      "rewards/margins": 1.5748827457427979,
+      "rewards/rejected": -1.8314317464828491,
+      "step": 560
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.3521772345301758e-05,
+      "logits/chosen": -2.8742198944091797,
+      "logits/rejected": -2.849208354949951,
+      "logps/chosen": -240.13259887695312,
+      "logps/rejected": -242.2512664794922,
+      "loss": 0.3911,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.2923469543457031,
+      "rewards/margins": 1.5814087390899658,
+      "rewards/rejected": -1.873755693435669,
+      "step": 570
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.3368983957219252e-05,
+      "logits/chosen": -2.8210272789001465,
+      "logits/rejected": -2.8307366371154785,
+      "logps/chosen": -277.41375732421875,
+      "logps/rejected": -270.2271728515625,
+      "loss": 0.4217,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.5435327887535095,
+      "rewards/margins": 1.276086688041687,
+      "rewards/rejected": -1.8196194171905518,
+      "step": 580
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.3216195569136747e-05,
+      "logits/chosen": -2.8047261238098145,
+      "logits/rejected": -2.8207616806030273,
+      "logps/chosen": -268.05999755859375,
+      "logps/rejected": -250.09188842773438,
+      "loss": 0.4192,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.2236345261335373,
+      "rewards/margins": 1.6592124700546265,
+      "rewards/rejected": -1.8828470706939697,
+      "step": 590
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.3063407181054241e-05,
+      "logits/chosen": -2.8321800231933594,
+      "logits/rejected": -2.813894748687744,
+      "logps/chosen": -247.3390655517578,
+      "logps/rejected": -245.7059326171875,
+      "loss": 0.4081,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.6002678871154785,
+      "rewards/margins": 1.3836045265197754,
+      "rewards/rejected": -1.983872652053833,
+      "step": 600
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.2910618792971734e-05,
+      "logits/chosen": -2.8052244186401367,
+      "logits/rejected": -2.7987864017486572,
+      "logps/chosen": -252.0263214111328,
+      "logps/rejected": -265.32666015625,
+      "loss": 0.4056,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.32010939717292786,
+      "rewards/margins": 1.5006351470947266,
+      "rewards/rejected": -1.820744514465332,
+      "step": 610
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.2757830404889229e-05,
+      "logits/chosen": -2.852949619293213,
+      "logits/rejected": -2.810314655303955,
+      "logps/chosen": -305.781982421875,
+      "logps/rejected": -255.346435546875,
+      "loss": 0.44,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.2824147343635559,
+      "rewards/margins": 1.5166089534759521,
+      "rewards/rejected": -1.7990238666534424,
+      "step": 620
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.2605042016806723e-05,
+      "logits/chosen": -2.8488757610321045,
+      "logits/rejected": -2.8255667686462402,
+      "logps/chosen": -272.29388427734375,
+      "logps/rejected": -245.6341552734375,
+      "loss": 0.42,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.3796336054801941,
+      "rewards/margins": 1.4470628499984741,
+      "rewards/rejected": -1.8266966342926025,
+      "step": 630
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.2452253628724218e-05,
+      "logits/chosen": -2.8429629802703857,
+      "logits/rejected": -2.837463140487671,
+      "logps/chosen": -262.43292236328125,
+      "logps/rejected": -261.91644287109375,
+      "loss": 0.4354,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.4664459228515625,
+      "rewards/margins": 1.388948917388916,
+      "rewards/rejected": -1.855394721031189,
+      "step": 640
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.2299465240641712e-05,
+      "logits/chosen": -2.829761028289795,
+      "logits/rejected": -2.799344062805176,
+      "logps/chosen": -266.4898986816406,
+      "logps/rejected": -228.8533935546875,
+      "loss": 0.4393,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.6215249300003052,
+      "rewards/margins": 1.1069129705429077,
+      "rewards/rejected": -1.7284377813339233,
+      "step": 650
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.2146676852559206e-05,
+      "logits/chosen": -2.8082187175750732,
+      "logits/rejected": -2.785370111465454,
+      "logps/chosen": -272.84552001953125,
+      "logps/rejected": -257.3983154296875,
+      "loss": 0.417,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.5420676469802856,
+      "rewards/margins": 1.0937607288360596,
+      "rewards/rejected": -1.6358283758163452,
+      "step": 660
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1993888464476701e-05,
+      "logits/chosen": -2.796501636505127,
+      "logits/rejected": -2.753633975982666,
+      "logps/chosen": -275.73297119140625,
+      "logps/rejected": -261.51495361328125,
+      "loss": 0.4048,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.6535481214523315,
+      "rewards/margins": 1.5823442935943604,
+      "rewards/rejected": -2.2358925342559814,
+      "step": 670
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.1841100076394194e-05,
+      "logits/chosen": -2.8197669982910156,
+      "logits/rejected": -2.8018298149108887,
+      "logps/chosen": -279.07794189453125,
+      "logps/rejected": -264.37908935546875,
+      "loss": 0.4476,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5116819143295288,
+      "rewards/margins": 1.3447668552398682,
+      "rewards/rejected": -1.856448769569397,
+      "step": 680
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.1688311688311688e-05,
+      "logits/chosen": -2.844113826751709,
+      "logits/rejected": -2.844442844390869,
+      "logps/chosen": -252.5892791748047,
+      "logps/rejected": -259.8851623535156,
+      "loss": 0.4359,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.6136052012443542,
+      "rewards/margins": 1.2718920707702637,
+      "rewards/rejected": -1.8854974508285522,
+      "step": 690
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.1535523300229183e-05,
+      "logits/chosen": -2.8703908920288086,
+      "logits/rejected": -2.8482773303985596,
+      "logps/chosen": -300.6127624511719,
+      "logps/rejected": -267.99188232421875,
+      "loss": 0.4299,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.30981573462486267,
+      "rewards/margins": 1.310162901878357,
+      "rewards/rejected": -1.619978666305542,
+      "step": 700
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.1382734912146677e-05,
+      "logits/chosen": -2.807915449142456,
+      "logits/rejected": -2.7632646560668945,
+      "logps/chosen": -244.17822265625,
+      "logps/rejected": -210.9264678955078,
+      "loss": 0.4146,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.32631585001945496,
+      "rewards/margins": 1.2793928384780884,
+      "rewards/rejected": -1.6057088375091553,
+      "step": 710
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.1229946524064172e-05,
+      "logits/chosen": -2.7481131553649902,
+      "logits/rejected": -2.7189228534698486,
+      "logps/chosen": -271.4867858886719,
+      "logps/rejected": -256.009521484375,
+      "loss": 0.4123,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.31545475125312805,
+      "rewards/margins": 1.4961215257644653,
+      "rewards/rejected": -1.811576247215271,
+      "step": 720
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.1077158135981668e-05,
+      "logits/chosen": -2.80031681060791,
+      "logits/rejected": -2.7459282875061035,
+      "logps/chosen": -268.36669921875,
+      "logps/rejected": -244.3325958251953,
+      "loss": 0.4444,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.3755728006362915,
+      "rewards/margins": 1.379817008972168,
+      "rewards/rejected": -1.755389928817749,
+      "step": 730
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.0924369747899159e-05,
+      "logits/chosen": -2.809633255004883,
+      "logits/rejected": -2.85695219039917,
+      "logps/chosen": -293.177734375,
+      "logps/rejected": -231.4840087890625,
+      "loss": 0.4198,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.2760697901248932,
+      "rewards/margins": 1.443703293800354,
+      "rewards/rejected": -1.7197730541229248,
+      "step": 740
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.0771581359816653e-05,
+      "logits/chosen": -2.7558960914611816,
+      "logits/rejected": -2.803246021270752,
+      "logps/chosen": -261.3629455566406,
+      "logps/rejected": -246.388671875,
+      "loss": 0.39,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.4588204026222229,
+      "rewards/margins": 1.728859305381775,
+      "rewards/rejected": -2.1876797676086426,
+      "step": 750
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.0618792971734148e-05,
+      "logits/chosen": -2.78913950920105,
+      "logits/rejected": -2.7678422927856445,
+      "logps/chosen": -256.0678405761719,
+      "logps/rejected": -234.4947509765625,
+      "loss": 0.4066,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.471910297870636,
+      "rewards/margins": 1.3505375385284424,
+      "rewards/rejected": -1.8224480152130127,
+      "step": 760
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0466004583651644e-05,
+      "logits/chosen": -2.808622121810913,
+      "logits/rejected": -2.8128342628479004,
+      "logps/chosen": -263.07305908203125,
+      "logps/rejected": -242.57357788085938,
+      "loss": 0.4032,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.24994757771492004,
+      "rewards/margins": 1.3186602592468262,
+      "rewards/rejected": -1.5686078071594238,
+      "step": 770
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.0313216195569139e-05,
+      "logits/chosen": -2.8431007862091064,
+      "logits/rejected": -2.8500876426696777,
+      "logps/chosen": -289.2240295410156,
+      "logps/rejected": -240.93447875976562,
+      "loss": 0.3989,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.1801755428314209,
+      "rewards/margins": 1.5674879550933838,
+      "rewards/rejected": -1.7476632595062256,
+      "step": 780
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.0160427807486633e-05,
+      "logits/chosen": -2.896554470062256,
+      "logits/rejected": -2.8891143798828125,
+      "logps/chosen": -304.2243957519531,
+      "logps/rejected": -279.3757019042969,
+      "loss": 0.3938,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3372874855995178,
+      "rewards/margins": 1.5321928262710571,
+      "rewards/rejected": -1.8694803714752197,
+      "step": 790
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.0007639419404128e-05,
+      "logits/chosen": -2.8317697048187256,
+      "logits/rejected": -2.7945523262023926,
+      "logps/chosen": -292.1405029296875,
+      "logps/rejected": -234.8839569091797,
+      "loss": 0.4294,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.5130658149719238,
+      "rewards/margins": 1.4586106538772583,
+      "rewards/rejected": -1.9716764688491821,
+      "step": 800
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 9.85485103132162e-06,
+      "logits/chosen": -2.875779151916504,
+      "logits/rejected": -2.8391237258911133,
+      "logps/chosen": -298.0716857910156,
+      "logps/rejected": -242.75662231445312,
+      "loss": 0.4371,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.41954541206359863,
+      "rewards/margins": 1.413554072380066,
+      "rewards/rejected": -1.833099603652954,
+      "step": 810
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 9.702062643239115e-06,
+      "logits/chosen": -2.842196464538574,
+      "logits/rejected": -2.824432849884033,
+      "logps/chosen": -255.82620239257812,
+      "logps/rejected": -256.314453125,
+      "loss": 0.4196,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4787816107273102,
+      "rewards/margins": 1.262540578842163,
+      "rewards/rejected": -1.7413221597671509,
+      "step": 820
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.54927425515661e-06,
+      "logits/chosen": -2.8649404048919678,
+      "logits/rejected": -2.807797908782959,
+      "logps/chosen": -296.7332458496094,
+      "logps/rejected": -261.4539489746094,
+      "loss": 0.4274,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.34954220056533813,
+      "rewards/margins": 1.1616686582565308,
+      "rewards/rejected": -1.5112109184265137,
+      "step": 830
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.396485867074104e-06,
+      "logits/chosen": -2.8419387340545654,
+      "logits/rejected": -2.7805838584899902,
+      "logps/chosen": -271.58807373046875,
+      "logps/rejected": -239.6482391357422,
+      "loss": 0.4106,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.35656026005744934,
+      "rewards/margins": 1.2432340383529663,
+      "rewards/rejected": -1.5997945070266724,
+      "step": 840
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 9.243697478991598e-06,
+      "logits/chosen": -2.851105213165283,
+      "logits/rejected": -2.8537163734436035,
+      "logps/chosen": -285.19293212890625,
+      "logps/rejected": -249.2686004638672,
+      "loss": 0.4067,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.4058365225791931,
+      "rewards/margins": 1.1938354969024658,
+      "rewards/rejected": -1.5996720790863037,
+      "step": 850
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 9.090909090909091e-06,
+      "logits/chosen": -2.8415451049804688,
+      "logits/rejected": -2.816315174102783,
+      "logps/chosen": -246.9827117919922,
+      "logps/rejected": -244.11172485351562,
+      "loss": 0.4166,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.5251684784889221,
+      "rewards/margins": 1.321463942527771,
+      "rewards/rejected": -1.8466323614120483,
+      "step": 860
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 8.938120702826586e-06,
+      "logits/chosen": -2.8182404041290283,
+      "logits/rejected": -2.7850711345672607,
+      "logps/chosen": -320.24407958984375,
+      "logps/rejected": -251.82949829101562,
+      "loss": 0.409,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.2882133424282074,
+      "rewards/margins": 1.439748764038086,
+      "rewards/rejected": -1.7279622554779053,
+      "step": 870
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 8.78533231474408e-06,
+      "logits/chosen": -2.859550952911377,
+      "logits/rejected": -2.8387062549591064,
+      "logps/chosen": -251.30764770507812,
+      "logps/rejected": -253.18179321289062,
+      "loss": 0.4071,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.4950861930847168,
+      "rewards/margins": 1.2707871198654175,
+      "rewards/rejected": -1.7658733129501343,
+      "step": 880
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 8.632543926661574e-06,
+      "logits/chosen": -2.8016982078552246,
+      "logits/rejected": -2.7528939247131348,
+      "logps/chosen": -277.7475891113281,
+      "logps/rejected": -262.52215576171875,
+      "loss": 0.444,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.487938791513443,
+      "rewards/margins": 1.4403693675994873,
+      "rewards/rejected": -1.928308129310608,
+      "step": 890
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 8.479755538579069e-06,
+      "logits/chosen": -2.832099199295044,
+      "logits/rejected": -2.786726951599121,
+      "logps/chosen": -232.41787719726562,
+      "logps/rejected": -241.41775512695312,
+      "loss": 0.4149,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.5055242776870728,
+      "rewards/margins": 1.4381215572357178,
+      "rewards/rejected": -1.9436458349227905,
+      "step": 900
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 8.326967150496563e-06,
+      "logits/chosen": -2.793572425842285,
+      "logits/rejected": -2.8044943809509277,
+      "logps/chosen": -293.1367492675781,
+      "logps/rejected": -241.0701904296875,
+      "loss": 0.4144,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.40146392583847046,
+      "rewards/margins": 1.4329584836959839,
+      "rewards/rejected": -1.8344223499298096,
+      "step": 910
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 8.174178762414056e-06,
+      "logits/chosen": -2.861027240753174,
+      "logits/rejected": -2.802192449569702,
+      "logps/chosen": -302.29095458984375,
+      "logps/rejected": -264.388916015625,
+      "loss": 0.3921,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.377704381942749,
+      "rewards/margins": 1.487374186515808,
+      "rewards/rejected": -1.8650786876678467,
+      "step": 920
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 8.02139037433155e-06,
+      "logits/chosen": -2.856374502182007,
+      "logits/rejected": -2.875044584274292,
+      "logps/chosen": -282.31585693359375,
+      "logps/rejected": -235.76748657226562,
+      "loss": 0.4205,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.39734259247779846,
+      "rewards/margins": 1.3766673803329468,
+      "rewards/rejected": -1.7740100622177124,
+      "step": 930
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 7.868601986249045e-06,
+      "logits/chosen": -2.8075997829437256,
+      "logits/rejected": -2.77669620513916,
+      "logps/chosen": -256.1700134277344,
+      "logps/rejected": -247.21896362304688,
+      "loss": 0.4157,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.3420465886592865,
+      "rewards/margins": 1.5288991928100586,
+      "rewards/rejected": -1.8709455728530884,
+      "step": 940
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 7.71581359816654e-06,
+      "logits/chosen": -2.8214058876037598,
+      "logits/rejected": -2.812399387359619,
+      "logps/chosen": -271.9144592285156,
+      "logps/rejected": -248.6433563232422,
+      "loss": 0.4086,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.5668919682502747,
+      "rewards/margins": 1.462934970855713,
+      "rewards/rejected": -2.0298266410827637,
+      "step": 950
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 7.563025210084034e-06,
+      "logits/chosen": -2.855318069458008,
+      "logits/rejected": -2.8766427040100098,
+      "logps/chosen": -305.3939514160156,
+      "logps/rejected": -259.01739501953125,
+      "loss": 0.4274,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4556516706943512,
+      "rewards/margins": 1.3332924842834473,
+      "rewards/rejected": -1.7889440059661865,
+      "step": 960
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.410236822001529e-06,
+      "logits/chosen": -2.804309368133545,
+      "logits/rejected": -2.7984023094177246,
+      "logps/chosen": -269.3817443847656,
+      "logps/rejected": -236.9586639404297,
+      "loss": 0.4124,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.4466172754764557,
+      "rewards/margins": 1.4143751859664917,
+      "rewards/rejected": -1.860992431640625,
+      "step": 970
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -2.865886688232422,
+      "eval_logits/rejected": -2.8562960624694824,
+      "eval_logps/chosen": -277.1995849609375,
+      "eval_logps/rejected": -242.37806701660156,
+      "eval_loss": 0.4544542133808136,
+      "eval_rewards/accuracies": 0.81640625,
+      "eval_rewards/chosen": -0.3551396429538727,
+      "eval_rewards/margins": 1.4038398265838623,
+      "eval_rewards/rejected": -1.7589795589447021,
+      "eval_runtime": 253.9486,
+      "eval_samples_per_second": 7.876,
+      "eval_steps_per_second": 0.063,
+      "step": 970
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.257448433919023e-06,
+      "logits/chosen": -2.8543519973754883,
+      "logits/rejected": -2.8081583976745605,
+      "logps/chosen": -279.414306640625,
+      "logps/rejected": -276.77752685546875,
+      "loss": 0.3522,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.36832618713378906,
+      "rewards/margins": 1.5619885921478271,
+      "rewards/rejected": -1.9303147792816162,
+      "step": 980
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.104660045836517e-06,
+      "logits/chosen": -2.8730249404907227,
+      "logits/rejected": -2.8948845863342285,
+      "logps/chosen": -318.85736083984375,
+      "logps/rejected": -257.4644470214844,
+      "loss": 0.3859,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.29034391045570374,
+      "rewards/margins": 1.8795220851898193,
+      "rewards/rejected": -2.1698660850524902,
+      "step": 990
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 6.951871657754011e-06,
+      "logits/chosen": -2.8562302589416504,
+      "logits/rejected": -2.834265947341919,
+      "logps/chosen": -259.0556640625,
+      "logps/rejected": -247.9607696533203,
+      "loss": 0.3666,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5741233229637146,
+      "rewards/margins": 1.5469454526901245,
+      "rewards/rejected": -2.1210689544677734,
+      "step": 1000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 6.799083269671506e-06,
+      "logits/chosen": -2.905282974243164,
+      "logits/rejected": -2.836683988571167,
+      "logps/chosen": -293.37139892578125,
+      "logps/rejected": -253.64810180664062,
+      "loss": 0.3664,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5017197728157043,
+      "rewards/margins": 1.8150691986083984,
+      "rewards/rejected": -2.316789150238037,
+      "step": 1010
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 6.646294881588999e-06,
+      "logits/chosen": -2.8647093772888184,
+      "logits/rejected": -2.8602373600006104,
+      "logps/chosen": -253.71450805664062,
+      "logps/rejected": -248.3654022216797,
+      "loss": 0.369,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.581963300704956,
+      "rewards/margins": 1.589311957359314,
+      "rewards/rejected": -2.1712751388549805,
+      "step": 1020
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 6.493506493506494e-06,
+      "logits/chosen": -2.837463617324829,
+      "logits/rejected": -2.817621946334839,
+      "logps/chosen": -285.40142822265625,
+      "logps/rejected": -252.75448608398438,
+      "loss": 0.354,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5188383460044861,
+      "rewards/margins": 1.7174046039581299,
+      "rewards/rejected": -2.2362427711486816,
+      "step": 1030
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.340718105423988e-06,
+      "logits/chosen": -2.901369571685791,
+      "logits/rejected": -2.8450589179992676,
+      "logps/chosen": -270.55145263671875,
+      "logps/rejected": -257.68060302734375,
+      "loss": 0.3873,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.28947222232818604,
+      "rewards/margins": 1.6885324716567993,
+      "rewards/rejected": -1.9780044555664062,
+      "step": 1040
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 6.187929717341482e-06,
+      "logits/chosen": -2.8084139823913574,
+      "logits/rejected": -2.83860445022583,
+      "logps/chosen": -272.42822265625,
+      "logps/rejected": -243.85299682617188,
+      "loss": 0.3468,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4739387035369873,
+      "rewards/margins": 1.55910325050354,
+      "rewards/rejected": -2.0330419540405273,
+      "step": 1050
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 6.0351413292589764e-06,
+      "logits/chosen": -2.8273186683654785,
+      "logits/rejected": -2.8402295112609863,
+      "logps/chosen": -282.76422119140625,
+      "logps/rejected": -263.18548583984375,
+      "loss": 0.3782,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.4047788083553314,
+      "rewards/margins": 1.8494300842285156,
+      "rewards/rejected": -2.254209041595459,
+      "step": 1060
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 5.882352941176471e-06,
+      "logits/chosen": -2.8585734367370605,
+      "logits/rejected": -2.8870089054107666,
+      "logps/chosen": -242.56851196289062,
+      "logps/rejected": -221.9137725830078,
+      "loss": 0.3691,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.5514971017837524,
+      "rewards/margins": 1.47260582447052,
+      "rewards/rejected": -2.0241026878356934,
+      "step": 1070
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 5.729564553093966e-06,
+      "logits/chosen": -2.8390653133392334,
+      "logits/rejected": -2.827547788619995,
+      "logps/chosen": -336.2854309082031,
+      "logps/rejected": -258.2242126464844,
+      "loss": 0.373,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.47643327713012695,
+      "rewards/margins": 1.622065544128418,
+      "rewards/rejected": -2.098498821258545,
+      "step": 1080
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 5.576776165011459e-06,
+      "logits/chosen": -2.864114284515381,
+      "logits/rejected": -2.8293545246124268,
+      "logps/chosen": -273.42315673828125,
+      "logps/rejected": -267.7647399902344,
+      "loss": 0.3652,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.6307514905929565,
+      "rewards/margins": 1.7940418720245361,
+      "rewards/rejected": -2.424793243408203,
+      "step": 1090
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 5.423987776928954e-06,
+      "logits/chosen": -2.847562313079834,
+      "logits/rejected": -2.8787343502044678,
+      "logps/chosen": -271.5540771484375,
+      "logps/rejected": -237.20877075195312,
+      "loss": 0.3705,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.7378746271133423,
+      "rewards/margins": 1.611467719078064,
+      "rewards/rejected": -2.3493425846099854,
+      "step": 1100
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 5.271199388846449e-06,
+      "logits/chosen": -2.844463348388672,
+      "logits/rejected": -2.7723591327667236,
+      "logps/chosen": -289.79632568359375,
+      "logps/rejected": -266.92529296875,
+      "loss": 0.3637,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.6152908205986023,
+      "rewards/margins": 1.741233229637146,
+      "rewards/rejected": -2.3565244674682617,
+      "step": 1110
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 5.118411000763942e-06,
+      "logits/chosen": -2.8476827144622803,
+      "logits/rejected": -2.8521735668182373,
+      "logps/chosen": -273.8808288574219,
+      "logps/rejected": -241.986572265625,
+      "loss": 0.3575,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.7439392805099487,
+      "rewards/margins": 1.6854461431503296,
+      "rewards/rejected": -2.4293856620788574,
+      "step": 1120
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 4.965622612681437e-06,
+      "logits/chosen": -2.8075308799743652,
+      "logits/rejected": -2.7614858150482178,
+      "logps/chosen": -285.82550048828125,
+      "logps/rejected": -258.968994140625,
+      "loss": 0.3651,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.7141876220703125,
+      "rewards/margins": 1.7358572483062744,
+      "rewards/rejected": -2.450045108795166,
+      "step": 1130
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 4.812834224598931e-06,
+      "logits/chosen": -2.8139889240264893,
+      "logits/rejected": -2.8023717403411865,
+      "logps/chosen": -304.9195251464844,
+      "logps/rejected": -261.23919677734375,
+      "loss": 0.3568,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.511367678642273,
+      "rewards/margins": 1.4749786853790283,
+      "rewards/rejected": -1.9863464832305908,
+      "step": 1140
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 4.660045836516425e-06,
+      "logits/chosen": -2.7972934246063232,
+      "logits/rejected": -2.7768425941467285,
+      "logps/chosen": -277.6763916015625,
+      "logps/rejected": -251.0581817626953,
+      "loss": 0.3389,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.7810333967208862,
+      "rewards/margins": 1.623008370399475,
+      "rewards/rejected": -2.4040417671203613,
+      "step": 1150
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 4.5072574484339196e-06,
+      "logits/chosen": -2.842956781387329,
+      "logits/rejected": -2.8352267742156982,
+      "logps/chosen": -246.30056762695312,
+      "logps/rejected": -273.0400390625,
+      "loss": 0.3685,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.6348632574081421,
+      "rewards/margins": 1.7184776067733765,
+      "rewards/rejected": -2.3533406257629395,
+      "step": 1160
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 4.354469060351414e-06,
+      "logits/chosen": -2.801945447921753,
+      "logits/rejected": -2.791245937347412,
+      "logps/chosen": -279.83709716796875,
+      "logps/rejected": -284.6191711425781,
+      "loss": 0.3482,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.7146093249320984,
+      "rewards/margins": 1.7736566066741943,
+      "rewards/rejected": -2.4882664680480957,
+      "step": 1170
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 4.201680672268908e-06,
+      "logits/chosen": -2.752314329147339,
+      "logits/rejected": -2.751218318939209,
+      "logps/chosen": -285.19122314453125,
+      "logps/rejected": -262.41162109375,
+      "loss": 0.3726,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.7081433534622192,
+      "rewards/margins": 1.631823182106018,
+      "rewards/rejected": -2.339966297149658,
+      "step": 1180
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 4.048892284186402e-06,
+      "logits/chosen": -2.7520546913146973,
+      "logits/rejected": -2.706789493560791,
+      "logps/chosen": -274.19903564453125,
+      "logps/rejected": -271.12530517578125,
+      "loss": 0.37,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5612797737121582,
+      "rewards/margins": 1.6494731903076172,
+      "rewards/rejected": -2.2107529640197754,
+      "step": 1190
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 3.896103896103897e-06,
+      "logits/chosen": -2.8326988220214844,
+      "logits/rejected": -2.7695236206054688,
+      "logps/chosen": -272.9900817871094,
+      "logps/rejected": -257.9608154296875,
+      "loss": 0.3775,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.7353371381759644,
+      "rewards/margins": 1.5964215993881226,
+      "rewards/rejected": -2.331758737564087,
+      "step": 1200
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 3.7433155080213907e-06,
+      "logits/chosen": -2.7996091842651367,
+      "logits/rejected": -2.8057217597961426,
+      "logps/chosen": -290.14324951171875,
+      "logps/rejected": -257.6935119628906,
+      "loss": 0.3824,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.5703123807907104,
+      "rewards/margins": 1.7026172876358032,
+      "rewards/rejected": -2.2729296684265137,
+      "step": 1210
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 3.5905271199388848e-06,
+      "logits/chosen": -2.834031343460083,
+      "logits/rejected": -2.8236374855041504,
+      "logps/chosen": -279.32598876953125,
+      "logps/rejected": -250.78292846679688,
+      "loss": 0.376,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.5887583494186401,
+      "rewards/margins": 1.6018693447113037,
+      "rewards/rejected": -2.1906275749206543,
+      "step": 1220
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 3.4377387318563792e-06,
+      "logits/chosen": -2.8245434761047363,
+      "logits/rejected": -2.852121353149414,
+      "logps/chosen": -323.82940673828125,
+      "logps/rejected": -270.3510437011719,
+      "loss": 0.3703,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.7247987985610962,
+      "rewards/margins": 1.512142539024353,
+      "rewards/rejected": -2.236941337585449,
+      "step": 1230
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 3.2849503437738733e-06,
+      "logits/chosen": -2.842057466506958,
+      "logits/rejected": -2.855686902999878,
+      "logps/chosen": -275.85418701171875,
+      "logps/rejected": -251.3174591064453,
+      "loss": 0.3878,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.4698792099952698,
+      "rewards/margins": 1.7577711343765259,
+      "rewards/rejected": -2.2276504039764404,
+      "step": 1240
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 3.1321619556913678e-06,
+      "logits/chosen": -2.842163562774658,
+      "logits/rejected": -2.8198578357696533,
+      "logps/chosen": -293.8838195800781,
+      "logps/rejected": -260.05194091796875,
+      "loss": 0.3441,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.48028483986854553,
+      "rewards/margins": 1.8665335178375244,
+      "rewards/rejected": -2.346818447113037,
+      "step": 1250
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 2.979373567608862e-06,
+      "logits/chosen": -2.835662364959717,
+      "logits/rejected": -2.8839526176452637,
+      "logps/chosen": -257.24334716796875,
+      "logps/rejected": -238.25588989257812,
+      "loss": 0.368,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.6586586236953735,
+      "rewards/margins": 1.7249507904052734,
+      "rewards/rejected": -2.3836092948913574,
+      "step": 1260
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.826585179526356e-06,
+      "logits/chosen": -2.7938365936279297,
+      "logits/rejected": -2.767805576324463,
+      "logps/chosen": -249.7235107421875,
+      "logps/rejected": -234.31283569335938,
+      "loss": 0.369,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7289739847183228,
+      "rewards/margins": 1.7214456796646118,
+      "rewards/rejected": -2.4504194259643555,
+      "step": 1270
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 2.673796791443851e-06,
+      "logits/chosen": -2.7239506244659424,
+      "logits/rejected": -2.751171588897705,
+      "logps/chosen": -329.4594421386719,
+      "logps/rejected": -260.408935546875,
+      "loss": 0.3679,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.6046456694602966,
+      "rewards/margins": 2.0207152366638184,
+      "rewards/rejected": -2.6253609657287598,
+      "step": 1280
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 2.521008403361345e-06,
+      "logits/chosen": -2.797870397567749,
+      "logits/rejected": -2.8259756565093994,
+      "logps/chosen": -305.6458435058594,
+      "logps/rejected": -244.69601440429688,
+      "loss": 0.3668,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.6542243957519531,
+      "rewards/margins": 1.900058388710022,
+      "rewards/rejected": -2.5542826652526855,
+      "step": 1290
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 2.368220015278839e-06,
+      "logits/chosen": -2.7966253757476807,
+      "logits/rejected": -2.8371598720550537,
+      "logps/chosen": -281.93939208984375,
+      "logps/rejected": -261.60150146484375,
+      "loss": 0.3348,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.5757613182067871,
+      "rewards/margins": 1.6483405828475952,
+      "rewards/rejected": -2.224102020263672,
+      "step": 1300
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 2.2154316271963334e-06,
+      "logits/chosen": -2.8347060680389404,
+      "logits/rejected": -2.818382501602173,
+      "logps/chosen": -266.34979248046875,
+      "logps/rejected": -248.8013153076172,
+      "loss": 0.3448,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.5766314268112183,
+      "rewards/margins": 1.5551669597625732,
+      "rewards/rejected": -2.131798505783081,
+      "step": 1310
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.0626432391138275e-06,
+      "logits/chosen": -2.780651569366455,
+      "logits/rejected": -2.7655837535858154,
+      "logps/chosen": -317.9383544921875,
+      "logps/rejected": -282.8804931640625,
+      "loss": 0.3784,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5049678683280945,
+      "rewards/margins": 1.9375810623168945,
+      "rewards/rejected": -2.442549228668213,
+      "step": 1320
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.9098548510313215e-06,
+      "logits/chosen": -2.8032174110412598,
+      "logits/rejected": -2.7949814796447754,
+      "logps/chosen": -260.9715576171875,
+      "logps/rejected": -260.29913330078125,
+      "loss": 0.3628,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.6280083060264587,
+      "rewards/margins": 1.837847113609314,
+      "rewards/rejected": -2.465855360031128,
+      "step": 1330
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 1.757066462948816e-06,
+      "logits/chosen": -2.8185904026031494,
+      "logits/rejected": -2.7385153770446777,
+      "logps/chosen": -278.1485290527344,
+      "logps/rejected": -278.1205139160156,
+      "loss": 0.3636,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.6104816198348999,
+      "rewards/margins": 2.0218350887298584,
+      "rewards/rejected": -2.6323161125183105,
+      "step": 1340
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 1.6042780748663103e-06,
+      "logits/chosen": -2.8218092918395996,
+      "logits/rejected": -2.7967371940612793,
+      "logps/chosen": -297.7966613769531,
+      "logps/rejected": -240.7419891357422,
+      "loss": 0.3763,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.5741168260574341,
+      "rewards/margins": 1.761366605758667,
+      "rewards/rejected": -2.3354835510253906,
+      "step": 1350
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.4514896867838045e-06,
+      "logits/chosen": -2.8747620582580566,
+      "logits/rejected": -2.818427562713623,
+      "logps/chosen": -280.43756103515625,
+      "logps/rejected": -234.6200714111328,
+      "loss": 0.3859,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.5531826019287109,
+      "rewards/margins": 1.6504430770874023,
+      "rewards/rejected": -2.2036256790161133,
+      "step": 1360
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.2987012987012986e-06,
+      "logits/chosen": -2.8544864654541016,
+      "logits/rejected": -2.8276607990264893,
+      "logps/chosen": -298.3465881347656,
+      "logps/rejected": -288.8724365234375,
+      "loss": 0.3595,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.5492029786109924,
+      "rewards/margins": 1.664731740951538,
+      "rewards/rejected": -2.2139344215393066,
+      "step": 1370
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.145912910618793e-06,
+      "logits/chosen": -2.7500030994415283,
+      "logits/rejected": -2.7478601932525635,
+      "logps/chosen": -245.6803741455078,
+      "logps/rejected": -244.2843475341797,
+      "loss": 0.3457,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5498741269111633,
+      "rewards/margins": 1.8164262771606445,
+      "rewards/rejected": -2.366300344467163,
+      "step": 1380
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 9.931245225362874e-07,
+      "logits/chosen": -2.78765869140625,
+      "logits/rejected": -2.7899107933044434,
+      "logps/chosen": -269.9845886230469,
+      "logps/rejected": -260.02557373046875,
+      "loss": 0.366,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5584810376167297,
+      "rewards/margins": 1.836942434310913,
+      "rewards/rejected": -2.395423412322998,
+      "step": 1390
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 8.403361344537816e-07,
+      "logits/chosen": -2.822734832763672,
+      "logits/rejected": -2.7889413833618164,
+      "logps/chosen": -295.0702819824219,
+      "logps/rejected": -263.552978515625,
+      "loss": 0.3664,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.6814947128295898,
+      "rewards/margins": 1.600311040878296,
+      "rewards/rejected": -2.2818057537078857,
+      "step": 1400
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 6.875477463712758e-07,
+      "logits/chosen": -2.7872085571289062,
+      "logits/rejected": -2.813737392425537,
+      "logps/chosen": -271.7468566894531,
+      "logps/rejected": -254.4673309326172,
+      "loss": 0.3564,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.44644269347190857,
+      "rewards/margins": 1.852097511291504,
+      "rewards/rejected": -2.298539876937866,
+      "step": 1410
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.347593582887701e-07,
+      "logits/chosen": -2.8677477836608887,
+      "logits/rejected": -2.8729989528656006,
+      "logps/chosen": -321.89447021484375,
+      "logps/rejected": -266.3446350097656,
+      "loss": 0.3638,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.6643561124801636,
+      "rewards/margins": 1.5856568813323975,
+      "rewards/rejected": -2.2500128746032715,
+      "step": 1420
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 3.819709702062643e-07,
+      "logits/chosen": -2.8617660999298096,
+      "logits/rejected": -2.8304145336151123,
+      "logps/chosen": -289.00482177734375,
+      "logps/rejected": -255.83004760742188,
+      "loss": 0.3575,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.6355488300323486,
+      "rewards/margins": 1.5412448644638062,
+      "rewards/rejected": -2.1767935752868652,
+      "step": 1430
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 2.2918258212375862e-07,
+      "logits/chosen": -2.813324451446533,
+      "logits/rejected": -2.822589635848999,
+      "logps/chosen": -270.77374267578125,
+      "logps/rejected": -270.3390808105469,
+      "loss": 0.3543,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.6036959886550903,
+      "rewards/margins": 1.9311864376068115,
+      "rewards/rejected": -2.5348825454711914,
+      "step": 1440
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 7.639419404125288e-08,
+      "logits/chosen": -2.8171768188476562,
+      "logits/rejected": -2.779967784881592,
+      "logps/chosen": -303.8172912597656,
+      "logps/rejected": -260.3236389160156,
+      "loss": 0.3549,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.6331970691680908,
+      "rewards/margins": 1.8079423904418945,
+      "rewards/rejected": -2.4411392211914062,
+      "step": 1450
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -2.842160701751709,
+      "eval_logits/rejected": -2.833141326904297,
+      "eval_logps/chosen": -279.5245056152344,
+      "eval_logps/rejected": -246.69915771484375,
+      "eval_loss": 0.45531293749809265,
+      "eval_rewards/accuracies": 0.8359375,
+      "eval_rewards/chosen": -0.5876308083534241,
+      "eval_rewards/margins": 1.6034575700759888,
+      "eval_rewards/rejected": -2.1910881996154785,
+      "eval_runtime": 254.2995,
+      "eval_samples_per_second": 7.865,
+      "eval_steps_per_second": 0.063,
+      "step": 1455
+    },
+    {
+      "epoch": 3.0,
+      "step": 1455,
       "total_flos": 0.0,
+      "train_loss": 0.43281792414557074,
+      "train_runtime": 46468.4841,
+      "train_samples_per_second": 4.001,
       "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1455,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "total_flos": 0.0,
   "trial_name": null,