Model save

Browse files

Files changed (6) hide show

README.md +62 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/May08_17-41-32_gpu4-119-5/events.out.tfevents.1715154200.gpu4-119-5.292195.0 +2 -2
train_results.json +8 -0
trainer_state.json +2662 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+license: mit
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/zephyr-7b-gpo-final-i0
+model-index:
+- name: zephyr-7b-gpo-v9-i1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-gpo-v9-i1
+This model is a fine-tuned version of [DUAL-GPO/zephyr-7b-gpo-final-i0](https://huggingface.co/DUAL-GPO/zephyr-7b-gpo-final-i0) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 8
+- total_eval_batch_size: 4
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db79912969bf7ff02cc0f582c93d1b39f3ef503a5db031d8d34bb7faac52912e
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:acc0899428eb14214004a8ef35db80ff3329e8f36e3c95ef684b07f9dd104dca
 size 671150064

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.13990657812754312,
+    "train_runtime": 16010.7596,
+    "train_samples": 15000,
+    "train_samples_per_second": 0.937,
+    "train_steps_per_second": 0.117
+}

runs/May08_17-41-32_gpu4-119-5/events.out.tfevents.1715154200.gpu4-119-5.292195.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2611175afe3e7c902cdb3e4e52bf48e9a8a7816762a7b191f3b4418cee52d6b
-size 119170

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff1920744b3861a422af2fe34a9a162dc078cd5d7d957ee44c0c7aa9f9c9a9ed
+size 123962

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.13990657812754312,
+    "train_runtime": 16010.7596,
+    "train_samples": 15000,
+    "train_samples_per_second": 0.937,
+    "train_steps_per_second": 0.117
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2662 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1875,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.6595744680851065e-08,
+      "logits/chosen": -1.7968215942382812,
+      "logits/rejected": -2.159090995788574,
+      "logps/chosen": -88.33059692382812,
+      "logps/rejected": -242.96200561523438,
+      "loss": 0.4322,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.6595744680851066e-07,
+      "logits/chosen": -2.003159999847412,
+      "logits/rejected": -1.3869916200637817,
+      "logps/chosen": -240.9772186279297,
+      "logps/rejected": -195.60606384277344,
+      "loss": 0.3319,
+      "rewards/accuracies": 0.3333333432674408,
+      "rewards/chosen": -3.270954766776413e-05,
+      "rewards/margins": -8.25071256258525e-05,
+      "rewards/rejected": 4.979758523404598e-05,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.319148936170213e-07,
+      "logits/chosen": -2.0388007164001465,
+      "logits/rejected": -1.5615094900131226,
+      "logps/chosen": -291.083740234375,
+      "logps/rejected": -277.5216369628906,
+      "loss": 0.3514,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 1.1951732631132472e-05,
+      "rewards/margins": 0.00027519199647940695,
+      "rewards/rejected": -0.0002632402756717056,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 7.97872340425532e-07,
+      "logits/chosen": -1.860889196395874,
+      "logits/rejected": -1.5862194299697876,
+      "logps/chosen": -248.38510131835938,
+      "logps/rejected": -261.7816467285156,
+      "loss": 0.324,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.0007015246083028615,
+      "rewards/margins": 0.004821115639060736,
+      "rewards/rejected": -0.005522639956325293,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.0638297872340427e-06,
+      "logits/chosen": -1.8764064311981201,
+      "logits/rejected": -1.2899483442306519,
+      "logps/chosen": -355.25958251953125,
+      "logps/rejected": -389.2695007324219,
+      "loss": 0.3286,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.009422576054930687,
+      "rewards/margins": 0.022184943780303,
+      "rewards/rejected": -0.03160751983523369,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.3297872340425533e-06,
+      "logits/chosen": -1.990142583847046,
+      "logits/rejected": -1.2961665391921997,
+      "logps/chosen": -316.00860595703125,
+      "logps/rejected": -277.88421630859375,
+      "loss": 0.2629,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.05700983479619026,
+      "rewards/margins": 0.059757936745882034,
+      "rewards/rejected": -0.1167677640914917,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.595744680851064e-06,
+      "logits/chosen": -1.748492956161499,
+      "logits/rejected": -0.8994135856628418,
+      "logps/chosen": -389.3627624511719,
+      "logps/rejected": -579.7057495117188,
+      "loss": 0.1989,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.09011684358119965,
+      "rewards/margins": 0.22812744975090027,
+      "rewards/rejected": -0.3182442784309387,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.8617021276595745e-06,
+      "logits/chosen": -1.6900399923324585,
+      "logits/rejected": -1.4010140895843506,
+      "logps/chosen": -420.5406799316406,
+      "logps/rejected": -859.8084716796875,
+      "loss": 0.1253,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.20870384573936462,
+      "rewards/margins": 0.3385527431964874,
+      "rewards/rejected": -0.547256588935852,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.1276595744680853e-06,
+      "logits/chosen": -1.7609751224517822,
+      "logits/rejected": -1.0384010076522827,
+      "logps/chosen": -474.48187255859375,
+      "logps/rejected": -747.34716796875,
+      "loss": 0.1309,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.19330377876758575,
+      "rewards/margins": 0.34078216552734375,
+      "rewards/rejected": -0.5340859293937683,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.393617021276596e-06,
+      "logits/chosen": -1.7291476726531982,
+      "logits/rejected": -1.2021540403366089,
+      "logps/chosen": -454.2134704589844,
+      "logps/rejected": -764.934326171875,
+      "loss": 0.16,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1365814059972763,
+      "rewards/margins": 0.36457785964012146,
+      "rewards/rejected": -0.5011593103408813,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.6595744680851065e-06,
+      "logits/chosen": -1.5737159252166748,
+      "logits/rejected": -0.9248941540718079,
+      "logps/chosen": -482.3492126464844,
+      "logps/rejected": -792.2481689453125,
+      "loss": 0.1239,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.19203761219978333,
+      "rewards/margins": 0.3564862310886383,
+      "rewards/rejected": -0.5485238432884216,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.9255319148936174e-06,
+      "logits/chosen": -1.7435375452041626,
+      "logits/rejected": -1.356065034866333,
+      "logps/chosen": -416.564208984375,
+      "logps/rejected": -796.4661254882812,
+      "loss": 0.1253,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1526903361082077,
+      "rewards/margins": 0.3349696397781372,
+      "rewards/rejected": -0.4876599907875061,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.191489361702128e-06,
+      "logits/chosen": -1.6976553201675415,
+      "logits/rejected": -1.0894078016281128,
+      "logps/chosen": -409.96258544921875,
+      "logps/rejected": -617.7588500976562,
+      "loss": 0.1948,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.13733306527137756,
+      "rewards/margins": 0.293459415435791,
+      "rewards/rejected": -0.4307924807071686,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.457446808510639e-06,
+      "logits/chosen": -1.7993590831756592,
+      "logits/rejected": -1.400632619857788,
+      "logps/chosen": -370.1565856933594,
+      "logps/rejected": -709.3056640625,
+      "loss": 0.2055,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.11207763850688934,
+      "rewards/margins": 0.340470552444458,
+      "rewards/rejected": -0.45254817605018616,
+      "step": 130
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.723404255319149e-06,
+      "logits/chosen": -1.495011806488037,
+      "logits/rejected": -0.9245948791503906,
+      "logps/chosen": -388.5771789550781,
+      "logps/rejected": -792.4680786132812,
+      "loss": 0.1088,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.1575288623571396,
+      "rewards/margins": 0.3997672200202942,
+      "rewards/rejected": -0.557296097278595,
+      "step": 140
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.98936170212766e-06,
+      "logits/chosen": -1.6491578817367554,
+      "logits/rejected": -1.2172632217407227,
+      "logps/chosen": -407.8502502441406,
+      "logps/rejected": -738.5733642578125,
+      "loss": 0.1397,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.12080486118793488,
+      "rewards/margins": 0.32797589898109436,
+      "rewards/rejected": -0.44878071546554565,
+      "step": 150
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.255319148936171e-06,
+      "logits/chosen": -1.6612653732299805,
+      "logits/rejected": -1.1705405712127686,
+      "logps/chosen": -353.0194396972656,
+      "logps/rejected": -689.8749389648438,
+      "loss": 0.1454,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.09746531397104263,
+      "rewards/margins": 0.3515530228614807,
+      "rewards/rejected": -0.44901829957962036,
+      "step": 160
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.521276595744681e-06,
+      "logits/chosen": -1.54987370967865,
+      "logits/rejected": -1.1912695169448853,
+      "logps/chosen": -544.5787963867188,
+      "logps/rejected": -835.3132934570312,
+      "loss": 0.1048,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.23248295485973358,
+      "rewards/margins": 0.3334501087665558,
+      "rewards/rejected": -0.565933108329773,
+      "step": 170
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.787234042553192e-06,
+      "logits/chosen": -1.7397425174713135,
+      "logits/rejected": -0.8725941777229309,
+      "logps/chosen": -510.69842529296875,
+      "logps/rejected": -840.5343017578125,
+      "loss": 0.1531,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2171137034893036,
+      "rewards/margins": 0.39573976397514343,
+      "rewards/rejected": -0.6128535270690918,
+      "step": 180
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.999982660399688e-06,
+      "logits/chosen": -1.6966726779937744,
+      "logits/rejected": -1.09552800655365,
+      "logps/chosen": -514.5984497070312,
+      "logps/rejected": -911.4729614257812,
+      "loss": 0.1503,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.2481248676776886,
+      "rewards/margins": 0.3679044842720032,
+      "rewards/rejected": -0.6160293221473694,
+      "step": 190
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.99937579964398e-06,
+      "logits/chosen": -1.4942667484283447,
+      "logits/rejected": -1.1419141292572021,
+      "logps/chosen": -432.5450134277344,
+      "logps/rejected": -730.1014404296875,
+      "loss": 0.1267,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.21937580406665802,
+      "rewards/margins": 0.3185574412345886,
+      "rewards/rejected": -0.5379332304000854,
+      "step": 200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.9979021993870645e-06,
+      "logits/chosen": -1.571395993232727,
+      "logits/rejected": -0.9183829426765442,
+      "logps/chosen": -480.79644775390625,
+      "logps/rejected": -813.7987060546875,
+      "loss": 0.1624,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.18962515890598297,
+      "rewards/margins": 0.3737575113773346,
+      "rewards/rejected": -0.563382625579834,
+      "step": 210
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.995562370647553e-06,
+      "logits/chosen": -1.668015480041504,
+      "logits/rejected": -1.1087052822113037,
+      "logps/chosen": -517.7100219726562,
+      "logps/rejected": -838.1522216796875,
+      "loss": 0.1372,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.22473697364330292,
+      "rewards/margins": 0.35942238569259644,
+      "rewards/rejected": -0.5841594338417053,
+      "step": 220
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.992357124836838e-06,
+      "logits/chosen": -1.3532911539077759,
+      "logits/rejected": -0.6337820291519165,
+      "logps/chosen": -458.74462890625,
+      "logps/rejected": -736.6771240234375,
+      "loss": 0.1419,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.21437951922416687,
+      "rewards/margins": 0.35455334186553955,
+      "rewards/rejected": -0.5689328908920288,
+      "step": 230
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9882875734777044e-06,
+      "logits/chosen": -1.6833770275115967,
+      "logits/rejected": -1.0865981578826904,
+      "logps/chosen": -476.49578857421875,
+      "logps/rejected": -742.6441650390625,
+      "loss": 0.162,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1685108244419098,
+      "rewards/margins": 0.33409184217453003,
+      "rewards/rejected": -0.5026026368141174,
+      "step": 240
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.983355127818882e-06,
+      "logits/chosen": -1.4850168228149414,
+      "logits/rejected": -0.9603360295295715,
+      "logps/chosen": -400.22967529296875,
+      "logps/rejected": -569.9345703125,
+      "loss": 0.1919,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.20730257034301758,
+      "rewards/margins": 0.22820453345775604,
+      "rewards/rejected": -0.4355071187019348,
+      "step": 250
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.977561498345639e-06,
+      "logits/chosen": -1.544639229774475,
+      "logits/rejected": -1.1013596057891846,
+      "logps/chosen": -407.4434509277344,
+      "logps/rejected": -822.0099487304688,
+      "loss": 0.0966,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.19301848113536835,
+      "rewards/margins": 0.41144537925720215,
+      "rewards/rejected": -0.6044638752937317,
+      "step": 260
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.970908694186624e-06,
+      "logits/chosen": -1.5448771715164185,
+      "logits/rejected": -0.8540661931037903,
+      "logps/chosen": -542.1297607421875,
+      "logps/rejected": -889.5344848632812,
+      "loss": 0.1371,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.25042372941970825,
+      "rewards/margins": 0.39966678619384766,
+      "rewards/rejected": -0.6500904560089111,
+      "step": 270
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9633990224171305e-06,
+      "logits/chosen": -1.4944156408309937,
+      "logits/rejected": -0.8036524057388306,
+      "logps/chosen": -671.7164306640625,
+      "logps/rejected": -922.0513916015625,
+      "loss": 0.1319,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.3747330605983734,
+      "rewards/margins": 0.3100079596042633,
+      "rewards/rejected": -0.6847410202026367,
+      "step": 280
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.955035087259046e-06,
+      "logits/chosen": -1.4477952718734741,
+      "logits/rejected": -0.8218593597412109,
+      "logps/chosen": -612.0665893554688,
+      "logps/rejected": -863.3322143554688,
+      "loss": 0.1494,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.3176848888397217,
+      "rewards/margins": 0.30745354294776917,
+      "rewards/rejected": -0.6251384019851685,
+      "step": 290
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.945819789177756e-06,
+      "logits/chosen": -1.611026406288147,
+      "logits/rejected": -1.1793110370635986,
+      "logps/chosen": -518.3214111328125,
+      "logps/rejected": -892.6036987304688,
+      "loss": 0.1228,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2295423001050949,
+      "rewards/margins": 0.37014490365982056,
+      "rewards/rejected": -0.5996872186660767,
+      "step": 300
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.935756323876306e-06,
+      "logits/chosen": -1.508418083190918,
+      "logits/rejected": -1.277306318283081,
+      "logps/chosen": -459.0326232910156,
+      "logps/rejected": -823.93017578125,
+      "loss": 0.1518,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.27009934186935425,
+      "rewards/margins": 0.32507914304733276,
+      "rewards/rejected": -0.5951785445213318,
+      "step": 310
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.924848181187199e-06,
+      "logits/chosen": -1.6442441940307617,
+      "logits/rejected": -1.1329659223556519,
+      "logps/chosen": -494.06097412109375,
+      "logps/rejected": -854.1019287109375,
+      "loss": 0.1422,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.20919394493103027,
+      "rewards/margins": 0.39555859565734863,
+      "rewards/rejected": -0.6047526001930237,
+      "step": 320
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.913099143862173e-06,
+      "logits/chosen": -1.3633651733398438,
+      "logits/rejected": -0.9123932123184204,
+      "logps/chosen": -474.5048828125,
+      "logps/rejected": -829.7545776367188,
+      "loss": 0.1498,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.28733277320861816,
+      "rewards/margins": 0.3500373959541321,
+      "rewards/rejected": -0.6373701095581055,
+      "step": 330
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.900513286260416e-06,
+      "logits/chosen": -1.5975598096847534,
+      "logits/rejected": -1.2887117862701416,
+      "logps/chosen": -400.32781982421875,
+      "logps/rejected": -744.0382080078125,
+      "loss": 0.1053,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.20992426574230194,
+      "rewards/margins": 0.3338248133659363,
+      "rewards/rejected": -0.5437491536140442,
+      "step": 340
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.887094972935645e-06,
+      "logits/chosen": -1.764219045639038,
+      "logits/rejected": -0.9871004819869995,
+      "logps/chosen": -573.0086059570312,
+      "logps/rejected": -937.3956909179688,
+      "loss": 0.1504,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2734777331352234,
+      "rewards/margins": 0.37265342473983765,
+      "rewards/rejected": -0.646131157875061,
+      "step": 350
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.87284885712256e-06,
+      "logits/chosen": -1.5166432857513428,
+      "logits/rejected": -0.8717886209487915,
+      "logps/chosen": -572.190673828125,
+      "logps/rejected": -876.5632934570312,
+      "loss": 0.1876,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.32470396161079407,
+      "rewards/margins": 0.34118732810020447,
+      "rewards/rejected": -0.6658912897109985,
+      "step": 360
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.857779879123181e-06,
+      "logits/chosen": -1.7403156757354736,
+      "logits/rejected": -0.9518265724182129,
+      "logps/chosen": -505.53387451171875,
+      "logps/rejected": -778.5391845703125,
+      "loss": 0.1207,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.20143766701221466,
+      "rewards/margins": 0.37924817204475403,
+      "rewards/rejected": -0.5806857943534851,
+      "step": 370
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.841893264593643e-06,
+      "logits/chosen": -1.7110675573349,
+      "logits/rejected": -1.026960849761963,
+      "logps/chosen": -472.236328125,
+      "logps/rejected": -761.3172607421875,
+      "loss": 0.095,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2130139172077179,
+      "rewards/margins": 0.36098140478134155,
+      "rewards/rejected": -0.5739952325820923,
+      "step": 380
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.825194522732023e-06,
+      "logits/chosen": -1.6140925884246826,
+      "logits/rejected": -1.1293842792510986,
+      "logps/chosen": -507.7935485839844,
+      "logps/rejected": -913.9110107421875,
+      "loss": 0.1277,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.26502326130867004,
+      "rewards/margins": 0.3756178915500641,
+      "rewards/rejected": -0.6406410932540894,
+      "step": 390
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.807689444367853e-06,
+      "logits/chosen": -1.7682578563690186,
+      "logits/rejected": -1.3489004373550415,
+      "logps/chosen": -495.90869140625,
+      "logps/rejected": -782.658447265625,
+      "loss": 0.1251,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.260581910610199,
+      "rewards/margins": 0.3089093565940857,
+      "rewards/rejected": -0.5694912075996399,
+      "step": 400
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.78938409995396e-06,
+      "logits/chosen": -1.5254316329956055,
+      "logits/rejected": -1.0945005416870117,
+      "logps/chosen": -463.646484375,
+      "logps/rejected": -902.4519653320312,
+      "loss": 0.1313,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.24164071679115295,
+      "rewards/margins": 0.3996545672416687,
+      "rewards/rejected": -0.6412952542304993,
+      "step": 410
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.770284837461342e-06,
+      "logits/chosen": -1.5965580940246582,
+      "logits/rejected": -0.836743175983429,
+      "logps/chosen": -586.2058715820312,
+      "logps/rejected": -917.9168090820312,
+      "loss": 0.1124,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.26902061700820923,
+      "rewards/margins": 0.3916351795196533,
+      "rewards/rejected": -0.6606558561325073,
+      "step": 420
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.7503982801778015e-06,
+      "logits/chosen": -1.557950735092163,
+      "logits/rejected": -1.0112215280532837,
+      "logps/chosen": -501.4098205566406,
+      "logps/rejected": -789.2760009765625,
+      "loss": 0.154,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.24787664413452148,
+      "rewards/margins": 0.3141789734363556,
+      "rewards/rejected": -0.5620556473731995,
+      "step": 430
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.729731324411104e-06,
+      "logits/chosen": -1.7676448822021484,
+      "logits/rejected": -1.1603769063949585,
+      "logps/chosen": -429.96734619140625,
+      "logps/rejected": -750.7506103515625,
+      "loss": 0.1237,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.1744639277458191,
+      "rewards/margins": 0.35027581453323364,
+      "rewards/rejected": -0.5247397422790527,
+      "step": 440
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.7082911370974645e-06,
+      "logits/chosen": -1.8625621795654297,
+      "logits/rejected": -1.36086905002594,
+      "logps/chosen": -548.0135498046875,
+      "logps/rejected": -759.1170654296875,
+      "loss": 0.1707,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.2390761822462082,
+      "rewards/margins": 0.2892398238182068,
+      "rewards/rejected": -0.5283160209655762,
+      "step": 450
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.68608515331618e-06,
+      "logits/chosen": -1.7188348770141602,
+      "logits/rejected": -1.187195062637329,
+      "logps/chosen": -492.1756286621094,
+      "logps/rejected": -859.0760498046875,
+      "loss": 0.1414,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.23255252838134766,
+      "rewards/margins": 0.3831843137741089,
+      "rewards/rejected": -0.6157368421554565,
+      "step": 460
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.663121073711269e-06,
+      "logits/chosen": -1.5974490642547607,
+      "logits/rejected": -1.2564659118652344,
+      "logps/chosen": -336.80487060546875,
+      "logps/rejected": -661.6661376953125,
+      "loss": 0.1196,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.14996656775474548,
+      "rewards/margins": 0.32413381338119507,
+      "rewards/rejected": -0.47410035133361816,
+      "step": 470
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.63940686182103e-06,
+      "logits/chosen": -1.6767423152923584,
+      "logits/rejected": -1.1938632726669312,
+      "logps/chosen": -505.0990295410156,
+      "logps/rejected": -846.8779296875,
+      "loss": 0.159,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2421807050704956,
+      "rewards/margins": 0.3599635660648346,
+      "rewards/rejected": -0.6021442413330078,
+      "step": 480
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.614950741316425e-06,
+      "logits/chosen": -1.529900312423706,
+      "logits/rejected": -1.0826785564422607,
+      "logps/chosen": -421.31707763671875,
+      "logps/rejected": -685.7420654296875,
+      "loss": 0.1721,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.22861020267009735,
+      "rewards/margins": 0.28916865587234497,
+      "rewards/rejected": -0.5177788734436035,
+      "step": 490
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.589761193149254e-06,
+      "logits/chosen": -1.6966304779052734,
+      "logits/rejected": -0.9312071800231934,
+      "logps/chosen": -535.8978271484375,
+      "logps/rejected": -940.1627197265625,
+      "loss": 0.1144,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.24013669788837433,
+      "rewards/margins": 0.4429057240486145,
+      "rewards/rejected": -0.6830424070358276,
+      "step": 500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.563846952611112e-06,
+      "logits/chosen": -1.6221929788589478,
+      "logits/rejected": -0.9574362635612488,
+      "logps/chosen": -428.6238708496094,
+      "logps/rejected": -704.8244018554688,
+      "loss": 0.0844,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.195401132106781,
+      "rewards/margins": 0.3248489797115326,
+      "rewards/rejected": -0.520250141620636,
+      "step": 510
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.537217006304141e-06,
+      "logits/chosen": -1.4427409172058105,
+      "logits/rejected": -1.003901481628418,
+      "logps/chosen": -429.660400390625,
+      "logps/rejected": -772.5963134765625,
+      "loss": 0.1457,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.15723460912704468,
+      "rewards/margins": 0.3122255206108093,
+      "rewards/rejected": -0.4694600999355316,
+      "step": 520
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.50988058902464e-06,
+      "logits/chosen": -1.2717740535736084,
+      "logits/rejected": -0.8480876684188843,
+      "logps/chosen": -367.8202209472656,
+      "logps/rejected": -776.1926879882812,
+      "loss": 0.1152,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.14414677023887634,
+      "rewards/margins": 0.38212689757347107,
+      "rewards/rejected": -0.5262737274169922,
+      "step": 530
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.481847180560593e-06,
+      "logits/chosen": -1.5822323560714722,
+      "logits/rejected": -0.9035153388977051,
+      "logps/chosen": -439.30816650390625,
+      "logps/rejected": -708.1422729492188,
+      "loss": 0.2078,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.18015776574611664,
+      "rewards/margins": 0.32809919118881226,
+      "rewards/rejected": -0.5082569122314453,
+      "step": 540
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.453126502404253e-06,
+      "logits/chosen": -1.6248279809951782,
+      "logits/rejected": -0.9642871022224426,
+      "logps/chosen": -561.463623046875,
+      "logps/rejected": -740.08935546875,
+      "loss": 0.1773,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.27120378613471985,
+      "rewards/margins": 0.28620854020118713,
+      "rewards/rejected": -0.557412326335907,
+      "step": 550
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.423728514380892e-06,
+      "logits/chosen": -1.4605586528778076,
+      "logits/rejected": -0.8407928347587585,
+      "logps/chosen": -514.7965087890625,
+      "logps/rejected": -831.8440551757812,
+      "loss": 0.12,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.24941739439964294,
+      "rewards/margins": 0.36968275904655457,
+      "rewards/rejected": -0.6191002130508423,
+      "step": 560
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.393663411194918e-06,
+      "logits/chosen": -1.4048388004302979,
+      "logits/rejected": -1.0212897062301636,
+      "logps/chosen": -490.42431640625,
+      "logps/rejected": -855.1259765625,
+      "loss": 0.1416,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.24018950760364532,
+      "rewards/margins": 0.3597009778022766,
+      "rewards/rejected": -0.5998905301094055,
+      "step": 570
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.362941618894523e-06,
+      "logits/chosen": -1.3778400421142578,
+      "logits/rejected": -0.983964741230011,
+      "logps/chosen": -586.1995849609375,
+      "logps/rejected": -981.2742309570312,
+      "loss": 0.1205,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.30800628662109375,
+      "rewards/margins": 0.3807603120803833,
+      "rewards/rejected": -0.6887666583061218,
+      "step": 580
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.331573791256116e-06,
+      "logits/chosen": -1.4645698070526123,
+      "logits/rejected": -0.9271195530891418,
+      "logps/chosen": -621.4105224609375,
+      "logps/rejected": -899.0559692382812,
+      "loss": 0.1273,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.2714827358722687,
+      "rewards/margins": 0.362936794757843,
+      "rewards/rejected": -0.6344195604324341,
+      "step": 590
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.299570806089786e-06,
+      "logits/chosen": -1.6326652765274048,
+      "logits/rejected": -0.9927080273628235,
+      "logps/chosen": -490.701904296875,
+      "logps/rejected": -842.052734375,
+      "loss": 0.1023,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.18793320655822754,
+      "rewards/margins": 0.408639132976532,
+      "rewards/rejected": -0.5965723395347595,
+      "step": 600
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.266943761467057e-06,
+      "logits/chosen": -1.2816569805145264,
+      "logits/rejected": -0.8941723704338074,
+      "logps/chosen": -367.02191162109375,
+      "logps/rejected": -760.0553588867188,
+      "loss": 0.1443,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.11693791300058365,
+      "rewards/margins": 0.39976662397384644,
+      "rewards/rejected": -0.5167044997215271,
+      "step": 610
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.233703971872287e-06,
+      "logits/chosen": -1.8729069232940674,
+      "logits/rejected": -1.0977063179016113,
+      "logps/chosen": -393.6733093261719,
+      "logps/rejected": -763.2752075195312,
+      "loss": 0.1335,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.08343084156513214,
+      "rewards/margins": 0.4291655123233795,
+      "rewards/rejected": -0.5125963687896729,
+      "step": 620
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.1998629642789925e-06,
+      "logits/chosen": -1.5668641328811646,
+      "logits/rejected": -1.1349601745605469,
+      "logps/chosen": -426.9754333496094,
+      "logps/rejected": -820.5556640625,
+      "loss": 0.1742,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.1329190582036972,
+      "rewards/margins": 0.36928990483283997,
+      "rewards/rejected": -0.5022088885307312,
+      "step": 630
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.165432474152505e-06,
+      "logits/chosen": -1.5012271404266357,
+      "logits/rejected": -1.278693675994873,
+      "logps/chosen": -365.3034973144531,
+      "logps/rejected": -678.4292602539062,
+      "loss": 0.1737,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.13991737365722656,
+      "rewards/margins": 0.3017304837703705,
+      "rewards/rejected": -0.44164785742759705,
+      "step": 640
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.130424441380308e-06,
+      "logits/chosen": -1.42804753780365,
+      "logits/rejected": -0.967817485332489,
+      "logps/chosen": -411.77801513671875,
+      "logps/rejected": -691.2272338867188,
+      "loss": 0.1527,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1383361965417862,
+      "rewards/margins": 0.33920183777809143,
+      "rewards/rejected": -0.47753801941871643,
+      "step": 650
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.09485100613151e-06,
+      "logits/chosen": -1.5555391311645508,
+      "logits/rejected": -1.1440869569778442,
+      "logps/chosen": -434.00335693359375,
+      "logps/rejected": -744.3508911132812,
+      "loss": 0.168,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.19056299328804016,
+      "rewards/margins": 0.30447274446487427,
+      "rewards/rejected": -0.49503573775291443,
+      "step": 660
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.058724504646834e-06,
+      "logits/chosen": -1.8099536895751953,
+      "logits/rejected": -1.0837316513061523,
+      "logps/chosen": -427.7793884277344,
+      "logps/rejected": -729.915283203125,
+      "loss": 0.1229,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1386745572090149,
+      "rewards/margins": 0.3526052236557007,
+      "rewards/rejected": -0.4912797808647156,
+      "step": 670
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.022057464960632e-06,
+      "logits/chosen": -1.6691503524780273,
+      "logits/rejected": -1.33521568775177,
+      "logps/chosen": -428.7286071777344,
+      "logps/rejected": -789.0191040039062,
+      "loss": 0.1607,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.1496300995349884,
+      "rewards/margins": 0.35229435563087463,
+      "rewards/rejected": -0.5019243955612183,
+      "step": 680
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.984862602556383e-06,
+      "logits/chosen": -1.6232519149780273,
+      "logits/rejected": -1.197933554649353,
+      "logps/chosen": -460.2228088378906,
+      "logps/rejected": -696.0914306640625,
+      "loss": 0.1346,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.18895591795444489,
+      "rewards/margins": 0.28954973816871643,
+      "rewards/rejected": -0.4785057008266449,
+      "step": 690
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.947152815957187e-06,
+      "logits/chosen": -1.5458933115005493,
+      "logits/rejected": -1.116236925125122,
+      "logps/chosen": -433.87322998046875,
+      "logps/rejected": -756.8858642578125,
+      "loss": 0.1492,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.22537223994731903,
+      "rewards/margins": 0.34959647059440613,
+      "rewards/rejected": -0.5749687552452087,
+      "step": 700
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.908941182252785e-06,
+      "logits/chosen": -1.5793603658676147,
+      "logits/rejected": -0.9729734659194946,
+      "logps/chosen": -458.96368408203125,
+      "logps/rejected": -781.1962890625,
+      "loss": 0.1615,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1985333412885666,
+      "rewards/margins": 0.3719526529312134,
+      "rewards/rejected": -0.5704860091209412,
+      "step": 710
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.8702409525646535e-06,
+      "logits/chosen": -1.6880747079849243,
+      "logits/rejected": -1.0946999788284302,
+      "logps/chosen": -550.5426635742188,
+      "logps/rejected": -861.6978759765625,
+      "loss": 0.1362,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1908409297466278,
+      "rewards/margins": 0.3778737485408783,
+      "rewards/rejected": -0.5687146782875061,
+      "step": 720
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.8310655474507495e-06,
+      "logits/chosen": -1.7694594860076904,
+      "logits/rejected": -1.1918199062347412,
+      "logps/chosen": -443.54736328125,
+      "logps/rejected": -717.8020629882812,
+      "loss": 0.1418,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.16424255073070526,
+      "rewards/margins": 0.30146175622940063,
+      "rewards/rejected": -0.4657043516635895,
+      "step": 730
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.7914285522515002e-06,
+      "logits/chosen": -1.539620280265808,
+      "logits/rejected": -1.3648602962493896,
+      "logps/chosen": -468.6385192871094,
+      "logps/rejected": -892.7566528320312,
+      "loss": 0.1552,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.22199459373950958,
+      "rewards/margins": 0.36069172620773315,
+      "rewards/rejected": -0.5826863050460815,
+      "step": 740
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.751343712378639e-06,
+      "logits/chosen": -1.68185555934906,
+      "logits/rejected": -1.0438605546951294,
+      "logps/chosen": -377.9205627441406,
+      "logps/rejected": -688.3480834960938,
+      "loss": 0.1417,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.15213271975517273,
+      "rewards/margins": 0.3400834798812866,
+      "rewards/rejected": -0.49221619963645935,
+      "step": 750
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.710824928548546e-06,
+      "logits/chosen": -1.7241179943084717,
+      "logits/rejected": -1.1749062538146973,
+      "logps/chosen": -398.90521240234375,
+      "logps/rejected": -792.80078125,
+      "loss": 0.1218,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.14098913967609406,
+      "rewards/margins": 0.4070391058921814,
+      "rewards/rejected": -0.5480281710624695,
+      "step": 760
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.6698862519617225e-06,
+      "logits/chosen": -1.862091064453125,
+      "logits/rejected": -1.0774017572402954,
+      "logps/chosen": -380.6012878417969,
+      "logps/rejected": -803.9888916015625,
+      "loss": 0.1009,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.12483291327953339,
+      "rewards/margins": 0.46553611755371094,
+      "rewards/rejected": -0.5903691053390503,
+      "step": 770
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.6285418794300793e-06,
+      "logits/chosen": -1.416322946548462,
+      "logits/rejected": -0.8399195671081543,
+      "logps/chosen": -444.05523681640625,
+      "logps/rejected": -761.3108520507812,
+      "loss": 0.1571,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.20516355335712433,
+      "rewards/margins": 0.3872140049934387,
+      "rewards/rejected": -0.5923775434494019,
+      "step": 780
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.5868061484537365e-06,
+      "logits/chosen": -1.39794921875,
+      "logits/rejected": -0.8267971873283386,
+      "logps/chosen": -507.1766052246094,
+      "logps/rejected": -875.86962890625,
+      "loss": 0.1497,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.23690223693847656,
+      "rewards/margins": 0.40496787428855896,
+      "rewards/rejected": -0.6418701410293579,
+      "step": 790
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.5446935322490285e-06,
+      "logits/chosen": -1.7719318866729736,
+      "logits/rejected": -0.9355955123901367,
+      "logps/chosen": -544.9541015625,
+      "logps/rejected": -865.5302734375,
+      "loss": 0.1963,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.2105661928653717,
+      "rewards/margins": 0.3866081237792969,
+      "rewards/rejected": -0.5971742868423462,
+      "step": 800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.502218634729447e-06,
+      "logits/chosen": -1.6639026403427124,
+      "logits/rejected": -1.067781925201416,
+      "logps/chosen": -575.9091796875,
+      "logps/rejected": -838.0983276367188,
+      "loss": 0.1233,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.23653562366962433,
+      "rewards/margins": 0.3239360749721527,
+      "rewards/rejected": -0.5604716539382935,
+      "step": 810
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.459396185441265e-06,
+      "logits/chosen": -1.7067358493804932,
+      "logits/rejected": -1.0498546361923218,
+      "logps/chosen": -398.35516357421875,
+      "logps/rejected": -626.8757934570312,
+      "loss": 0.1608,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.1356094628572464,
+      "rewards/margins": 0.3172938823699951,
+      "rewards/rejected": -0.4529033601284027,
+      "step": 820
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4162410344555834e-06,
+      "logits/chosen": -1.9210001230239868,
+      "logits/rejected": -1.1206413507461548,
+      "logps/chosen": -405.9615783691406,
+      "logps/rejected": -725.4310913085938,
+      "loss": 0.125,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.10851490497589111,
+      "rewards/margins": 0.38589829206466675,
+      "rewards/rejected": -0.49441319704055786,
+      "step": 830
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.3727681472185937e-06,
+      "logits/chosen": -1.6562303304672241,
+      "logits/rejected": -1.19851553440094,
+      "logps/chosen": -486.35107421875,
+      "logps/rejected": -963.0572509765625,
+      "loss": 0.1105,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.22348380088806152,
+      "rewards/margins": 0.4227561056613922,
+      "rewards/rejected": -0.6462398767471313,
+      "step": 840
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.3289925993618217e-06,
+      "logits/chosen": -1.5856201648712158,
+      "logits/rejected": -1.0767395496368408,
+      "logps/chosen": -526.1747436523438,
+      "logps/rejected": -797.7916870117188,
+      "loss": 0.137,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.2687681019306183,
+      "rewards/margins": 0.2989320755004883,
+      "rewards/rejected": -0.567700207233429,
+      "step": 850
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2849295714741643e-06,
+      "logits/chosen": -1.7678568363189697,
+      "logits/rejected": -1.2151532173156738,
+      "logps/chosen": -597.7952880859375,
+      "logps/rejected": -848.87841796875,
+      "loss": 0.1308,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.27867773175239563,
+      "rewards/margins": 0.30206385254859924,
+      "rewards/rejected": -0.5807415843009949,
+      "step": 860
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2405943438375287e-06,
+      "logits/chosen": -1.7643588781356812,
+      "logits/rejected": -1.099827527999878,
+      "logps/chosen": -423.9742126464844,
+      "logps/rejected": -774.4637451171875,
+      "loss": 0.0974,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1482265591621399,
+      "rewards/margins": 0.410900741815567,
+      "rewards/rejected": -0.5591272711753845,
+      "step": 870
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.1960022911279036e-06,
+      "logits/chosen": -1.5414252281188965,
+      "logits/rejected": -1.1484423875808716,
+      "logps/chosen": -493.69464111328125,
+      "logps/rejected": -835.8029174804688,
+      "loss": 0.1526,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.19744431972503662,
+      "rewards/margins": 0.36680763959884644,
+      "rewards/rejected": -0.5642520189285278,
+      "step": 880
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.1511688770836844e-06,
+      "logits/chosen": -1.511249303817749,
+      "logits/rejected": -1.3401678800582886,
+      "logps/chosen": -404.75933837890625,
+      "logps/rejected": -805.8262939453125,
+      "loss": 0.1035,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.18373355269432068,
+      "rewards/margins": 0.3318132758140564,
+      "rewards/rejected": -0.5155468583106995,
+      "step": 890
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.1061096491431307e-06,
+      "logits/chosen": -1.8831459283828735,
+      "logits/rejected": -1.2160544395446777,
+      "logps/chosen": -447.65032958984375,
+      "logps/rejected": -843.8660278320312,
+      "loss": 0.1345,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.13529552519321442,
+      "rewards/margins": 0.40966707468032837,
+      "rewards/rejected": -0.5449625849723816,
+      "step": 900
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.0608402330527796e-06,
+      "logits/chosen": -1.6770378351211548,
+      "logits/rejected": -0.9972168803215027,
+      "logps/chosen": -379.8583984375,
+      "logps/rejected": -719.3693237304688,
+      "loss": 0.1765,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.15062110126018524,
+      "rewards/margins": 0.3817873001098633,
+      "rewards/rejected": -0.5324083566665649,
+      "step": 910
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.0153763274487176e-06,
+      "logits/chosen": -1.4134846925735474,
+      "logits/rejected": -0.966874897480011,
+      "logps/chosen": -441.3450622558594,
+      "logps/rejected": -707.3884887695312,
+      "loss": 0.1235,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.21538302302360535,
+      "rewards/margins": 0.3049529790878296,
+      "rewards/rejected": -0.5203360319137573,
+      "step": 920
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9697336984125683e-06,
+      "logits/chosen": -1.6667283773422241,
+      "logits/rejected": -1.0133411884307861,
+      "logps/chosen": -401.2959899902344,
+      "logps/rejected": -851.93701171875,
+      "loss": 0.1206,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.15221676230430603,
+      "rewards/margins": 0.45876413583755493,
+      "rewards/rejected": -0.6109809279441833,
+      "step": 930
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.923928174004094e-06,
+      "logits/chosen": -1.8437814712524414,
+      "logits/rejected": -1.0747764110565186,
+      "logps/chosen": -470.7169494628906,
+      "logps/rejected": -732.7559814453125,
+      "loss": 0.1247,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.13192041218280792,
+      "rewards/margins": 0.3781585991382599,
+      "rewards/rejected": -0.5100789666175842,
+      "step": 940
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.8779756387723036e-06,
+      "logits/chosen": -1.7663402557373047,
+      "logits/rejected": -1.3018739223480225,
+      "logps/chosen": -446.77490234375,
+      "logps/rejected": -766.7832641601562,
+      "loss": 0.1146,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1646779477596283,
+      "rewards/margins": 0.36457663774490356,
+      "rewards/rejected": -0.5292545557022095,
+      "step": 950
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.831892028246968e-06,
+      "logits/chosen": -1.848724603652954,
+      "logits/rejected": -1.216956377029419,
+      "logps/chosen": -418.67645263671875,
+      "logps/rejected": -703.2694702148438,
+      "loss": 0.1209,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.14982689917087555,
+      "rewards/margins": 0.36974358558654785,
+      "rewards/rejected": -0.5195704698562622,
+      "step": 960
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7856933234124617e-06,
+      "logits/chosen": -1.7911808490753174,
+      "logits/rejected": -1.0922878980636597,
+      "logps/chosen": -448.37603759765625,
+      "logps/rejected": -834.2364501953125,
+      "loss": 0.1538,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.17878659069538116,
+      "rewards/margins": 0.3954610228538513,
+      "rewards/rejected": -0.5742476582527161,
+      "step": 970
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7393955451658387e-06,
+      "logits/chosen": -1.7210479974746704,
+      "logits/rejected": -1.2294584512710571,
+      "logps/chosen": -514.4754028320312,
+      "logps/rejected": -868.5929565429688,
+      "loss": 0.1626,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.21787652373313904,
+      "rewards/margins": 0.3894199728965759,
+      "rewards/rejected": -0.6072965264320374,
+      "step": 980
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.6930147487610667e-06,
+      "logits/chosen": -1.5907623767852783,
+      "logits/rejected": -0.78331458568573,
+      "logps/chosen": -462.7984313964844,
+      "logps/rejected": -805.7174072265625,
+      "loss": 0.1373,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.17765957117080688,
+      "rewards/margins": 0.40347957611083984,
+      "rewards/rejected": -0.581139087677002,
+      "step": 990
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.6465670182413487e-06,
+      "logits/chosen": -1.6310056447982788,
+      "logits/rejected": -1.0298982858657837,
+      "logps/chosen": -411.04937744140625,
+      "logps/rejected": -758.7462158203125,
+      "loss": 0.1237,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1506483405828476,
+      "rewards/margins": 0.36691543459892273,
+      "rewards/rejected": -0.5175637602806091,
+      "step": 1000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.6000684608614594e-06,
+      "logits/chosen": -1.6570842266082764,
+      "logits/rejected": -0.8277125358581543,
+      "logps/chosen": -506.580810546875,
+      "logps/rejected": -801.989990234375,
+      "loss": 0.1436,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.1983393281698227,
+      "rewards/margins": 0.38503485918045044,
+      "rewards/rejected": -0.5833742022514343,
+      "step": 1010
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.5535352015020338e-06,
+      "logits/chosen": -1.528637170791626,
+      "logits/rejected": -0.8484199643135071,
+      "logps/chosen": -470.8020935058594,
+      "logps/rejected": -820.8448486328125,
+      "loss": 0.1363,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.20915472507476807,
+      "rewards/margins": 0.38422003388404846,
+      "rewards/rejected": -0.5933747887611389,
+      "step": 1020
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.506983377077741e-06,
+      "logits/chosen": -1.3463196754455566,
+      "logits/rejected": -1.018822193145752,
+      "logps/chosen": -464.81524658203125,
+      "logps/rejected": -807.076171875,
+      "loss": 0.1584,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.21939115226268768,
+      "rewards/margins": 0.3329920172691345,
+      "rewards/rejected": -0.5523831844329834,
+      "step": 1030
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.460429130941289e-06,
+      "logits/chosen": -1.4068031311035156,
+      "logits/rejected": -0.9966346621513367,
+      "logps/chosen": -443.41583251953125,
+      "logps/rejected": -826.1185302734375,
+      "loss": 0.1182,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1990918219089508,
+      "rewards/margins": 0.39130455255508423,
+      "rewards/rejected": -0.5903963446617126,
+      "step": 1040
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.413888607285192e-06,
+      "logits/chosen": -1.2919907569885254,
+      "logits/rejected": -0.9193531274795532,
+      "logps/chosen": -496.358642578125,
+      "logps/rejected": -845.7939453125,
+      "loss": 0.173,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.24995890259742737,
+      "rewards/margins": 0.3503498435020447,
+      "rewards/rejected": -0.6003087162971497,
+      "step": 1050
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.367377945543249e-06,
+      "logits/chosen": -1.6841480731964111,
+      "logits/rejected": -0.907370924949646,
+      "logps/chosen": -446.6328125,
+      "logps/rejected": -884.2018432617188,
+      "loss": 0.1068,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.15798960626125336,
+      "rewards/margins": 0.4673282206058502,
+      "rewards/rejected": -0.6253177523612976,
+      "step": 1060
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.320913274793676e-06,
+      "logits/chosen": -1.7113037109375,
+      "logits/rejected": -1.1816798448562622,
+      "logps/chosen": -410.67645263671875,
+      "logps/rejected": -770.4984741210938,
+      "loss": 0.1423,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.1650415062904358,
+      "rewards/margins": 0.37022119760513306,
+      "rewards/rejected": -0.5352627038955688,
+      "step": 1070
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.27451070816582e-06,
+      "logits/chosen": -1.6226348876953125,
+      "logits/rejected": -0.9200002551078796,
+      "logps/chosen": -518.1405029296875,
+      "logps/rejected": -891.6884765625,
+      "loss": 0.1105,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.16074618697166443,
+      "rewards/margins": 0.47465044260025024,
+      "rewards/rejected": -0.6353966593742371,
+      "step": 1080
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.228186337252414e-06,
+      "logits/chosen": -1.7294307947158813,
+      "logits/rejected": -0.8779215812683105,
+      "logps/chosen": -516.14013671875,
+      "logps/rejected": -824.5764770507812,
+      "loss": 0.1407,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.17551277577877045,
+      "rewards/margins": 0.40844354033470154,
+      "rewards/rejected": -0.583956241607666,
+      "step": 1090
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1819562265292946e-06,
+      "logits/chosen": -1.5813789367675781,
+      "logits/rejected": -1.001509666442871,
+      "logps/chosen": -429.26593017578125,
+      "logps/rejected": -789.7249755859375,
+      "loss": 0.1574,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.21274442970752716,
+      "rewards/margins": 0.3669392764568329,
+      "rewards/rejected": -0.5796837210655212,
+      "step": 1100
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1358364077845236e-06,
+      "logits/chosen": -1.533307671546936,
+      "logits/rejected": -0.9590204954147339,
+      "logps/chosen": -387.72381591796875,
+      "logps/rejected": -828.5607299804688,
+      "loss": 0.1014,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.14084286987781525,
+      "rewards/margins": 0.4476155638694763,
+      "rewards/rejected": -0.5884584188461304,
+      "step": 1110
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.089842874558849e-06,
+      "logits/chosen": -1.3846327066421509,
+      "logits/rejected": -1.0313770771026611,
+      "logps/chosen": -479.6465759277344,
+      "logps/rejected": -906.1482543945312,
+      "loss": 0.1133,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.22880907356739044,
+      "rewards/margins": 0.4139330983161926,
+      "rewards/rejected": -0.6427421569824219,
+      "step": 1120
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0439915765994242e-06,
+      "logits/chosen": -1.5441999435424805,
+      "logits/rejected": -0.8765427470207214,
+      "logps/chosen": -374.98504638671875,
+      "logps/rejected": -726.3242797851562,
+      "loss": 0.1078,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1631808578968048,
+      "rewards/margins": 0.38433948159217834,
+      "rewards/rejected": -0.5475203394889832,
+      "step": 1130
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9982984143287186e-06,
+      "logits/chosen": -1.7160451412200928,
+      "logits/rejected": -0.9389771223068237,
+      "logps/chosen": -419.886962890625,
+      "logps/rejected": -727.5339965820312,
+      "loss": 0.1209,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1307600438594818,
+      "rewards/margins": 0.4173372685909271,
+      "rewards/rejected": -0.5480973720550537,
+      "step": 1140
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.95277923333053e-06,
+      "logits/chosen": -1.5577538013458252,
+      "logits/rejected": -0.9766386151313782,
+      "logps/chosen": -432.010498046875,
+      "logps/rejected": -772.4149780273438,
+      "loss": 0.1015,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.1316412091255188,
+      "rewards/margins": 0.40984097123146057,
+      "rewards/rejected": -0.541482150554657,
+      "step": 1150
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9074498188550156e-06,
+      "logits/chosen": -1.6150667667388916,
+      "logits/rejected": -1.0481829643249512,
+      "logps/chosen": -460.06781005859375,
+      "logps/rejected": -748.8250122070312,
+      "loss": 0.1577,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.18149954080581665,
+      "rewards/margins": 0.34171923995018005,
+      "rewards/rejected": -0.5232187509536743,
+      "step": 1160
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.862325890344643e-06,
+      "logits/chosen": -1.3022327423095703,
+      "logits/rejected": -0.9266065359115601,
+      "logps/chosen": -367.62823486328125,
+      "logps/rejected": -806.5985107421875,
+      "loss": 0.1656,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.17992374300956726,
+      "rewards/margins": 0.42552104592323303,
+      "rewards/rejected": -0.6054448485374451,
+      "step": 1170
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.817423095982972e-06,
+      "logits/chosen": -1.3970632553100586,
+      "logits/rejected": -0.9412476420402527,
+      "logps/chosen": -451.11883544921875,
+      "logps/rejected": -783.0731201171875,
+      "loss": 0.102,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.20501062273979187,
+      "rewards/margins": 0.37199467420578003,
+      "rewards/rejected": -0.5770053267478943,
+      "step": 1180
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.7727570072681293e-06,
+      "logits/chosen": -1.4293451309204102,
+      "logits/rejected": -0.8616847991943359,
+      "logps/chosen": -406.25042724609375,
+      "logps/rejected": -737.0385131835938,
+      "loss": 0.1378,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.16194511950016022,
+      "rewards/margins": 0.3638822138309479,
+      "rewards/rejected": -0.5258272886276245,
+      "step": 1190
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7283431136128961e-06,
+      "logits/chosen": -1.6002616882324219,
+      "logits/rejected": -1.116288423538208,
+      "logps/chosen": -449.384521484375,
+      "logps/rejected": -805.2763061523438,
+      "loss": 0.1454,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.20747177302837372,
+      "rewards/margins": 0.3553561270236969,
+      "rewards/rejected": -0.5628278851509094,
+      "step": 1200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.6841968169732478e-06,
+      "logits/chosen": -1.5592294931411743,
+      "logits/rejected": -1.054216742515564,
+      "logps/chosen": -448.9071350097656,
+      "logps/rejected": -851.6107177734375,
+      "loss": 0.1204,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.18522223830223083,
+      "rewards/margins": 0.4141850471496582,
+      "rewards/rejected": -0.5994073152542114,
+      "step": 1210
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.6403334265072284e-06,
+      "logits/chosen": -1.6474437713623047,
+      "logits/rejected": -0.8614113926887512,
+      "logps/chosen": -453.735107421875,
+      "logps/rejected": -801.1546630859375,
+      "loss": 0.1081,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.1977526694536209,
+      "rewards/margins": 0.38285189867019653,
+      "rewards/rejected": -0.5806045532226562,
+      "step": 1220
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5967681532660066e-06,
+      "logits/chosen": -1.2708427906036377,
+      "logits/rejected": -0.9732850790023804,
+      "logps/chosen": -437.337890625,
+      "logps/rejected": -822.8092041015625,
+      "loss": 0.1336,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.20598828792572021,
+      "rewards/margins": 0.38752201199531555,
+      "rewards/rejected": -0.5935102701187134,
+      "step": 1230
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5535161049189463e-06,
+      "logits/chosen": -1.5570838451385498,
+      "logits/rejected": -1.1252386569976807,
+      "logps/chosen": -500.2212829589844,
+      "logps/rejected": -786.1821899414062,
+      "loss": 0.1145,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.1828458607196808,
+      "rewards/margins": 0.3151377737522125,
+      "rewards/rejected": -0.4979836046695709,
+      "step": 1240
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5105922805145356e-06,
+      "logits/chosen": -1.8010812997817993,
+      "logits/rejected": -1.2702046632766724,
+      "logps/chosen": -434.25421142578125,
+      "logps/rejected": -807.052001953125,
+      "loss": 0.1215,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.15841101109981537,
+      "rewards/margins": 0.35736268758773804,
+      "rewards/rejected": -0.5157736539840698,
+      "step": 1250
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.4680115652789823e-06,
+      "logits/chosen": -1.856612205505371,
+      "logits/rejected": -1.147216558456421,
+      "logps/chosen": -523.8411865234375,
+      "logps/rejected": -821.1082763671875,
+      "loss": 0.1727,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.2023150473833084,
+      "rewards/margins": 0.35308974981307983,
+      "rewards/rejected": -0.555404782295227,
+      "step": 1260
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.4257887254542767e-06,
+      "logits/chosen": -1.5119379758834839,
+      "logits/rejected": -1.0702050924301147,
+      "logps/chosen": -511.7137756347656,
+      "logps/rejected": -906.3107299804688,
+      "loss": 0.1025,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.21919742226600647,
+      "rewards/margins": 0.3765312731266022,
+      "rewards/rejected": -0.5957286953926086,
+      "step": 1270
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.3839384031775227e-06,
+      "logits/chosen": -1.6945511102676392,
+      "logits/rejected": -0.8750427961349487,
+      "logps/chosen": -440.59552001953125,
+      "logps/rejected": -766.9216918945312,
+      "loss": 0.1519,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.15435707569122314,
+      "rewards/margins": 0.4113141894340515,
+      "rewards/rejected": -0.5656712651252747,
+      "step": 1280
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.342475111403298e-06,
+      "logits/chosen": -1.4833415746688843,
+      "logits/rejected": -1.0713919401168823,
+      "logps/chosen": -438.8766174316406,
+      "logps/rejected": -720.0028076171875,
+      "loss": 0.1574,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.20507605373859406,
+      "rewards/margins": 0.28728824853897095,
+      "rewards/rejected": -0.4923642575740814,
+      "step": 1290
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3014132288708209e-06,
+      "logits/chosen": -1.5766406059265137,
+      "logits/rejected": -1.0825704336166382,
+      "logps/chosen": -438.3309020996094,
+      "logps/rejected": -823.6751708984375,
+      "loss": 0.166,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.19768479466438293,
+      "rewards/margins": 0.3687485158443451,
+      "rewards/rejected": -0.566433310508728,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2607669951176549e-06,
+      "logits/chosen": -1.4940482378005981,
+      "logits/rejected": -1.2070845365524292,
+      "logps/chosen": -389.45343017578125,
+      "logps/rejected": -773.9241333007812,
+      "loss": 0.1574,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.15667062997817993,
+      "rewards/margins": 0.3334207832813263,
+      "rewards/rejected": -0.49009138345718384,
+      "step": 1310
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2205505055416891e-06,
+      "logits/chosen": -1.5122394561767578,
+      "logits/rejected": -1.3955858945846558,
+      "logps/chosen": -338.9855651855469,
+      "logps/rejected": -748.5198364257812,
+      "loss": 0.1404,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.16774006187915802,
+      "rewards/margins": 0.34086841344833374,
+      "rewards/rejected": -0.5086084604263306,
+      "step": 1320
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1807777065131002e-06,
+      "logits/chosen": -1.5142749547958374,
+      "logits/rejected": -1.0132977962493896,
+      "logps/chosen": -410.44879150390625,
+      "logps/rejected": -810.9103393554688,
+      "loss": 0.1108,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.14515772461891174,
+      "rewards/margins": 0.36618533730506897,
+      "rewards/rejected": -0.5113429427146912,
+      "step": 1330
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1414623905380012e-06,
+      "logits/chosen": -1.756066083908081,
+      "logits/rejected": -1.1571279764175415,
+      "logps/chosen": -441.978515625,
+      "logps/rejected": -786.6061401367188,
+      "loss": 0.1217,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1463043987751007,
+      "rewards/margins": 0.36096060276031494,
+      "rewards/rejected": -0.5072649717330933,
+      "step": 1340
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.1026181914754388e-06,
+      "logits/chosen": -1.784054160118103,
+      "logits/rejected": -1.0276035070419312,
+      "logps/chosen": -506.1011657714844,
+      "logps/rejected": -819.1619873046875,
+      "loss": 0.1352,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1743244081735611,
+      "rewards/margins": 0.38723859190940857,
+      "rewards/rejected": -0.5615630149841309,
+      "step": 1350
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.0642585798094136e-06,
+      "logits/chosen": -1.5410611629486084,
+      "logits/rejected": -1.0178577899932861,
+      "logps/chosen": -377.84197998046875,
+      "logps/rejected": -720.7569580078125,
+      "loss": 0.1264,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.12278805673122406,
+      "rewards/margins": 0.38729211688041687,
+      "rewards/rejected": -0.5100802183151245,
+      "step": 1360
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.0263968579775522e-06,
+      "logits/chosen": -1.5256543159484863,
+      "logits/rejected": -0.9656683802604675,
+      "logps/chosen": -458.48089599609375,
+      "logps/rejected": -791.9251708984375,
+      "loss": 0.1401,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.16513575613498688,
+      "rewards/margins": 0.38074809312820435,
+      "rewards/rejected": -0.54588383436203,
+      "step": 1370
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.89046155758058e-07,
+      "logits/chosen": -1.6825745105743408,
+      "logits/rejected": -0.8826824426651001,
+      "logps/chosen": -455.65594482421875,
+      "logps/rejected": -802.0789794921875,
+      "loss": 0.1228,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.1435212790966034,
+      "rewards/margins": 0.41453132033348083,
+      "rewards/rejected": -0.558052659034729,
+      "step": 1380
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.52219425716534e-07,
+      "logits/chosen": -1.4951298236846924,
+      "logits/rejected": -0.8258262872695923,
+      "logps/chosen": -515.0365600585938,
+      "logps/rejected": -771.9305419921875,
+      "loss": 0.1429,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.22707219421863556,
+      "rewards/margins": 0.3406526446342468,
+      "rewards/rejected": -0.5677248239517212,
+      "step": 1390
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.15929438714262e-07,
+      "logits/chosen": -1.6602566242218018,
+      "logits/rejected": -0.9937980771064758,
+      "logps/chosen": -368.70684814453125,
+      "logps/rejected": -689.556884765625,
+      "loss": 0.1528,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.12013135105371475,
+      "rewards/margins": 0.37646666169166565,
+      "rewards/rejected": -0.4965980052947998,
+      "step": 1400
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.801887794794911e-07,
+      "logits/chosen": -1.4943420886993408,
+      "logits/rejected": -0.9112469553947449,
+      "logps/chosen": -379.4705810546875,
+      "logps/rejected": -716.5015258789062,
+      "loss": 0.1407,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.13394254446029663,
+      "rewards/margins": 0.3894422650337219,
+      "rewards/rejected": -0.5233848690986633,
+      "step": 1410
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.450098422432787e-07,
+      "logits/chosen": -1.7622817754745483,
+      "logits/rejected": -0.7207467555999756,
+      "logps/chosen": -537.2728271484375,
+      "logps/rejected": -854.8095703125,
+      "loss": 0.1203,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.1893191635608673,
+      "rewards/margins": 0.4274328649044037,
+      "rewards/rejected": -0.616752028465271,
+      "step": 1420
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.104048264413858e-07,
+      "logits/chosen": -1.5849692821502686,
+      "logits/rejected": -0.9879060983657837,
+      "logps/chosen": -451.66802978515625,
+      "logps/rejected": -812.3735961914062,
+      "loss": 0.1162,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.1757660210132599,
+      "rewards/margins": 0.4036192297935486,
+      "rewards/rejected": -0.5793852806091309,
+      "step": 1430
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.763857324837321e-07,
+      "logits/chosen": -1.7880465984344482,
+      "logits/rejected": -1.1138683557510376,
+      "logps/chosen": -470.4102478027344,
+      "logps/rejected": -782.1883544921875,
+      "loss": 0.1273,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.18462924659252167,
+      "rewards/margins": 0.37033870816230774,
+      "rewards/rejected": -0.5549679398536682,
+      "step": 1440
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.429643575928605e-07,
+      "logits/chosen": -1.688932180404663,
+      "logits/rejected": -1.1515108346939087,
+      "logps/chosen": -416.93896484375,
+      "logps/rejected": -748.1307373046875,
+      "loss": 0.1284,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.14920882880687714,
+      "rewards/margins": 0.345571368932724,
+      "rewards/rejected": -0.4947802424430847,
+      "step": 1450
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.101522917128709e-07,
+      "logits/chosen": -1.3505184650421143,
+      "logits/rejected": -0.8502361178398132,
+      "logps/chosen": -453.3301696777344,
+      "logps/rejected": -852.1624755859375,
+      "loss": 0.149,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.18861651420593262,
+      "rewards/margins": 0.39376121759414673,
+      "rewards/rejected": -0.5823776721954346,
+      "step": 1460
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.779609134902312e-07,
+      "logits/chosen": -1.4756485223770142,
+      "logits/rejected": -0.8883223533630371,
+      "logps/chosen": -409.55029296875,
+      "logps/rejected": -707.3751831054688,
+      "loss": 0.1383,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.17147330939769745,
+      "rewards/margins": 0.3226475715637207,
+      "rewards/rejected": -0.49412089586257935,
+      "step": 1470
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.464013863278629e-07,
+      "logits/chosen": -1.593145728111267,
+      "logits/rejected": -0.8717827796936035,
+      "logps/chosen": -429.87725830078125,
+      "logps/rejected": -856.5046997070312,
+      "loss": 0.1131,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.12572301924228668,
+      "rewards/margins": 0.46143823862075806,
+      "rewards/rejected": -0.5871611833572388,
+      "step": 1480
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.154846545138696e-07,
+      "logits/chosen": -1.556706190109253,
+      "logits/rejected": -1.1209014654159546,
+      "logps/chosen": -434.39813232421875,
+      "logps/rejected": -873.4528198242188,
+      "loss": 0.1184,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.151644766330719,
+      "rewards/margins": 0.44497567415237427,
+      "rewards/rejected": -0.5966204404830933,
+      "step": 1490
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.852214394262515e-07,
+      "logits/chosen": -1.5190951824188232,
+      "logits/rejected": -1.1570379734039307,
+      "logps/chosen": -394.3932189941406,
+      "logps/rejected": -781.7257690429688,
+      "loss": 0.1364,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.16030506789684296,
+      "rewards/margins": 0.3787681758403778,
+      "rewards/rejected": -0.5390732884407043,
+      "step": 1500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.556222358149191e-07,
+      "logits/chosen": -1.5962765216827393,
+      "logits/rejected": -0.9932464361190796,
+      "logps/chosen": -390.4809875488281,
+      "logps/rejected": -714.4888916015625,
+      "loss": 0.1652,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.17372211813926697,
+      "rewards/margins": 0.361335813999176,
+      "rewards/rejected": -0.5350579023361206,
+      "step": 1510
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.266973081622992e-07,
+      "logits/chosen": -1.4811457395553589,
+      "logits/rejected": -1.0426948070526123,
+      "logps/chosen": -451.40069580078125,
+      "logps/rejected": -772.6881713867188,
+      "loss": 0.1611,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.18898162245750427,
+      "rewards/margins": 0.3498608469963074,
+      "rewards/rejected": -0.5388425588607788,
+      "step": 1520
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.984566871237942e-07,
+      "logits/chosen": -1.4943921566009521,
+      "logits/rejected": -1.000528335571289,
+      "logps/chosen": -393.3673095703125,
+      "logps/rejected": -763.3333129882812,
+      "loss": 0.1387,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.15240536630153656,
+      "rewards/margins": 0.3935711681842804,
+      "rewards/rejected": -0.5459765195846558,
+      "step": 1530
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.709101660493251e-07,
+      "logits/chosen": -1.4344061613082886,
+      "logits/rejected": -0.8900424838066101,
+      "logps/chosen": -454.6851501464844,
+      "logps/rejected": -862.0211181640625,
+      "loss": 0.1148,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.2144501656293869,
+      "rewards/margins": 0.39736613631248474,
+      "rewards/rejected": -0.6118162870407104,
+      "step": 1540
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.440672975871743e-07,
+      "logits/chosen": -1.6005455255508423,
+      "logits/rejected": -1.2345631122589111,
+      "logps/chosen": -454.6659240722656,
+      "logps/rejected": -910.2664794921875,
+      "loss": 0.0851,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.1945376694202423,
+      "rewards/margins": 0.4257555603981018,
+      "rewards/rejected": -0.6202932000160217,
+      "step": 1550
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.1793739037129134e-07,
+      "logits/chosen": -1.755613923072815,
+      "logits/rejected": -0.9976798892021179,
+      "logps/chosen": -426.450927734375,
+      "logps/rejected": -827.8946533203125,
+      "loss": 0.1088,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1098506897687912,
+      "rewards/margins": 0.4619103968143463,
+      "rewards/rejected": -0.5717611908912659,
+      "step": 1560
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.9252950579322405e-07,
+      "logits/chosen": -1.7585302591323853,
+      "logits/rejected": -0.9437012672424316,
+      "logps/chosen": -617.3839111328125,
+      "logps/rejected": -886.2396240234375,
+      "loss": 0.1537,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.2242734432220459,
+      "rewards/margins": 0.37233808636665344,
+      "rewards/rejected": -0.5966114401817322,
+      "step": 1570
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.6785245485978864e-07,
+      "logits/chosen": -1.5823638439178467,
+      "logits/rejected": -1.016841173171997,
+      "logps/chosen": -453.40643310546875,
+      "logps/rejected": -826.7568359375,
+      "loss": 0.1052,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.14566640555858612,
+      "rewards/margins": 0.41016706824302673,
+      "rewards/rejected": -0.5558334589004517,
+      "step": 1580
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.43914795137566e-07,
+      "logits/chosen": -1.3402397632598877,
+      "logits/rejected": -0.6611793041229248,
+      "logps/chosen": -491.9454040527344,
+      "logps/rejected": -827.7058715820312,
+      "loss": 0.1243,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1830025464296341,
+      "rewards/margins": 0.3839171230792999,
+      "rewards/rejected": -0.5669196844100952,
+      "step": 1590
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.207248277852901e-07,
+      "logits/chosen": -1.3319523334503174,
+      "logits/rejected": -1.2467930316925049,
+      "logps/chosen": -415.2613220214844,
+      "logps/rejected": -794.6478271484375,
+      "loss": 0.175,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.18765749037265778,
+      "rewards/margins": 0.33323392271995544,
+      "rewards/rejected": -0.5208913683891296,
+      "step": 1600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.9829059467515074e-07,
+      "logits/chosen": -1.6862188577651978,
+      "logits/rejected": -1.0607928037643433,
+      "logps/chosen": -466.0138244628906,
+      "logps/rejected": -823.7083129882812,
+      "loss": 0.1264,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1697189062833786,
+      "rewards/margins": 0.39212626218795776,
+      "rewards/rejected": -0.5618451833724976,
+      "step": 1610
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.766198756040153e-07,
+      "logits/chosen": -1.5529918670654297,
+      "logits/rejected": -1.1102968454360962,
+      "logps/chosen": -514.1727294921875,
+      "logps/rejected": -934.7576293945312,
+      "loss": 0.0946,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.2095489799976349,
+      "rewards/margins": 0.39688506722450256,
+      "rewards/rejected": -0.6064340472221375,
+      "step": 1620
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.5572018559553155e-07,
+      "logits/chosen": -1.4525808095932007,
+      "logits/rejected": -1.114332675933838,
+      "logps/chosen": -429.51336669921875,
+      "logps/rejected": -814.693115234375,
+      "loss": 0.1319,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.20347242057323456,
+      "rewards/margins": 0.3701416254043579,
+      "rewards/rejected": -0.5736140012741089,
+      "step": 1630
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.3559877229404864e-07,
+      "logits/chosen": -1.5984094142913818,
+      "logits/rejected": -1.1003965139389038,
+      "logps/chosen": -458.2529296875,
+      "logps/rejected": -795.9619140625,
+      "loss": 0.1294,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.17800959944725037,
+      "rewards/margins": 0.363762229681015,
+      "rewards/rejected": -0.5417717695236206,
+      "step": 1640
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.1626261345126576e-07,
+      "logits/chosen": -1.4350886344909668,
+      "logits/rejected": -1.0259506702423096,
+      "logps/chosen": -415.7510681152344,
+      "logps/rejected": -919.9736328125,
+      "loss": 0.076,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.15845449268817902,
+      "rewards/margins": 0.4928809702396393,
+      "rewards/rejected": -0.6513354182243347,
+      "step": 1650
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.9771841450646505e-07,
+      "logits/chosen": -1.6430625915527344,
+      "logits/rejected": -0.9447630643844604,
+      "logps/chosen": -506.1864318847656,
+      "logps/rejected": -795.38134765625,
+      "loss": 0.1602,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.23687663674354553,
+      "rewards/margins": 0.33186858892440796,
+      "rewards/rejected": -0.5687452554702759,
+      "step": 1660
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.7997260626118758e-07,
+      "logits/chosen": -1.898046851158142,
+      "logits/rejected": -1.3102858066558838,
+      "logps/chosen": -514.0572509765625,
+      "logps/rejected": -825.0703125,
+      "loss": 0.1456,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.17340177297592163,
+      "rewards/margins": 0.38971638679504395,
+      "rewards/rejected": -0.5631181597709656,
+      "step": 1670
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.6303134264914365e-07,
+      "logits/chosen": -1.6851441860198975,
+      "logits/rejected": -1.0963430404663086,
+      "logps/chosen": -480.8072204589844,
+      "logps/rejected": -728.0396728515625,
+      "loss": 0.1273,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1836322844028473,
+      "rewards/margins": 0.3386848270893097,
+      "rewards/rejected": -0.5223170518875122,
+      "step": 1680
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.469004986021355e-07,
+      "logits/chosen": -1.414111852645874,
+      "logits/rejected": -0.8712374567985535,
+      "logps/chosen": -443.46728515625,
+      "logps/rejected": -897.1246948242188,
+      "loss": 0.0899,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.17597445845603943,
+      "rewards/margins": 0.4499644339084625,
+      "rewards/rejected": -0.6259388327598572,
+      "step": 1690
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.315856680127367e-07,
+      "logits/chosen": -1.4355229139328003,
+      "logits/rejected": -0.8268268704414368,
+      "logps/chosen": -411.8287658691406,
+      "logps/rejected": -796.5527954101562,
+      "loss": 0.1013,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.16030281782150269,
+      "rewards/margins": 0.4271472990512848,
+      "rewards/rejected": -0.5874501466751099,
+      "step": 1700
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1709216179442817e-07,
+      "logits/chosen": -1.5936983823776245,
+      "logits/rejected": -0.9012172818183899,
+      "logps/chosen": -452.53155517578125,
+      "logps/rejected": -878.1297607421875,
+      "loss": 0.1108,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.17777523398399353,
+      "rewards/margins": 0.4133872389793396,
+      "rewards/rejected": -0.5911625623703003,
+      "step": 1710
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.0342500603986421e-07,
+      "logits/chosen": -1.441282033920288,
+      "logits/rejected": -0.9638457298278809,
+      "logps/chosen": -417.11895751953125,
+      "logps/rejected": -741.5521850585938,
+      "loss": 0.1466,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.16872674226760864,
+      "rewards/margins": 0.3362739682197571,
+      "rewards/rejected": -0.5050007104873657,
+      "step": 1720
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.058894027791643e-08,
+      "logits/chosen": -1.4651381969451904,
+      "logits/rejected": -0.9410767555236816,
+      "logps/chosen": -497.6310119628906,
+      "logps/rejected": -866.1295776367188,
+      "loss": 0.1057,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.23562383651733398,
+      "rewards/margins": 0.3830471634864807,
+      "rewards/rejected": -0.6186710596084595,
+      "step": 1730
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.858841583008592e-08,
+      "logits/chosen": -1.6138349771499634,
+      "logits/rejected": -1.0234501361846924,
+      "logps/chosen": -425.06610107421875,
+      "logps/rejected": -700.060791015625,
+      "loss": 0.1241,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.16232439875602722,
+      "rewards/margins": 0.3415161669254303,
+      "rewards/rejected": -0.5038405656814575,
+      "step": 1740
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 6.742759426686313e-08,
+      "logits/chosen": -1.5296719074249268,
+      "logits/rejected": -1.15841543674469,
+      "logps/chosen": -541.86083984375,
+      "logps/rejected": -857.0759887695312,
+      "loss": 0.1324,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.22835755348205566,
+      "rewards/margins": 0.37031129002571106,
+      "rewards/rejected": -0.5986688733100891,
+      "step": 1750
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.7110345964571104e-08,
+      "logits/chosen": -1.6711105108261108,
+      "logits/rejected": -1.0233453512191772,
+      "logps/chosen": -445.75762939453125,
+      "logps/rejected": -772.8753662109375,
+      "loss": 0.1172,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.18701913952827454,
+      "rewards/margins": 0.3782210052013397,
+      "rewards/rejected": -0.565240204334259,
+      "step": 1760
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.764024876318357e-08,
+      "logits/chosen": -1.5489776134490967,
+      "logits/rejected": -0.8348779678344727,
+      "logps/chosen": -509.6427307128906,
+      "logps/rejected": -782.4371337890625,
+      "loss": 0.1146,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.20378637313842773,
+      "rewards/margins": 0.37221604585647583,
+      "rewards/rejected": -0.5760024189949036,
+      "step": 1770
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.902058672559633e-08,
+      "logits/chosen": -1.8395429849624634,
+      "logits/rejected": -1.2655082941055298,
+      "logps/chosen": -375.2162780761719,
+      "logps/rejected": -805.35302734375,
+      "loss": 0.1244,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.11881232261657715,
+      "rewards/margins": 0.4330004155635834,
+      "rewards/rejected": -0.5518127679824829,
+      "step": 1780
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.125434899876933e-08,
+      "logits/chosen": -1.5633362531661987,
+      "logits/rejected": -1.1406381130218506,
+      "logps/chosen": -356.45098876953125,
+      "logps/rejected": -783.3472900390625,
+      "loss": 0.1001,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1347019374370575,
+      "rewards/margins": 0.42905181646347046,
+      "rewards/rejected": -0.5637537837028503,
+      "step": 1790
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.4344228777145873e-08,
+      "logits/chosen": -1.6571776866912842,
+      "logits/rejected": -0.7649690508842468,
+      "logps/chosen": -587.1907348632812,
+      "logps/rejected": -933.9886474609375,
+      "loss": 0.132,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.25137990713119507,
+      "rewards/margins": 0.42299261689186096,
+      "rewards/rejected": -0.6743724942207336,
+      "step": 1800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.829262236869772e-08,
+      "logits/chosen": -1.541998267173767,
+      "logits/rejected": -0.8689600229263306,
+      "logps/chosen": -483.3575134277344,
+      "logps/rejected": -698.212158203125,
+      "loss": 0.1768,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.22255222499370575,
+      "rewards/margins": 0.27523303031921387,
+      "rewards/rejected": -0.4977852404117584,
+      "step": 1810
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3101628363929586e-08,
+      "logits/chosen": -1.5238444805145264,
+      "logits/rejected": -0.7508775591850281,
+      "logps/chosen": -520.79296875,
+      "logps/rejected": -767.9632568359375,
+      "loss": 0.1203,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1896631270647049,
+      "rewards/margins": 0.36830946803092957,
+      "rewards/rejected": -0.5579725503921509,
+      "step": 1820
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.773046908123195e-09,
+      "logits/chosen": -1.6025253534317017,
+      "logits/rejected": -1.304527997970581,
+      "logps/chosen": -375.14874267578125,
+      "logps/rejected": -767.8821411132812,
+      "loss": 0.1284,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.1781584918498993,
+      "rewards/margins": 0.33938026428222656,
+      "rewards/rejected": -0.5175387263298035,
+      "step": 1830
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 5.308379077080817e-09,
+      "logits/chosen": -1.6030333042144775,
+      "logits/rejected": -1.3066356182098389,
+      "logps/chosen": -397.94873046875,
+      "logps/rejected": -825.3441162109375,
+      "loss": 0.1111,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.20664629340171814,
+      "rewards/margins": 0.3704259991645813,
+      "rewards/rejected": -0.5770723819732666,
+      "step": 1840
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.7088263565760996e-09,
+      "logits/chosen": -1.6151325702667236,
+      "logits/rejected": -0.9792189598083496,
+      "logps/chosen": -399.3708801269531,
+      "logps/rejected": -748.7066650390625,
+      "loss": 0.1181,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1316554844379425,
+      "rewards/margins": 0.42211928963661194,
+      "rewards/rejected": -0.5537747740745544,
+      "step": 1850
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 9.752902257023633e-10,
+      "logits/chosen": -1.6095302104949951,
+      "logits/rejected": -1.1830781698226929,
+      "logps/chosen": -393.78350830078125,
+      "logps/rejected": -796.3955078125,
+      "loss": 0.0928,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.15096323192119598,
+      "rewards/margins": 0.4236125349998474,
+      "rewards/rejected": -0.5745757818222046,
+      "step": 1860
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.083718442532189e-10,
+      "logits/chosen": -1.4612399339675903,
+      "logits/rejected": -0.8474820256233215,
+      "logps/chosen": -456.6351623535156,
+      "logps/rejected": -785.6075439453125,
+      "loss": 0.1354,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.18163737654685974,
+      "rewards/margins": 0.3639640808105469,
+      "rewards/rejected": -0.545601487159729,
+      "step": 1870
+    },
+    {
+      "epoch": 1.0,
+      "step": 1875,
+      "total_flos": 0.0,
+      "train_loss": 0.13990657812754312,
+      "train_runtime": 16010.7596,
+      "train_samples_per_second": 0.937,
+      "train_steps_per_second": 0.117
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}