Training in progress, step 1500, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +2252 -2

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:380c5b3d4a50b2c96e9e9cbb9c39c7ba002cf4734c56dd71ec52a7009ca7d7ab
+size 7843036668

last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09bb2b8e1858310c41a7d6c72ec5c75bdf4dd7060cf6f257dbb00cf1a0a9b1fc
+size 7843043580

last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bdee7d2a297dca2ab84aca341f8f877f2d914a24734386b5ff6b922a3a6f385
+size 7843043004

last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c91214c04de8b5db131ad5404dcba6e217f724f41d64fb874167ee3d31d9475d
+size 7843043388

last-checkpoint/global_step1500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd4d869fa72945b74786f1315130651eeacb9591d23fe9c00187e45a556fc278
+size 5228775200

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1200~~


1	+ global_step1500

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b5467af04ff29012437a7517c2dc67421fbc898979e0a9158a5699267e14db6
 size 4988030368

 version https://git-lfs.github.com/spec/v1
+oid sha256:617221b5a3979bb5c195e80814b940ad0fd5e4ea46fcf53c004738f7521b9b05
 size 4988030368

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e12b943204d51eacdf53c41136bae9c021c0b7ac57fce30d459ef73fbfc2983c
 size 1420344488

 version https://git-lfs.github.com/spec/v1
+oid sha256:53b46ffbe9750f068af7cff31ad24813da6ce5bbc66f559f4dcbf3d434d5e8f7
 size 1420344488

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:973efa8e69c59defd765e5150ce17bd7b1970481a388708a880f067c876a3880
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb1f8e086c96cde9498cc8372841552a3b3d37b7449d73d2153f92624f5efc96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4931176607823313,
   "eval_steps": 999999,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9007,6 +9007,2256 @@
       "rewards/margins": 3.2304723262786865,
       "rewards/rejected": -3.3748857975006104,
       "step": 1200
     }
   ],
   "logging_steps": 2,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8663970759779143,
   "eval_steps": 999999,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 3.2304723262786865,
       "rewards/rejected": -3.3748857975006104,
       "step": 1200
+    },
+    {
+      "epoch": 1.4956061902169686,
+      "grad_norm": 30.88616371154785,
+      "learning_rate": 3.345983350831798e-08,
+      "logits/chosen": -10.752206802368164,
+      "logits/rejected": -10.766036987304688,
+      "logps/chosen": -19.481313705444336,
+      "logps/rejected": -54.68231201171875,
+      "loss": 0.3279,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.06634411960840225,
+      "rewards/margins": 3.3881375789642334,
+      "rewards/rejected": -3.321793556213379,
+      "step": 1202
+    },
+    {
+      "epoch": 1.498094719651606,
+      "grad_norm": 4.875926971435547,
+      "learning_rate": 3.3148972168516734e-08,
+      "logits/chosen": -10.793999671936035,
+      "logits/rejected": -10.790190696716309,
+      "logps/chosen": -15.71826457977295,
+      "logps/rejected": -53.232261657714844,
+      "loss": 0.3231,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.3771316409111023,
+      "rewards/margins": 3.606487512588501,
+      "rewards/rejected": -3.229356050491333,
+      "step": 1204
+    },
+    {
+      "epoch": 1.500583249086243,
+      "grad_norm": 1.0279144048690796,
+      "learning_rate": 3.2839274464991854e-08,
+      "logits/chosen": -10.80120849609375,
+      "logits/rejected": -10.804399490356445,
+      "logps/chosen": -19.204309463500977,
+      "logps/rejected": -54.1872673034668,
+      "loss": 0.387,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.022899247705936432,
+      "rewards/margins": 3.3754444122314453,
+      "rewards/rejected": -3.3525447845458984,
+      "step": 1206
+    },
+    {
+      "epoch": 1.5030717785208805,
+      "grad_norm": 9.367308616638184,
+      "learning_rate": 3.253074578846805e-08,
+      "logits/chosen": -10.806297302246094,
+      "logits/rejected": -10.80675983428955,
+      "logps/chosen": -20.797101974487305,
+      "logps/rejected": -50.487945556640625,
+      "loss": 0.3453,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.15202410519123077,
+      "rewards/margins": 2.7633230686187744,
+      "rewards/rejected": -2.915347099304199,
+      "step": 1208
+    },
+    {
+      "epoch": 1.5055603079555175,
+      "grad_norm": 42.94970703125,
+      "learning_rate": 3.222339150932133e-08,
+      "logits/chosen": -10.7854585647583,
+      "logits/rejected": -10.784134864807129,
+      "logps/chosen": -19.761821746826172,
+      "logps/rejected": -61.553802490234375,
+      "loss": 0.3576,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.026075001806020737,
+      "rewards/margins": 4.108028888702393,
+      "rewards/rejected": -4.081954002380371,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5080488373901546,
+      "grad_norm": 33.7689323425293,
+      "learning_rate": 3.191721697748576e-08,
+      "logits/chosen": -10.799263954162598,
+      "logits/rejected": -10.799744606018066,
+      "logps/chosen": -23.306804656982422,
+      "logps/rejected": -64.52201843261719,
+      "loss": 0.2794,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3046596050262451,
+      "rewards/margins": 4.032251834869385,
+      "rewards/rejected": -4.336911201477051,
+      "step": 1212
+    },
+    {
+      "epoch": 1.5105373668247921,
+      "grad_norm": 6.178465366363525,
+      "learning_rate": 3.161222752236024e-08,
+      "logits/chosen": -10.777413368225098,
+      "logits/rejected": -10.791770935058594,
+      "logps/chosen": -24.492530822753906,
+      "logps/rejected": -61.961761474609375,
+      "loss": 0.3106,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4530527591705322,
+      "rewards/margins": 3.6912074089050293,
+      "rewards/rejected": -4.144260406494141,
+      "step": 1214
+    },
+    {
+      "epoch": 1.5130258962594292,
+      "grad_norm": 11.556970596313477,
+      "learning_rate": 3.130842845271564e-08,
+      "logits/chosen": -10.765844345092773,
+      "logits/rejected": -10.766853332519531,
+      "logps/chosen": -18.27448272705078,
+      "logps/rejected": -67.04450225830078,
+      "loss": 0.3224,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.13868612051010132,
+      "rewards/margins": 4.729941368103027,
+      "rewards/rejected": -4.591255187988281,
+      "step": 1216
+    },
+    {
+      "epoch": 1.5155144256940662,
+      "grad_norm": 5.874917984008789,
+      "learning_rate": 3.100582505660263e-08,
+      "logits/chosen": -10.817387580871582,
+      "logits/rejected": -10.818646430969238,
+      "logps/chosen": -22.664018630981445,
+      "logps/rejected": -61.78883361816406,
+      "loss": 0.3315,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.26951882243156433,
+      "rewards/margins": 3.7975308895111084,
+      "rewards/rejected": -4.067049980163574,
+      "step": 1218
+    },
+    {
+      "epoch": 1.5180029551287038,
+      "grad_norm": 7.716071128845215,
+      "learning_rate": 3.0704422601259386e-08,
+      "logits/chosen": -10.804115295410156,
+      "logits/rejected": -10.803618431091309,
+      "logps/chosen": -20.043956756591797,
+      "logps/rejected": -59.39397430419922,
+      "loss": 0.3588,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.025287901982665062,
+      "rewards/margins": 3.833770990371704,
+      "rewards/rejected": -3.8590588569641113,
+      "step": 1220
+    },
+    {
+      "epoch": 1.5204914845633408,
+      "grad_norm": 5.23994779586792,
+      "learning_rate": 3.0404226333020114e-08,
+      "logits/chosen": -10.771346092224121,
+      "logits/rejected": -10.723176002502441,
+      "logps/chosen": -21.367895126342773,
+      "logps/rejected": -51.024864196777344,
+      "loss": 0.2626,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.20692677795886993,
+      "rewards/margins": 2.8495285511016846,
+      "rewards/rejected": -3.056455135345459,
+      "step": 1222
+    },
+    {
+      "epoch": 1.522980013997978,
+      "grad_norm": 17.1359920501709,
+      "learning_rate": 3.010524147722353e-08,
+      "logits/chosen": -10.765385627746582,
+      "logits/rejected": -10.76011848449707,
+      "logps/chosen": -25.971342086791992,
+      "logps/rejected": -48.49481201171875,
+      "loss": 0.3097,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6388694047927856,
+      "rewards/margins": 2.1466176509857178,
+      "rewards/rejected": -2.785486936569214,
+      "step": 1224
+    },
+    {
+      "epoch": 1.5254685434326154,
+      "grad_norm": 5.530016899108887,
+      "learning_rate": 2.9807473238122096e-08,
+      "logits/chosen": -10.834047317504883,
+      "logits/rejected": -10.830108642578125,
+      "logps/chosen": -23.04602813720703,
+      "logps/rejected": -76.07076263427734,
+      "loss": 0.2867,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.3454991281032562,
+      "rewards/margins": 5.049150466918945,
+      "rewards/rejected": -5.394649028778076,
+      "step": 1226
+    },
+    {
+      "epoch": 1.5279570728672525,
+      "grad_norm": 7.995519161224365,
+      "learning_rate": 2.951092679879136e-08,
+      "logits/chosen": -10.817156791687012,
+      "logits/rejected": -10.819764137268066,
+      "logps/chosen": -26.958938598632812,
+      "logps/rejected": -63.7525634765625,
+      "loss": 0.3123,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.7338520288467407,
+      "rewards/margins": 3.5241026878356934,
+      "rewards/rejected": -4.2579545974731445,
+      "step": 1228
+    },
+    {
+      "epoch": 1.5304456023018898,
+      "grad_norm": 2.934828519821167,
+      "learning_rate": 2.9215607321039604e-08,
+      "logits/chosen": -10.804816246032715,
+      "logits/rejected": -10.802118301391602,
+      "logps/chosen": -30.615299224853516,
+      "logps/rejected": -78.92305755615234,
+      "loss": 0.2861,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.078827142715454,
+      "rewards/margins": 4.707486629486084,
+      "rewards/rejected": -5.786314010620117,
+      "step": 1230
+    },
+    {
+      "epoch": 1.532934131736527,
+      "grad_norm": 10.17944622039795,
+      "learning_rate": 2.8921519945318274e-08,
+      "logits/chosen": -10.815936088562012,
+      "logits/rejected": -10.81978702545166,
+      "logps/chosen": -22.286001205444336,
+      "logps/rejected": -50.4647331237793,
+      "loss": 0.3433,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.28749099373817444,
+      "rewards/margins": 2.67037296295166,
+      "rewards/rejected": -2.9578638076782227,
+      "step": 1232
+    },
+    {
+      "epoch": 1.535422661171164,
+      "grad_norm": 22.162673950195312,
+      "learning_rate": 2.8628669790632188e-08,
+      "logits/chosen": -10.832916259765625,
+      "logits/rejected": -10.841936111450195,
+      "logps/chosen": -24.979412078857422,
+      "logps/rejected": -69.00961303710938,
+      "loss": 0.2422,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5436473488807678,
+      "rewards/margins": 4.181175231933594,
+      "rewards/rejected": -4.724822521209717,
+      "step": 1234
+    },
+    {
+      "epoch": 1.5379111906058014,
+      "grad_norm": 10.095711708068848,
+      "learning_rate": 2.8337061954450748e-08,
+      "logits/chosen": -10.793304443359375,
+      "logits/rejected": -10.794236183166504,
+      "logps/chosen": -24.665653228759766,
+      "logps/rejected": -65.7728271484375,
+      "loss": 0.3002,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.5008203387260437,
+      "rewards/margins": 3.981152057647705,
+      "rewards/rejected": -4.481971740722656,
+      "step": 1236
+    },
+    {
+      "epoch": 1.5403997200404387,
+      "grad_norm": 50.88451385498047,
+      "learning_rate": 2.804670151261891e-08,
+      "logits/chosen": -10.825129508972168,
+      "logits/rejected": -10.825586318969727,
+      "logps/chosen": -28.969776153564453,
+      "logps/rejected": -54.09687042236328,
+      "loss": 0.3774,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.9328697323799133,
+      "rewards/margins": 2.505774974822998,
+      "rewards/rejected": -3.4386448860168457,
+      "step": 1238
+    },
+    {
+      "epoch": 1.5428882494750757,
+      "grad_norm": 10.008930206298828,
+      "learning_rate": 2.7757593519269084e-08,
+      "logits/chosen": -10.8192138671875,
+      "logits/rejected": -10.820106506347656,
+      "logps/chosen": -24.02053451538086,
+      "logps/rejected": -57.27711868286133,
+      "loss": 0.2994,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.46384507417678833,
+      "rewards/margins": 3.1840813159942627,
+      "rewards/rejected": -3.6479263305664062,
+      "step": 1240
+    },
+    {
+      "epoch": 1.545376778909713,
+      "grad_norm": 8.246393203735352,
+      "learning_rate": 2.746974300673296e-08,
+      "logits/chosen": -10.833887100219727,
+      "logits/rejected": -10.839536666870117,
+      "logps/chosen": -34.37361145019531,
+      "logps/rejected": -72.40042114257812,
+      "loss": 0.3491,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.4933593273162842,
+      "rewards/margins": 3.673614501953125,
+      "rewards/rejected": -5.16697359085083,
+      "step": 1242
+    },
+    {
+      "epoch": 1.5478653083443503,
+      "grad_norm": 9.959875106811523,
+      "learning_rate": 2.718315498545407e-08,
+      "logits/chosen": -10.775245666503906,
+      "logits/rejected": -10.781604766845703,
+      "logps/chosen": -27.01799201965332,
+      "logps/rejected": -58.5137825012207,
+      "loss": 0.3782,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.739520788192749,
+      "rewards/margins": 3.0444231033325195,
+      "rewards/rejected": -3.7839434146881104,
+      "step": 1244
+    },
+    {
+      "epoch": 1.5503538377789874,
+      "grad_norm": 6.7338480949401855,
+      "learning_rate": 2.6897834443900524e-08,
+      "logits/chosen": -10.767149925231934,
+      "logits/rejected": -10.770130157470703,
+      "logps/chosen": -27.426719665527344,
+      "logps/rejected": -58.368736267089844,
+      "loss": 0.3511,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.7709727883338928,
+      "rewards/margins": 3.010869264602661,
+      "rewards/rejected": -3.7818422317504883,
+      "step": 1246
+    },
+    {
+      "epoch": 1.5528423672136247,
+      "grad_norm": 4.529770374298096,
+      "learning_rate": 2.661378634847805e-08,
+      "logits/chosen": -10.790437698364258,
+      "logits/rejected": -10.792939186096191,
+      "logps/chosen": -28.72300910949707,
+      "logps/rejected": -63.083126068115234,
+      "loss": 0.2706,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8835013508796692,
+      "rewards/margins": 3.3935039043426514,
+      "rewards/rejected": -4.277005195617676,
+      "step": 1248
+    },
+    {
+      "epoch": 1.555330896648262,
+      "grad_norm": 4.372297763824463,
+      "learning_rate": 2.633101564344381e-08,
+      "logits/chosen": -10.801713943481445,
+      "logits/rejected": -10.806915283203125,
+      "logps/chosen": -35.876853942871094,
+      "logps/rejected": -73.22596740722656,
+      "loss": 0.3021,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.6220556497573853,
+      "rewards/margins": 3.583003044128418,
+      "rewards/rejected": -5.205059051513672,
+      "step": 1250
+    },
+    {
+      "epoch": 1.557819426082899,
+      "grad_norm": 78.30384063720703,
+      "learning_rate": 2.6049527250820048e-08,
+      "logits/chosen": -10.82096004486084,
+      "logits/rejected": -10.825112342834473,
+      "logps/chosen": -24.951976776123047,
+      "logps/rejected": -56.246063232421875,
+      "loss": 0.2652,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.5131027698516846,
+      "rewards/margins": 3.009666919708252,
+      "rewards/rejected": -3.5227696895599365,
+      "step": 1252
+    },
+    {
+      "epoch": 1.5603079555175363,
+      "grad_norm": 26.9722900390625,
+      "learning_rate": 2.5769326070308673e-08,
+      "logits/chosen": -10.822922706604004,
+      "logits/rejected": -10.821035385131836,
+      "logps/chosen": -29.673250198364258,
+      "logps/rejected": -67.98855590820312,
+      "loss": 0.3846,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.0159591436386108,
+      "rewards/margins": 3.564460039138794,
+      "rewards/rejected": -4.580419063568115,
+      "step": 1254
+    },
+    {
+      "epoch": 1.5627964849521736,
+      "grad_norm": 7.283795356750488,
+      "learning_rate": 2.5490416979205754e-08,
+      "logits/chosen": -10.802266120910645,
+      "logits/rejected": -10.805842399597168,
+      "logps/chosen": -24.364179611206055,
+      "logps/rejected": -71.14039611816406,
+      "loss": 0.3523,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4461979866027832,
+      "rewards/margins": 4.550894737243652,
+      "rewards/rejected": -4.9970927238464355,
+      "step": 1256
+    },
+    {
+      "epoch": 1.5652850143868107,
+      "grad_norm": 34.32064437866211,
+      "learning_rate": 2.521280483231678e-08,
+      "logits/chosen": -10.794498443603516,
+      "logits/rejected": -10.793449401855469,
+      "logps/chosen": -28.45277214050293,
+      "logps/rejected": -65.07192993164062,
+      "loss": 0.2844,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.8511688113212585,
+      "rewards/margins": 3.4714159965515137,
+      "rewards/rejected": -4.322584629058838,
+      "step": 1258
+    },
+    {
+      "epoch": 1.5677735438214482,
+      "grad_norm": 4.81486701965332,
+      "learning_rate": 2.4936494461872125e-08,
+      "logits/chosen": -10.802877426147461,
+      "logits/rejected": -10.80418586730957,
+      "logps/chosen": -26.037837982177734,
+      "logps/rejected": -66.15322875976562,
+      "loss": 0.2786,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.6298637390136719,
+      "rewards/margins": 3.9220423698425293,
+      "rewards/rejected": -4.551905632019043,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5702620732560852,
+      "grad_norm": 10.898475646972656,
+      "learning_rate": 2.4661490677442832e-08,
+      "logits/chosen": -10.785269737243652,
+      "logits/rejected": -10.790578842163086,
+      "logps/chosen": -26.191368103027344,
+      "logps/rejected": -51.842777252197266,
+      "loss": 0.3908,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.6927503943443298,
+      "rewards/margins": 2.401498794555664,
+      "rewards/rejected": -3.0942492485046387,
+      "step": 1262
+    },
+    {
+      "epoch": 1.5727506026907223,
+      "grad_norm": 12.538436889648438,
+      "learning_rate": 2.4387798265857075e-08,
+      "logits/chosen": -10.842425346374512,
+      "logits/rejected": -10.846158981323242,
+      "logps/chosen": -28.756683349609375,
+      "logps/rejected": -64.9261245727539,
+      "loss": 0.3156,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8623592257499695,
+      "rewards/margins": 3.4886474609375,
+      "rewards/rejected": -4.351006984710693,
+      "step": 1264
+    },
+    {
+      "epoch": 1.5752391321253598,
+      "grad_norm": 12.948237419128418,
+      "learning_rate": 2.4115421991116603e-08,
+      "logits/chosen": -10.809388160705566,
+      "logits/rejected": -10.816155433654785,
+      "logps/chosen": -26.006319046020508,
+      "logps/rejected": -77.81361389160156,
+      "loss": 0.2467,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5785080194473267,
+      "rewards/margins": 5.077298641204834,
+      "rewards/rejected": -5.655807018280029,
+      "step": 1266
+    },
+    {
+      "epoch": 1.5777276615599969,
+      "grad_norm": 43.29991149902344,
+      "learning_rate": 2.3844366594314092e-08,
+      "logits/chosen": -10.77228832244873,
+      "logits/rejected": -10.772639274597168,
+      "logps/chosen": -20.349361419677734,
+      "logps/rejected": -52.78181076049805,
+      "loss": 0.3604,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.04957125708460808,
+      "rewards/margins": 3.16991925239563,
+      "rewards/rejected": -3.2194907665252686,
+      "step": 1268
+    },
+    {
+      "epoch": 1.580216190994634,
+      "grad_norm": 5.082618236541748,
+      "learning_rate": 2.3574636793550375e-08,
+      "logits/chosen": -10.785139083862305,
+      "logits/rejected": -10.78280258178711,
+      "logps/chosen": -25.451231002807617,
+      "logps/rejected": -53.280418395996094,
+      "loss": 0.352,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.5985268354415894,
+      "rewards/margins": 2.6375532150268555,
+      "rewards/rejected": -3.2360801696777344,
+      "step": 1270
+    },
+    {
+      "epoch": 1.5827047204292715,
+      "grad_norm": 141.70098876953125,
+      "learning_rate": 2.330623728385246e-08,
+      "logits/chosen": -10.739248275756836,
+      "logits/rejected": -10.738280296325684,
+      "logps/chosen": -24.47553253173828,
+      "logps/rejected": -61.69512939453125,
+      "loss": 0.4036,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4863220751285553,
+      "rewards/margins": 3.448641300201416,
+      "rewards/rejected": -3.9349637031555176,
+      "step": 1272
+    },
+    {
+      "epoch": 1.5851932498639085,
+      "grad_norm": 6.310169219970703,
+      "learning_rate": 2.3039172737091807e-08,
+      "logits/chosen": -10.816719055175781,
+      "logits/rejected": -10.82149887084961,
+      "logps/chosen": -23.517425537109375,
+      "logps/rejected": -44.70637512207031,
+      "loss": 0.3769,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.39209693670272827,
+      "rewards/margins": 2.0814270973205566,
+      "rewards/rejected": -2.4735240936279297,
+      "step": 1274
+    },
+    {
+      "epoch": 1.5876817792985458,
+      "grad_norm": 13.863208770751953,
+      "learning_rate": 2.2773447801902855e-08,
+      "logits/chosen": -10.832393646240234,
+      "logits/rejected": -10.82877254486084,
+      "logps/chosen": -18.8774471282959,
+      "logps/rejected": -49.65419006347656,
+      "loss": 0.354,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.06631821393966675,
+      "rewards/margins": 2.8835067749023438,
+      "rewards/rejected": -2.8171889781951904,
+      "step": 1276
+    },
+    {
+      "epoch": 1.590170308733183,
+      "grad_norm": 15.649863243103027,
+      "learning_rate": 2.250906710360235e-08,
+      "logits/chosen": -10.807013511657715,
+      "logits/rejected": -10.8053560256958,
+      "logps/chosen": -22.7423038482666,
+      "logps/rejected": -49.1067008972168,
+      "loss": 0.3119,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.3249521255493164,
+      "rewards/margins": 2.519008159637451,
+      "rewards/rejected": -2.8439598083496094,
+      "step": 1278
+    },
+    {
+      "epoch": 1.5926588381678202,
+      "grad_norm": 15.802570343017578,
+      "learning_rate": 2.2246035244108586e-08,
+      "logits/chosen": -10.775257110595703,
+      "logits/rejected": -10.774992942810059,
+      "logps/chosen": -20.724456787109375,
+      "logps/rejected": -60.901023864746094,
+      "loss": 0.3112,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.12378637492656708,
+      "rewards/margins": 3.8235392570495605,
+      "rewards/rejected": -3.9473254680633545,
+      "step": 1280
+    },
+    {
+      "epoch": 1.5951473676024575,
+      "grad_norm": 18.153547286987305,
+      "learning_rate": 2.1984356801861502e-08,
+      "logits/chosen": -10.780445098876953,
+      "logits/rejected": -10.779111862182617,
+      "logps/chosen": -22.182926177978516,
+      "logps/rejected": -62.560401916503906,
+      "loss": 0.2616,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.21629738807678223,
+      "rewards/margins": 3.8685829639434814,
+      "rewards/rejected": -4.084880352020264,
+      "step": 1282
+    },
+    {
+      "epoch": 1.5976358970370947,
+      "grad_norm": 5.7486443519592285,
+      "learning_rate": 2.1724036331742834e-08,
+      "logits/chosen": -10.770216941833496,
+      "logits/rejected": -10.772773742675781,
+      "logps/chosen": -21.333688735961914,
+      "logps/rejected": -49.32101058959961,
+      "loss": 0.3264,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.12258227914571762,
+      "rewards/margins": 2.6417171955108643,
+      "rewards/rejected": -2.7642996311187744,
+      "step": 1284
+    },
+    {
+      "epoch": 1.6001244264717318,
+      "grad_norm": 72.83959197998047,
+      "learning_rate": 2.1465078364996968e-08,
+      "logits/chosen": -10.802704811096191,
+      "logits/rejected": -10.801321029663086,
+      "logps/chosen": -23.669212341308594,
+      "logps/rejected": -56.59158706665039,
+      "loss": 0.3146,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.41491052508354187,
+      "rewards/margins": 3.080634117126465,
+      "rewards/rejected": -3.495544672012329,
+      "step": 1286
+    },
+    {
+      "epoch": 1.602612955906369,
+      "grad_norm": 34.2864875793457,
+      "learning_rate": 2.120748740915198e-08,
+      "logits/chosen": -10.832742691040039,
+      "logits/rejected": -10.830432891845703,
+      "logps/chosen": -21.441856384277344,
+      "logps/rejected": -63.40147399902344,
+      "loss": 0.2765,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.2095116674900055,
+      "rewards/margins": 3.9784107208251953,
+      "rewards/rejected": -4.187922477722168,
+      "step": 1288
+    },
+    {
+      "epoch": 1.6051014853410064,
+      "grad_norm": 9.747991561889648,
+      "learning_rate": 2.0951267947941143e-08,
+      "logits/chosen": -10.8104248046875,
+      "logits/rejected": -10.815136909484863,
+      "logps/chosen": -23.734474182128906,
+      "logps/rejected": -60.64533233642578,
+      "loss": 0.3503,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.4252595007419586,
+      "rewards/margins": 3.603969097137451,
+      "rewards/rejected": -4.029229164123535,
+      "step": 1290
+    },
+    {
+      "epoch": 1.6075900147756434,
+      "grad_norm": 4.882062911987305,
+      "learning_rate": 2.0696424441225036e-08,
+      "logits/chosen": -10.807500839233398,
+      "logits/rejected": -10.805845260620117,
+      "logps/chosen": -21.90993309020996,
+      "logps/rejected": -65.13987731933594,
+      "loss": 0.24,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2415923923254013,
+      "rewards/margins": 4.038329124450684,
+      "rewards/rejected": -4.279921531677246,
+      "step": 1292
+    },
+    {
+      "epoch": 1.6100785442102807,
+      "grad_norm": 3.259903907775879,
+      "learning_rate": 2.0442961324913686e-08,
+      "logits/chosen": -10.808277130126953,
+      "logits/rejected": -10.814513206481934,
+      "logps/chosen": -21.407821655273438,
+      "logps/rejected": -55.829368591308594,
+      "loss": 0.3427,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.20267558097839355,
+      "rewards/margins": 3.1913931369781494,
+      "rewards/rejected": -3.394068717956543,
+      "step": 1294
+    },
+    {
+      "epoch": 1.612567073644918,
+      "grad_norm": 9.57787036895752,
+      "learning_rate": 2.0190883010889615e-08,
+      "logits/chosen": -10.820773124694824,
+      "logits/rejected": -10.818120956420898,
+      "logps/chosen": -15.357433319091797,
+      "logps/rejected": -41.842857360839844,
+      "loss": 0.3415,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.40116557478904724,
+      "rewards/margins": 2.474684715270996,
+      "rewards/rejected": -2.073519229888916,
+      "step": 1296
+    },
+    {
+      "epoch": 1.615055603079555,
+      "grad_norm": 8.003713607788086,
+      "learning_rate": 1.9940193886930777e-08,
+      "logits/chosen": -10.783833503723145,
+      "logits/rejected": -10.784221649169922,
+      "logps/chosen": -24.231639862060547,
+      "logps/rejected": -71.94761657714844,
+      "loss": 0.2483,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.4585307240486145,
+      "rewards/margins": 4.653621673583984,
+      "rewards/rejected": -5.112152576446533,
+      "step": 1298
+    },
+    {
+      "epoch": 1.6175441325141924,
+      "grad_norm": 8.922944068908691,
+      "learning_rate": 1.969089831663443e-08,
+      "logits/chosen": -10.830660820007324,
+      "logits/rejected": -10.817536354064941,
+      "logps/chosen": -23.25543785095215,
+      "logps/rejected": -53.022544860839844,
+      "loss": 0.3277,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.34474945068359375,
+      "rewards/margins": 2.839651346206665,
+      "rewards/rejected": -3.1844005584716797,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6200326619488297,
+      "grad_norm": 9.474493980407715,
+      "learning_rate": 1.9443000639341045e-08,
+      "logits/chosen": -10.812176704406738,
+      "logits/rejected": -10.77513599395752,
+      "logps/chosen": -20.876327514648438,
+      "logps/rejected": -52.44502258300781,
+      "loss": 0.2945,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11885665357112885,
+      "rewards/margins": 3.071859121322632,
+      "rewards/rejected": -3.190715789794922,
+      "step": 1302
+    },
+    {
+      "epoch": 1.6225211913834667,
+      "grad_norm": 24.406034469604492,
+      "learning_rate": 1.919650517005872e-08,
+      "logits/chosen": -10.835334777832031,
+      "logits/rejected": -10.845525741577148,
+      "logps/chosen": -28.61736297607422,
+      "logps/rejected": -68.78744506835938,
+      "loss": 0.3318,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8773050308227539,
+      "rewards/margins": 3.880265712738037,
+      "rewards/rejected": -4.757571220397949,
+      "step": 1304
+    },
+    {
+      "epoch": 1.625009720818104,
+      "grad_norm": 29.102094650268555,
+      "learning_rate": 1.895141619938825e-08,
+      "logits/chosen": -10.814085006713867,
+      "logits/rejected": -10.81423568725586,
+      "logps/chosen": -21.529321670532227,
+      "logps/rejected": -57.59548568725586,
+      "loss": 0.3405,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.19233551621437073,
+      "rewards/margins": 3.4261107444763184,
+      "rewards/rejected": -3.618446111679077,
+      "step": 1306
+    },
+    {
+      "epoch": 1.6274982502527413,
+      "grad_norm": 18.181053161621094,
+      "learning_rate": 1.8707737993448247e-08,
+      "logits/chosen": -10.777032852172852,
+      "logits/rejected": -10.783935546875,
+      "logps/chosen": -21.770933151245117,
+      "logps/rejected": -70.67555236816406,
+      "loss": 0.2861,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.20613786578178406,
+      "rewards/margins": 4.698180675506592,
+      "rewards/rejected": -4.904318332672119,
+      "step": 1308
+    },
+    {
+      "epoch": 1.6299867796873784,
+      "grad_norm": 18.842073440551758,
+      "learning_rate": 1.8465474793801085e-08,
+      "logits/chosen": -10.790057182312012,
+      "logits/rejected": -10.789998054504395,
+      "logps/chosen": -25.611600875854492,
+      "logps/rejected": -61.528900146484375,
+      "loss": 0.3441,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.5731645226478577,
+      "rewards/margins": 3.542222499847412,
+      "rewards/rejected": -4.115387439727783,
+      "step": 1310
+    },
+    {
+      "epoch": 1.6324753091220157,
+      "grad_norm": 2.9410083293914795,
+      "learning_rate": 1.8224630817378827e-08,
+      "logits/chosen": -10.817235946655273,
+      "logits/rejected": -10.816126823425293,
+      "logps/chosen": -23.82830047607422,
+      "logps/rejected": -59.01426696777344,
+      "loss": 0.2962,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.39294612407684326,
+      "rewards/margins": 3.3668603897094727,
+      "rewards/rejected": -3.7598063945770264,
+      "step": 1312
+    },
+    {
+      "epoch": 1.634963838556653,
+      "grad_norm": 34.97274398803711,
+      "learning_rate": 1.7985210256410088e-08,
+      "logits/chosen": -10.75239372253418,
+      "logits/rejected": -10.75178337097168,
+      "logps/chosen": -26.019506454467773,
+      "logps/rejected": -63.77971267700195,
+      "loss": 0.4301,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.6273402571678162,
+      "rewards/margins": 3.5424182415008545,
+      "rewards/rejected": -4.1697587966918945,
+      "step": 1314
+    },
+    {
+      "epoch": 1.63745236799129,
+      "grad_norm": 2.5021934509277344,
+      "learning_rate": 1.7747217278346838e-08,
+      "logits/chosen": -10.83252239227295,
+      "logits/rejected": -10.830848693847656,
+      "logps/chosen": -23.322322845458984,
+      "logps/rejected": -55.16864013671875,
+      "loss": 0.3096,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.384496808052063,
+      "rewards/margins": 2.9950833320617676,
+      "rewards/rejected": -3.37958025932312,
+      "step": 1316
+    },
+    {
+      "epoch": 1.6399408974259275,
+      "grad_norm": 33.00211715698242,
+      "learning_rate": 1.7510656025792004e-08,
+      "logits/chosen": -10.799005508422852,
+      "logits/rejected": -10.798194885253906,
+      "logps/chosen": -26.886280059814453,
+      "logps/rejected": -58.32006072998047,
+      "loss": 0.3002,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.7233449816703796,
+      "rewards/margins": 3.111297130584717,
+      "rewards/rejected": -3.8346424102783203,
+      "step": 1318
+    },
+    {
+      "epoch": 1.6424294268605646,
+      "grad_norm": 7.195638179779053,
+      "learning_rate": 1.7275530616427335e-08,
+      "logits/chosen": -10.778608322143555,
+      "logits/rejected": -10.783539772033691,
+      "logps/chosen": -27.22859001159668,
+      "logps/rejected": -60.26847839355469,
+      "loss": 0.3174,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.7433955669403076,
+      "rewards/margins": 3.1764450073242188,
+      "rewards/rejected": -3.9198405742645264,
+      "step": 1320
+    },
+    {
+      "epoch": 1.6449179562952017,
+      "grad_norm": 14.944016456604004,
+      "learning_rate": 1.7041845142941612e-08,
+      "logits/chosen": -10.831104278564453,
+      "logits/rejected": -10.8374605178833,
+      "logps/chosen": -22.72991371154785,
+      "logps/rejected": -69.8420181274414,
+      "loss": 0.317,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.288443922996521,
+      "rewards/margins": 4.563740253448486,
+      "rewards/rejected": -4.852183818817139,
+      "step": 1322
+    },
+    {
+      "epoch": 1.6474064857298392,
+      "grad_norm": 17.540937423706055,
+      "learning_rate": 1.6809603672959615e-08,
+      "logits/chosen": -10.862117767333984,
+      "logits/rejected": -10.859867095947266,
+      "logps/chosen": -25.939712524414062,
+      "logps/rejected": -51.00326156616211,
+      "loss": 0.3688,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.6566795110702515,
+      "rewards/margins": 2.3946855068206787,
+      "rewards/rejected": -3.051365375518799,
+      "step": 1324
+    },
+    {
+      "epoch": 1.6498950151644762,
+      "grad_norm": 12.726731300354004,
+      "learning_rate": 1.6578810248971142e-08,
+      "logits/chosen": -10.80691909790039,
+      "logits/rejected": -10.802922248840332,
+      "logps/chosen": -20.270612716674805,
+      "logps/rejected": -53.08592987060547,
+      "loss": 0.329,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.04774314910173416,
+      "rewards/margins": 3.1508731842041016,
+      "rewards/rejected": -3.1986162662506104,
+      "step": 1326
+    },
+    {
+      "epoch": 1.6523835445991133,
+      "grad_norm": 63.046714782714844,
+      "learning_rate": 1.6349468888260764e-08,
+      "logits/chosen": -10.805728912353516,
+      "logits/rejected": -10.807948112487793,
+      "logps/chosen": -22.131887435913086,
+      "logps/rejected": -50.19975662231445,
+      "loss": 0.3256,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.2647934556007385,
+      "rewards/margins": 2.623716354370117,
+      "rewards/rejected": -2.88850998878479,
+      "step": 1328
+    },
+    {
+      "epoch": 1.6548720740337508,
+      "grad_norm": 18.786680221557617,
+      "learning_rate": 1.6121583582837772e-08,
+      "logits/chosen": -10.854766845703125,
+      "logits/rejected": -10.862516403198242,
+      "logps/chosen": -25.881559371948242,
+      "logps/rejected": -60.02587127685547,
+      "loss": 0.3334,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.6450967788696289,
+      "rewards/margins": 3.2605414390563965,
+      "rewards/rejected": -3.9056379795074463,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6573606034683879,
+      "grad_norm": 5.466382026672363,
+      "learning_rate": 1.589515829936684e-08,
+      "logits/chosen": -10.840960502624512,
+      "logits/rejected": -10.838695526123047,
+      "logps/chosen": -21.14974594116211,
+      "logps/rejected": -54.80947494506836,
+      "loss": 0.3163,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.16069187223911285,
+      "rewards/margins": 3.2574622631073,
+      "rewards/rejected": -3.418154239654541,
+      "step": 1332
+    },
+    {
+      "epoch": 1.6598491329030252,
+      "grad_norm": 3.6651666164398193,
+      "learning_rate": 1.5670196979098837e-08,
+      "logits/chosen": -10.87842845916748,
+      "logits/rejected": -10.880535125732422,
+      "logps/chosen": -25.185527801513672,
+      "logps/rejected": -65.58544921875,
+      "loss": 0.3046,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.5343016386032104,
+      "rewards/margins": 3.9803366661071777,
+      "rewards/rejected": -4.514638423919678,
+      "step": 1334
+    },
+    {
+      "epoch": 1.6623376623376624,
+      "grad_norm": 22.037355422973633,
+      "learning_rate": 1.5446703537802342e-08,
+      "logits/chosen": -10.828059196472168,
+      "logits/rejected": -10.813085556030273,
+      "logps/chosen": -24.3900089263916,
+      "logps/rejected": -57.214691162109375,
+      "loss": 0.3129,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.4744144380092621,
+      "rewards/margins": 3.0794365406036377,
+      "rewards/rejected": -3.5538506507873535,
+      "step": 1336
+    },
+    {
+      "epoch": 1.6648261917722995,
+      "grad_norm": 4.078120231628418,
+      "learning_rate": 1.5224681865695422e-08,
+      "logits/chosen": -10.837578773498535,
+      "logits/rejected": -10.836234092712402,
+      "logps/chosen": -22.567678451538086,
+      "logps/rejected": -62.71944808959961,
+      "loss": 0.3147,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.32626694440841675,
+      "rewards/margins": 3.8645825386047363,
+      "rewards/rejected": -4.190849304199219,
+      "step": 1338
+    },
+    {
+      "epoch": 1.6673147212069368,
+      "grad_norm": 12.054242134094238,
+      "learning_rate": 1.5004135827377905e-08,
+      "logits/chosen": -10.865391731262207,
+      "logits/rejected": -10.868090629577637,
+      "logps/chosen": -24.837133407592773,
+      "logps/rejected": -87.59353637695312,
+      "loss": 0.2993,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.4641028940677643,
+      "rewards/margins": 6.047280311584473,
+      "rewards/rejected": -6.511383533477783,
+      "step": 1340
+    },
+    {
+      "epoch": 1.669803250641574,
+      "grad_norm": 33.8203125,
+      "learning_rate": 1.4785069261764182e-08,
+      "logits/chosen": -10.816351890563965,
+      "logits/rejected": -10.816112518310547,
+      "logps/chosen": -27.667259216308594,
+      "logps/rejected": -46.164127349853516,
+      "loss": 0.331,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.7790037393569946,
+      "rewards/margins": 1.784177303314209,
+      "rewards/rejected": -2.563180923461914,
+      "step": 1342
+    },
+    {
+      "epoch": 1.6722917800762112,
+      "grad_norm": 5.524724960327148,
+      "learning_rate": 1.4567485982016258e-08,
+      "logits/chosen": -10.838247299194336,
+      "logits/rejected": -10.837743759155273,
+      "logps/chosen": -24.21609878540039,
+      "logps/rejected": -47.889774322509766,
+      "loss": 0.3116,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.45775747299194336,
+      "rewards/margins": 2.266995429992676,
+      "rewards/rejected": -2.7247531414031982,
+      "step": 1344
+    },
+    {
+      "epoch": 1.6747803095108484,
+      "grad_norm": 16.984832763671875,
+      "learning_rate": 1.4351389775477573e-08,
+      "logits/chosen": -10.84825611114502,
+      "logits/rejected": -10.851517677307129,
+      "logps/chosen": -28.410385131835938,
+      "logps/rejected": -76.4227294921875,
+      "loss": 0.2681,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.8531373143196106,
+      "rewards/margins": 4.609513282775879,
+      "rewards/rejected": -5.462650299072266,
+      "step": 1346
+    },
+    {
+      "epoch": 1.6772688389454857,
+      "grad_norm": 7.401856422424316,
+      "learning_rate": 1.4136784403606839e-08,
+      "logits/chosen": -10.8283109664917,
+      "logits/rejected": -10.829707145690918,
+      "logps/chosen": -26.35080337524414,
+      "logps/rejected": -65.35711669921875,
+      "loss": 0.2665,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.6642946004867554,
+      "rewards/margins": 3.7643990516662598,
+      "rewards/rejected": -4.428694248199463,
+      "step": 1348
+    },
+    {
+      "epoch": 1.6797573683801228,
+      "grad_norm": 6.8130621910095215,
+      "learning_rate": 1.3923673601912777e-08,
+      "logits/chosen": -10.753373146057129,
+      "logits/rejected": -10.752891540527344,
+      "logps/chosen": -25.6737060546875,
+      "logps/rejected": -65.83049011230469,
+      "loss": 0.3014,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5438342094421387,
+      "rewards/margins": 3.9245076179504395,
+      "rewards/rejected": -4.468341827392578,
+      "step": 1350
+    },
+    {
+      "epoch": 1.68224589781476,
+      "grad_norm": 20.65499496459961,
+      "learning_rate": 1.3712061079889014e-08,
+      "logits/chosen": -10.788976669311523,
+      "logits/rejected": -10.791670799255371,
+      "logps/chosen": -22.58700942993164,
+      "logps/rejected": -53.30634689331055,
+      "loss": 0.3424,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.31589654088020325,
+      "rewards/margins": 2.8593664169311523,
+      "rewards/rejected": -3.175262928009033,
+      "step": 1352
+    },
+    {
+      "epoch": 1.6847344272493974,
+      "grad_norm": 11.894336700439453,
+      "learning_rate": 1.3501950520949434e-08,
+      "logits/chosen": -10.869431495666504,
+      "logits/rejected": -10.864688873291016,
+      "logps/chosen": -24.943134307861328,
+      "logps/rejected": -54.439842224121094,
+      "loss": 0.3573,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5166460275650024,
+      "rewards/margins": 2.882528781890869,
+      "rewards/rejected": -3.3991751670837402,
+      "step": 1354
+    },
+    {
+      "epoch": 1.6872229566840344,
+      "grad_norm": 8.13518238067627,
+      "learning_rate": 1.3293345582364224e-08,
+      "logits/chosen": -10.843225479125977,
+      "logits/rejected": -10.838338851928711,
+      "logps/chosen": -23.392269134521484,
+      "logps/rejected": -65.21499633789062,
+      "loss": 0.3396,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.34925830364227295,
+      "rewards/margins": 4.064693927764893,
+      "rewards/rejected": -4.413951873779297,
+      "step": 1356
+    },
+    {
+      "epoch": 1.6897114861186717,
+      "grad_norm": 5.220905303955078,
+      "learning_rate": 1.3086249895196043e-08,
+      "logits/chosen": -10.816040992736816,
+      "logits/rejected": -10.818885803222656,
+      "logps/chosen": -21.512014389038086,
+      "logps/rejected": -65.09014129638672,
+      "loss": 0.3114,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.15071852505207062,
+      "rewards/margins": 4.254648208618164,
+      "rewards/rejected": -4.40536642074585,
+      "step": 1358
+    },
+    {
+      "epoch": 1.692200015553309,
+      "grad_norm": 85.90353393554688,
+      "learning_rate": 1.2880667064237004e-08,
+      "logits/chosen": -10.824080467224121,
+      "logits/rejected": -10.832862854003906,
+      "logps/chosen": -23.073331832885742,
+      "logps/rejected": -58.96718978881836,
+      "loss": 0.3724,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.34528830647468567,
+      "rewards/margins": 3.405324935913086,
+      "rewards/rejected": -3.750613212585449,
+      "step": 1360
+    },
+    {
+      "epoch": 1.694688544987946,
+      "grad_norm": 6.757018566131592,
+      "learning_rate": 1.2676600667945714e-08,
+      "logits/chosen": -10.774547576904297,
+      "logits/rejected": -10.776646614074707,
+      "logps/chosen": -27.236501693725586,
+      "logps/rejected": -47.35329055786133,
+      "loss": 0.3518,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.6959034204483032,
+      "rewards/margins": 2.0354065895080566,
+      "rewards/rejected": -2.7313101291656494,
+      "step": 1362
+    },
+    {
+      "epoch": 1.6971770744225834,
+      "grad_norm": 6.0155487060546875,
+      "learning_rate": 1.2474054258385225e-08,
+      "logits/chosen": -10.811131477355957,
+      "logits/rejected": -10.817914962768555,
+      "logps/chosen": -29.25282859802246,
+      "logps/rejected": -74.38288879394531,
+      "loss": 0.276,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.927348256111145,
+      "rewards/margins": 4.406147003173828,
+      "rewards/rejected": -5.333494663238525,
+      "step": 1364
+    },
+    {
+      "epoch": 1.6996656038572207,
+      "grad_norm": 60.83378601074219,
+      "learning_rate": 1.2273031361160957e-08,
+      "logits/chosen": -10.810754776000977,
+      "logits/rejected": -10.807637214660645,
+      "logps/chosen": -25.723983764648438,
+      "logps/rejected": -63.92774200439453,
+      "loss": 0.3274,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5800298452377319,
+      "rewards/margins": 3.7809581756591797,
+      "rewards/rejected": -4.360988140106201,
+      "step": 1366
+    },
+    {
+      "epoch": 1.7021541332918577,
+      "grad_norm": 5.306698799133301,
+      "learning_rate": 1.207353547535953e-08,
+      "logits/chosen": -10.826414108276367,
+      "logits/rejected": -10.828743934631348,
+      "logps/chosen": -22.830368041992188,
+      "logps/rejected": -55.398826599121094,
+      "loss": 0.2879,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.31796175241470337,
+      "rewards/margins": 3.1197590827941895,
+      "rewards/rejected": -3.437720775604248,
+      "step": 1368
+    },
+    {
+      "epoch": 1.7046426627264952,
+      "grad_norm": 51.56437301635742,
+      "learning_rate": 1.1875570073487785e-08,
+      "logits/chosen": -10.848183631896973,
+      "logits/rejected": -10.847176551818848,
+      "logps/chosen": -25.83056640625,
+      "logps/rejected": -67.20542907714844,
+      "loss": 0.2889,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.63761967420578,
+      "rewards/margins": 3.966122627258301,
+      "rewards/rejected": -4.603742599487305,
+      "step": 1370
+    },
+    {
+      "epoch": 1.7071311921611323,
+      "grad_norm": 9.324451446533203,
+      "learning_rate": 1.1679138601412253e-08,
+      "logits/chosen": -10.814537048339844,
+      "logits/rejected": -10.819119453430176,
+      "logps/chosen": -21.487300872802734,
+      "logps/rejected": -64.1480712890625,
+      "loss": 0.3161,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.13521310687065125,
+      "rewards/margins": 4.159755706787109,
+      "rewards/rejected": -4.294968605041504,
+      "step": 1372
+    },
+    {
+      "epoch": 1.7096197215957694,
+      "grad_norm": 18.857152938842773,
+      "learning_rate": 1.1484244478299366e-08,
+      "logits/chosen": -10.806600570678711,
+      "logits/rejected": -10.810232162475586,
+      "logps/chosen": -22.422306060791016,
+      "logps/rejected": -55.91395950317383,
+      "loss": 0.342,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2938164174556732,
+      "rewards/margins": 3.184936761856079,
+      "rewards/rejected": -3.4787533283233643,
+      "step": 1374
+    },
+    {
+      "epoch": 1.7121082510304069,
+      "grad_norm": 5.337169647216797,
+      "learning_rate": 1.1290891096555744e-08,
+      "logits/chosen": -10.812167167663574,
+      "logits/rejected": -10.815803527832031,
+      "logps/chosen": -22.376619338989258,
+      "logps/rejected": -64.20872497558594,
+      "loss": 0.3014,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.24579763412475586,
+      "rewards/margins": 4.0266289710998535,
+      "rewards/rejected": -4.272426605224609,
+      "step": 1376
+    },
+    {
+      "epoch": 1.714596780465044,
+      "grad_norm": 30.906925201416016,
+      "learning_rate": 1.1099081821769296e-08,
+      "logits/chosen": -10.828575134277344,
+      "logits/rejected": -10.829512596130371,
+      "logps/chosen": -24.83142852783203,
+      "logps/rejected": -53.37904357910156,
+      "loss": 0.2964,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.4947197735309601,
+      "rewards/margins": 2.6709203720092773,
+      "rewards/rejected": -3.165640354156494,
+      "step": 1378
+    },
+    {
+      "epoch": 1.717085309899681,
+      "grad_norm": 11.849616050720215,
+      "learning_rate": 1.090881999265051e-08,
+      "logits/chosen": -10.887191772460938,
+      "logits/rejected": -10.888714790344238,
+      "logps/chosen": -29.812423706054688,
+      "logps/rejected": -71.98737335205078,
+      "loss": 0.2891,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9166967868804932,
+      "rewards/margins": 4.209402561187744,
+      "rewards/rejected": -5.126099109649658,
+      "step": 1380
+    },
+    {
+      "epoch": 1.7195738393343185,
+      "grad_norm": 12.149803161621094,
+      "learning_rate": 1.0720108920974469e-08,
+      "logits/chosen": -10.778029441833496,
+      "logits/rejected": -10.781806945800781,
+      "logps/chosen": -23.731386184692383,
+      "logps/rejected": -68.31604766845703,
+      "loss": 0.3045,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.35708463191986084,
+      "rewards/margins": 4.310543060302734,
+      "rewards/rejected": -4.667627811431885,
+      "step": 1382
+    },
+    {
+      "epoch": 1.7220623687689556,
+      "grad_norm": 12.090971946716309,
+      "learning_rate": 1.0532951891523123e-08,
+      "logits/chosen": -10.829472541809082,
+      "logits/rejected": -10.826078414916992,
+      "logps/chosen": -26.86117172241211,
+      "logps/rejected": -62.79159927368164,
+      "loss": 0.2627,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.7374318838119507,
+      "rewards/margins": 3.4001479148864746,
+      "rewards/rejected": -4.137579917907715,
+      "step": 1384
+    },
+    {
+      "epoch": 1.7245508982035929,
+      "grad_norm": 129.79551696777344,
+      "learning_rate": 1.0347352162028088e-08,
+      "logits/chosen": -10.817343711853027,
+      "logits/rejected": -10.824586868286133,
+      "logps/chosen": -23.552154541015625,
+      "logps/rejected": -61.207462310791016,
+      "loss": 0.3297,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.3887484073638916,
+      "rewards/margins": 3.627763271331787,
+      "rewards/rejected": -4.0165114402771,
+      "step": 1386
+    },
+    {
+      "epoch": 1.7270394276382302,
+      "grad_norm": 3.878584146499634,
+      "learning_rate": 1.0163312963114035e-08,
+      "logits/chosen": -10.860746383666992,
+      "logits/rejected": -10.86077880859375,
+      "logps/chosen": -28.208192825317383,
+      "logps/rejected": -57.151390075683594,
+      "loss": 0.3755,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.8361051082611084,
+      "rewards/margins": 2.7554969787597656,
+      "rewards/rejected": -3.591602087020874,
+      "step": 1388
+    },
+    {
+      "epoch": 1.7295279570728672,
+      "grad_norm": 2.7282052040100098,
+      "learning_rate": 9.980837498242357e-09,
+      "logits/chosen": -10.849210739135742,
+      "logits/rejected": -10.844944953918457,
+      "logps/chosen": -26.760292053222656,
+      "logps/rejected": -63.53279495239258,
+      "loss": 0.2893,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.6709414720535278,
+      "rewards/margins": 3.6953835487365723,
+      "rewards/rejected": -4.366325378417969,
+      "step": 1390
+    },
+    {
+      "epoch": 1.7320164865075045,
+      "grad_norm": 13.552352905273438,
+      "learning_rate": 9.799928943655488e-09,
+      "logits/chosen": -10.841174125671387,
+      "logits/rejected": -10.840930938720703,
+      "logps/chosen": -22.428604125976562,
+      "logps/rejected": -58.52720642089844,
+      "loss": 0.297,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2888602912425995,
+      "rewards/margins": 3.4409823417663574,
+      "rewards/rejected": -3.7298426628112793,
+      "step": 1392
+    },
+    {
+      "epoch": 1.7345050159421418,
+      "grad_norm": 5.00348424911499,
+      "learning_rate": 9.620590448321553e-09,
+      "logits/chosen": -10.81922435760498,
+      "logits/rejected": -10.820487976074219,
+      "logps/chosen": -29.074127197265625,
+      "logps/rejected": -61.92654800415039,
+      "loss": 0.3292,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9312417507171631,
+      "rewards/margins": 3.181020498275757,
+      "rewards/rejected": -4.11226224899292,
+      "step": 1394
+    },
+    {
+      "epoch": 1.7369935453767789,
+      "grad_norm": 8.92225456237793,
+      "learning_rate": 9.442825133879607e-09,
+      "logits/chosen": -10.817237854003906,
+      "logits/rejected": -10.821587562561035,
+      "logps/chosen": -28.017192840576172,
+      "logps/rejected": -59.26190185546875,
+      "loss": 0.3484,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.82759690284729,
+      "rewards/margins": 3.0587477684020996,
+      "rewards/rejected": -3.8863444328308105,
+      "step": 1396
+    },
+    {
+      "epoch": 1.7394820748114161,
+      "grad_norm": 14.537239074707031,
+      "learning_rate": 9.2666360945853e-09,
+      "logits/chosen": -10.792232513427734,
+      "logits/rejected": -10.797674179077148,
+      "logps/chosen": -28.772098541259766,
+      "logps/rejected": -68.55633544921875,
+      "loss": 0.3414,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.8768026828765869,
+      "rewards/margins": 3.842247486114502,
+      "rewards/rejected": -4.719050407409668,
+      "step": 1398
+    },
+    {
+      "epoch": 1.7419706042460534,
+      "grad_norm": 7.152594566345215,
+      "learning_rate": 9.092026397256913e-09,
+      "logits/chosen": -10.825244903564453,
+      "logits/rejected": -10.82767105102539,
+      "logps/chosen": -19.60363006591797,
+      "logps/rejected": -46.500396728515625,
+      "loss": 0.3422,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.033207476139068604,
+      "rewards/margins": 2.5526838302612305,
+      "rewards/rejected": -2.5858914852142334,
+      "step": 1400
+    },
+    {
+      "epoch": 1.7444591336806905,
+      "grad_norm": 10.673386573791504,
+      "learning_rate": 8.918999081222156e-09,
+      "logits/chosen": -10.80329418182373,
+      "logits/rejected": -10.805293083190918,
+      "logps/chosen": -24.16779899597168,
+      "logps/rejected": -61.346763610839844,
+      "loss": 0.2918,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.43302100896835327,
+      "rewards/margins": 3.563382625579834,
+      "rewards/rejected": -3.996403694152832,
+      "step": 1402
+    },
+    {
+      "epoch": 1.7469476631153278,
+      "grad_norm": 1.928539514541626,
+      "learning_rate": 8.747557158265073e-09,
+      "logits/chosen": -10.844294548034668,
+      "logits/rejected": -10.835131645202637,
+      "logps/chosen": -25.480384826660156,
+      "logps/rejected": -57.03585433959961,
+      "loss": 0.3263,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.5597760677337646,
+      "rewards/margins": 2.9487338066101074,
+      "rewards/rejected": -3.508509874343872,
+      "step": 1404
+    },
+    {
+      "epoch": 1.749436192549965,
+      "grad_norm": 12.497711181640625,
+      "learning_rate": 8.577703612573783e-09,
+      "logits/chosen": -10.82893180847168,
+      "logits/rejected": -10.83089828491211,
+      "logps/chosen": -24.069276809692383,
+      "logps/rejected": -66.67253112792969,
+      "loss": 0.3401,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.4053136110305786,
+      "rewards/margins": 4.1401472091674805,
+      "rewards/rejected": -4.545460224151611,
+      "step": 1406
+    },
+    {
+      "epoch": 1.7519247219846021,
+      "grad_norm": 22.551191329956055,
+      "learning_rate": 8.409441400688399e-09,
+      "logits/chosen": -10.837417602539062,
+      "logits/rejected": -10.837981224060059,
+      "logps/chosen": -21.41533660888672,
+      "logps/rejected": -61.951133728027344,
+      "loss": 0.3606,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.19989776611328125,
+      "rewards/margins": 3.897480010986328,
+      "rewards/rejected": -4.097377777099609,
+      "step": 1408
+    },
+    {
+      "epoch": 1.7544132514192394,
+      "grad_norm": 28.929887771606445,
+      "learning_rate": 8.24277345144967e-09,
+      "logits/chosen": -10.846136093139648,
+      "logits/rejected": -10.846277236938477,
+      "logps/chosen": -26.540502548217773,
+      "logps/rejected": -40.02751159667969,
+      "loss": 0.3718,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.6883711814880371,
+      "rewards/margins": 1.336569905281067,
+      "rewards/rejected": -2.0249409675598145,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7569017808538767,
+      "grad_norm": 8.628479957580566,
+      "learning_rate": 8.077702665947973e-09,
+      "logits/chosen": -10.839735984802246,
+      "logits/rejected": -10.83474063873291,
+      "logps/chosen": -22.964393615722656,
+      "logps/rejected": -69.26115417480469,
+      "loss": 0.3341,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2930600941181183,
+      "rewards/margins": 4.422696590423584,
+      "rewards/rejected": -4.715756416320801,
+      "step": 1412
+    },
+    {
+      "epoch": 1.7593903102885138,
+      "grad_norm": 28.3585205078125,
+      "learning_rate": 7.914231917472746e-09,
+      "logits/chosen": -10.830848693847656,
+      "logits/rejected": -10.833673477172852,
+      "logps/chosen": -23.10784149169922,
+      "logps/rejected": -69.79341125488281,
+      "loss": 0.3478,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.35468006134033203,
+      "rewards/margins": 4.51253604888916,
+      "rewards/rejected": -4.867216110229492,
+      "step": 1414
+    },
+    {
+      "epoch": 1.761878839723151,
+      "grad_norm": 8.422154426574707,
+      "learning_rate": 7.75236405146258e-09,
+      "logits/chosen": -10.832451820373535,
+      "logits/rejected": -10.834232330322266,
+      "logps/chosen": -28.385543823242188,
+      "logps/rejected": -70.90185546875,
+      "loss": 0.3218,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.7882261276245117,
+      "rewards/margins": 4.108382701873779,
+      "rewards/rejected": -4.896608829498291,
+      "step": 1416
+    },
+    {
+      "epoch": 1.7643673691577884,
+      "grad_norm": 29.272140502929688,
+      "learning_rate": 7.592101885455593e-09,
+      "logits/chosen": -10.832554817199707,
+      "logits/rejected": -10.830697059631348,
+      "logps/chosen": -25.028911590576172,
+      "logps/rejected": -58.800750732421875,
+      "loss": 0.3287,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.5799860954284668,
+      "rewards/margins": 3.158944606781006,
+      "rewards/rejected": -3.7389309406280518,
+      "step": 1418
+    },
+    {
+      "epoch": 1.7668558985924254,
+      "grad_norm": 63.721107482910156,
+      "learning_rate": 7.4334482090404935e-09,
+      "logits/chosen": -10.820099830627441,
+      "logits/rejected": -10.814040184020996,
+      "logps/chosen": -25.835189819335938,
+      "logps/rejected": -54.49407958984375,
+      "loss": 0.3232,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.6330866813659668,
+      "rewards/margins": 2.6440882682800293,
+      "rewards/rejected": -3.2771754264831543,
+      "step": 1420
+    },
+    {
+      "epoch": 1.7693444280270627,
+      "grad_norm": 7.655338764190674,
+      "learning_rate": 7.276405783807893e-09,
+      "logits/chosen": -10.817934036254883,
+      "logits/rejected": -10.813355445861816,
+      "logps/chosen": -23.41266632080078,
+      "logps/rejected": -64.01387786865234,
+      "loss": 0.3305,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.35830530524253845,
+      "rewards/margins": 3.9317524433135986,
+      "rewards/rejected": -4.29005765914917,
+      "step": 1422
+    },
+    {
+      "epoch": 1.7718329574617,
+      "grad_norm": 16.495460510253906,
+      "learning_rate": 7.120977343302359e-09,
+      "logits/chosen": -10.812400817871094,
+      "logits/rejected": -10.806700706481934,
+      "logps/chosen": -26.264169692993164,
+      "logps/rejected": -59.75008010864258,
+      "loss": 0.316,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6269797682762146,
+      "rewards/margins": 3.2161946296691895,
+      "rewards/rejected": -3.8431742191314697,
+      "step": 1424
+    },
+    {
+      "epoch": 1.774321486896337,
+      "grad_norm": 52.430747985839844,
+      "learning_rate": 6.9671655929747884e-09,
+      "logits/chosen": -10.831871032714844,
+      "logits/rejected": -10.833426475524902,
+      "logps/chosen": -24.449472427368164,
+      "logps/rejected": -45.51153564453125,
+      "loss": 0.3439,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.46670615673065186,
+      "rewards/margins": 2.025547981262207,
+      "rewards/rejected": -2.4922542572021484,
+      "step": 1426
+    },
+    {
+      "epoch": 1.7768100163309746,
+      "grad_norm": 1.0906507968902588,
+      "learning_rate": 6.814973210135255e-09,
+      "logits/chosen": -10.85045051574707,
+      "logits/rejected": -10.853729248046875,
+      "logps/chosen": -23.105697631835938,
+      "logps/rejected": -72.16358184814453,
+      "loss": 0.285,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.36262983083724976,
+      "rewards/margins": 4.786954879760742,
+      "rewards/rejected": -5.149584770202637,
+      "step": 1428
+    },
+    {
+      "epoch": 1.7792985457656116,
+      "grad_norm": 4.459844589233398,
+      "learning_rate": 6.664402843906514e-09,
+      "logits/chosen": -10.799229621887207,
+      "logits/rejected": -10.7999267578125,
+      "logps/chosen": -31.46733283996582,
+      "logps/rejected": -65.57007598876953,
+      "loss": 0.299,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.1061089038848877,
+      "rewards/margins": 3.301386833190918,
+      "rewards/rejected": -4.407495975494385,
+      "step": 1430
+    },
+    {
+      "epoch": 1.7817870752002487,
+      "grad_norm": 15.899592399597168,
+      "learning_rate": 6.515457115177802e-09,
+      "logits/chosen": -10.796611785888672,
+      "logits/rejected": -10.7985258102417,
+      "logps/chosen": -28.31963539123535,
+      "logps/rejected": -66.415771484375,
+      "loss": 0.2964,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8590655326843262,
+      "rewards/margins": 3.653881549835205,
+      "rewards/rejected": -4.512947082519531,
+      "step": 1432
+    },
+    {
+      "epoch": 1.7842756046348862,
+      "grad_norm": 19.590593338012695,
+      "learning_rate": 6.368138616559282e-09,
+      "logits/chosen": -10.814291000366211,
+      "logits/rejected": -10.816354751586914,
+      "logps/chosen": -27.344654083251953,
+      "logps/rejected": -57.43811798095703,
+      "loss": 0.3212,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7679904103279114,
+      "rewards/margins": 2.95462703704834,
+      "rewards/rejected": -3.7226176261901855,
+      "step": 1434
+    },
+    {
+      "epoch": 1.7867641340695233,
+      "grad_norm": 114.24454498291016,
+      "learning_rate": 6.2224499123368576e-09,
+      "logits/chosen": -10.82932186126709,
+      "logits/rejected": -10.82844066619873,
+      "logps/chosen": -28.379507064819336,
+      "logps/rejected": -47.598514556884766,
+      "loss": 0.4161,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.8367791175842285,
+      "rewards/margins": 1.8975491523742676,
+      "rewards/rejected": -2.734328269958496,
+      "step": 1436
+    },
+    {
+      "epoch": 1.7892526635041603,
+      "grad_norm": 6.041500091552734,
+      "learning_rate": 6.078393538427573e-09,
+      "logits/chosen": -10.825316429138184,
+      "logits/rejected": -10.831624031066895,
+      "logps/chosen": -28.40496063232422,
+      "logps/rejected": -74.67303466796875,
+      "loss": 0.3551,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.8339643478393555,
+      "rewards/margins": 4.416720390319824,
+      "rewards/rejected": -5.25068473815918,
+      "step": 1438
+    },
+    {
+      "epoch": 1.7917411929387979,
+      "grad_norm": 5.8538737297058105,
+      "learning_rate": 5.93597200233551e-09,
+      "logits/chosen": -10.814746856689453,
+      "logits/rejected": -10.814842224121094,
+      "logps/chosen": -25.401987075805664,
+      "logps/rejected": -66.26980590820312,
+      "loss": 0.2539,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5636205673217773,
+      "rewards/margins": 3.9558775424957275,
+      "rewards/rejected": -4.519497871398926,
+      "step": 1440
+    },
+    {
+      "epoch": 1.794229722373435,
+      "grad_norm": 32.84010314941406,
+      "learning_rate": 5.795187783108002e-09,
+      "logits/chosen": -10.800264358520508,
+      "logits/rejected": -10.800673484802246,
+      "logps/chosen": -29.123065948486328,
+      "logps/rejected": -67.73751831054688,
+      "loss": 0.3369,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9221575260162354,
+      "rewards/margins": 3.7697463035583496,
+      "rewards/rejected": -4.691904067993164,
+      "step": 1442
+    },
+    {
+      "epoch": 1.7967182518080722,
+      "grad_norm": 7.772801399230957,
+      "learning_rate": 5.656043331292681e-09,
+      "logits/chosen": -10.818206787109375,
+      "logits/rejected": -10.823054313659668,
+      "logps/chosen": -23.672134399414062,
+      "logps/rejected": -51.89259719848633,
+      "loss": 0.3593,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4020726680755615,
+      "rewards/margins": 2.701967716217041,
+      "rewards/rejected": -3.1040403842926025,
+      "step": 1444
+    },
+    {
+      "epoch": 1.7992067812427095,
+      "grad_norm": 6.961812973022461,
+      "learning_rate": 5.518541068894622e-09,
+      "logits/chosen": -10.823866844177246,
+      "logits/rejected": -10.824728012084961,
+      "logps/chosen": -33.00081253051758,
+      "logps/rejected": -69.7044906616211,
+      "loss": 0.3134,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.3416486978530884,
+      "rewards/margins": 3.5815513134002686,
+      "rewards/rejected": -4.9232001304626465,
+      "step": 1446
+    },
+    {
+      "epoch": 1.8016953106773466,
+      "grad_norm": 31.4688720703125,
+      "learning_rate": 5.382683389334375e-09,
+      "logits/chosen": -10.822563171386719,
+      "logits/rejected": -10.822004318237305,
+      "logps/chosen": -21.888166427612305,
+      "logps/rejected": -52.723751068115234,
+      "loss": 0.339,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.21833878755569458,
+      "rewards/margins": 2.944748640060425,
+      "rewards/rejected": -3.1630876064300537,
+      "step": 1448
+    },
+    {
+      "epoch": 1.8041838401119838,
+      "grad_norm": 14.762541770935059,
+      "learning_rate": 5.248472657406122e-09,
+      "logits/chosen": -10.821406364440918,
+      "logits/rejected": -10.816853523254395,
+      "logps/chosen": -28.940649032592773,
+      "logps/rejected": -57.142417907714844,
+      "loss": 0.3214,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9556154608726501,
+      "rewards/margins": 2.6828153133392334,
+      "rewards/rejected": -3.638430595397949,
+      "step": 1450
+    },
+    {
+      "epoch": 1.8066723695466211,
+      "grad_norm": 11.76990032196045,
+      "learning_rate": 5.1159112092366676e-09,
+      "logits/chosen": -10.837207794189453,
+      "logits/rejected": -10.829712867736816,
+      "logps/chosen": -29.688844680786133,
+      "logps/rejected": -66.00604248046875,
+      "loss": 0.3339,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.9291807413101196,
+      "rewards/margins": 3.522550106048584,
+      "rewards/rejected": -4.451730728149414,
+      "step": 1452
+    },
+    {
+      "epoch": 1.8091608989812582,
+      "grad_norm": 2.2030696868896484,
+      "learning_rate": 4.985001352244666e-09,
+      "logits/chosen": -10.811424255371094,
+      "logits/rejected": -10.815189361572266,
+      "logps/chosen": -24.620361328125,
+      "logps/rejected": -64.42039489746094,
+      "loss": 0.3568,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.49651896953582764,
+      "rewards/margins": 3.8992347717285156,
+      "rewards/rejected": -4.395754337310791,
+      "step": 1454
+    },
+    {
+      "epoch": 1.8116494284158955,
+      "grad_norm": 32.40312194824219,
+      "learning_rate": 4.855745365100538e-09,
+      "logits/chosen": -10.825475692749023,
+      "logits/rejected": -10.827003479003906,
+      "logps/chosen": -33.1482048034668,
+      "logps/rejected": -60.821807861328125,
+      "loss": 0.3544,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.3415831327438354,
+      "rewards/margins": 2.7061212062835693,
+      "rewards/rejected": -4.047704696655273,
+      "step": 1456
+    },
+    {
+      "epoch": 1.8141379578505328,
+      "grad_norm": 5.195944786071777,
+      "learning_rate": 4.728145497686753e-09,
+      "logits/chosen": -10.808531761169434,
+      "logits/rejected": -10.80744743347168,
+      "logps/chosen": -27.157238006591797,
+      "logps/rejected": -56.74330139160156,
+      "loss": 0.3454,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.7516356706619263,
+      "rewards/margins": 2.846492290496826,
+      "rewards/rejected": -3.598127841949463,
+      "step": 1458
+    },
+    {
+      "epoch": 1.8166264872851698,
+      "grad_norm": 3.704167366027832,
+      "learning_rate": 4.60220397105866e-09,
+      "logits/chosen": -10.799447059631348,
+      "logits/rejected": -10.80561351776123,
+      "logps/chosen": -26.86786651611328,
+      "logps/rejected": -77.04949188232422,
+      "loss": 0.2995,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7065700888633728,
+      "rewards/margins": 4.82396125793457,
+      "rewards/rejected": -5.530531406402588,
+      "step": 1460
+    },
+    {
+      "epoch": 1.8191150167198071,
+      "grad_norm": 4.062532424926758,
+      "learning_rate": 4.477922977405912e-09,
+      "logits/chosen": -10.818702697753906,
+      "logits/rejected": -10.819602966308594,
+      "logps/chosen": -21.75606346130371,
+      "logps/rejected": -57.006935119628906,
+      "loss": 0.297,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.16213519871234894,
+      "rewards/margins": 3.5094478130340576,
+      "rewards/rejected": -3.6715829372406006,
+      "step": 1462
+    },
+    {
+      "epoch": 1.8216035461544444,
+      "grad_norm": 24.149431228637695,
+      "learning_rate": 4.355304680014171e-09,
+      "logits/chosen": -10.831608772277832,
+      "logits/rejected": -10.84537410736084,
+      "logps/chosen": -24.60963249206543,
+      "logps/rejected": -69.60423278808594,
+      "loss": 0.3599,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.5038677453994751,
+      "rewards/margins": 4.358825206756592,
+      "rewards/rejected": -4.862692832946777,
+      "step": 1464
+    },
+    {
+      "epoch": 1.8240920755890815,
+      "grad_norm": 5.768329620361328,
+      "learning_rate": 4.234351213227605e-09,
+      "logits/chosen": -10.844436645507812,
+      "logits/rejected": -10.842813491821289,
+      "logps/chosen": -22.979904174804688,
+      "logps/rejected": -51.99818801879883,
+      "loss": 0.331,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.32598400115966797,
+      "rewards/margins": 2.7477188110351562,
+      "rewards/rejected": -3.073702812194824,
+      "step": 1466
+    },
+    {
+      "epoch": 1.8265806050237188,
+      "grad_norm": 7.735873222351074,
+      "learning_rate": 4.1150646824116064e-09,
+      "logits/chosen": -10.821906089782715,
+      "logits/rejected": -10.81991195678711,
+      "logps/chosen": -23.383838653564453,
+      "logps/rejected": -50.20802688598633,
+      "loss": 0.3584,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.32233789563179016,
+      "rewards/margins": 2.645047426223755,
+      "rewards/rejected": -2.9673855304718018,
+      "step": 1468
+    },
+    {
+      "epoch": 1.829069134458356,
+      "grad_norm": 9.88779067993164,
+      "learning_rate": 3.997447163916223e-09,
+      "logits/chosen": -10.780189514160156,
+      "logits/rejected": -10.784330368041992,
+      "logps/chosen": -26.26874542236328,
+      "logps/rejected": -64.21620178222656,
+      "loss": 0.315,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6374044418334961,
+      "rewards/margins": 3.6502692699432373,
+      "rewards/rejected": -4.287673473358154,
+      "step": 1470
+    },
+    {
+      "epoch": 1.8315576638929931,
+      "grad_norm": 3.3723583221435547,
+      "learning_rate": 3.8815007050399975e-09,
+      "logits/chosen": -10.845205307006836,
+      "logits/rejected": -10.850592613220215,
+      "logps/chosen": -24.638830184936523,
+      "logps/rejected": -62.163787841796875,
+      "loss": 0.3005,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.4939250349998474,
+      "rewards/margins": 3.6708312034606934,
+      "rewards/rejected": -4.1647562980651855,
+      "step": 1472
+    },
+    {
+      "epoch": 1.8340461933276304,
+      "grad_norm": 2.0998055934906006,
+      "learning_rate": 3.767227323994293e-09,
+      "logits/chosen": -10.836874008178711,
+      "logits/rejected": -10.8333740234375,
+      "logps/chosen": -20.189462661743164,
+      "logps/rejected": -55.19818878173828,
+      "loss": 0.3569,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.0895194411277771,
+      "rewards/margins": 3.2878525257110596,
+      "rewards/rejected": -3.3773720264434814,
+      "step": 1474
+    },
+    {
+      "epoch": 1.8365347227622677,
+      "grad_norm": 18.310754776000977,
+      "learning_rate": 3.6546290098682485e-09,
+      "logits/chosen": -10.863044738769531,
+      "logits/rejected": -10.86330509185791,
+      "logps/chosen": -24.017717361450195,
+      "logps/rejected": -58.69614028930664,
+      "loss": 0.3456,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.43135157227516174,
+      "rewards/margins": 3.3879075050354004,
+      "rewards/rejected": -3.819258689880371,
+      "step": 1476
+    },
+    {
+      "epoch": 1.8390232521969048,
+      "grad_norm": 3.3576934337615967,
+      "learning_rate": 3.543707722594069e-09,
+      "logits/chosen": -10.862442016601562,
+      "logits/rejected": -10.859800338745117,
+      "logps/chosen": -27.191797256469727,
+      "logps/rejected": -71.88859558105469,
+      "loss": 0.3095,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.7576779723167419,
+      "rewards/margins": 4.214293479919434,
+      "rewards/rejected": -4.971971035003662,
+      "step": 1478
+    },
+    {
+      "epoch": 1.841511781631542,
+      "grad_norm": 6.704062461853027,
+      "learning_rate": 3.4344653929129554e-09,
+      "logits/chosen": -10.799659729003906,
+      "logits/rejected": -10.798733711242676,
+      "logps/chosen": -19.196088790893555,
+      "logps/rejected": -47.406768798828125,
+      "loss": 0.3276,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.06628356873989105,
+      "rewards/margins": 2.775508403778076,
+      "rewards/rejected": -2.7092249393463135,
+      "step": 1480
+    },
+    {
+      "epoch": 1.8440003110661793,
+      "grad_norm": 7.278040409088135,
+      "learning_rate": 3.326903922341473e-09,
+      "logits/chosen": -10.815013885498047,
+      "logits/rejected": -10.810517311096191,
+      "logps/chosen": -23.322364807128906,
+      "logps/rejected": -60.02410888671875,
+      "loss": 0.3409,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.3628728985786438,
+      "rewards/margins": 3.500354290008545,
+      "rewards/rejected": -3.863227367401123,
+      "step": 1482
+    },
+    {
+      "epoch": 1.8464888405008164,
+      "grad_norm": 18.574892044067383,
+      "learning_rate": 3.221025183138493e-09,
+      "logits/chosen": -10.82407283782959,
+      "logits/rejected": -10.823734283447266,
+      "logps/chosen": -25.93548011779785,
+      "logps/rejected": -61.550941467285156,
+      "loss": 0.2756,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6312334537506104,
+      "rewards/margins": 3.374722957611084,
+      "rewards/rejected": -4.005956649780273,
+      "step": 1484
+    },
+    {
+      "epoch": 1.848977369935454,
+      "grad_norm": 28.313570022583008,
+      "learning_rate": 3.116831018272581e-09,
+      "logits/chosen": -10.880552291870117,
+      "logits/rejected": -10.877769470214844,
+      "logps/chosen": -22.949565887451172,
+      "logps/rejected": -65.82709503173828,
+      "loss": 0.2973,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.3210931420326233,
+      "rewards/margins": 4.221843719482422,
+      "rewards/rejected": -4.5429368019104,
+      "step": 1486
+    },
+    {
+      "epoch": 1.851465899370091,
+      "grad_norm": 50.520294189453125,
+      "learning_rate": 3.0143232413898602e-09,
+      "logits/chosen": -10.797541618347168,
+      "logits/rejected": -10.794352531433105,
+      "logps/chosen": -28.862197875976562,
+      "logps/rejected": -75.26273345947266,
+      "loss": 0.2318,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8763686418533325,
+      "rewards/margins": 4.540627956390381,
+      "rewards/rejected": -5.416996479034424,
+      "step": 1488
+    },
+    {
+      "epoch": 1.853954428804728,
+      "grad_norm": 8.633639335632324,
+      "learning_rate": 2.913503636782577e-09,
+      "logits/chosen": -10.839570999145508,
+      "logits/rejected": -10.838019371032715,
+      "logps/chosen": -22.53410530090332,
+      "logps/rejected": -46.19023513793945,
+      "loss": 0.3611,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.3035596013069153,
+      "rewards/margins": 2.2712674140930176,
+      "rewards/rejected": -2.574826955795288,
+      "step": 1490
+    },
+    {
+      "epoch": 1.8564429582393656,
+      "grad_norm": 5.074777126312256,
+      "learning_rate": 2.8143739593578853e-09,
+      "logits/chosen": -10.803709030151367,
+      "logits/rejected": -10.803434371948242,
+      "logps/chosen": -23.481767654418945,
+      "logps/rejected": -63.84934997558594,
+      "loss": 0.3185,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.3606772720813751,
+      "rewards/margins": 3.896145820617676,
+      "rewards/rejected": -4.2568230628967285,
+      "step": 1492
+    },
+    {
+      "epoch": 1.8589314876740026,
+      "grad_norm": 8.714546203613281,
+      "learning_rate": 2.716935934607434e-09,
+      "logits/chosen": -10.823909759521484,
+      "logits/rejected": -10.820356369018555,
+      "logps/chosen": -23.897640228271484,
+      "logps/rejected": -52.00101089477539,
+      "loss": 0.3194,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.44381412863731384,
+      "rewards/margins": 2.6014151573181152,
+      "rewards/rejected": -3.045229196548462,
+      "step": 1494
+    },
+    {
+      "epoch": 1.86142001710864,
+      "grad_norm": 4.605140209197998,
+      "learning_rate": 2.6211912585772377e-09,
+      "logits/chosen": -10.820908546447754,
+      "logits/rejected": -10.817206382751465,
+      "logps/chosen": -22.388513565063477,
+      "logps/rejected": -52.58741760253906,
+      "loss": 0.3037,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.27936896681785583,
+      "rewards/margins": 2.8748831748962402,
+      "rewards/rejected": -3.154252052307129,
+      "step": 1496
+    },
+    {
+      "epoch": 1.8639085465432772,
+      "grad_norm": 6.918066024780273,
+      "learning_rate": 2.5271415978382116e-09,
+      "logits/chosen": -10.764432907104492,
+      "logits/rejected": -10.769204139709473,
+      "logps/chosen": -21.751548767089844,
+      "logps/rejected": -47.14215087890625,
+      "loss": 0.3786,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.1537971943616867,
+      "rewards/margins": 2.537064790725708,
+      "rewards/rejected": -2.690861701965332,
+      "step": 1498
+    },
+    {
+      "epoch": 1.8663970759779143,
+      "grad_norm": 12.986876487731934,
+      "learning_rate": 2.4347885894571484e-09,
+      "logits/chosen": -10.837455749511719,
+      "logits/rejected": -10.839674949645996,
+      "logps/chosen": -28.00076675415039,
+      "logps/rejected": -66.6291275024414,
+      "loss": 0.3554,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.8600501418113708,
+      "rewards/margins": 3.6425986289978027,
+      "rewards/rejected": -4.502648830413818,
+      "step": 1500
     }
   ],
   "logging_steps": 2,