{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9982631930527722,
  "eval_steps": 400,
  "global_step": 467,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01068804275217101,
      "grad_norm": 9.442932838948966,
      "learning_rate": 2.127659574468085e-07,
      "logits/chosen": -1.0071109533309937,
      "logits/rejected": -0.9781900644302368,
      "logps/chosen": -0.2738580107688904,
      "logps/rejected": -0.27158379554748535,
      "loss": 1.0523,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.5477160215377808,
      "rewards/margins": -0.004548341501504183,
      "rewards/rejected": -0.5431675910949707,
      "step": 5
    },
    {
      "epoch": 0.02137608550434202,
      "grad_norm": 6.34423728622988,
      "learning_rate": 4.25531914893617e-07,
      "logits/chosen": -1.0404982566833496,
      "logits/rejected": -0.9738548398017883,
      "logps/chosen": -0.2942856252193451,
      "logps/rejected": -0.2995370030403137,
      "loss": 1.0442,
      "rewards/accuracies": 0.4937500059604645,
      "rewards/chosen": -0.5885712504386902,
      "rewards/margins": 0.010502670891582966,
      "rewards/rejected": -0.5990740060806274,
      "step": 10
    },
    {
      "epoch": 0.03206412825651302,
      "grad_norm": 6.854457761517512,
      "learning_rate": 6.382978723404255e-07,
      "logits/chosen": -0.9717105031013489,
      "logits/rejected": -0.9914683103561401,
      "logps/chosen": -0.2636018991470337,
      "logps/rejected": -0.3009588122367859,
      "loss": 1.0229,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -0.5272037982940674,
      "rewards/margins": 0.07471387088298798,
      "rewards/rejected": -0.6019176244735718,
      "step": 15
    },
    {
      "epoch": 0.04275217100868404,
      "grad_norm": 16.17238672181369,
      "learning_rate": 8.51063829787234e-07,
      "logits/chosen": -0.9552351236343384,
      "logits/rejected": -0.9299653768539429,
      "logps/chosen": -0.27658405900001526,
      "logps/rejected": -0.2946491837501526,
      "loss": 1.0348,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.5531681180000305,
      "rewards/margins": 0.03613026812672615,
      "rewards/rejected": -0.5892983675003052,
      "step": 20
    },
    {
      "epoch": 0.053440213760855046,
      "grad_norm": 7.914459513231275,
      "learning_rate": 1.0638297872340424e-06,
      "logits/chosen": -1.0123283863067627,
      "logits/rejected": -0.9839458465576172,
      "logps/chosen": -0.2764621078968048,
      "logps/rejected": -0.29262328147888184,
      "loss": 1.0216,
      "rewards/accuracies": 0.512499988079071,
      "rewards/chosen": -0.5529242157936096,
      "rewards/margins": 0.03232245892286301,
      "rewards/rejected": -0.5852465629577637,
      "step": 25
    },
    {
      "epoch": 0.06412825651302605,
      "grad_norm": 13.510536818444182,
      "learning_rate": 1.276595744680851e-06,
      "logits/chosen": -0.9960908889770508,
      "logits/rejected": -0.9520798921585083,
      "logps/chosen": -0.3060453534126282,
      "logps/rejected": -0.3202216625213623,
      "loss": 1.0213,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.6120907068252563,
      "rewards/margins": 0.028352651745080948,
      "rewards/rejected": -0.6404433250427246,
      "step": 30
    },
    {
      "epoch": 0.07481629926519706,
      "grad_norm": 10.603480288342643,
      "learning_rate": 1.4893617021276594e-06,
      "logits/chosen": -1.0775905847549438,
      "logits/rejected": -1.0043548345565796,
      "logps/chosen": -0.33030545711517334,
      "logps/rejected": -0.3744826912879944,
      "loss": 1.0195,
      "rewards/accuracies": 0.543749988079071,
      "rewards/chosen": -0.6606109142303467,
      "rewards/margins": 0.08835448324680328,
      "rewards/rejected": -0.7489653825759888,
      "step": 35
    },
    {
      "epoch": 0.08550434201736808,
      "grad_norm": 14.893194407448227,
      "learning_rate": 1.702127659574468e-06,
      "logits/chosen": -1.0553807020187378,
      "logits/rejected": -1.0140490531921387,
      "logps/chosen": -0.3645663559436798,
      "logps/rejected": -0.461661159992218,
      "loss": 1.0284,
      "rewards/accuracies": 0.5687500238418579,
      "rewards/chosen": -0.7291327118873596,
      "rewards/margins": 0.19418945908546448,
      "rewards/rejected": -0.923322319984436,
      "step": 40
    },
    {
      "epoch": 0.09619238476953908,
      "grad_norm": 7.362675910290458,
      "learning_rate": 1.9148936170212767e-06,
      "logits/chosen": -1.1070150136947632,
      "logits/rejected": -1.0679465532302856,
      "logps/chosen": -0.4404965341091156,
      "logps/rejected": -0.5644907355308533,
      "loss": 1.0179,
      "rewards/accuracies": 0.5562499761581421,
      "rewards/chosen": -0.8809930682182312,
      "rewards/margins": 0.24798834323883057,
      "rewards/rejected": -1.1289814710617065,
      "step": 45
    },
    {
      "epoch": 0.10688042752171009,
      "grad_norm": 16.23414874505975,
      "learning_rate": 1.9997482349425066e-06,
      "logits/chosen": -1.0770556926727295,
      "logits/rejected": -1.0299774408340454,
      "logps/chosen": -0.3946690261363983,
      "logps/rejected": -0.47187358140945435,
      "loss": 1.0123,
      "rewards/accuracies": 0.543749988079071,
      "rewards/chosen": -0.7893380522727966,
      "rewards/margins": 0.15440911054611206,
      "rewards/rejected": -0.9437471628189087,
      "step": 50
    },
    {
      "epoch": 0.11756847027388109,
      "grad_norm": 11.88283791262975,
      "learning_rate": 1.998210129767735e-06,
      "logits/chosen": -1.0645383596420288,
      "logits/rejected": -1.035369873046875,
      "logps/chosen": -0.3778243362903595,
      "logps/rejected": -0.48207464814186096,
      "loss": 0.9951,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -0.755648672580719,
      "rewards/margins": 0.2085006982088089,
      "rewards/rejected": -0.9641492962837219,
      "step": 55
    },
    {
      "epoch": 0.1282565130260521,
      "grad_norm": 10.444389026599103,
      "learning_rate": 1.995275937465126e-06,
      "logits/chosen": -1.082425594329834,
      "logits/rejected": -1.0538678169250488,
      "logps/chosen": -0.4237767159938812,
      "logps/rejected": -0.4713103175163269,
      "loss": 0.9836,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -0.8475534319877625,
      "rewards/margins": 0.0950673446059227,
      "rewards/rejected": -0.9426206350326538,
      "step": 60
    },
    {
      "epoch": 0.13894455577822312,
      "grad_norm": 12.992830889875604,
      "learning_rate": 1.9909497617679347e-06,
      "logits/chosen": -0.9931782484054565,
      "logits/rejected": -0.9680334329605103,
      "logps/chosen": -0.5701107382774353,
      "logps/rejected": -0.7114989757537842,
      "loss": 0.9774,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -1.1402214765548706,
      "rewards/margins": 0.2827766239643097,
      "rewards/rejected": -1.4229979515075684,
      "step": 65
    },
    {
      "epoch": 0.14963259853039412,
      "grad_norm": 8.908123494624329,
      "learning_rate": 1.985237653224059e-06,
      "logits/chosen": -0.9891507029533386,
      "logits/rejected": -0.9734717607498169,
      "logps/chosen": -0.5873534679412842,
      "logps/rejected": -0.7440844774246216,
      "loss": 0.9571,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.1747069358825684,
      "rewards/margins": 0.3134620785713196,
      "rewards/rejected": -1.4881689548492432,
      "step": 70
    },
    {
      "epoch": 0.16032064128256512,
      "grad_norm": 15.06224561163384,
      "learning_rate": 1.9781476007338054e-06,
      "logits/chosen": -0.9478601217269897,
      "logits/rejected": -0.8844977617263794,
      "logps/chosen": -0.6380752921104431,
      "logps/rejected": -0.7878230810165405,
      "loss": 0.9386,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -1.2761505842208862,
      "rewards/margins": 0.29949551820755005,
      "rewards/rejected": -1.575646162033081,
      "step": 75
    },
    {
      "epoch": 0.17100868403473615,
      "grad_norm": 10.129109213694903,
      "learning_rate": 1.9696895203766866e-06,
      "logits/chosen": -0.9139761924743652,
      "logits/rejected": -0.9103153944015503,
      "logps/chosen": -0.7025324702262878,
      "logps/rejected": -0.9276626706123352,
      "loss": 0.8866,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.4050649404525757,
      "rewards/margins": 0.45026034116744995,
      "rewards/rejected": -1.8553253412246704,
      "step": 80
    },
    {
      "epoch": 0.18169672678690715,
      "grad_norm": 16.035849628874075,
      "learning_rate": 1.9598752415428888e-06,
      "logits/chosen": -0.9445829391479492,
      "logits/rejected": -0.9311642646789551,
      "logps/chosen": -0.8271282315254211,
      "logps/rejected": -1.0663609504699707,
      "loss": 0.8879,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -1.6542564630508423,
      "rewards/margins": 0.4784657061100006,
      "rewards/rejected": -2.1327219009399414,
      "step": 85
    },
    {
      "epoch": 0.19238476953907815,
      "grad_norm": 15.552471664159093,
      "learning_rate": 1.9487184903887996e-06,
      "logits/chosen": -0.9677060842514038,
      "logits/rejected": -0.9533635377883911,
      "logps/chosen": -1.1237901449203491,
      "logps/rejected": -1.4190008640289307,
      "loss": 0.9043,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -2.2475802898406982,
      "rewards/margins": 0.5904213786125183,
      "rewards/rejected": -2.8380017280578613,
      "step": 90
    },
    {
      "epoch": 0.20307281229124916,
      "grad_norm": 21.38276928877544,
      "learning_rate": 1.936234870639737e-06,
      "logits/chosen": -1.0183446407318115,
      "logits/rejected": -0.9617747068405151,
      "logps/chosen": -1.5094763040542603,
      "logps/rejected": -1.7956956624984741,
      "loss": 0.8115,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -3.0189526081085205,
      "rewards/margins": 0.5724390745162964,
      "rewards/rejected": -3.5913913249969482,
      "step": 95
    },
    {
      "epoch": 0.21376085504342018,
      "grad_norm": 31.546005742023485,
      "learning_rate": 1.922441841766729e-06,
      "logits/chosen": -0.8167861104011536,
      "logits/rejected": -0.8134365081787109,
      "logps/chosen": -1.9628349542617798,
      "logps/rejected": -2.347581148147583,
      "loss": 0.841,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -3.9256699085235596,
      "rewards/margins": 0.7694929838180542,
      "rewards/rejected": -4.695162296295166,
      "step": 100
    },
    {
      "epoch": 0.22444889779559118,
      "grad_norm": 31.175237667862007,
      "learning_rate": 1.907358694567865e-06,
      "logits/chosen": -0.7257764935493469,
      "logits/rejected": -0.682075560092926,
      "logps/chosen": -2.4148917198181152,
      "logps/rejected": -2.919673204421997,
      "loss": 0.8144,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -4.8297834396362305,
      "rewards/margins": 1.0095628499984741,
      "rewards/rejected": -5.839346408843994,
      "step": 105
    },
    {
      "epoch": 0.23513694054776219,
      "grad_norm": 42.60812515694024,
      "learning_rate": 1.8910065241883678e-06,
      "logits/chosen": -0.5907033681869507,
      "logits/rejected": -0.5452768206596375,
      "logps/chosen": -2.7082858085632324,
      "logps/rejected": -3.285773515701294,
      "loss": 0.7803,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -5.416571617126465,
      "rewards/margins": 1.1549749374389648,
      "rewards/rejected": -6.571547031402588,
      "step": 110
    },
    {
      "epoch": 0.2458249832999332,
      "grad_norm": 33.770352812549774,
      "learning_rate": 1.8734082006171296e-06,
      "logits/chosen": -0.6769031286239624,
      "logits/rejected": -0.6223554611206055,
      "logps/chosen": -2.841639995574951,
      "logps/rejected": -3.499586820602417,
      "loss": 0.7724,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": -5.683279991149902,
      "rewards/margins": 1.3158934116363525,
      "rewards/rejected": -6.999173641204834,
      "step": 115
    },
    {
      "epoch": 0.2565130260521042,
      "grad_norm": 25.195574765320742,
      "learning_rate": 1.8545883367009615e-06,
      "logits/chosen": -0.7494109272956848,
      "logits/rejected": -0.6586568355560303,
      "logps/chosen": -2.6896004676818848,
      "logps/rejected": -3.3795294761657715,
      "loss": 0.7034,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -5.3792009353637695,
      "rewards/margins": 1.3798582553863525,
      "rewards/rejected": -6.759058952331543,
      "step": 120
    },
    {
      "epoch": 0.26720106880427524,
      "grad_norm": 20.698310297934206,
      "learning_rate": 1.8345732537213026e-06,
      "logits/chosen": -0.8739752769470215,
      "logits/rejected": -0.8345277905464172,
      "logps/chosen": -2.600498676300049,
      "logps/rejected": -3.1906166076660156,
      "loss": 0.6515,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -5.200997352600098,
      "rewards/margins": 1.1802361011505127,
      "rewards/rejected": -6.381233215332031,
      "step": 125
    },
    {
      "epoch": 0.27788911155644624,
      "grad_norm": 31.900476449074073,
      "learning_rate": 1.8133909445815276e-06,
      "logits/chosen": -0.876822829246521,
      "logits/rejected": -0.8683232069015503,
      "logps/chosen": -2.75192928314209,
      "logps/rejected": -3.620870590209961,
      "loss": 0.6498,
      "rewards/accuracies": 0.8062499761581421,
      "rewards/chosen": -5.50385856628418,
      "rewards/margins": 1.7378835678100586,
      "rewards/rejected": -7.241741180419922,
      "step": 130
    },
    {
      "epoch": 0.28857715430861725,
      "grad_norm": 30.23141141236411,
      "learning_rate": 1.7910710346563413e-06,
      "logits/chosen": -0.7084225416183472,
      "logits/rejected": -0.650471568107605,
      "logps/chosen": -3.4160752296447754,
      "logps/rejected": -4.176965713500977,
      "loss": 0.6394,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -6.832150459289551,
      "rewards/margins": 1.5217812061309814,
      "rewards/rejected": -8.353931427001953,
      "step": 135
    },
    {
      "epoch": 0.29926519706078825,
      "grad_norm": 29.441980968776832,
      "learning_rate": 1.767644740358011e-06,
      "logits/chosen": -0.76490318775177,
      "logits/rejected": -0.7356737852096558,
      "logps/chosen": -3.500870943069458,
      "logps/rejected": -4.334284782409668,
      "loss": 0.5747,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -7.001741886138916,
      "rewards/margins": 1.6668283939361572,
      "rewards/rejected": -8.668569564819336,
      "step": 140
    },
    {
      "epoch": 0.30995323981295925,
      "grad_norm": 28.87020107784321,
      "learning_rate": 1.743144825477394e-06,
      "logits/chosen": -0.6797415614128113,
      "logits/rejected": -0.650688648223877,
      "logps/chosen": -3.6205127239227295,
      "logps/rejected": -4.511746406555176,
      "loss": 0.6507,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -7.241025447845459,
      "rewards/margins": 1.7824666500091553,
      "rewards/rejected": -9.023492813110352,
      "step": 145
    },
    {
      "epoch": 0.32064128256513025,
      "grad_norm": 29.827503183327266,
      "learning_rate": 1.7176055553608117e-06,
      "logits/chosen": -0.7169264554977417,
      "logits/rejected": -0.6832514405250549,
      "logps/chosen": -3.934389114379883,
      "logps/rejected": -4.9375319480896,
      "loss": 0.6128,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -7.868778228759766,
      "rewards/margins": 2.0062854290008545,
      "rewards/rejected": -9.8750638961792,
      "step": 150
    },
    {
      "epoch": 0.33132932531730125,
      "grad_norm": 27.09179333048581,
      "learning_rate": 1.6910626489868648e-06,
      "logits/chosen": -0.8100920915603638,
      "logits/rejected": -0.7742663621902466,
      "logps/chosen": -3.824146270751953,
      "logps/rejected": -5.090175628662109,
      "loss": 0.6399,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -7.648292541503906,
      "rewards/margins": 2.5320582389831543,
      "rewards/rejected": -10.180351257324219,
      "step": 155
    },
    {
      "epoch": 0.3420173680694723,
      "grad_norm": 36.65170099175081,
      "learning_rate": 1.6635532290102113e-06,
      "logits/chosen": -0.8540701866149902,
      "logits/rejected": -0.8212080001831055,
      "logps/chosen": -4.092007637023926,
      "logps/rejected": -5.184715270996094,
      "loss": 0.5601,
      "rewards/accuracies": 0.8374999761581421,
      "rewards/chosen": -8.184015274047852,
      "rewards/margins": 2.185415744781494,
      "rewards/rejected": -10.369430541992188,
      "step": 160
    },
    {
      "epoch": 0.3527054108216433,
      "grad_norm": 44.09007725935235,
      "learning_rate": 1.6351157698421788e-06,
      "logits/chosen": -0.9053822755813599,
      "logits/rejected": -0.8696815371513367,
      "logps/chosen": -4.188479423522949,
      "logps/rejected": -5.3639140129089355,
      "loss": 0.5898,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -8.376958847045898,
      "rewards/margins": 2.3508691787719727,
      "rewards/rejected": -10.727828025817871,
      "step": 165
    },
    {
      "epoch": 0.3633934535738143,
      "grad_norm": 34.800340553634506,
      "learning_rate": 1.6057900438408199e-06,
      "logits/chosen": -0.8616800308227539,
      "logits/rejected": -0.8292746543884277,
      "logps/chosen": -4.644923686981201,
      "logps/rejected": -6.038055896759033,
      "loss": 0.5397,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -9.289847373962402,
      "rewards/margins": 2.7862656116485596,
      "rewards/rejected": -12.076111793518066,
      "step": 170
    },
    {
      "epoch": 0.3740814963259853,
      "grad_norm": 34.593547384833734,
      "learning_rate": 1.5756170656856736e-06,
      "logits/chosen": -0.9542654752731323,
      "logits/rejected": -0.889543354511261,
      "logps/chosen": -4.545766830444336,
      "logps/rejected": -5.687682628631592,
      "loss": 0.5562,
      "rewards/accuracies": 0.8187500238418579,
      "rewards/chosen": -9.091533660888672,
      "rewards/margins": 2.28383207321167,
      "rewards/rejected": -11.375365257263184,
      "step": 175
    },
    {
      "epoch": 0.3847695390781563,
      "grad_norm": 22.61281693291947,
      "learning_rate": 1.544639035015027e-06,
      "logits/chosen": -0.9639078378677368,
      "logits/rejected": -0.9341806173324585,
      "logps/chosen": -4.075970649719238,
      "logps/rejected": -5.5132246017456055,
      "loss": 0.513,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -8.151941299438477,
      "rewards/margins": 2.8745083808898926,
      "rewards/rejected": -11.026449203491211,
      "step": 180
    },
    {
      "epoch": 0.3954575818303273,
      "grad_norm": 21.446599953079577,
      "learning_rate": 1.5128992774059062e-06,
      "logits/chosen": -1.0559054613113403,
      "logits/rejected": -0.9924653172492981,
      "logps/chosen": -3.7231125831604004,
      "logps/rejected": -5.130820274353027,
      "loss": 0.4996,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -7.446225166320801,
      "rewards/margins": 2.815417766571045,
      "rewards/rejected": -10.261640548706055,
      "step": 185
    },
    {
      "epoch": 0.4061456245824983,
      "grad_norm": 24.863835996393608,
      "learning_rate": 1.4804421837793377e-06,
      "logits/chosen": -0.9934264421463013,
      "logits/rejected": -0.9997881054878235,
      "logps/chosen": -4.336796760559082,
      "logps/rejected": -5.937041282653809,
      "loss": 0.4682,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -8.673593521118164,
      "rewards/margins": 3.200488328933716,
      "rewards/rejected": -11.874082565307617,
      "step": 190
    },
    {
      "epoch": 0.4168336673346693,
      "grad_norm": 34.56272131407248,
      "learning_rate": 1.4473131483156324e-06,
      "logits/chosen": -0.8811644315719604,
      "logits/rejected": -0.8515303730964661,
      "logps/chosen": -5.209665298461914,
      "logps/rejected": -6.913350582122803,
      "loss": 0.515,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -10.419330596923828,
      "rewards/margins": 3.4073710441589355,
      "rewards/rejected": -13.826701164245605,
      "step": 195
    },
    {
      "epoch": 0.42752171008684037,
      "grad_norm": 26.404593181307447,
      "learning_rate": 1.4135585049665206e-06,
      "logits/chosen": -0.8241022825241089,
      "logits/rejected": -0.7840823531150818,
      "logps/chosen": -5.047942161560059,
      "logps/rejected": -6.955193996429443,
      "loss": 0.4519,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -10.095884323120117,
      "rewards/margins": 3.8145041465759277,
      "rewards/rejected": -13.910387992858887,
      "step": 200
    },
    {
      "epoch": 0.43820975283901137,
      "grad_norm": 35.5838299296831,
      "learning_rate": 1.3792254626529285e-06,
      "logits/chosen": -0.8618327975273132,
      "logits/rejected": -0.7756074666976929,
      "logps/chosen": -5.758598327636719,
      "logps/rejected": -7.596462249755859,
      "loss": 0.5778,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -11.517196655273438,
      "rewards/margins": 3.6757278442382812,
      "rewards/rejected": -15.192924499511719,
      "step": 205
    },
    {
      "epoch": 0.44889779559118237,
      "grad_norm": 42.32040382898782,
      "learning_rate": 1.3443620392390349e-06,
      "logits/chosen": -0.9941180944442749,
      "logits/rejected": -0.9657033085823059,
      "logps/chosen": -4.432991981506348,
      "logps/rejected": -6.000949859619141,
      "loss": 0.495,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -8.865983963012695,
      "rewards/margins": 3.135915756225586,
      "rewards/rejected": -12.001899719238281,
      "step": 210
    },
    {
      "epoch": 0.45958583834335337,
      "grad_norm": 28.859222169675768,
      "learning_rate": 1.3090169943749473e-06,
      "logits/chosen": -0.948104739189148,
      "logits/rejected": -0.9129034280776978,
      "logps/chosen": -3.579448699951172,
      "logps/rejected": -5.187192440032959,
      "loss": 0.4532,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -7.158897399902344,
      "rewards/margins": 3.2154877185821533,
      "rewards/rejected": -10.374384880065918,
      "step": 215
    },
    {
      "epoch": 0.47027388109552437,
      "grad_norm": 33.6510053739595,
      "learning_rate": 1.27323976130192e-06,
      "logits/chosen": -0.9587677121162415,
      "logits/rejected": -0.9107363820075989,
      "logps/chosen": -4.461714744567871,
      "logps/rejected": -6.2298054695129395,
      "loss": 0.3885,
      "rewards/accuracies": 0.856249988079071,
      "rewards/chosen": -8.923429489135742,
      "rewards/margins": 3.536180019378662,
      "rewards/rejected": -12.459610939025879,
      "step": 220
    },
    {
      "epoch": 0.48096192384769537,
      "grad_norm": 39.16622543078335,
      "learning_rate": 1.2370803777154975e-06,
      "logits/chosen": -0.7982478141784668,
      "logits/rejected": -0.7258783578872681,
      "logps/chosen": -7.227081298828125,
      "logps/rejected": -9.01085090637207,
      "loss": 0.5453,
      "rewards/accuracies": 0.8062499761581421,
      "rewards/chosen": -14.45416259765625,
      "rewards/margins": 3.5675411224365234,
      "rewards/rejected": -18.02170181274414,
      "step": 225
    },
    {
      "epoch": 0.4916499665998664,
      "grad_norm": 28.294600400326075,
      "learning_rate": 1.2005894157832728e-06,
      "logits/chosen": -0.9068690538406372,
      "logits/rejected": -0.8007113337516785,
      "logps/chosen": -5.985177516937256,
      "logps/rejected": -8.007855415344238,
      "loss": 0.4459,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -11.970355033874512,
      "rewards/margins": 4.045356750488281,
      "rewards/rejected": -16.015710830688477,
      "step": 230
    },
    {
      "epoch": 0.5023380093520374,
      "grad_norm": 26.428195821183824,
      "learning_rate": 1.1638179114151377e-06,
      "logits/chosen": -1.0134648084640503,
      "logits/rejected": -0.9478827714920044,
      "logps/chosen": -4.030945301055908,
      "logps/rejected": -5.84409761428833,
      "loss": 0.4607,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -8.061890602111816,
      "rewards/margins": 3.6263041496276855,
      "rewards/rejected": -11.68819522857666,
      "step": 235
    },
    {
      "epoch": 0.5130260521042084,
      "grad_norm": 28.506424636352925,
      "learning_rate": 1.1268172928849485e-06,
      "logits/chosen": -1.0107872486114502,
      "logits/rejected": -0.9833100438117981,
      "logps/chosen": -3.623994827270508,
      "logps/rejected": -5.339346885681152,
      "loss": 0.4664,
      "rewards/accuracies": 0.856249988079071,
      "rewards/chosen": -7.247989654541016,
      "rewards/margins": 3.4307048320770264,
      "rewards/rejected": -10.678693771362305,
      "step": 240
    },
    {
      "epoch": 0.5237140948563794,
      "grad_norm": 37.9874271990268,
      "learning_rate": 1.0896393089034335e-06,
      "logits/chosen": -1.0698987245559692,
      "logits/rejected": -0.9614090919494629,
      "logps/chosen": -4.2720537185668945,
      "logps/rejected": -6.518821716308594,
      "loss": 0.3759,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -8.544107437133789,
      "rewards/margins": 4.493536472320557,
      "rewards/rejected": -13.037643432617188,
      "step": 245
    },
    {
      "epoch": 0.5344021376085505,
      "grad_norm": 37.6233219867946,
      "learning_rate": 1.052335956242944e-06,
      "logits/chosen": -0.9640167355537415,
      "logits/rejected": -0.9025171399116516,
      "logps/chosen": -5.073387622833252,
      "logps/rejected": -7.112657070159912,
      "loss": 0.3989,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -10.146775245666504,
      "rewards/margins": 4.078539848327637,
      "rewards/rejected": -14.225314140319824,
      "step": 250
    },
    {
      "epoch": 0.5450901803607214,
      "grad_norm": 35.09471619941238,
      "learning_rate": 1.0149594070152636e-06,
      "logits/chosen": -0.9901530146598816,
      "logits/rejected": -0.9247368574142456,
      "logps/chosen": -6.148016452789307,
      "logps/rejected": -8.221637725830078,
      "loss": 0.4697,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -12.296032905578613,
      "rewards/margins": 4.147244930267334,
      "rewards/rejected": -16.443275451660156,
      "step": 255
    },
    {
      "epoch": 0.5557782231128925,
      "grad_norm": 39.356165818725984,
      "learning_rate": 9.77561935704195e-07,
      "logits/chosen": -0.9357139468193054,
      "logits/rejected": -0.858476459980011,
      "logps/chosen": -6.003566741943359,
      "logps/rejected": -8.099205017089844,
      "loss": 0.4241,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -12.007133483886719,
      "rewards/margins": 4.191277027130127,
      "rewards/rejected": -16.198410034179688,
      "step": 260
    },
    {
      "epoch": 0.5664662658650634,
      "grad_norm": 20.857149706425567,
      "learning_rate": 9.401958460549657e-07,
      "logits/chosen": -0.8877873420715332,
      "logits/rejected": -0.8332953453063965,
      "logps/chosen": -5.713176250457764,
      "logps/rejected": -7.9226484298706055,
      "loss": 0.4085,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -11.426352500915527,
      "rewards/margins": 4.418946266174316,
      "rewards/rejected": -15.845296859741211,
      "step": 265
    },
    {
      "epoch": 0.5771543086172345,
      "grad_norm": 37.11096746877866,
      "learning_rate": 9.029133979227118e-07,
      "logits/chosen": -0.9584988355636597,
      "logits/rejected": -0.9051562547683716,
      "logps/chosen": -4.586709976196289,
      "logps/rejected": -6.5038323402404785,
      "loss": 0.4022,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -9.173419952392578,
      "rewards/margins": 3.8342444896698,
      "rewards/rejected": -13.007664680480957,
      "step": 270
    },
    {
      "epoch": 0.5878423513694054,
      "grad_norm": 25.04133162285963,
      "learning_rate": 8.657667341823448e-07,
      "logits/chosen": -0.9564048051834106,
      "logits/rejected": -0.8701663017272949,
      "logps/chosen": -4.893515586853027,
      "logps/rejected": -6.940362453460693,
      "loss": 0.4312,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -9.787031173706055,
      "rewards/margins": 4.093693256378174,
      "rewards/rejected": -13.880724906921387,
      "step": 275
    },
    {
      "epoch": 0.5985303941215765,
      "grad_norm": 31.64139590058085,
      "learning_rate": 8.288078078020249e-07,
      "logits/chosen": -1.0176098346710205,
      "logits/rejected": -0.9464299082756042,
      "logps/chosen": -5.894881248474121,
      "logps/rejected": -8.109701156616211,
      "loss": 0.4212,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -11.789762496948242,
      "rewards/margins": 4.429640769958496,
      "rewards/rejected": -16.219402313232422,
      "step": 280
    },
    {
      "epoch": 0.6092184368737475,
      "grad_norm": 34.98704174006504,
      "learning_rate": 7.920883091822408e-07,
      "logits/chosen": -1.0222933292388916,
      "logits/rejected": -0.9283574223518372,
      "logps/chosen": -5.977299213409424,
      "logps/rejected": -8.55643081665039,
      "loss": 0.3473,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -11.954598426818848,
      "rewards/margins": 5.158264636993408,
      "rewards/rejected": -17.11286163330078,
      "step": 285
    },
    {
      "epoch": 0.6199064796259185,
      "grad_norm": 43.7429550932754,
      "learning_rate": 7.556595938621058e-07,
      "logits/chosen": -1.0368258953094482,
      "logits/rejected": -0.9450758099555969,
      "logps/chosen": -6.416205406188965,
      "logps/rejected": -8.702176094055176,
      "loss": 0.4135,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -12.83241081237793,
      "rewards/margins": 4.571939945220947,
      "rewards/rejected": -17.40435218811035,
      "step": 290
    },
    {
      "epoch": 0.6305945223780896,
      "grad_norm": 38.571708947108014,
      "learning_rate": 7.195726106939973e-07,
      "logits/chosen": -1.0127325057983398,
      "logits/rejected": -0.9613968729972839,
      "logps/chosen": -6.0891900062561035,
      "logps/rejected": -8.455511093139648,
      "loss": 0.3415,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -12.178380012512207,
      "rewards/margins": 4.73264217376709,
      "rewards/rejected": -16.911022186279297,
      "step": 295
    },
    {
      "epoch": 0.6412825651302605,
      "grad_norm": 37.02547097442152,
      "learning_rate": 6.838778305869759e-07,
      "logits/chosen": -0.9378641247749329,
      "logits/rejected": -0.8806314468383789,
      "logps/chosen": -6.423588752746582,
      "logps/rejected": -8.611102104187012,
      "loss": 0.4404,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -12.847177505493164,
      "rewards/margins": 4.375027656555176,
      "rewards/rejected": -17.222204208374023,
      "step": 300
    },
    {
      "epoch": 0.6519706078824316,
      "grad_norm": 35.55070245031894,
      "learning_rate": 6.486251759186572e-07,
      "logits/chosen": -1.0858322381973267,
      "logits/rejected": -0.9954659342765808,
      "logps/chosen": -5.805714130401611,
      "logps/rejected": -7.78420877456665,
      "loss": 0.4396,
      "rewards/accuracies": 0.831250011920929,
      "rewards/chosen": -11.611428260803223,
      "rewards/margins": 3.956988573074341,
      "rewards/rejected": -15.5684175491333,
      "step": 305
    },
    {
      "epoch": 0.6626586506346025,
      "grad_norm": 51.53731628000405,
      "learning_rate": 6.138639507142538e-07,
      "logits/chosen": -1.175060749053955,
      "logits/rejected": -1.1142823696136475,
      "logps/chosen": -5.7005181312561035,
      "logps/rejected": -7.967810153961182,
      "loss": 0.4227,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -11.401036262512207,
      "rewards/margins": 4.534584999084473,
      "rewards/rejected": -15.935620307922363,
      "step": 310
    },
    {
      "epoch": 0.6733466933867736,
      "grad_norm": 29.428644028564324,
      "learning_rate": 5.796427716904346e-07,
      "logits/chosen": -1.1236612796783447,
      "logits/rejected": -1.0238118171691895,
      "logps/chosen": -6.259681701660156,
      "logps/rejected": -8.45996379852295,
      "loss": 0.3742,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -12.519363403320312,
      "rewards/margins": 4.400565147399902,
      "rewards/rejected": -16.9199275970459,
      "step": 315
    },
    {
      "epoch": 0.6840347361389446,
      "grad_norm": 38.71321431370745,
      "learning_rate": 5.460095002604532e-07,
      "logits/chosen": -1.11953866481781,
      "logits/rejected": -1.0796916484832764,
      "logps/chosen": -6.55707311630249,
      "logps/rejected": -9.187610626220703,
      "loss": 0.3626,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -13.11414623260498,
      "rewards/margins": 5.2610764503479,
      "rewards/rejected": -18.375221252441406,
      "step": 320
    },
    {
      "epoch": 0.6947227788911156,
      "grad_norm": 38.929986299465604,
      "learning_rate": 5.130111755956327e-07,
      "logits/chosen": -1.1838449239730835,
      "logits/rejected": -1.0870417356491089,
      "logps/chosen": -6.676375389099121,
      "logps/rejected": -9.317723274230957,
      "loss": 0.4211,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -13.352750778198242,
      "rewards/margins": 5.282693862915039,
      "rewards/rejected": -18.635446548461914,
      "step": 325
    },
    {
      "epoch": 0.7054108216432866,
      "grad_norm": 26.360971338492213,
      "learning_rate": 4.806939488368308e-07,
      "logits/chosen": -1.0527994632720947,
      "logits/rejected": -0.9714158177375793,
      "logps/chosen": -6.790243625640869,
      "logps/rejected": -8.82271671295166,
      "loss": 0.3754,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -13.580487251281738,
      "rewards/margins": 4.06494665145874,
      "rewards/rejected": -17.64543342590332,
      "step": 330
    },
    {
      "epoch": 0.7160988643954576,
      "grad_norm": 37.25228754273986,
      "learning_rate": 4.4910301854789755e-07,
      "logits/chosen": -1.092002511024475,
      "logits/rejected": -1.0370265245437622,
      "logps/chosen": -6.746194362640381,
      "logps/rejected": -8.957503318786621,
      "loss": 0.379,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -13.492388725280762,
      "rewards/margins": 4.4226179122924805,
      "rewards/rejected": -17.915006637573242,
      "step": 335
    },
    {
      "epoch": 0.7267869071476286,
      "grad_norm": 41.78732477890408,
      "learning_rate": 4.1828256750139443e-07,
      "logits/chosen": -1.15060555934906,
      "logits/rejected": -1.0927339792251587,
      "logps/chosen": -6.618721008300781,
      "logps/rejected": -8.740182876586914,
      "loss": 0.4272,
      "rewards/accuracies": 0.856249988079071,
      "rewards/chosen": -13.237442016601562,
      "rewards/margins": 4.242924213409424,
      "rewards/rejected": -17.480365753173828,
      "step": 340
    },
    {
      "epoch": 0.7374749498997996,
      "grad_norm": 31.334898714386284,
      "learning_rate": 3.882757008849935e-07,
      "logits/chosen": -1.1759268045425415,
      "logits/rejected": -1.125778317451477,
      "logps/chosen": -7.186532020568848,
      "logps/rejected": -9.452940940856934,
      "loss": 0.3551,
      "rewards/accuracies": 0.925000011920929,
      "rewards/chosen": -14.373064041137695,
      "rewards/margins": 4.532819747924805,
      "rewards/rejected": -18.905881881713867,
      "step": 345
    },
    {
      "epoch": 0.7481629926519706,
      "grad_norm": 29.63352796318247,
      "learning_rate": 3.5912438601497584e-07,
      "logits/chosen": -1.186089038848877,
      "logits/rejected": -1.1533267498016357,
      "logps/chosen": -6.283223628997803,
      "logps/rejected": -8.40349006652832,
      "loss": 0.3724,
      "rewards/accuracies": 0.862500011920929,
      "rewards/chosen": -12.566447257995605,
      "rewards/margins": 4.2405314445495605,
      "rewards/rejected": -16.80698013305664,
      "step": 350
    },
    {
      "epoch": 0.7588510354041417,
      "grad_norm": 37.40129439705042,
      "learning_rate": 3.308693936411421e-07,
      "logits/chosen": -1.0497562885284424,
      "logits/rejected": -1.0346195697784424,
      "logps/chosen": -6.789434909820557,
      "logps/rejected": -9.07376766204834,
      "loss": 0.3605,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -13.578869819641113,
      "rewards/margins": 4.568666458129883,
      "rewards/rejected": -18.14753532409668,
      "step": 355
    },
    {
      "epoch": 0.7695390781563126,
      "grad_norm": 42.85252213793353,
      "learning_rate": 3.035502409252333e-07,
      "logits/chosen": -1.11203134059906,
      "logits/rejected": -1.0642902851104736,
      "logps/chosen": -6.502237796783447,
      "logps/rejected": -9.193612098693848,
      "loss": 0.4275,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -13.004475593566895,
      "rewards/margins": 5.382746696472168,
      "rewards/rejected": -18.387224197387695,
      "step": 360
    },
    {
      "epoch": 0.7802271209084837,
      "grad_norm": 45.248127741114246,
      "learning_rate": 2.7720513617260855e-07,
      "logits/chosen": -1.1741015911102295,
      "logits/rejected": -1.0450173616409302,
      "logps/chosen": -6.776492118835449,
      "logps/rejected": -9.342794418334961,
      "loss": 0.3758,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -13.552984237670898,
      "rewards/margins": 5.132604598999023,
      "rewards/rejected": -18.685588836669922,
      "step": 365
    },
    {
      "epoch": 0.7909151636606546,
      "grad_norm": 70.88406643518205,
      "learning_rate": 2.5187092539447294e-07,
      "logits/chosen": -1.1018563508987427,
      "logits/rejected": -1.0579187870025635,
      "logps/chosen": -6.298445701599121,
      "logps/rejected": -8.556467056274414,
      "loss": 0.3808,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -12.596891403198242,
      "rewards/margins": 4.516043663024902,
      "rewards/rejected": -17.112934112548828,
      "step": 370
    },
    {
      "epoch": 0.8016032064128257,
      "grad_norm": 41.80456248679069,
      "learning_rate": 2.2758304077540058e-07,
      "logits/chosen": -1.1480379104614258,
      "logits/rejected": -1.1150692701339722,
      "logps/chosen": -6.318451881408691,
      "logps/rejected": -8.656303405761719,
      "loss": 0.3586,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -12.636903762817383,
      "rewards/margins": 4.675703525543213,
      "rewards/rejected": -17.312606811523438,
      "step": 375
    },
    {
      "epoch": 0.8122912491649966,
      "grad_norm": 31.017236490830967,
      "learning_rate": 2.043754511182191e-07,
      "logits/chosen": -1.1511554718017578,
      "logits/rejected": -1.0976629257202148,
      "logps/chosen": -6.138351917266846,
      "logps/rejected": -8.664915084838867,
      "loss": 0.4,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -12.276703834533691,
      "rewards/margins": 5.053128242492676,
      "rewards/rejected": -17.329830169677734,
      "step": 380
    },
    {
      "epoch": 0.8229792919171677,
      "grad_norm": 26.351372088988093,
      "learning_rate": 1.8228061433556864e-07,
      "logits/chosen": -1.1164242029190063,
      "logits/rejected": -1.0599582195281982,
      "logps/chosen": -6.1393351554870605,
      "logps/rejected": -8.908954620361328,
      "loss": 0.3271,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -12.278670310974121,
      "rewards/margins": 5.539238929748535,
      "rewards/rejected": -17.817909240722656,
      "step": 385
    },
    {
      "epoch": 0.8336673346693386,
      "grad_norm": 40.004488570738765,
      "learning_rate": 1.6132943205457606e-07,
      "logits/chosen": -1.1820439100265503,
      "logits/rejected": -1.1261646747589111,
      "logps/chosen": -6.401742458343506,
      "logps/rejected": -8.99330997467041,
      "loss": 0.4273,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -12.803484916687012,
      "rewards/margins": 5.183135032653809,
      "rewards/rejected": -17.98661994934082,
      "step": 390
    },
    {
      "epoch": 0.8443553774215097,
      "grad_norm": 41.3303995282676,
      "learning_rate": 1.415512063981339e-07,
      "logits/chosen": -1.1933691501617432,
      "logits/rejected": -1.143477201461792,
      "logps/chosen": -6.095961093902588,
      "logps/rejected": -8.315205574035645,
      "loss": 0.3615,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -12.191922187805176,
      "rewards/margins": 4.438488960266113,
      "rewards/rejected": -16.63041114807129,
      "step": 395
    },
    {
      "epoch": 0.8550434201736807,
      "grad_norm": 30.146673376540157,
      "learning_rate": 1.2297359900323344e-07,
      "logits/chosen": -1.185856819152832,
      "logits/rejected": -1.149908423423767,
      "logps/chosen": -6.064610958099365,
      "logps/rejected": -8.274811744689941,
      "loss": 0.3805,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -12.12922191619873,
      "rewards/margins": 4.420398712158203,
      "rewards/rejected": -16.549623489379883,
      "step": 400
    },
    {
      "epoch": 0.8550434201736807,
      "eval_logits/chosen": -1.3878380060195923,
      "eval_logits/rejected": -1.3844929933547974,
      "eval_logps/chosen": -5.970302104949951,
      "eval_logps/rejected": -8.178492546081543,
      "eval_loss": 0.34991469979286194,
      "eval_rewards/accuracies": 0.9004064798355103,
      "eval_rewards/chosen": -11.940604209899902,
      "eval_rewards/margins": 4.416379928588867,
      "eval_rewards/rejected": -16.356985092163086,
      "eval_runtime": 98.864,
      "eval_samples_per_second": 19.835,
      "eval_steps_per_second": 1.244,
      "step": 400
    },
    {
      "epoch": 0.8657314629258517,
      "grad_norm": 39.23606930955491,
      "learning_rate": 1.0562259233366333e-07,
      "logits/chosen": -1.1601266860961914,
      "logits/rejected": -1.1533467769622803,
      "logps/chosen": -6.3432416915893555,
      "logps/rejected": -8.685356140136719,
      "loss": 0.3527,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -12.686483383178711,
      "rewards/margins": 4.684228420257568,
      "rewards/rejected": -17.370712280273438,
      "step": 405
    },
    {
      "epoch": 0.8764195056780227,
      "grad_norm": 44.84060293631811,
      "learning_rate": 8.952245334118413e-08,
      "logits/chosen": -1.1762316226959229,
      "logits/rejected": -1.1400468349456787,
      "logps/chosen": -5.951014041900635,
      "logps/rejected": -8.487456321716309,
      "loss": 0.372,
      "rewards/accuracies": 0.8812500238418579,
      "rewards/chosen": -11.90202808380127,
      "rewards/margins": 5.072883605957031,
      "rewards/rejected": -16.974912643432617,
      "step": 410
    },
    {
      "epoch": 0.8871075484301937,
      "grad_norm": 31.58697079899106,
      "learning_rate": 7.46956995260033e-08,
      "logits/chosen": -1.1965105533599854,
      "logits/rejected": -1.0948525667190552,
      "logps/chosen": -5.939952373504639,
      "logps/rejected": -8.576761245727539,
      "loss": 0.3642,
      "rewards/accuracies": 0.887499988079071,
      "rewards/chosen": -11.879904747009277,
      "rewards/margins": 5.273618698120117,
      "rewards/rejected": -17.153522491455078,
      "step": 415
    },
    {
      "epoch": 0.8977955911823647,
      "grad_norm": 56.62718923940337,
      "learning_rate": 6.11630674440139e-08,
      "logits/chosen": -1.2364650964736938,
      "logits/rejected": -1.1493674516677856,
      "logps/chosen": -5.8380866050720215,
      "logps/rejected": -8.528668403625488,
      "loss": 0.3543,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -11.676173210144043,
      "rewards/margins": 5.381163597106934,
      "rewards/rejected": -17.057336807250977,
      "step": 420
    },
    {
      "epoch": 0.9084836339345357,
      "grad_norm": 26.88857335924454,
      "learning_rate": 4.8943483704846465e-08,
      "logits/chosen": -1.2132270336151123,
      "logits/rejected": -1.1822996139526367,
      "logps/chosen": -6.329747200012207,
      "logps/rejected": -8.68973159790039,
      "loss": 0.378,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -12.659494400024414,
      "rewards/margins": 4.719969749450684,
      "rewards/rejected": -17.37946319580078,
      "step": 425
    },
    {
      "epoch": 0.9191716766867067,
      "grad_norm": 29.204672971590583,
      "learning_rate": 3.805403850129407e-08,
      "logits/chosen": -1.1887871026992798,
      "logits/rejected": -1.1395562887191772,
      "logps/chosen": -6.298637866973877,
      "logps/rejected": -8.703396797180176,
      "loss": 0.3701,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -12.597275733947754,
      "rewards/margins": 4.809514999389648,
      "rewards/rejected": -17.40679359436035,
      "step": 430
    },
    {
      "epoch": 0.9298597194388778,
      "grad_norm": 41.83119701192464,
      "learning_rate": 2.8509961707132492e-08,
      "logits/chosen": -1.1526520252227783,
      "logits/rejected": -1.087210774421692,
      "logps/chosen": -5.99376106262207,
      "logps/rejected": -8.27347183227539,
      "loss": 0.3539,
      "rewards/accuracies": 0.893750011920929,
      "rewards/chosen": -11.98752212524414,
      "rewards/margins": 4.559422492980957,
      "rewards/rejected": -16.54694366455078,
      "step": 435
    },
    {
      "epoch": 0.9405477621910487,
      "grad_norm": 27.28448585229794,
      "learning_rate": 2.032460157676452e-08,
      "logits/chosen": -1.1298894882202148,
      "logits/rejected": -1.049036979675293,
      "logps/chosen": -6.4232072830200195,
      "logps/rejected": -8.850305557250977,
      "loss": 0.3414,
      "rewards/accuracies": 0.918749988079071,
      "rewards/chosen": -12.846414566040039,
      "rewards/margins": 4.854195594787598,
      "rewards/rejected": -17.700611114501953,
      "step": 440
    },
    {
      "epoch": 0.9512358049432198,
      "grad_norm": 31.150711268639814,
      "learning_rate": 1.3509406076478659e-08,
      "logits/chosen": -1.1100740432739258,
      "logits/rejected": -1.0567227602005005,
      "logps/chosen": -6.3755292892456055,
      "logps/rejected": -9.159284591674805,
      "loss": 0.344,
      "rewards/accuracies": 0.9375,
      "rewards/chosen": -12.751058578491211,
      "rewards/margins": 5.567511081695557,
      "rewards/rejected": -18.31856918334961,
      "step": 445
    },
    {
      "epoch": 0.9619238476953907,
      "grad_norm": 33.19068830748795,
      "learning_rate": 8.07390687343379e-09,
      "logits/chosen": -1.250570297241211,
      "logits/rejected": -1.1990430355072021,
      "logps/chosen": -6.264920711517334,
      "logps/rejected": -8.49793815612793,
      "loss": 0.3294,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -12.529841423034668,
      "rewards/margins": 4.466032981872559,
      "rewards/rejected": -16.99587631225586,
      "step": 450
    },
    {
      "epoch": 0.9726118904475618,
      "grad_norm": 42.76771467797157,
      "learning_rate": 4.025706004760931e-09,
      "logits/chosen": -1.1908820867538452,
      "logits/rejected": -1.1271415948867798,
      "logps/chosen": -6.330782890319824,
      "logps/rejected": -9.00413703918457,
      "loss": 0.3373,
      "rewards/accuracies": 0.956250011920929,
      "rewards/chosen": -12.661565780639648,
      "rewards/margins": 5.346711158752441,
      "rewards/rejected": -18.00827407836914,
      "step": 455
    },
    {
      "epoch": 0.9832999331997327,
      "grad_norm": 28.947424332254975,
      "learning_rate": 1.3704652454261667e-09,
      "logits/chosen": -1.1968469619750977,
      "logits/rejected": -1.1597331762313843,
      "logps/chosen": -6.481853485107422,
      "logps/rejected": -9.090927124023438,
      "loss": 0.3515,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -12.963706970214844,
      "rewards/margins": 5.218146800994873,
      "rewards/rejected": -18.181854248046875,
      "step": 460
    },
    {
      "epoch": 0.9939879759519038,
      "grad_norm": 39.23731303488194,
      "learning_rate": 1.1189818972656696e-10,
      "logits/chosen": -1.163874864578247,
      "logits/rejected": -1.1393449306488037,
      "logps/chosen": -6.374614715576172,
      "logps/rejected": -9.016167640686035,
      "loss": 0.3467,
      "rewards/accuracies": 0.9125000238418579,
      "rewards/chosen": -12.749229431152344,
      "rewards/margins": 5.283105373382568,
      "rewards/rejected": -18.03233528137207,
      "step": 465
    },
    {
      "epoch": 0.9982631930527722,
      "step": 467,
      "total_flos": 0.0,
      "train_loss": 0.5656856803873622,
      "train_runtime": 11731.0657,
      "train_samples_per_second": 5.104,
      "train_steps_per_second": 0.04
    }
  ],
  "logging_steps": 5,
  "max_steps": 467,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}