{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.998691442030882,
  "eval_steps": 500,
  "global_step": 477,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.010468463752944255,
      "grad_norm": 31.324190504537746,
      "learning_rate": 1.0416666666666667e-07,
      "logits/chosen": -0.49775856733322144,
      "logits/rejected": -0.5134874582290649,
      "logps/chosen": -1.1746575832366943,
      "logps/rejected": -1.3592634201049805,
      "loss": 2.1738,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.1746575832366943,
      "rewards/margins": 0.18460586667060852,
      "rewards/rejected": -1.3592634201049805,
      "step": 5
    },
    {
      "epoch": 0.02093692750588851,
      "grad_norm": 17.522763098577006,
      "learning_rate": 2.0833333333333333e-07,
      "logits/chosen": -0.5211091637611389,
      "logits/rejected": -0.49808019399642944,
      "logps/chosen": -1.1585900783538818,
      "logps/rejected": -1.2622541189193726,
      "loss": 2.1407,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.1585900783538818,
      "rewards/margins": 0.10366388410329819,
      "rewards/rejected": -1.2622541189193726,
      "step": 10
    },
    {
      "epoch": 0.031405391258832765,
      "grad_norm": 25.192278194697494,
      "learning_rate": 3.1249999999999997e-07,
      "logits/chosen": -0.461596816778183,
      "logits/rejected": -0.45038098096847534,
      "logps/chosen": -1.1062204837799072,
      "logps/rejected": -1.3620827198028564,
      "loss": 2.1074,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1062204837799072,
      "rewards/margins": 0.255862295627594,
      "rewards/rejected": -1.3620827198028564,
      "step": 15
    },
    {
      "epoch": 0.04187385501177702,
      "grad_norm": 44.544789847879194,
      "learning_rate": 4.1666666666666667e-07,
      "logits/chosen": -0.4408242106437683,
      "logits/rejected": -0.45246267318725586,
      "logps/chosen": -1.1579445600509644,
      "logps/rejected": -1.2627536058425903,
      "loss": 2.1651,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.1579445600509644,
      "rewards/margins": 0.10480908304452896,
      "rewards/rejected": -1.2627536058425903,
      "step": 20
    },
    {
      "epoch": 0.05234231876472128,
      "grad_norm": 11.346692540130856,
      "learning_rate": 5.208333333333334e-07,
      "logits/chosen": -0.5032289028167725,
      "logits/rejected": -0.4789913296699524,
      "logps/chosen": -1.166441559791565,
      "logps/rejected": -1.2368651628494263,
      "loss": 2.1373,
      "rewards/accuracies": 0.5249999761581421,
      "rewards/chosen": -1.166441559791565,
      "rewards/margins": 0.07042353600263596,
      "rewards/rejected": -1.2368651628494263,
      "step": 25
    },
    {
      "epoch": 0.06281078251766553,
      "grad_norm": 28.570034370144306,
      "learning_rate": 6.249999999999999e-07,
      "logits/chosen": -0.49172288179397583,
      "logits/rejected": -0.4948248267173767,
      "logps/chosen": -1.1403913497924805,
      "logps/rejected": -1.275451898574829,
      "loss": 2.163,
      "rewards/accuracies": 0.518750011920929,
      "rewards/chosen": -1.1403913497924805,
      "rewards/margins": 0.13506053388118744,
      "rewards/rejected": -1.275451898574829,
      "step": 30
    },
    {
      "epoch": 0.07327924627060979,
      "grad_norm": 19.91642226793408,
      "learning_rate": 7.291666666666666e-07,
      "logits/chosen": -0.47831740975379944,
      "logits/rejected": -0.4338778853416443,
      "logps/chosen": -1.1529806852340698,
      "logps/rejected": -1.3276116847991943,
      "loss": 2.1154,
      "rewards/accuracies": 0.5562499761581421,
      "rewards/chosen": -1.1529806852340698,
      "rewards/margins": 0.1746309995651245,
      "rewards/rejected": -1.3276116847991943,
      "step": 35
    },
    {
      "epoch": 0.08374771002355404,
      "grad_norm": 26.52326580399366,
      "learning_rate": 8.333333333333333e-07,
      "logits/chosen": -0.4782256484031677,
      "logits/rejected": -0.4668501019477844,
      "logps/chosen": -1.108135461807251,
      "logps/rejected": -1.4614675045013428,
      "loss": 2.0666,
      "rewards/accuracies": 0.643750011920929,
      "rewards/chosen": -1.108135461807251,
      "rewards/margins": 0.353331983089447,
      "rewards/rejected": -1.4614675045013428,
      "step": 40
    },
    {
      "epoch": 0.0942161737764983,
      "grad_norm": 13.796799671660693,
      "learning_rate": 9.374999999999999e-07,
      "logits/chosen": -0.44356870651245117,
      "logits/rejected": -0.4471743702888489,
      "logps/chosen": -1.0965029001235962,
      "logps/rejected": -1.3664577007293701,
      "loss": 2.0864,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": -1.0965029001235962,
      "rewards/margins": 0.26995497941970825,
      "rewards/rejected": -1.3664577007293701,
      "step": 45
    },
    {
      "epoch": 0.10468463752944256,
      "grad_norm": 30.371297005919416,
      "learning_rate": 9.999463737538052e-07,
      "logits/chosen": -0.461489200592041,
      "logits/rejected": -0.4655645489692688,
      "logps/chosen": -1.1575626134872437,
      "logps/rejected": -1.4973771572113037,
      "loss": 2.1199,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": -1.1575626134872437,
      "rewards/margins": 0.3398147225379944,
      "rewards/rejected": -1.4973771572113037,
      "step": 50
    },
    {
      "epoch": 0.11515310128238682,
      "grad_norm": 26.67718500476433,
      "learning_rate": 9.993432105822034e-07,
      "logits/chosen": -0.4001489281654358,
      "logits/rejected": -0.37682315707206726,
      "logps/chosen": -1.1248127222061157,
      "logps/rejected": -1.4001871347427368,
      "loss": 2.0897,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.1248127222061157,
      "rewards/margins": 0.27537447214126587,
      "rewards/rejected": -1.4001871347427368,
      "step": 55
    },
    {
      "epoch": 0.12562156503533106,
      "grad_norm": 15.812441875154704,
      "learning_rate": 9.980706626858607e-07,
      "logits/chosen": -0.43878427147865295,
      "logits/rejected": -0.4231850504875183,
      "logps/chosen": -1.2165329456329346,
      "logps/rejected": -1.3715764284133911,
      "loss": 2.0665,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2165329456329346,
      "rewards/margins": 0.1550435572862625,
      "rewards/rejected": -1.3715764284133911,
      "step": 60
    },
    {
      "epoch": 0.1360900287882753,
      "grad_norm": 32.69892893599103,
      "learning_rate": 9.961304359538434e-07,
      "logits/chosen": -0.38188332319259644,
      "logits/rejected": -0.30855393409729004,
      "logps/chosen": -1.1145586967468262,
      "logps/rejected": -1.7429344654083252,
      "loss": 2.0414,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.1145586967468262,
      "rewards/margins": 0.6283758878707886,
      "rewards/rejected": -1.7429344654083252,
      "step": 65
    },
    {
      "epoch": 0.14655849254121958,
      "grad_norm": 44.90817025126785,
      "learning_rate": 9.935251313189563e-07,
      "logits/chosen": -0.27111151814460754,
      "logits/rejected": -0.24608612060546875,
      "logps/chosen": -1.1660597324371338,
      "logps/rejected": -1.5309925079345703,
      "loss": 2.0234,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": -1.1660597324371338,
      "rewards/margins": 0.3649328947067261,
      "rewards/rejected": -1.5309925079345703,
      "step": 70
    },
    {
      "epoch": 0.15702695629416383,
      "grad_norm": 38.268073195027156,
      "learning_rate": 9.902582412711118e-07,
      "logits/chosen": -0.28683459758758545,
      "logits/rejected": -0.25514599680900574,
      "logps/chosen": -1.1409043073654175,
      "logps/rejected": -1.5740129947662354,
      "loss": 2.0488,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.1409043073654175,
      "rewards/margins": 0.4331088066101074,
      "rewards/rejected": -1.5740129947662354,
      "step": 75
    },
    {
      "epoch": 0.16749542004710807,
      "grad_norm": 23.626638109106274,
      "learning_rate": 9.86334145175542e-07,
      "logits/chosen": -0.40040236711502075,
      "logits/rejected": -0.3598732650279999,
      "logps/chosen": -1.1197240352630615,
      "logps/rejected": -1.6543350219726562,
      "loss": 2.0889,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -1.1197240352630615,
      "rewards/margins": 0.5346111059188843,
      "rewards/rejected": -1.6543350219726562,
      "step": 80
    },
    {
      "epoch": 0.17796388380005235,
      "grad_norm": 21.67675055841775,
      "learning_rate": 9.817581034021272e-07,
      "logits/chosen": -0.4968738555908203,
      "logits/rejected": -0.4568953514099121,
      "logps/chosen": -1.1042544841766357,
      "logps/rejected": -1.4778095483779907,
      "loss": 2.0732,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -1.1042544841766357,
      "rewards/margins": 0.37355509400367737,
      "rewards/rejected": -1.4778095483779907,
      "step": 85
    },
    {
      "epoch": 0.1884323475529966,
      "grad_norm": 32.61370646153053,
      "learning_rate": 9.765362502737097e-07,
      "logits/chosen": -0.4779502749443054,
      "logits/rejected": -0.44491392374038696,
      "logps/chosen": -1.144523024559021,
      "logps/rejected": -1.4939491748809814,
      "loss": 2.0171,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.144523024559021,
      "rewards/margins": 0.3494262099266052,
      "rewards/rejected": -1.4939491748809814,
      "step": 90
    },
    {
      "epoch": 0.19890081130594087,
      "grad_norm": 29.010011255606027,
      "learning_rate": 9.706755858428485e-07,
      "logits/chosen": -0.4942244589328766,
      "logits/rejected": -0.39027169346809387,
      "logps/chosen": -1.2216947078704834,
      "logps/rejected": -1.6423091888427734,
      "loss": 2.0511,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2216947078704834,
      "rewards/margins": 0.4206143319606781,
      "rewards/rejected": -1.6423091888427734,
      "step": 95
    },
    {
      "epoch": 0.2093692750588851,
      "grad_norm": 25.050588840086288,
      "learning_rate": 9.641839665080363e-07,
      "logits/chosen": -0.46108850836753845,
      "logits/rejected": -0.423541396856308,
      "logps/chosen": -1.1832860708236694,
      "logps/rejected": -1.7398521900177002,
      "loss": 2.0554,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": -1.1832860708236694,
      "rewards/margins": 0.5565661787986755,
      "rewards/rejected": -1.7398521900177002,
      "step": 100
    },
    {
      "epoch": 0.21983773881182936,
      "grad_norm": 76.09509812922548,
      "learning_rate": 9.570700944819582e-07,
      "logits/chosen": -0.48844489455223083,
      "logits/rejected": -0.47664815187454224,
      "logps/chosen": -1.065321683883667,
      "logps/rejected": -1.5008853673934937,
      "loss": 2.0306,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.065321683883667,
      "rewards/margins": 0.4355636537075043,
      "rewards/rejected": -1.5008853673934937,
      "step": 105
    },
    {
      "epoch": 0.23030620256477363,
      "grad_norm": 87.9539848283412,
      "learning_rate": 9.493435061259129e-07,
      "logits/chosen": -0.5218511819839478,
      "logits/rejected": -0.49293455481529236,
      "logps/chosen": -1.0804827213287354,
      "logps/rejected": -1.5555989742279053,
      "loss": 2.0182,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.0804827213287354,
      "rewards/margins": 0.4751162528991699,
      "rewards/rejected": -1.5555989742279053,
      "step": 110
    },
    {
      "epoch": 0.24077466631771788,
      "grad_norm": 24.95587592194343,
      "learning_rate": 9.4101455916603e-07,
      "logits/chosen": -0.4004356265068054,
      "logits/rejected": -0.34801220893859863,
      "logps/chosen": -1.1054725646972656,
      "logps/rejected": -1.7531585693359375,
      "loss": 1.9992,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.1054725646972656,
      "rewards/margins": 0.6476858854293823,
      "rewards/rejected": -1.7531585693359375,
      "step": 115
    },
    {
      "epoch": 0.2512431300706621,
      "grad_norm": 53.12789958164912,
      "learning_rate": 9.320944188084241e-07,
      "logits/chosen": -0.3867969810962677,
      "logits/rejected": -0.3542706072330475,
      "logps/chosen": -1.3296326398849487,
      "logps/rejected": -1.7101236581802368,
      "loss": 2.069,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.3296326398849487,
      "rewards/margins": 0.3804909884929657,
      "rewards/rejected": -1.7101236581802368,
      "step": 120
    },
    {
      "epoch": 0.26171159382360637,
      "grad_norm": 25.68062394354381,
      "learning_rate": 9.225950427718974e-07,
      "logits/chosen": -0.4343915581703186,
      "logits/rejected": -0.40751656889915466,
      "logps/chosen": -1.1859281063079834,
      "logps/rejected": -1.5661814212799072,
      "loss": 2.0229,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.1859281063079834,
      "rewards/margins": 0.3802531659603119,
      "rewards/rejected": -1.5661814212799072,
      "step": 125
    },
    {
      "epoch": 0.2721800575765506,
      "grad_norm": 146.99732744643043,
      "learning_rate": 9.125291652582547e-07,
      "logits/chosen": -0.43255624175071716,
      "logits/rejected": -0.42008519172668457,
      "logps/chosen": -1.1270229816436768,
      "logps/rejected": -1.3844034671783447,
      "loss": 2.0368,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -1.1270229816436768,
      "rewards/margins": 0.2573803663253784,
      "rewards/rejected": -1.3844034671783447,
      "step": 130
    },
    {
      "epoch": 0.2826485213294949,
      "grad_norm": 42.69972929682183,
      "learning_rate": 9.019102798817195e-07,
      "logits/chosen": -0.5087494254112244,
      "logits/rejected": -0.4200964570045471,
      "logps/chosen": -1.1956226825714111,
      "logps/rejected": -1.9745105504989624,
      "loss": 1.9952,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.1956226825714111,
      "rewards/margins": 0.7788880467414856,
      "rewards/rejected": -1.9745105504989624,
      "step": 135
    },
    {
      "epoch": 0.29311698508243916,
      "grad_norm": 19.87017547277629,
      "learning_rate": 8.90752621580335e-07,
      "logits/chosen": -0.4257656931877136,
      "logits/rejected": -0.364449143409729,
      "logps/chosen": -1.2079570293426514,
      "logps/rejected": -1.8338918685913086,
      "loss": 1.9605,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.2079570293426514,
      "rewards/margins": 0.6259347200393677,
      "rewards/rejected": -1.8338918685913086,
      "step": 140
    },
    {
      "epoch": 0.3035854488353834,
      "grad_norm": 15.24234201577276,
      "learning_rate": 8.79071147533597e-07,
      "logits/chosen": -0.47194284200668335,
      "logits/rejected": -0.44540295004844666,
      "logps/chosen": -1.2036808729171753,
      "logps/rejected": -1.6797609329223633,
      "loss": 2.0129,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -1.2036808729171753,
      "rewards/margins": 0.4760800004005432,
      "rewards/rejected": -1.6797609329223633,
      "step": 145
    },
    {
      "epoch": 0.31405391258832765,
      "grad_norm": 41.583916372931604,
      "learning_rate": 8.668815171119019e-07,
      "logits/chosen": -0.4502836763858795,
      "logits/rejected": -0.416980117559433,
      "logps/chosen": -1.0764203071594238,
      "logps/rejected": -1.5866191387176514,
      "loss": 1.9679,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": -1.0764203071594238,
      "rewards/margins": 0.5101990699768066,
      "rewards/rejected": -1.5866191387176514,
      "step": 150
    },
    {
      "epoch": 0.3245223763412719,
      "grad_norm": 17.97044676211115,
      "learning_rate": 8.54200070884685e-07,
      "logits/chosen": -0.4577752947807312,
      "logits/rejected": -0.4022301733493805,
      "logps/chosen": -1.1599218845367432,
      "logps/rejected": -1.6104686260223389,
      "loss": 1.9736,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.1599218845367432,
      "rewards/margins": 0.45054665207862854,
      "rewards/rejected": -1.6104686260223389,
      "step": 155
    },
    {
      "epoch": 0.33499084009421615,
      "grad_norm": 37.67621637306142,
      "learning_rate": 8.410438087153911e-07,
      "logits/chosen": -0.33586519956588745,
      "logits/rejected": -0.2821674942970276,
      "logps/chosen": -1.2303192615509033,
      "logps/rejected": -1.7895514965057373,
      "loss": 2.0104,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.2303192615509033,
      "rewards/margins": 0.5592321753501892,
      "rewards/rejected": -1.7895514965057373,
      "step": 160
    },
    {
      "epoch": 0.34545930384716045,
      "grad_norm": 16.05482538779056,
      "learning_rate": 8.274303669726426e-07,
      "logits/chosen": -0.4002958834171295,
      "logits/rejected": -0.34722983837127686,
      "logps/chosen": -1.1306252479553223,
      "logps/rejected": -1.6940090656280518,
      "loss": 2.0112,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -1.1306252479553223,
      "rewards/margins": 0.5633838176727295,
      "rewards/rejected": -1.6940090656280518,
      "step": 165
    },
    {
      "epoch": 0.3559277676001047,
      "grad_norm": 15.217072980607172,
      "learning_rate": 8.133779948881513e-07,
      "logits/chosen": -0.45079272985458374,
      "logits/rejected": -0.37534087896347046,
      "logps/chosen": -1.1774274110794067,
      "logps/rejected": -1.6361265182495117,
      "loss": 2.0148,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -1.1774274110794067,
      "rewards/margins": 0.4586990773677826,
      "rewards/rejected": -1.6361265182495117,
      "step": 170
    },
    {
      "epoch": 0.36639623135304894,
      "grad_norm": 19.691952142371672,
      "learning_rate": 7.989055300930704e-07,
      "logits/chosen": -0.42495885491371155,
      "logits/rejected": -0.3137228488922119,
      "logps/chosen": -1.2254281044006348,
      "logps/rejected": -1.73735773563385,
      "loss": 2.0104,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.2254281044006348,
      "rewards/margins": 0.5119296312332153,
      "rewards/rejected": -1.73735773563385,
      "step": 175
    },
    {
      "epoch": 0.3768646951059932,
      "grad_norm": 30.34827875211837,
      "learning_rate": 7.840323733655778e-07,
      "logits/chosen": -0.3100610673427582,
      "logits/rejected": -0.25817859172821045,
      "logps/chosen": -1.2358551025390625,
      "logps/rejected": -1.8043813705444336,
      "loss": 1.9916,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.2358551025390625,
      "rewards/margins": 0.5685264468193054,
      "rewards/rejected": -1.8043813705444336,
      "step": 180
    },
    {
      "epoch": 0.38733315885893743,
      "grad_norm": 21.54243489627896,
      "learning_rate": 7.687784626235447e-07,
      "logits/chosen": -0.24814710021018982,
      "logits/rejected": -0.12512032687664032,
      "logps/chosen": -1.2242952585220337,
      "logps/rejected": -1.974454641342163,
      "loss": 1.9456,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.2242952585220337,
      "rewards/margins": 0.7501593828201294,
      "rewards/rejected": -1.974454641342163,
      "step": 185
    },
    {
      "epoch": 0.39780162261188173,
      "grad_norm": 27.936855442626964,
      "learning_rate": 7.531642461971514e-07,
      "logits/chosen": -0.2731862962245941,
      "logits/rejected": -0.18622538447380066,
      "logps/chosen": -1.176733136177063,
      "logps/rejected": -1.7295942306518555,
      "loss": 2.0622,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": -1.176733136177063,
      "rewards/margins": 0.5528609752655029,
      "rewards/rejected": -1.7295942306518555,
      "step": 190
    },
    {
      "epoch": 0.408270086364826,
      "grad_norm": 18.211412725741514,
      "learning_rate": 7.372106554172801e-07,
      "logits/chosen": -0.21031120419502258,
      "logits/rejected": -0.14914147555828094,
      "logps/chosen": -1.2273377180099487,
      "logps/rejected": -1.6471458673477173,
      "loss": 1.9975,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2273377180099487,
      "rewards/margins": 0.41980820894241333,
      "rewards/rejected": -1.6471458673477173,
      "step": 195
    },
    {
      "epoch": 0.4187385501177702,
      "grad_norm": 28.304585509307277,
      "learning_rate": 7.209390765564318e-07,
      "logits/chosen": -0.13628198206424713,
      "logits/rejected": -0.0973358079791069,
      "logps/chosen": -1.2455083131790161,
      "logps/rejected": -1.753761649131775,
      "loss": 2.0029,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.2455083131790161,
      "rewards/margins": 0.5082534551620483,
      "rewards/rejected": -1.753761649131775,
      "step": 200
    },
    {
      "epoch": 0.42920701387071447,
      "grad_norm": 23.204471353515586,
      "learning_rate": 7.043713221597773e-07,
      "logits/chosen": -0.07737751305103302,
      "logits/rejected": -0.005436101462692022,
      "logps/chosen": -1.0530147552490234,
      "logps/rejected": -1.7120428085327148,
      "loss": 1.9468,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.0530147552490234,
      "rewards/margins": 0.6590279340744019,
      "rewards/rejected": -1.7120428085327148,
      "step": 205
    },
    {
      "epoch": 0.4396754776236587,
      "grad_norm": 19.22100285707222,
      "learning_rate": 6.875296018047809e-07,
      "logits/chosen": -0.14544904232025146,
      "logits/rejected": -0.09322938323020935,
      "logps/chosen": -1.25759756565094,
      "logps/rejected": -1.6059818267822266,
      "loss": 2.0319,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.25759756565094,
      "rewards/margins": 0.3483843505382538,
      "rewards/rejected": -1.6059818267822266,
      "step": 210
    },
    {
      "epoch": 0.45014394137660296,
      "grad_norm": 28.866239067564,
      "learning_rate": 6.704364923285857e-07,
      "logits/chosen": -0.21608710289001465,
      "logits/rejected": -0.135384202003479,
      "logps/chosen": -1.1534065008163452,
      "logps/rejected": -1.7110164165496826,
      "loss": 1.9831,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": -1.1534065008163452,
      "rewards/margins": 0.5576101541519165,
      "rewards/rejected": -1.7110164165496826,
      "step": 215
    },
    {
      "epoch": 0.46061240512954726,
      "grad_norm": 83.00316897734959,
      "learning_rate": 6.531149075630796e-07,
      "logits/chosen": -0.22518062591552734,
      "logits/rejected": -0.04796000197529793,
      "logps/chosen": -1.2540584802627563,
      "logps/rejected": -1.8683173656463623,
      "loss": 1.9781,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -1.2540584802627563,
      "rewards/margins": 0.6142589449882507,
      "rewards/rejected": -1.8683173656463623,
      "step": 220
    },
    {
      "epoch": 0.4710808688824915,
      "grad_norm": 15.63146505822897,
      "learning_rate": 6.355880676182085e-07,
      "logits/chosen": -0.24729761481285095,
      "logits/rejected": -0.10253201425075531,
      "logps/chosen": -1.148567795753479,
      "logps/rejected": -1.861864447593689,
      "loss": 1.9337,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.148567795753479,
      "rewards/margins": 0.7132967114448547,
      "rewards/rejected": -1.861864447593689,
      "step": 225
    },
    {
      "epoch": 0.48154933263543576,
      "grad_norm": 1092.6523686417404,
      "learning_rate": 6.178794677547137e-07,
      "logits/chosen": -0.33141931891441345,
      "logits/rejected": -0.1571967899799347,
      "logps/chosen": -1.125832200050354,
      "logps/rejected": -1.9030935764312744,
      "loss": 1.9444,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.125832200050354,
      "rewards/margins": 0.7772611379623413,
      "rewards/rejected": -1.9030935764312744,
      "step": 230
    },
    {
      "epoch": 0.49201779638838,
      "grad_norm": 18.438187215474308,
      "learning_rate": 6.000128468880222e-07,
      "logits/chosen": -0.19492967426776886,
      "logits/rejected": -0.088912233710289,
      "logps/chosen": -1.1279089450836182,
      "logps/rejected": -1.7057428359985352,
      "loss": 1.9794,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1279089450836182,
      "rewards/margins": 0.5778340101242065,
      "rewards/rejected": -1.7057428359985352,
      "step": 235
    },
    {
      "epoch": 0.5024862601413242,
      "grad_norm": 45.11647792728952,
      "learning_rate": 5.820121557655108e-07,
      "logits/chosen": -0.17841561138629913,
      "logits/rejected": -0.08987215161323547,
      "logps/chosen": -1.1346948146820068,
      "logps/rejected": -1.8120676279067993,
      "loss": 1.9898,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.1346948146820068,
      "rewards/margins": 0.6773727536201477,
      "rewards/rejected": -1.8120676279067993,
      "step": 240
    },
    {
      "epoch": 0.5129547238942685,
      "grad_norm": 53.80136713305279,
      "learning_rate": 5.639015248598023e-07,
      "logits/chosen": -0.2315063774585724,
      "logits/rejected": -0.11919162422418594,
      "logps/chosen": -1.254396677017212,
      "logps/rejected": -1.7449557781219482,
      "loss": 1.9968,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.254396677017212,
      "rewards/margins": 0.49055904150009155,
      "rewards/rejected": -1.7449557781219482,
      "step": 245
    },
    {
      "epoch": 0.5234231876472127,
      "grad_norm": 30.376240963875347,
      "learning_rate": 5.457052320211339e-07,
      "logits/chosen": -0.2132711410522461,
      "logits/rejected": -0.11911521106958389,
      "logps/chosen": -1.1606347560882568,
      "logps/rejected": -1.8521320819854736,
      "loss": 1.9963,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.1606347560882568,
      "rewards/margins": 0.6914970874786377,
      "rewards/rejected": -1.8521320819854736,
      "step": 250
    },
    {
      "epoch": 0.533891651400157,
      "grad_norm": 24.612321850210826,
      "learning_rate": 5.274476699321637e-07,
      "logits/chosen": -0.17434340715408325,
      "logits/rejected": -0.02575433813035488,
      "logps/chosen": -1.2206462621688843,
      "logps/rejected": -1.893471121788025,
      "loss": 1.9294,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.2206462621688843,
      "rewards/margins": 0.6728248000144958,
      "rewards/rejected": -1.893471121788025,
      "step": 255
    },
    {
      "epoch": 0.5443601151531012,
      "grad_norm": 23.578174980485148,
      "learning_rate": 5.091533134088387e-07,
      "logits/chosen": -0.19827161729335785,
      "logits/rejected": -0.10442183911800385,
      "logps/chosen": -1.1325616836547852,
      "logps/rejected": -1.894374132156372,
      "loss": 1.9889,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1325616836547852,
      "rewards/margins": 0.7618124485015869,
      "rewards/rejected": -1.894374132156372,
      "step": 260
    },
    {
      "epoch": 0.5548285789060455,
      "grad_norm": 23.363765551953982,
      "learning_rate": 4.908466865911614e-07,
      "logits/chosen": -0.22801117599010468,
      "logits/rejected": -0.15166376531124115,
      "logps/chosen": -1.2147762775421143,
      "logps/rejected": -1.6708816289901733,
      "loss": 1.9391,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2147762775421143,
      "rewards/margins": 0.45610541105270386,
      "rewards/rejected": -1.6708816289901733,
      "step": 265
    },
    {
      "epoch": 0.5652970426589898,
      "grad_norm": 20.86303085584383,
      "learning_rate": 4.7255233006783624e-07,
      "logits/chosen": -0.22982990741729736,
      "logits/rejected": -0.13931187987327576,
      "logps/chosen": -1.2865099906921387,
      "logps/rejected": -1.766331434249878,
      "loss": 1.9878,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2865099906921387,
      "rewards/margins": 0.47982144355773926,
      "rewards/rejected": -1.766331434249878,
      "step": 270
    },
    {
      "epoch": 0.575765506411934,
      "grad_norm": 12.144303285220628,
      "learning_rate": 4.5429476797886617e-07,
      "logits/chosen": -0.2274014949798584,
      "logits/rejected": -0.07431206852197647,
      "logps/chosen": -1.1824675798416138,
      "logps/rejected": -1.998253583908081,
      "loss": 1.962,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.1824675798416138,
      "rewards/margins": 0.8157860040664673,
      "rewards/rejected": -1.998253583908081,
      "step": 275
    },
    {
      "epoch": 0.5862339701648783,
      "grad_norm": 37.56330617572613,
      "learning_rate": 4.3609847514019763e-07,
      "logits/chosen": -0.2594318687915802,
      "logits/rejected": -0.14403223991394043,
      "logps/chosen": -1.1071598529815674,
      "logps/rejected": -1.610290765762329,
      "loss": 1.957,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.1071598529815674,
      "rewards/margins": 0.5031307935714722,
      "rewards/rejected": -1.610290765762329,
      "step": 280
    },
    {
      "epoch": 0.5967024339178225,
      "grad_norm": 55.56290292891477,
      "learning_rate": 4.179878442344892e-07,
      "logits/chosen": -0.2227039635181427,
      "logits/rejected": -0.1900090128183365,
      "logps/chosen": -1.1886059045791626,
      "logps/rejected": -1.7931125164031982,
      "loss": 1.9481,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1886059045791626,
      "rewards/margins": 0.60450679063797,
      "rewards/rejected": -1.7931125164031982,
      "step": 285
    },
    {
      "epoch": 0.6071708976707668,
      "grad_norm": 24.48468402537705,
      "learning_rate": 3.9998715311197783e-07,
      "logits/chosen": -0.26827192306518555,
      "logits/rejected": -0.17545387148857117,
      "logps/chosen": -1.1850652694702148,
      "logps/rejected": -1.8715204000473022,
      "loss": 1.9349,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.1850652694702148,
      "rewards/margins": 0.6864550709724426,
      "rewards/rejected": -1.8715204000473022,
      "step": 290
    },
    {
      "epoch": 0.6176393614237111,
      "grad_norm": 19.0989416435893,
      "learning_rate": 3.821205322452863e-07,
      "logits/chosen": -0.2373635321855545,
      "logits/rejected": -0.1607808768749237,
      "logps/chosen": -1.1796191930770874,
      "logps/rejected": -1.9065383672714233,
      "loss": 1.9901,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.1796191930770874,
      "rewards/margins": 0.7269191741943359,
      "rewards/rejected": -1.9065383672714233,
      "step": 295
    },
    {
      "epoch": 0.6281078251766553,
      "grad_norm": 35.51594817128474,
      "learning_rate": 3.6441193238179146e-07,
      "logits/chosen": -0.28120699524879456,
      "logits/rejected": -0.2147771418094635,
      "logps/chosen": -1.2024883031845093,
      "logps/rejected": -1.7524086236953735,
      "loss": 1.9577,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.2024883031845093,
      "rewards/margins": 0.5499202013015747,
      "rewards/rejected": -1.7524086236953735,
      "step": 300
    },
    {
      "epoch": 0.6385762889295996,
      "grad_norm": 19.807409901213642,
      "learning_rate": 3.4688509243692034e-07,
      "logits/chosen": -0.1579556167125702,
      "logits/rejected": -0.09319324791431427,
      "logps/chosen": -1.2312943935394287,
      "logps/rejected": -1.9326064586639404,
      "loss": 1.9317,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.2312943935394287,
      "rewards/margins": 0.7013120055198669,
      "rewards/rejected": -1.9326064586639404,
      "step": 305
    },
    {
      "epoch": 0.6490447526825438,
      "grad_norm": 26.79163246884692,
      "learning_rate": 3.295635076714144e-07,
      "logits/chosen": -0.13611330091953278,
      "logits/rejected": -0.1433105766773224,
      "logps/chosen": -1.1258060932159424,
      "logps/rejected": -1.763738989830017,
      "loss": 1.9276,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.1258060932159424,
      "rewards/margins": 0.6379327774047852,
      "rewards/rejected": -1.763738989830017,
      "step": 310
    },
    {
      "epoch": 0.6595132164354881,
      "grad_norm": 26.007353485880714,
      "learning_rate": 3.12470398195219e-07,
      "logits/chosen": -0.1855328381061554,
      "logits/rejected": -0.06350420415401459,
      "logps/chosen": -1.1226041316986084,
      "logps/rejected": -1.979421854019165,
      "loss": 1.9461,
      "rewards/accuracies": 0.7437499761581421,
      "rewards/chosen": -1.1226041316986084,
      "rewards/margins": 0.8568177223205566,
      "rewards/rejected": -1.979421854019165,
      "step": 315
    },
    {
      "epoch": 0.6699816801884323,
      "grad_norm": 25.93600538288609,
      "learning_rate": 2.956286778402226e-07,
      "logits/chosen": -0.16057109832763672,
      "logits/rejected": -0.10531453043222427,
      "logps/chosen": -1.1869053840637207,
      "logps/rejected": -1.7816956043243408,
      "loss": 1.8982,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -1.1869053840637207,
      "rewards/margins": 0.5947902798652649,
      "rewards/rejected": -1.7816956043243408,
      "step": 320
    },
    {
      "epoch": 0.6804501439413766,
      "grad_norm": 41.1877461903664,
      "learning_rate": 2.7906092344356826e-07,
      "logits/chosen": -0.16566753387451172,
      "logits/rejected": -0.06549857556819916,
      "logps/chosen": -1.1580512523651123,
      "logps/rejected": -1.8924694061279297,
      "loss": 1.9157,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.1580512523651123,
      "rewards/margins": 0.7344181537628174,
      "rewards/rejected": -1.8924694061279297,
      "step": 325
    },
    {
      "epoch": 0.6909186076943209,
      "grad_norm": 13.497224748766067,
      "learning_rate": 2.6278934458271996e-07,
      "logits/chosen": -0.09990070015192032,
      "logits/rejected": -0.019180208444595337,
      "logps/chosen": -1.1130152940750122,
      "logps/rejected": -1.6457436084747314,
      "loss": 1.9451,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.1130152940750122,
      "rewards/margins": 0.5327284932136536,
      "rewards/rejected": -1.6457436084747314,
      "step": 330
    },
    {
      "epoch": 0.7013870714472651,
      "grad_norm": 20.73440619316291,
      "learning_rate": 2.468357538028487e-07,
      "logits/chosen": -0.17166391015052795,
      "logits/rejected": -0.08680696785449982,
      "logps/chosen": -1.109227180480957,
      "logps/rejected": -1.7418838739395142,
      "loss": 1.9573,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.109227180480957,
      "rewards/margins": 0.6326566934585571,
      "rewards/rejected": -1.7418838739395142,
      "step": 335
    },
    {
      "epoch": 0.7118555352002094,
      "grad_norm": 20.25166204813565,
      "learning_rate": 2.312215373764551e-07,
      "logits/chosen": -0.155477374792099,
      "logits/rejected": -0.05189569666981697,
      "logps/chosen": -1.3119245767593384,
      "logps/rejected": -1.9228538274765015,
      "loss": 1.9728,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.3119245767593384,
      "rewards/margins": 0.6109293103218079,
      "rewards/rejected": -1.9228538274765015,
      "step": 340
    },
    {
      "epoch": 0.7223239989531536,
      "grad_norm": 35.62472752098736,
      "learning_rate": 2.1596762663442213e-07,
      "logits/chosen": -0.18124118447303772,
      "logits/rejected": -0.04932355508208275,
      "logps/chosen": -1.2099921703338623,
      "logps/rejected": -1.9292633533477783,
      "loss": 1.9751,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.2099921703338623,
      "rewards/margins": 0.719271183013916,
      "rewards/rejected": -1.9292633533477783,
      "step": 345
    },
    {
      "epoch": 0.7327924627060979,
      "grad_norm": 19.36102520036485,
      "learning_rate": 2.0109446990692963e-07,
      "logits/chosen": -0.048113010823726654,
      "logits/rejected": -0.02143859677016735,
      "logps/chosen": -1.227217197418213,
      "logps/rejected": -1.7735779285430908,
      "loss": 2.0111,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.227217197418213,
      "rewards/margins": 0.5463606715202332,
      "rewards/rejected": -1.7735779285430908,
      "step": 350
    },
    {
      "epoch": 0.7432609264590422,
      "grad_norm": 16.299019547207138,
      "learning_rate": 1.8662200511184872e-07,
      "logits/chosen": -0.09398343414068222,
      "logits/rejected": -0.01715996116399765,
      "logps/chosen": -1.061127781867981,
      "logps/rejected": -1.851822853088379,
      "loss": 1.8894,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": -1.061127781867981,
      "rewards/margins": 0.7906948328018188,
      "rewards/rejected": -1.851822853088379,
      "step": 355
    },
    {
      "epoch": 0.7537293902119864,
      "grad_norm": 21.325612236488393,
      "learning_rate": 1.725696330273575e-07,
      "logits/chosen": -0.19810739159584045,
      "logits/rejected": -0.09949172288179398,
      "logps/chosen": -1.0794689655303955,
      "logps/rejected": -1.6091794967651367,
      "loss": 1.8836,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.0794689655303955,
      "rewards/margins": 0.529710590839386,
      "rewards/rejected": -1.6091794967651367,
      "step": 360
    },
    {
      "epoch": 0.7641978539649307,
      "grad_norm": 17.67539053293725,
      "learning_rate": 1.589561912846089e-07,
      "logits/chosen": -0.19371333718299866,
      "logits/rejected": -0.06843050569295883,
      "logps/chosen": -1.2321817874908447,
      "logps/rejected": -1.8411308526992798,
      "loss": 1.9833,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.2321817874908447,
      "rewards/margins": 0.6089491844177246,
      "rewards/rejected": -1.8411308526992798,
      "step": 365
    },
    {
      "epoch": 0.7746663177178749,
      "grad_norm": 23.235373655195016,
      "learning_rate": 1.4579992911531496e-07,
      "logits/chosen": -0.11578913033008575,
      "logits/rejected": -0.025940338149666786,
      "logps/chosen": -1.196590781211853,
      "logps/rejected": -1.895391821861267,
      "loss": 1.9263,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.196590781211853,
      "rewards/margins": 0.6988012790679932,
      "rewards/rejected": -1.895391821861267,
      "step": 370
    },
    {
      "epoch": 0.7851347814708192,
      "grad_norm": 19.259561354186946,
      "learning_rate": 1.3311848288809813e-07,
      "logits/chosen": -0.11768321692943573,
      "logits/rejected": -0.1705169379711151,
      "logps/chosen": -1.2138588428497314,
      "logps/rejected": -1.7918386459350586,
      "loss": 1.9695,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.2138588428497314,
      "rewards/margins": 0.5779798030853271,
      "rewards/rejected": -1.7918386459350586,
      "step": 375
    },
    {
      "epoch": 0.7956032452237635,
      "grad_norm": 19.09434464976567,
      "learning_rate": 1.209288524664029e-07,
      "logits/chosen": -0.1390591561794281,
      "logits/rejected": -0.08628968149423599,
      "logps/chosen": -1.211247444152832,
      "logps/rejected": -1.7502481937408447,
      "loss": 1.9086,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": -1.211247444152832,
      "rewards/margins": 0.5390007495880127,
      "rewards/rejected": -1.7502481937408447,
      "step": 380
    },
    {
      "epoch": 0.8060717089767077,
      "grad_norm": 22.75496669970745,
      "learning_rate": 1.0924737841966497e-07,
      "logits/chosen": -0.14960381388664246,
      "logits/rejected": -0.08989100158214569,
      "logps/chosen": -1.1806560754776,
      "logps/rejected": -1.799631118774414,
      "loss": 1.9473,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.1806560754776,
      "rewards/margins": 0.6189749240875244,
      "rewards/rejected": -1.799631118774414,
      "step": 385
    },
    {
      "epoch": 0.816540172729652,
      "grad_norm": 21.199803415422714,
      "learning_rate": 9.808972011828054e-08,
      "logits/chosen": -0.13692599534988403,
      "logits/rejected": -0.04226923733949661,
      "logps/chosen": -1.1819908618927002,
      "logps/rejected": -1.9731757640838623,
      "loss": 1.9367,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.1819908618927002,
      "rewards/margins": 0.7911848425865173,
      "rewards/rejected": -1.9731757640838623,
      "step": 390
    },
    {
      "epoch": 0.8270086364825961,
      "grad_norm": 33.49806758309421,
      "learning_rate": 8.747083474174527e-08,
      "logits/chosen": -0.13622619211673737,
      "logits/rejected": 0.037842754274606705,
      "logps/chosen": -1.2155778408050537,
      "logps/rejected": -1.890428900718689,
      "loss": 1.9388,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.2155778408050537,
      "rewards/margins": 0.6748510599136353,
      "rewards/rejected": -1.890428900718689,
      "step": 395
    },
    {
      "epoch": 0.8374771002355405,
      "grad_norm": 15.890713698381443,
      "learning_rate": 7.740495722810269e-08,
      "logits/chosen": -0.05593853071331978,
      "logits/rejected": -0.004029959440231323,
      "logps/chosen": -1.112066388130188,
      "logps/rejected": -1.8403129577636719,
      "loss": 1.9207,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.112066388130188,
      "rewards/margins": 0.7282465696334839,
      "rewards/rejected": -1.8403129577636719,
      "step": 400
    },
    {
      "epoch": 0.8479455639884846,
      "grad_norm": 19.88967649390424,
      "learning_rate": 6.790558119157597e-08,
      "logits/chosen": -0.18492689728736877,
      "logits/rejected": -0.10850385576486588,
      "logps/chosen": -1.2788586616516113,
      "logps/rejected": -2.0290207862854004,
      "loss": 1.9523,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.2788586616516113,
      "rewards/margins": 0.7501621842384338,
      "rewards/rejected": -2.0290207862854004,
      "step": 405
    },
    {
      "epoch": 0.8584140277414289,
      "grad_norm": 22.56741853126592,
      "learning_rate": 5.898544083397e-08,
      "logits/chosen": -0.14272233843803406,
      "logits/rejected": -0.0651661604642868,
      "logps/chosen": -1.1273430585861206,
      "logps/rejected": -1.6827017068862915,
      "loss": 1.9304,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -1.1273430585861206,
      "rewards/margins": 0.5553585290908813,
      "rewards/rejected": -1.6827017068862915,
      "step": 410
    },
    {
      "epoch": 0.8688824914943732,
      "grad_norm": 15.199788752886258,
      "learning_rate": 5.065649387408705e-08,
      "logits/chosen": -0.14387831091880798,
      "logits/rejected": -0.009860972873866558,
      "logps/chosen": -1.161084771156311,
      "logps/rejected": -1.8390836715698242,
      "loss": 1.9141,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.161084771156311,
      "rewards/margins": 0.6779987812042236,
      "rewards/rejected": -1.8390836715698242,
      "step": 415
    },
    {
      "epoch": 0.8793509552473174,
      "grad_norm": 14.485810825336134,
      "learning_rate": 4.292990551804171e-08,
      "logits/chosen": -0.12360888719558716,
      "logits/rejected": -0.05216851085424423,
      "logps/chosen": -1.1394500732421875,
      "logps/rejected": -1.831883192062378,
      "loss": 1.9578,
      "rewards/accuracies": 0.6187499761581421,
      "rewards/chosen": -1.1394500732421875,
      "rewards/margins": 0.69243323802948,
      "rewards/rejected": -1.831883192062378,
      "step": 420
    },
    {
      "epoch": 0.8898194190002617,
      "grad_norm": 22.957524299991945,
      "learning_rate": 3.581603349196371e-08,
      "logits/chosen": -0.08880945295095444,
      "logits/rejected": -0.02426137961447239,
      "logps/chosen": -1.296489953994751,
      "logps/rejected": -1.8570985794067383,
      "loss": 1.9254,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -1.296489953994751,
      "rewards/margins": 0.5606086254119873,
      "rewards/rejected": -1.8570985794067383,
      "step": 425
    },
    {
      "epoch": 0.9002878827532059,
      "grad_norm": 17.939695720657745,
      "learning_rate": 2.9324414157151367e-08,
      "logits/chosen": -0.10626481473445892,
      "logits/rejected": -0.055657435208559036,
      "logps/chosen": -1.219440221786499,
      "logps/rejected": -1.922663688659668,
      "loss": 1.9204,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.219440221786499,
      "rewards/margins": 0.7032233476638794,
      "rewards/rejected": -1.922663688659668,
      "step": 430
    },
    {
      "epoch": 0.9107563465061502,
      "grad_norm": 19.609830420854962,
      "learning_rate": 2.3463749726290284e-08,
      "logits/chosen": -0.14449790120124817,
      "logits/rejected": -0.08098597824573517,
      "logps/chosen": -1.1550737619400024,
      "logps/rejected": -1.9791103601455688,
      "loss": 1.9163,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -1.1550737619400024,
      "rewards/margins": 0.8240365982055664,
      "rewards/rejected": -1.9791103601455688,
      "step": 435
    },
    {
      "epoch": 0.9212248102590945,
      "grad_norm": 31.437744158726638,
      "learning_rate": 1.824189659787284e-08,
      "logits/chosen": 0.0060030072927474976,
      "logits/rejected": 0.009024476632475853,
      "logps/chosen": -1.1824986934661865,
      "logps/rejected": -1.7867063283920288,
      "loss": 1.9724,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.1824986934661865,
      "rewards/margins": 0.6042075157165527,
      "rewards/rejected": -1.7867063283920288,
      "step": 440
    },
    {
      "epoch": 0.9316932740120387,
      "grad_norm": 34.49114038658599,
      "learning_rate": 1.3665854824458035e-08,
      "logits/chosen": -0.15822723507881165,
      "logits/rejected": -0.08658315241336823,
      "logps/chosen": -1.1747385263442993,
      "logps/rejected": -1.7831497192382812,
      "loss": 1.9708,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.1747385263442993,
      "rewards/margins": 0.6084113121032715,
      "rewards/rejected": -1.7831497192382812,
      "step": 445
    },
    {
      "epoch": 0.942161737764983,
      "grad_norm": 22.736368343788918,
      "learning_rate": 9.741758728888217e-09,
      "logits/chosen": -0.05001335218548775,
      "logits/rejected": -0.013674241490662098,
      "logps/chosen": -1.179164171218872,
      "logps/rejected": -1.8373947143554688,
      "loss": 1.909,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.179164171218872,
      "rewards/margins": 0.6582303643226624,
      "rewards/rejected": -1.8373947143554688,
      "step": 450
    },
    {
      "epoch": 0.9526302015179272,
      "grad_norm": 21.67558731525575,
      "learning_rate": 6.474868681043577e-09,
      "logits/chosen": -0.10400988906621933,
      "logits/rejected": -0.05608060210943222,
      "logps/chosen": -1.3397135734558105,
      "logps/rejected": -1.716301679611206,
      "loss": 1.9844,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.3397135734558105,
      "rewards/margins": 0.3765881657600403,
      "rewards/rejected": -1.716301679611206,
      "step": 455
    },
    {
      "epoch": 0.9630986652708715,
      "grad_norm": 22.99781560062592,
      "learning_rate": 3.869564046156459e-09,
      "logits/chosen": -0.06456808745861053,
      "logits/rejected": -0.012792855501174927,
      "logps/chosen": -1.0940654277801514,
      "logps/rejected": -1.805354356765747,
      "loss": 1.8916,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -1.0940654277801514,
      "rewards/margins": 0.7112888097763062,
      "rewards/rejected": -1.805354356765747,
      "step": 460
    },
    {
      "epoch": 0.9735671290238157,
      "grad_norm": 17.285058450470018,
      "learning_rate": 1.929337314139412e-09,
      "logits/chosen": -0.19403138756752014,
      "logits/rejected": -0.07949899882078171,
      "logps/chosen": -1.2133488655090332,
      "logps/rejected": -1.8430767059326172,
      "loss": 1.9376,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2133488655090332,
      "rewards/margins": 0.6297277808189392,
      "rewards/rejected": -1.8430767059326172,
      "step": 465
    },
    {
      "epoch": 0.98403559277676,
      "grad_norm": 19.37788975464885,
      "learning_rate": 6.567894177967325e-10,
      "logits/chosen": -0.1643257737159729,
      "logits/rejected": -0.06100650504231453,
      "logps/chosen": -1.181461215019226,
      "logps/rejected": -1.707772970199585,
      "loss": 1.9914,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.181461215019226,
      "rewards/margins": 0.5263119339942932,
      "rewards/rejected": -1.707772970199585,
      "step": 470
    },
    {
      "epoch": 0.9945040565297043,
      "grad_norm": 24.408366857719134,
      "learning_rate": 5.3626246194704575e-11,
      "logits/chosen": -0.20142404735088348,
      "logits/rejected": -0.07068441808223724,
      "logps/chosen": -1.2009718418121338,
      "logps/rejected": -1.803815245628357,
      "loss": 1.9479,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": -1.2009718418121338,
      "rewards/margins": 0.6028433442115784,
      "rewards/rejected": -1.803815245628357,
      "step": 475
    },
    {
      "epoch": 0.998691442030882,
      "step": 477,
      "total_flos": 0.0,
      "train_loss": 0.0,
      "train_runtime": 4.3143,
      "train_samples_per_second": 14170.447,
      "train_steps_per_second": 110.564
    }
  ],
  "logging_steps": 5,
  "max_steps": 477,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}