Jimmy19991222

Upload folder using huggingface_hub

ca905cf verified about 2 months ago

50.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9982631930527722,
	"eval_steps": 400,
	"global_step": 467,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01068804275217101,
	"grad_norm": 57.237549195872155,
	"learning_rate": 1.0638297872340425e-07,
	"logits/chosen": -1.0180665254592896,
	"logits/rejected": -0.9884552955627441,
	"logps/chosen": -0.27425095438957214,
	"logps/rejected": -0.2716319262981415,
	"loss": 3.1091,
	"rewards/accuracies": 0.4312500059604645,
	"rewards/chosen": -2.7425098419189453,
	"rewards/margins": -0.02619057334959507,
	"rewards/rejected": -2.7163190841674805,
	"step": 5
	},
	{
	"epoch": 0.02137608550434202,
	"grad_norm": 36.2177280707271,
	"learning_rate": 2.127659574468085e-07,
	"logits/chosen": -1.047877311706543,
	"logits/rejected": -0.9804394841194153,
	"logps/chosen": -0.2944500744342804,
	"logps/rejected": -0.29980722069740295,
	"loss": 3.1522,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -2.944500684738159,
	"rewards/margins": 0.05357087776064873,
	"rewards/rejected": -2.9980719089508057,
	"step": 10
	},
	{
	"epoch": 0.03206412825651302,
	"grad_norm": 51.02954591523818,
	"learning_rate": 3.1914893617021275e-07,
	"logits/chosen": -0.9653420448303223,
	"logits/rejected": -0.9844053983688354,
	"logps/chosen": -0.26417964696884155,
	"logps/rejected": -0.30082693696022034,
	"loss": 3.2048,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.641796588897705,
	"rewards/margins": 0.3664725720882416,
	"rewards/rejected": -3.0082690715789795,
	"step": 15
	},
	{
	"epoch": 0.04275217100868404,
	"grad_norm": 56.89476138009963,
	"learning_rate": 4.25531914893617e-07,
	"logits/chosen": -0.9597972631454468,
	"logits/rejected": -0.9341325759887695,
	"logps/chosen": -0.27756327390670776,
	"logps/rejected": -0.2916925251483917,
	"loss": 3.1321,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -2.7756330966949463,
	"rewards/margins": 0.14129219949245453,
	"rewards/rejected": -2.9169249534606934,
	"step": 20
	},
	{
	"epoch": 0.053440213760855046,
	"grad_norm": 56.48955746474513,
	"learning_rate": 5.319148936170212e-07,
	"logits/chosen": -1.001181960105896,
	"logits/rejected": -0.9730860590934753,
	"logps/chosen": -0.2715573310852051,
	"logps/rejected": -0.27819815278053284,
	"loss": 3.3596,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -2.7155730724334717,
	"rewards/margins": 0.06640852242708206,
	"rewards/rejected": -2.7819817066192627,
	"step": 25
	},
	{
	"epoch": 0.06412825651302605,
	"grad_norm": 47.66267593497189,
	"learning_rate": 6.382978723404255e-07,
	"logits/chosen": -1.0001966953277588,
	"logits/rejected": -0.9549218416213989,
	"logps/chosen": -0.2734990119934082,
	"logps/rejected": -0.2796509861946106,
	"loss": 2.9655,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -2.734990358352661,
	"rewards/margins": 0.06151958554983139,
	"rewards/rejected": -2.7965099811553955,
	"step": 30
	},
	{
	"epoch": 0.07481629926519706,
	"grad_norm": 57.03302592987705,
	"learning_rate": 7.446808510638297e-07,
	"logits/chosen": -1.0495048761367798,
	"logits/rejected": -0.9743221998214722,
	"logps/chosen": -0.2940281331539154,
	"logps/rejected": -0.31984126567840576,
	"loss": 3.0572,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -2.940281391143799,
	"rewards/margins": 0.25813135504722595,
	"rewards/rejected": -3.1984126567840576,
	"step": 35
	},
	{
	"epoch": 0.08550434201736808,
	"grad_norm": 64.29646368113443,
	"learning_rate": 8.51063829787234e-07,
	"logits/chosen": -1.0000861883163452,
	"logits/rejected": -0.9559175372123718,
	"logps/chosen": -0.28027427196502686,
	"logps/rejected": -0.3249492049217224,
	"loss": 3.0201,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -2.8027429580688477,
	"rewards/margins": 0.4467490315437317,
	"rewards/rejected": -3.2494919300079346,
	"step": 40
	},
	{
	"epoch": 0.09619238476953908,
	"grad_norm": 34.0521027952876,
	"learning_rate": 9.574468085106384e-07,
	"logits/chosen": -1.049403429031372,
	"logits/rejected": -1.0066633224487305,
	"logps/chosen": -0.3022717535495758,
	"logps/rejected": -0.355845183134079,
	"loss": 3.1061,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -3.0227174758911133,
	"rewards/margins": 0.5357345342636108,
	"rewards/rejected": -3.5584518909454346,
	"step": 45
	},
	{
	"epoch": 0.10688042752171009,
	"grad_norm": 50.184137131794785,
	"learning_rate": 9.998741174712533e-07,
	"logits/chosen": -1.0293877124786377,
	"logits/rejected": -0.9806405901908875,
	"logps/chosen": -0.3117847442626953,
	"logps/rejected": -0.3513973653316498,
	"loss": 3.1525,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": -3.1178476810455322,
	"rewards/margins": 0.39612606167793274,
	"rewards/rejected": -3.5139732360839844,
	"step": 50
	},
	{
	"epoch": 0.11756847027388109,
	"grad_norm": 139.4899548956689,
	"learning_rate": 9.991050648838675e-07,
	"logits/chosen": -1.0580527782440186,
	"logits/rejected": -1.0236852169036865,
	"logps/chosen": -0.29338452219963074,
	"logps/rejected": -0.36238163709640503,
	"loss": 2.8456,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -2.933845043182373,
	"rewards/margins": 0.6899713277816772,
	"rewards/rejected": -3.6238162517547607,
	"step": 55
	},
	{
	"epoch": 0.1282565130260521,
	"grad_norm": 58.45122397836986,
	"learning_rate": 9.97637968732563e-07,
	"logits/chosen": -1.0895339250564575,
	"logits/rejected": -1.0574713945388794,
	"logps/chosen": -0.33461707830429077,
	"logps/rejected": -0.35189467668533325,
	"loss": 2.9738,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -3.3461709022521973,
	"rewards/margins": 0.17277587950229645,
	"rewards/rejected": -3.518946886062622,
	"step": 60
	},
	{
	"epoch": 0.13894455577822312,
	"grad_norm": 100.62827839328082,
	"learning_rate": 9.954748808839674e-07,
	"logits/chosen": -1.011530876159668,
	"logits/rejected": -0.9821838140487671,
	"logps/chosen": -0.4006083011627197,
	"logps/rejected": -0.464979887008667,
	"loss": 2.9379,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -4.0060834884643555,
	"rewards/margins": 0.6437152624130249,
	"rewards/rejected": -4.649798393249512,
	"step": 65
	},
	{
	"epoch": 0.14963259853039412,
	"grad_norm": 39.36526232625554,
	"learning_rate": 9.926188266120295e-07,
	"logits/chosen": -1.0184242725372314,
	"logits/rejected": -0.9939621686935425,
	"logps/chosen": -0.3619542419910431,
	"logps/rejected": -0.4431312084197998,
	"loss": 2.9573,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -3.619542360305786,
	"rewards/margins": 0.8117697834968567,
	"rewards/rejected": -4.43131160736084,
	"step": 70
	},
	{
	"epoch": 0.16032064128256512,
	"grad_norm": 83.11076732917083,
	"learning_rate": 9.890738003669027e-07,
	"logits/chosen": -0.9596433639526367,
	"logits/rejected": -0.8910166621208191,
	"logps/chosen": -0.3588549494743347,
	"logps/rejected": -0.4166484773159027,
	"loss": 2.9742,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -3.588549852371216,
	"rewards/margins": 0.5779348015785217,
	"rewards/rejected": -4.1664838790893555,
	"step": 75
	},
	{
	"epoch": 0.17100868403473615,
	"grad_norm": 52.281331982276065,
	"learning_rate": 9.848447601883433e-07,
	"logits/chosen": -0.9426174163818359,
	"logits/rejected": -0.9289323687553406,
	"logps/chosen": -0.35129761695861816,
	"logps/rejected": -0.4580927789211273,
	"loss": 2.9737,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -3.5129764080047607,
	"rewards/margins": 1.067950963973999,
	"rewards/rejected": -4.580927848815918,
	"step": 80
	},
	{
	"epoch": 0.18169672678690715,
	"grad_norm": 61.53493979772547,
	"learning_rate": 9.799376207714444e-07,
	"logits/chosen": -0.9526857137680054,
	"logits/rejected": -0.9304324388504028,
	"logps/chosen": -0.34235039353370667,
	"logps/rejected": -0.40353184938430786,
	"loss": 2.7213,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -3.4235033988952637,
	"rewards/margins": 0.6118148565292358,
	"rewards/rejected": -4.035318851470947,
	"step": 85
	},
	{
	"epoch": 0.19238476953907815,
	"grad_norm": 75.22407650978651,
	"learning_rate": 9.743592451943998e-07,
	"logits/chosen": -0.9911141395568848,
	"logits/rejected": -0.9571215510368347,
	"logps/chosen": -0.4391642212867737,
	"logps/rejected": -0.5185960531234741,
	"loss": 3.0403,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -4.391642093658447,
	"rewards/margins": 0.7943190336227417,
	"rewards/rejected": -5.1859612464904785,
	"step": 90
	},
	{
	"epoch": 0.20307281229124916,
	"grad_norm": 46.673632090780266,
	"learning_rate": 9.681174353198686e-07,
	"logits/chosen": -1.079331636428833,
	"logits/rejected": -0.996097207069397,
	"logps/chosen": -0.4490174353122711,
	"logps/rejected": -0.49736976623535156,
	"loss": 2.8747,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -4.490174293518066,
	"rewards/margins": 0.4835231900215149,
	"rewards/rejected": -4.973697662353516,
	"step": 95
	},
	{
	"epoch": 0.21376085504342018,
	"grad_norm": 78.85306309497338,
	"learning_rate": 9.612209208833646e-07,
	"logits/chosen": -0.9557577967643738,
	"logits/rejected": -0.9308866262435913,
	"logps/chosen": -0.4265132546424866,
	"logps/rejected": -0.4960516393184662,
	"loss": 2.9809,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -4.265132427215576,
	"rewards/margins": 0.6953836679458618,
	"rewards/rejected": -4.960515975952148,
	"step": 100
	},
	{
	"epoch": 0.22444889779559118,
	"grad_norm": 80.40817210917017,
	"learning_rate": 9.536793472839324e-07,
	"logits/chosen": -0.9734071493148804,
	"logits/rejected": -0.9203007817268372,
	"logps/chosen": -0.4045742154121399,
	"logps/rejected": -0.5108767747879028,
	"loss": 2.9566,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -4.045742034912109,
	"rewards/margins": 1.063025712966919,
	"rewards/rejected": -5.108767509460449,
	"step": 105
	},
	{
	"epoch": 0.23513694054776219,
	"grad_norm": 55.451042957143265,
	"learning_rate": 9.455032620941839e-07,
	"logits/chosen": -0.9206374883651733,
	"logits/rejected": -0.8604587316513062,
	"logps/chosen": -0.45949387550354004,
	"logps/rejected": -0.6004349589347839,
	"loss": 2.8412,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -4.594939231872559,
	"rewards/margins": 1.4094107151031494,
	"rewards/rejected": -6.004349708557129,
	"step": 110
	},
	{
	"epoch": 0.2458249832999332,
	"grad_norm": 51.58223883398887,
	"learning_rate": 9.367041003085648e-07,
	"logits/chosen": -0.9696682691574097,
	"logits/rejected": -0.9112384915351868,
	"logps/chosen": -0.4893345832824707,
	"logps/rejected": -0.5542086362838745,
	"loss": 2.7495,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -4.893345355987549,
	"rewards/margins": 0.6487414240837097,
	"rewards/rejected": -5.542087078094482,
	"step": 115
	},
	{
	"epoch": 0.2565130260521042,
	"grad_norm": 75.59919212642018,
	"learning_rate": 9.272941683504808e-07,
	"logits/chosen": -0.9438816905021667,
	"logits/rejected": -0.8547528386116028,
	"logps/chosen": -0.5028254985809326,
	"logps/rejected": -0.7035338878631592,
	"loss": 2.5628,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -5.028255462646484,
	"rewards/margins": 2.0070836544036865,
	"rewards/rejected": -7.03533935546875,
	"step": 120
	},
	{
	"epoch": 0.26720106880427524,
	"grad_norm": 66.32992513821185,
	"learning_rate": 9.172866268606513e-07,
	"logits/chosen": -1.016081690788269,
	"logits/rejected": -0.9737744331359863,
	"logps/chosen": -0.5569332838058472,
	"logps/rejected": -0.6537975072860718,
	"loss": 2.4448,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -5.569332599639893,
	"rewards/margins": 0.9686424136161804,
	"rewards/rejected": -6.537975311279297,
	"step": 125
	},
	{
	"epoch": 0.27788911155644624,
	"grad_norm": 139.11732623143496,
	"learning_rate": 9.066954722907638e-07,
	"logits/chosen": -1.032061219215393,
	"logits/rejected": -1.0252352952957153,
	"logps/chosen": -0.5443070530891418,
	"logps/rejected": -0.8193408250808716,
	"loss": 2.4333,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -5.443070411682129,
	"rewards/margins": 2.750338077545166,
	"rewards/rejected": -8.193408012390137,
	"step": 130
	},
	{
	"epoch": 0.28857715430861725,
	"grad_norm": 107.42202232758989,
	"learning_rate": 8.955355173281707e-07,
	"logits/chosen": -1.0170912742614746,
	"logits/rejected": -0.9671396017074585,
	"logps/chosen": -0.6021947264671326,
	"logps/rejected": -0.7191929221153259,
	"loss": 2.517,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -6.021947383880615,
	"rewards/margins": 1.169981837272644,
	"rewards/rejected": -7.191929817199707,
	"step": 135
	},
	{
	"epoch": 0.29926519706078825,
	"grad_norm": 77.05576180382866,
	"learning_rate": 8.838223701790055e-07,
	"logits/chosen": -1.0649584531784058,
	"logits/rejected": -1.0430896282196045,
	"logps/chosen": -0.6696725487709045,
	"logps/rejected": -0.8106359243392944,
	"loss": 2.3997,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -6.696726322174072,
	"rewards/margins": 1.4096347093582153,
	"rewards/rejected": -8.106359481811523,
	"step": 140
	},
	{
	"epoch": 0.30995323981295925,
	"grad_norm": 68.63585118244188,
	"learning_rate": 8.71572412738697e-07,
	"logits/chosen": -0.9915879964828491,
	"logits/rejected": -0.9645885229110718,
	"logps/chosen": -0.6888564825057983,
	"logps/rejected": -0.9088963270187378,
	"loss": 2.0828,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -6.8885650634765625,
	"rewards/margins": 2.2003989219665527,
	"rewards/rejected": -9.088963508605957,
	"step": 145
	},
	{
	"epoch": 0.32064128256513025,
	"grad_norm": 77.90508875376052,
	"learning_rate": 8.588027776804058e-07,
	"logits/chosen": -1.0322893857955933,
	"logits/rejected": -1.0123205184936523,
	"logps/chosen": -0.7648183107376099,
	"logps/rejected": -0.9603475332260132,
	"loss": 2.2673,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -7.6481828689575195,
	"rewards/margins": 1.9552921056747437,
	"rewards/rejected": -9.603475570678711,
	"step": 150
	},
	{
	"epoch": 0.33132932531730125,
	"grad_norm": 75.78147375517075,
	"learning_rate": 8.455313244934324e-07,
	"logits/chosen": -1.0493463277816772,
	"logits/rejected": -1.0279868841171265,
	"logps/chosen": -0.8422037363052368,
	"logps/rejected": -1.0871771574020386,
	"loss": 2.2922,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -8.422037124633789,
	"rewards/margins": 2.4497344493865967,
	"rewards/rejected": -10.871770858764648,
	"step": 155
	},
	{
	"epoch": 0.3420173680694723,
	"grad_norm": 86.49849369728787,
	"learning_rate": 8.317766145051057e-07,
	"logits/chosen": -1.0481699705123901,
	"logits/rejected": -1.030601143836975,
	"logps/chosen": -0.9466081857681274,
	"logps/rejected": -1.3202154636383057,
	"loss": 2.3755,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -9.466081619262695,
	"rewards/margins": 3.736072540283203,
	"rewards/rejected": -13.202154159545898,
	"step": 160
	},
	{
	"epoch": 0.3527054108216433,
	"grad_norm": 66.82340849667754,
	"learning_rate": 8.175578849210894e-07,
	"logits/chosen": -1.0408477783203125,
	"logits/rejected": -1.0174505710601807,
	"logps/chosen": -0.9799006581306458,
	"logps/rejected": -1.3342236280441284,
	"loss": 2.1125,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -9.799007415771484,
	"rewards/margins": 3.5432305335998535,
	"rewards/rejected": -13.34223747253418,
	"step": 165
	},
	{
	"epoch": 0.3633934535738143,
	"grad_norm": 97.43908089438905,
	"learning_rate": 8.028950219204099e-07,
	"logits/chosen": -1.0224933624267578,
	"logits/rejected": -1.001030683517456,
	"logps/chosen": -0.9700697064399719,
	"logps/rejected": -1.358564853668213,
	"loss": 1.9793,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -9.70069694519043,
	"rewards/margins": 3.884951114654541,
	"rewards/rejected": -13.585647583007812,
	"step": 170
	},
	{
	"epoch": 0.3740814963259853,
	"grad_norm": 98.62704227490674,
	"learning_rate": 7.878085328428368e-07,
	"logits/chosen": -1.04830002784729,
	"logits/rejected": -1.0014127492904663,
	"logps/chosen": -1.0846463441848755,
	"logps/rejected": -1.3184218406677246,
	"loss": 1.8174,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -10.846463203430176,
	"rewards/margins": 2.3377552032470703,
	"rewards/rejected": -13.18421745300293,
	"step": 175
	},
	{
	"epoch": 0.3847695390781563,
	"grad_norm": 74.26153272998572,
	"learning_rate": 7.723195175075135e-07,
	"logits/chosen": -0.9784607887268066,
	"logits/rejected": -0.9590786099433899,
	"logps/chosen": -1.03909432888031,
	"logps/rejected": -1.3960068225860596,
	"loss": 1.8592,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -10.39094352722168,
	"rewards/margins": 3.5691237449645996,
	"rewards/rejected": -13.960065841674805,
	"step": 180
	},
	{
	"epoch": 0.3954575818303273,
	"grad_norm": 88.60468047988923,
	"learning_rate": 7.564496387029531e-07,
	"logits/chosen": -1.0223743915557861,
	"logits/rejected": -0.9691470861434937,
	"logps/chosen": -1.0873353481292725,
	"logps/rejected": -1.4810540676116943,
	"loss": 1.8506,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -10.873353958129883,
	"rewards/margins": 3.937185764312744,
	"rewards/rejected": -14.810541152954102,
	"step": 185
	},
	{
	"epoch": 0.4061456245824983,
	"grad_norm": 79.84179637831463,
	"learning_rate": 7.402210918896689e-07,
	"logits/chosen": -0.9927349090576172,
	"logits/rejected": -1.0011526346206665,
	"logps/chosen": -1.2325414419174194,
	"logps/rejected": -1.739311933517456,
	"loss": 1.6742,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -12.325414657592773,
	"rewards/margins": 5.067704200744629,
	"rewards/rejected": -17.393117904663086,
	"step": 190
	},
	{
	"epoch": 0.4168336673346693,
	"grad_norm": 75.55606036176057,
	"learning_rate": 7.236565741578162e-07,
	"logits/chosen": -0.9720694422721863,
	"logits/rejected": -0.9535917043685913,
	"logps/chosen": -1.2131645679473877,
	"logps/rejected": -1.5727177858352661,
	"loss": 1.7343,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -12.131647109985352,
	"rewards/margins": 3.5955300331115723,
	"rewards/rejected": -15.727177619934082,
	"step": 195
	},
	{
	"epoch": 0.42752171008684037,
	"grad_norm": 95.29175169321584,
	"learning_rate": 7.067792524832603e-07,
	"logits/chosen": -0.9580856561660767,
	"logits/rejected": -0.9478925466537476,
	"logps/chosen": -1.2784286737442017,
	"logps/rejected": -1.7080621719360352,
	"loss": 1.7675,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -12.784285545349121,
	"rewards/margins": 4.296335220336914,
	"rewards/rejected": -17.08062171936035,
	"step": 200
	},
	{
	"epoch": 0.43820975283901137,
	"grad_norm": 97.56349101288879,
	"learning_rate": 6.896127313264642e-07,
	"logits/chosen": -1.003482460975647,
	"logits/rejected": -0.9547850489616394,
	"logps/chosen": -1.410736322402954,
	"logps/rejected": -1.8478959798812866,
	"loss": 1.8853,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -14.107362747192383,
	"rewards/margins": 4.371596336364746,
	"rewards/rejected": -18.478958129882812,
	"step": 205
	},
	{
	"epoch": 0.44889779559118237,
	"grad_norm": 124.17700452204937,
	"learning_rate": 6.721810196195174e-07,
	"logits/chosen": -1.0298535823822021,
	"logits/rejected": -1.020567774772644,
	"logps/chosen": -1.4878171682357788,
	"logps/rejected": -1.9283632040023804,
	"loss": 1.7977,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -14.878171920776367,
	"rewards/margins": 4.405461311340332,
	"rewards/rejected": -19.283634185791016,
	"step": 210
	},
	{
	"epoch": 0.45958583834335337,
	"grad_norm": 122.41736903454225,
	"learning_rate": 6.545084971874736e-07,
	"logits/chosen": -0.9621469378471375,
	"logits/rejected": -0.9473578333854675,
	"logps/chosen": -1.558885097503662,
	"logps/rejected": -2.0420405864715576,
	"loss": 1.712,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -15.588850021362305,
	"rewards/margins": 4.8315558433532715,
	"rewards/rejected": -20.420406341552734,
	"step": 215
	},
	{
	"epoch": 0.47027388109552437,
	"grad_norm": 118.87466737296252,
	"learning_rate": 6.3661988065096e-07,
	"logits/chosen": -1.0177868604660034,
	"logits/rejected": -1.0038330554962158,
	"logps/chosen": -1.6249806880950928,
	"logps/rejected": -2.1466097831726074,
	"loss": 1.6798,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -16.249807357788086,
	"rewards/margins": 5.216291904449463,
	"rewards/rejected": -21.46609878540039,
	"step": 220
	},
	{
	"epoch": 0.48096192384769537,
	"grad_norm": 71.45686372104745,
	"learning_rate": 6.185401888577487e-07,
	"logits/chosen": -1.0141699314117432,
	"logits/rejected": -0.9860795736312866,
	"logps/chosen": -1.6077144145965576,
	"logps/rejected": -2.097548723220825,
	"loss": 1.5264,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -16.077144622802734,
	"rewards/margins": 4.898342132568359,
	"rewards/rejected": -20.975486755371094,
	"step": 225
	},
	{
	"epoch": 0.4916499665998664,
	"grad_norm": 96.03329426013343,
	"learning_rate": 6.002947078916364e-07,
	"logits/chosen": -1.1012922525405884,
	"logits/rejected": -1.0541749000549316,
	"logps/chosen": -1.536604881286621,
	"logps/rejected": -1.9562132358551025,
	"loss": 1.5597,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -15.366048812866211,
	"rewards/margins": 4.196080207824707,
	"rewards/rejected": -19.562129974365234,
	"step": 230
	},
	{
	"epoch": 0.5023380093520374,
	"grad_norm": 92.4386577422302,
	"learning_rate": 5.819089557075688e-07,
	"logits/chosen": -1.1283349990844727,
	"logits/rejected": -1.1022907495498657,
	"logps/chosen": -1.527305245399475,
	"logps/rejected": -2.0704562664031982,
	"loss": 1.4964,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -15.273053169250488,
	"rewards/margins": 5.431510925292969,
	"rewards/rejected": -20.70456314086914,
	"step": 235
	},
	{
	"epoch": 0.5130260521042084,
	"grad_norm": 99.65700789182705,
	"learning_rate": 5.634086464424742e-07,
	"logits/chosen": -1.098283290863037,
	"logits/rejected": -1.1012353897094727,
	"logps/chosen": -1.430646538734436,
	"logps/rejected": -1.9294793605804443,
	"loss": 1.5595,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -14.306467056274414,
	"rewards/margins": 4.98832893371582,
	"rewards/rejected": -19.294795989990234,
	"step": 240
	},
	{
	"epoch": 0.5237140948563794,
	"grad_norm": 129.78574414242638,
	"learning_rate": 5.448196544517167e-07,
	"logits/chosen": -1.1896294355392456,
	"logits/rejected": -1.1353044509887695,
	"logps/chosen": -1.4528030157089233,
	"logps/rejected": -2.033853054046631,
	"loss": 1.475,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -14.52802848815918,
	"rewards/margins": 5.810500144958496,
	"rewards/rejected": -20.33852767944336,
	"step": 245
	},
	{
	"epoch": 0.5344021376085505,
	"grad_norm": 128.20283155514042,
	"learning_rate": 5.26167978121472e-07,
	"logits/chosen": -1.1316919326782227,
	"logits/rejected": -1.1171941757202148,
	"logps/chosen": -1.538417100906372,
	"logps/rejected": -2.1081037521362305,
	"loss": 1.4196,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -15.384170532226562,
	"rewards/margins": 5.696866512298584,
	"rewards/rejected": -21.081039428710938,
	"step": 250
	},
	{
	"epoch": 0.5450901803607214,
	"grad_norm": 297.4344168039998,
	"learning_rate": 5.074797035076318e-07,
	"logits/chosen": -1.1720324754714966,
	"logits/rejected": -1.1475986242294312,
	"logps/chosen": -1.6590303182601929,
	"logps/rejected": -2.150458335876465,
	"loss": 1.6319,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -16.590303421020508,
	"rewards/margins": 4.914281845092773,
	"rewards/rejected": -21.50458335876465,
	"step": 255
	},
	{
	"epoch": 0.5557782231128925,
	"grad_norm": 110.4855476557986,
	"learning_rate": 4.887809678520975e-07,
	"logits/chosen": -1.145662546157837,
	"logits/rejected": -1.1171993017196655,
	"logps/chosen": -1.5531560182571411,
	"logps/rejected": -2.0303704738616943,
	"loss": 1.4324,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -15.531560897827148,
	"rewards/margins": 4.7721452713012695,
	"rewards/rejected": -20.303707122802734,
	"step": 260
	},
	{
	"epoch": 0.5664662658650634,
	"grad_norm": 83.14465015789618,
	"learning_rate": 4.700979230274829e-07,
	"logits/chosen": -1.1167972087860107,
	"logits/rejected": -1.1012585163116455,
	"logps/chosen": -1.6575731039047241,
	"logps/rejected": -2.175945997238159,
	"loss": 1.5468,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -16.575729370117188,
	"rewards/margins": 5.183730125427246,
	"rewards/rejected": -21.75946044921875,
	"step": 265
	},
	{
	"epoch": 0.5771543086172345,
	"grad_norm": 116.06958067335016,
	"learning_rate": 4.514566989613559e-07,
	"logits/chosen": -1.1125719547271729,
	"logits/rejected": -1.0850471258163452,
	"logps/chosen": -1.4920045137405396,
	"logps/rejected": -2.0412135124206543,
	"loss": 1.411,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -14.920045852661133,
	"rewards/margins": 5.492091655731201,
	"rewards/rejected": -20.41213607788086,
	"step": 270
	},
	{
	"epoch": 0.5878423513694054,
	"grad_norm": 93.41636467602738,
	"learning_rate": 4.328833670911724e-07,
	"logits/chosen": -1.0854105949401855,
	"logits/rejected": -1.0501768589019775,
	"logps/chosen": -1.501579999923706,
	"logps/rejected": -1.966059684753418,
	"loss": 1.6514,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -15.015800476074219,
	"rewards/margins": 4.644796848297119,
	"rewards/rejected": -19.66059684753418,
	"step": 275
	},
	{
	"epoch": 0.5985303941215765,
	"grad_norm": 76.77398013161601,
	"learning_rate": 4.144039039010124e-07,
	"logits/chosen": -1.1719205379486084,
	"logits/rejected": -1.148206114768982,
	"logps/chosen": -1.5624816417694092,
	"logps/rejected": -2.106921672821045,
	"loss": 1.5084,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -15.6248140335083,
	"rewards/margins": 5.44440221786499,
	"rewards/rejected": -21.069217681884766,
	"step": 280
	},
	{
	"epoch": 0.6092184368737475,
	"grad_norm": 111.58387969589569,
	"learning_rate": 3.960441545911204e-07,
	"logits/chosen": -1.1303155422210693,
	"logits/rejected": -1.0974434614181519,
	"logps/chosen": -1.6112607717514038,
	"logps/rejected": -2.212517261505127,
	"loss": 1.3065,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -16.112607955932617,
	"rewards/margins": 6.012566089630127,
	"rewards/rejected": -22.125173568725586,
	"step": 285
	},
	{
	"epoch": 0.6199064796259185,
	"grad_norm": 101.64126956685786,
	"learning_rate": 3.778297969310529e-07,
	"logits/chosen": -1.1603832244873047,
	"logits/rejected": -1.117941975593567,
	"logps/chosen": -1.6240203380584717,
	"logps/rejected": -2.1277661323547363,
	"loss": 1.5293,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.240203857421875,
	"rewards/margins": 5.037457466125488,
	"rewards/rejected": -21.277660369873047,
	"step": 290
	},
	{
	"epoch": 0.6305945223780896,
	"grad_norm": 107.06654753863799,
	"learning_rate": 3.5978630534699865e-07,
	"logits/chosen": -1.0859363079071045,
	"logits/rejected": -1.0710818767547607,
	"logps/chosen": -1.6715633869171143,
	"logps/rejected": -2.20039701461792,
	"loss": 1.4051,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -16.715633392333984,
	"rewards/margins": 5.288336753845215,
	"rewards/rejected": -22.003969192504883,
	"step": 295
	},
	{
	"epoch": 0.6412825651302605,
	"grad_norm": 85.09256280069626,
	"learning_rate": 3.4193891529348795e-07,
	"logits/chosen": -1.015700340270996,
	"logits/rejected": -0.9886563420295715,
	"logps/chosen": -1.7295385599136353,
	"logps/rejected": -2.197303056716919,
	"loss": 1.7183,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -17.295387268066406,
	"rewards/margins": 4.677645206451416,
	"rewards/rejected": -21.973031997680664,
	"step": 300
	},
	{
	"epoch": 0.6519706078824316,
	"grad_norm": 98.45045929238997,
	"learning_rate": 3.243125879593286e-07,
	"logits/chosen": -1.1253305673599243,
	"logits/rejected": -1.078313946723938,
	"logps/chosen": -1.716840386390686,
	"logps/rejected": -2.1928813457489014,
	"loss": 1.4901,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -17.16840171813965,
	"rewards/margins": 4.760410785675049,
	"rewards/rejected": -21.928813934326172,
	"step": 305
	},
	{
	"epoch": 0.6626586506346025,
	"grad_norm": 141.52088188995467,
	"learning_rate": 3.069319753571269e-07,
	"logits/chosen": -1.1675808429718018,
	"logits/rejected": -1.1469465494155884,
	"logps/chosen": -1.7660911083221436,
	"logps/rejected": -2.279519557952881,
	"loss": 1.6871,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -17.660913467407227,
	"rewards/margins": 5.134285926818848,
	"rewards/rejected": -22.795196533203125,
	"step": 310
	},
	{
	"epoch": 0.6733466933867736,
	"grad_norm": 101.86538699204806,
	"learning_rate": 2.898213858452173e-07,
	"logits/chosen": -1.153141736984253,
	"logits/rejected": -1.097063660621643,
	"logps/chosen": -1.705733299255371,
	"logps/rejected": -2.247840166091919,
	"loss": 1.5097,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -17.05733299255371,
	"rewards/margins": 5.421066761016846,
	"rewards/rejected": -22.47840118408203,
	"step": 315
	},
	{
	"epoch": 0.6840347361389446,
	"grad_norm": 122.36169835495791,
	"learning_rate": 2.730047501302266e-07,
	"logits/chosen": -1.136850357055664,
	"logits/rejected": -1.1315498352050781,
	"logps/chosen": -1.7248958349227905,
	"logps/rejected": -2.382091760635376,
	"loss": 1.446,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -17.248958587646484,
	"rewards/margins": 6.571959018707275,
	"rewards/rejected": -23.8209171295166,
	"step": 320
	},
	{
	"epoch": 0.6947227788911156,
	"grad_norm": 100.7599593802445,
	"learning_rate": 2.5650558779781635e-07,
	"logits/chosen": -1.158361792564392,
	"logits/rejected": -1.1068694591522217,
	"logps/chosen": -1.8045142889022827,
	"logps/rejected": -2.512817859649658,
	"loss": 1.4403,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -18.04514503479004,
	"rewards/margins": 7.083035469055176,
	"rewards/rejected": -25.128177642822266,
	"step": 325
	},
	{
	"epoch": 0.7054108216432866,
	"grad_norm": 82.7307588668697,
	"learning_rate": 2.403469744184154e-07,
	"logits/chosen": -1.0738600492477417,
	"logits/rejected": -1.030057430267334,
	"logps/chosen": -1.734301209449768,
	"logps/rejected": -2.244229793548584,
	"loss": 1.4411,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.3430118560791,
	"rewards/margins": 5.099286079406738,
	"rewards/rejected": -22.442298889160156,
	"step": 330
	},
	{
	"epoch": 0.7160988643954576,
	"grad_norm": 111.19834108528815,
	"learning_rate": 2.2455150927394878e-07,
	"logits/chosen": -1.1105704307556152,
	"logits/rejected": -1.092313289642334,
	"logps/chosen": -1.7023674249649048,
	"logps/rejected": -2.2848927974700928,
	"loss": 1.3002,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.023672103881836,
	"rewards/margins": 5.82525634765625,
	"rewards/rejected": -22.84893226623535,
	"step": 335
	},
	{
	"epoch": 0.7267869071476286,
	"grad_norm": 124.14973601872444,
	"learning_rate": 2.0914128375069722e-07,
	"logits/chosen": -1.1307401657104492,
	"logits/rejected": -1.0960733890533447,
	"logps/chosen": -1.639500617980957,
	"logps/rejected": -2.2025198936462402,
	"loss": 1.4763,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.395008087158203,
	"rewards/margins": 5.630189895629883,
	"rewards/rejected": -22.025196075439453,
	"step": 340
	},
	{
	"epoch": 0.7374749498997996,
	"grad_norm": 89.15665757381706,
	"learning_rate": 1.9413785044249676e-07,
	"logits/chosen": -1.1599509716033936,
	"logits/rejected": -1.135851502418518,
	"logps/chosen": -1.72158682346344,
	"logps/rejected": -2.364271402359009,
	"loss": 1.5031,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -17.215869903564453,
	"rewards/margins": 6.426844596862793,
	"rewards/rejected": -23.642711639404297,
	"step": 345
	},
	{
	"epoch": 0.7481629926519706,
	"grad_norm": 110.91770853185307,
	"learning_rate": 1.7956219300748792e-07,
	"logits/chosen": -1.1471744775772095,
	"logits/rejected": -1.1494718790054321,
	"logps/chosen": -1.5995361804962158,
	"logps/rejected": -2.1568686962127686,
	"loss": 1.4483,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -15.995361328125,
	"rewards/margins": 5.57332706451416,
	"rewards/rejected": -21.568689346313477,
	"step": 350
	},
	{
	"epoch": 0.7588510354041417,
	"grad_norm": 92.35558706588404,
	"learning_rate": 1.6543469682057104e-07,
	"logits/chosen": -1.0737619400024414,
	"logits/rejected": -1.0871598720550537,
	"logps/chosen": -1.583603858947754,
	"logps/rejected": -2.1480062007904053,
	"loss": 1.2137,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -15.836038589477539,
	"rewards/margins": 5.6440229415893555,
	"rewards/rejected": -21.480064392089844,
	"step": 355
	},
	{
	"epoch": 0.7695390781563126,
	"grad_norm": 97.35140511945166,
	"learning_rate": 1.5177512046261666e-07,
	"logits/chosen": -1.1281821727752686,
	"logits/rejected": -1.1263208389282227,
	"logps/chosen": -1.5962927341461182,
	"logps/rejected": -2.2565903663635254,
	"loss": 1.4883,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -15.962926864624023,
	"rewards/margins": 6.602975368499756,
	"rewards/rejected": -22.565902709960938,
	"step": 360
	},
	{
	"epoch": 0.7802271209084837,
	"grad_norm": 97.26488316442018,
	"learning_rate": 1.3860256808630427e-07,
	"logits/chosen": -1.1745531558990479,
	"logits/rejected": -1.1077674627304077,
	"logps/chosen": -1.6627562046051025,
	"logps/rejected": -2.321105480194092,
	"loss": 1.4521,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -16.627561569213867,
	"rewards/margins": 6.583495140075684,
	"rewards/rejected": -23.211057662963867,
	"step": 365
	},
	{
	"epoch": 0.7909151636606546,
	"grad_norm": 112.70224926269489,
	"learning_rate": 1.2593546269723647e-07,
	"logits/chosen": -1.0878835916519165,
	"logits/rejected": -1.075674295425415,
	"logps/chosen": -1.6165920495986938,
	"logps/rejected": -2.117642402648926,
	"loss": 1.4406,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -16.165922164916992,
	"rewards/margins": 5.010504245758057,
	"rewards/rejected": -21.17642593383789,
	"step": 370
	},
	{
	"epoch": 0.8016032064128257,
	"grad_norm": 116.18618106964092,
	"learning_rate": 1.1379152038770029e-07,
	"logits/chosen": -1.1332778930664062,
	"logits/rejected": -1.1369507312774658,
	"logps/chosen": -1.7694313526153564,
	"logps/rejected": -2.3713538646698,
	"loss": 1.4837,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -17.694313049316406,
	"rewards/margins": 6.019228935241699,
	"rewards/rejected": -23.71354103088379,
	"step": 375
	},
	{
	"epoch": 0.8122912491649966,
	"grad_norm": 133.07010667525282,
	"learning_rate": 1.0218772555910954e-07,
	"logits/chosen": -1.1531364917755127,
	"logits/rejected": -1.1320288181304932,
	"logps/chosen": -1.6155163049697876,
	"logps/rejected": -2.160113573074341,
	"loss": 1.5728,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -16.155162811279297,
	"rewards/margins": 5.4459710121154785,
	"rewards/rejected": -21.60113525390625,
	"step": 380
	},
	{
	"epoch": 0.8229792919171677,
	"grad_norm": 92.80555931457836,
	"learning_rate": 9.114030716778432e-08,
	"logits/chosen": -1.14119553565979,
	"logits/rejected": -1.1190695762634277,
	"logps/chosen": -1.6841446161270142,
	"logps/rejected": -2.4013619422912598,
	"loss": 1.2863,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -16.841445922851562,
	"rewards/margins": 7.172172546386719,
	"rewards/rejected": -24.013620376586914,
	"step": 385
	},
	{
	"epoch": 0.8336673346693386,
	"grad_norm": 106.02842713910356,
	"learning_rate": 8.066471602728803e-08,
	"logits/chosen": -1.164880633354187,
	"logits/rejected": -1.1471444368362427,
	"logps/chosen": -1.7512538433074951,
	"logps/rejected": -2.3633463382720947,
	"loss": 1.4838,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -17.512537002563477,
	"rewards/margins": 6.120924949645996,
	"rewards/rejected": -23.633460998535156,
	"step": 390
	},
	{
	"epoch": 0.8443553774215097,
	"grad_norm": 91.21482574420814,
	"learning_rate": 7.077560319906694e-08,
	"logits/chosen": -1.158891201019287,
	"logits/rejected": -1.1362249851226807,
	"logps/chosen": -1.6644847393035889,
	"logps/rejected": -2.2324166297912598,
	"loss": 1.3638,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -16.644847869873047,
	"rewards/margins": 5.679316997528076,
	"rewards/rejected": -22.32416534423828,
	"step": 395
	},
	{
	"epoch": 0.8550434201736807,
	"grad_norm": 67.57151749023619,
	"learning_rate": 6.148679950161672e-08,
	"logits/chosen": -1.1628615856170654,
	"logits/rejected": -1.1462781429290771,
	"logps/chosen": -1.6841766834259033,
	"logps/rejected": -2.238058567047119,
	"loss": 1.2555,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.841764450073242,
	"rewards/margins": 5.538818359375,
	"rewards/rejected": -22.380582809448242,
	"step": 400
	},
	{
	"epoch": 0.8550434201736807,
	"eval_logits/chosen": -1.3520146608352661,
	"eval_logits/rejected": -1.3613466024398804,
	"eval_logps/chosen": -1.698158621788025,
	"eval_logps/rejected": -2.272404670715332,
	"eval_loss": 1.3605413436889648,
	"eval_rewards/accuracies": 0.8455284833908081,
	"eval_rewards/chosen": -16.981586456298828,
	"eval_rewards/margins": 5.742460250854492,
	"eval_rewards/rejected": -22.724044799804688,
	"eval_runtime": 96.7859,
	"eval_samples_per_second": 20.261,
	"eval_steps_per_second": 1.271,
	"step": 400
	},
	{
	"epoch": 0.8657314629258517,
	"grad_norm": 113.07658741149837,
	"learning_rate": 5.2811296166831666e-08,
	"logits/chosen": -1.1250704526901245,
	"logits/rejected": -1.142858624458313,
	"logps/chosen": -1.7644565105438232,
	"logps/rejected": -2.3112316131591797,
	"loss": 1.3959,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -17.64456558227539,
	"rewards/margins": 5.467750549316406,
	"rewards/rejected": -23.112316131591797,
	"step": 405
	},
	{
	"epoch": 0.8764195056780227,
	"grad_norm": 135.58367842014283,
	"learning_rate": 4.4761226670592066e-08,
	"logits/chosen": -1.148863434791565,
	"logits/rejected": -1.1359000205993652,
	"logps/chosen": -1.7182337045669556,
	"logps/rejected": -2.268091917037964,
	"loss": 1.5344,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.182336807250977,
	"rewards/margins": 5.4985833168029785,
	"rewards/rejected": -22.680919647216797,
	"step": 410
	},
	{
	"epoch": 0.8871075484301937,
	"grad_norm": 114.17576942626454,
	"learning_rate": 3.734784976300165e-08,
	"logits/chosen": -1.1382702589035034,
	"logits/rejected": -1.0858891010284424,
	"logps/chosen": -1.606128454208374,
	"logps/rejected": -2.25667142868042,
	"loss": 1.6467,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -16.061288833618164,
	"rewards/margins": 6.505424499511719,
	"rewards/rejected": -22.56671142578125,
	"step": 415
	},
	{
	"epoch": 0.8977955911823647,
	"grad_norm": 101.01008878090249,
	"learning_rate": 3.058153372200695e-08,
	"logits/chosen": -1.1730471849441528,
	"logits/rejected": -1.1232213973999023,
	"logps/chosen": -1.5842628479003906,
	"logps/rejected": -2.213921308517456,
	"loss": 1.3771,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -15.842630386352539,
	"rewards/margins": 6.296584129333496,
	"rewards/rejected": -22.13921356201172,
	"step": 420
	},
	{
	"epoch": 0.9084836339345357,
	"grad_norm": 111.86270544120462,
	"learning_rate": 2.4471741852423233e-08,
	"logits/chosen": -1.1721917390823364,
	"logits/rejected": -1.1620614528656006,
	"logps/chosen": -1.77499258518219,
	"logps/rejected": -2.305689573287964,
	"loss": 1.493,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -17.74992561340332,
	"rewards/margins": 5.306972980499268,
	"rewards/rejected": -23.05689811706543,
	"step": 425
	},
	{
	"epoch": 0.9191716766867067,
	"grad_norm": 86.63448539967071,
	"learning_rate": 1.9027019250647036e-08,
	"logits/chosen": -1.1510651111602783,
	"logits/rejected": -1.1352717876434326,
	"logps/chosen": -1.7862894535064697,
	"logps/rejected": -2.381641149520874,
	"loss": 1.411,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -17.862895965576172,
	"rewards/margins": 5.953517436981201,
	"rewards/rejected": -23.816410064697266,
	"step": 430
	},
	{
	"epoch": 0.9298597194388778,
	"grad_norm": 102.66949123740247,
	"learning_rate": 1.4254980853566246e-08,
	"logits/chosen": -1.1117022037506104,
	"logits/rejected": -1.0704118013381958,
	"logps/chosen": -1.6134551763534546,
	"logps/rejected": -2.211256742477417,
	"loss": 1.3969,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -16.134552001953125,
	"rewards/margins": 5.9780168533325195,
	"rewards/rejected": -22.112567901611328,
	"step": 435
	},
	{
	"epoch": 0.9405477621910487,
	"grad_norm": 112.7340895477117,
	"learning_rate": 1.016230078838226e-08,
	"logits/chosen": -1.1366580724716187,
	"logits/rejected": -1.0769071578979492,
	"logps/chosen": -1.7496669292449951,
	"logps/rejected": -2.3226873874664307,
	"loss": 1.3153,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.49666976928711,
	"rewards/margins": 5.7302045822143555,
	"rewards/rejected": -23.226871490478516,
	"step": 440
	},
	{
	"epoch": 0.9512358049432198,
	"grad_norm": 92.65086353146947,
	"learning_rate": 6.754703038239329e-09,
	"logits/chosen": -1.0847865343093872,
	"logits/rejected": -1.0684945583343506,
	"logps/chosen": -1.726458191871643,
	"logps/rejected": -2.406322956085205,
	"loss": 1.2646,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -17.26458168029785,
	"rewards/margins": 6.798647403717041,
	"rewards/rejected": -24.063228607177734,
	"step": 445
	},
	{
	"epoch": 0.9619238476953907,
	"grad_norm": 81.82402808973579,
	"learning_rate": 4.036953436716895e-09,
	"logits/chosen": -1.1987271308898926,
	"logits/rejected": -1.1772375106811523,
	"logps/chosen": -1.6759332418441772,
	"logps/rejected": -2.2297987937927246,
	"loss": 1.4218,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.759334564208984,
	"rewards/margins": 5.5386552810668945,
	"rewards/rejected": -22.297988891601562,
	"step": 450
	},
	{
	"epoch": 0.9726118904475618,
	"grad_norm": 114.73913428926,
	"learning_rate": 2.0128530023804656e-09,
	"logits/chosen": -1.1624139547348022,
	"logits/rejected": -1.1274266242980957,
	"logps/chosen": -1.695810317993164,
	"logps/rejected": -2.3724701404571533,
	"loss": 1.1616,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -16.958105087280273,
	"rewards/margins": 6.766595363616943,
	"rewards/rejected": -23.724700927734375,
	"step": 455
	},
	{
	"epoch": 0.9832999331997327,
	"grad_norm": 105.12442076336163,
	"learning_rate": 6.852326227130833e-10,
	"logits/chosen": -1.1637624502182007,
	"logits/rejected": -1.1525938510894775,
	"logps/chosen": -1.7872707843780518,
	"logps/rejected": -2.419015407562256,
	"loss": 1.334,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -17.87270736694336,
	"rewards/margins": 6.317442893981934,
	"rewards/rejected": -24.19015121459961,
	"step": 460
	},
	{
	"epoch": 0.9939879759519038,
	"grad_norm": 103.69467200755768,
	"learning_rate": 5.594909486328348e-11,
	"logits/chosen": -1.1328219175338745,
	"logits/rejected": -1.139512300491333,
	"logps/chosen": -1.773741364479065,
	"logps/rejected": -2.4201297760009766,
	"loss": 1.4736,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -17.737415313720703,
	"rewards/margins": 6.4638848304748535,
	"rewards/rejected": -24.201297760009766,
	"step": 465
	}
	],
	"logging_steps": 5,
	"max_steps": 467,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}