zephyr-7b / trainer_state.json

Model save

59b129b verified 6 months ago

34.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9997382884061764,
	"eval_steps": 100,
	"global_step": 955,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.59375,
	"learning_rate": 5.208333333333333e-08,
	"logits/chosen": -2.1666858196258545,
	"logits/rejected": -2.182244300842285,
	"logps/chosen": -12.368609428405762,
	"logps/rejected": -24.687644958496094,
	"loss": 0.6931,
	"pred_label": 0.0,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1,
	"use_label": 10.0
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.6796875,
	"learning_rate": 1.0416666666666667e-06,
	"logits/chosen": -2.2281553745269775,
	"logits/rejected": -2.276446580886841,
	"logps/chosen": -57.036190032958984,
	"logps/rejected": -66.88007354736328,
	"loss": 0.6927,
	"pred_label": 0.0,
	"rewards/accuracies": 0.24013157188892365,
	"rewards/chosen": 0.003924594726413488,
	"rewards/margins": 0.0009102027979679406,
	"rewards/rejected": 0.0030143915209919214,
	"step": 20,
	"use_label": 170.0
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.6328125,
	"learning_rate": 2.0833333333333334e-06,
	"logits/chosen": -2.2738099098205566,
	"logits/rejected": -2.2623789310455322,
	"logps/chosen": -54.78137969970703,
	"logps/rejected": -67.2437515258789,
	"loss": 0.6914,
	"pred_label": 0.0,
	"rewards/accuracies": 0.24687500298023224,
	"rewards/chosen": 0.01747792772948742,
	"rewards/margins": 0.001674558618105948,
	"rewards/rejected": 0.015803368762135506,
	"step": 40,
	"use_label": 482.0
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.71875,
	"learning_rate": 3.125e-06,
	"logits/chosen": -2.3237431049346924,
	"logits/rejected": -2.321906089782715,
	"logps/chosen": -75.5770034790039,
	"logps/rejected": -87.68544006347656,
	"loss": 0.6885,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": 0.031676117330789566,
	"rewards/margins": 0.009719676338136196,
	"rewards/rejected": 0.021956440061330795,
	"step": 60,
	"use_label": 802.0
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.73828125,
	"learning_rate": 4.166666666666667e-06,
	"logits/chosen": -2.2948005199432373,
	"logits/rejected": -2.2623462677001953,
	"logps/chosen": -79.29240417480469,
	"logps/rejected": -83.04844665527344,
	"loss": 0.6876,
	"pred_label": 5.800000190734863,
	"rewards/accuracies": 0.3343749940395355,
	"rewards/chosen": 0.016009245067834854,
	"rewards/margins": 0.018887853249907494,
	"rewards/rejected": -0.0028786074835807085,
	"step": 80,
	"use_label": 1116.199951171875
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.6953125,
	"learning_rate": 4.9997324926814375e-06,
	"logits/chosen": -2.2056884765625,
	"logits/rejected": -2.210036039352417,
	"logps/chosen": -68.87937927246094,
	"logps/rejected": -77.87590026855469,
	"loss": 0.6876,
	"pred_label": 27.537500381469727,
	"rewards/accuracies": 0.34062498807907104,
	"rewards/chosen": -0.010471501387655735,
	"rewards/margins": 0.03584115579724312,
	"rewards/rejected": -0.04631265625357628,
	"step": 100,
	"use_label": 1414.4625244140625
	},
	{
	"epoch": 0.1,
	"eval_logits/chosen": -2.1076083183288574,
	"eval_logits/rejected": -2.0761499404907227,
	"eval_logps/chosen": -74.44951629638672,
	"eval_logps/rejected": -85.2883071899414,
	"eval_loss": 0.6895647048950195,
	"eval_pred_label": 89.14286041259766,
	"eval_rewards/accuracies": 0.335317462682724,
	"eval_rewards/chosen": -0.05548960343003273,
	"eval_rewards/margins": 0.04341282695531845,
	"eval_rewards/rejected": -0.09890241920948029,
	"eval_runtime": 247.5952,
	"eval_samples_per_second": 8.078,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 1766.857177734375,
	"step": 100
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.7578125,
	"learning_rate": 4.9903757462135984e-06,
	"logits/chosen": -2.2542896270751953,
	"logits/rejected": -2.1902401447296143,
	"logps/chosen": -70.2941665649414,
	"logps/rejected": -84.7874755859375,
	"loss": 0.6884,
	"pred_label": 155.6374969482422,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.023759985342621803,
	"rewards/margins": 0.051492441445589066,
	"rewards/rejected": -0.07525241374969482,
	"step": 120,
	"use_label": 2110.362548828125
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.55859375,
	"learning_rate": 4.967700826904229e-06,
	"logits/chosen": -2.1823272705078125,
	"logits/rejected": -2.210157632827759,
	"logps/chosen": -61.80498504638672,
	"logps/rejected": -76.43424224853516,
	"loss": 0.6907,
	"pred_label": 204.22500610351562,
	"rewards/accuracies": 0.26875001192092896,
	"rewards/chosen": -0.029314354062080383,
	"rewards/margins": 0.036702848970890045,
	"rewards/rejected": -0.06601719558238983,
	"step": 140,
	"use_label": 2381.77490234375
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.70703125,
	"learning_rate": 4.931828996974498e-06,
	"logits/chosen": -2.251568555831909,
	"logits/rejected": -2.220432996749878,
	"logps/chosen": -66.60148620605469,
	"logps/rejected": -71.53702545166016,
	"loss": 0.69,
	"pred_label": 257.2124938964844,
	"rewards/accuracies": 0.3343749940395355,
	"rewards/chosen": -0.020524730905890465,
	"rewards/margins": 0.05932433158159256,
	"rewards/rejected": -0.07984906435012817,
	"step": 160,
	"use_label": 2648.78759765625
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.6796875,
	"learning_rate": 4.882952093833628e-06,
	"logits/chosen": -2.114015817642212,
	"logits/rejected": -2.126950740814209,
	"logps/chosen": -66.40071868896484,
	"logps/rejected": -78.54503631591797,
	"loss": 0.6901,
	"pred_label": 319.9624938964844,
	"rewards/accuracies": 0.328125,
	"rewards/chosen": -0.03171534463763237,
	"rewards/margins": 0.0544399619102478,
	"rewards/rejected": -0.08615531027317047,
	"step": 180,
	"use_label": 2906.03759765625
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.9140625,
	"learning_rate": 4.821331504159906e-06,
	"logits/chosen": -2.138213872909546,
	"logits/rejected": -2.108750343322754,
	"logps/chosen": -77.92289733886719,
	"logps/rejected": -78.32075500488281,
	"loss": 0.6892,
	"pred_label": 383.5249938964844,
	"rewards/accuracies": 0.37812501192092896,
	"rewards/chosen": -0.009543296881020069,
	"rewards/margins": 0.06037301942706108,
	"rewards/rejected": -0.06991632282733917,
	"step": 200,
	"use_label": 3162.47509765625
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -2.051973581314087,
	"eval_logits/rejected": -2.028658390045166,
	"eval_logps/chosen": -69.3875503540039,
	"eval_logps/rejected": -80.99542999267578,
	"eval_loss": 0.6893584132194519,
	"eval_pred_label": 459.1111145019531,
	"eval_rewards/accuracies": 0.3492063581943512,
	"eval_rewards/chosen": -0.0048699695616960526,
	"eval_rewards/margins": 0.05110359564423561,
	"eval_rewards/rejected": -0.05597356706857681,
	"eval_runtime": 247.8689,
	"eval_samples_per_second": 8.069,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 3500.888916015625,
	"step": 200
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.765625,
	"learning_rate": 4.747296766042161e-06,
	"logits/chosen": -2.172316074371338,
	"logits/rejected": -2.1599390506744385,
	"logps/chosen": -73.75865173339844,
	"logps/rejected": -76.45826721191406,
	"loss": 0.6906,
	"pred_label": 537.4000244140625,
	"rewards/accuracies": 0.34375,
	"rewards/chosen": -0.017265746369957924,
	"rewards/margins": 0.061459798365831375,
	"rewards/rejected": -0.07872554659843445,
	"step": 220,
	"use_label": 3832.60009765625
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.671875,
	"learning_rate": 4.661243806657256e-06,
	"logits/chosen": -2.1377243995666504,
	"logits/rejected": -2.114131450653076,
	"logps/chosen": -78.08522033691406,
	"logps/rejected": -88.16291809082031,
	"loss": 0.6906,
	"pred_label": 610.8624877929688,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.06858871877193451,
	"rewards/margins": 0.07855252921581268,
	"rewards/rejected": -0.1471412628889084,
	"step": 240,
	"use_label": 4079.137451171875
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.70703125,
	"learning_rate": 4.563632824908252e-06,
	"logits/chosen": -2.1762757301330566,
	"logits/rejected": -2.173243999481201,
	"logps/chosen": -69.33678436279297,
	"logps/rejected": -82.98787689208984,
	"loss": 0.6907,
	"pred_label": 682.2750244140625,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.06302420794963837,
	"rewards/margins": 0.0732887014746666,
	"rewards/rejected": -0.13631291687488556,
	"step": 260,
	"use_label": 4327.72509765625
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.625,
	"learning_rate": 4.454985830346574e-06,
	"logits/chosen": -2.16465425491333,
	"logits/rejected": -2.1788923740386963,
	"logps/chosen": -74.41441345214844,
	"logps/rejected": -78.55416870117188,
	"loss": 0.6892,
	"pred_label": 749.125,
	"rewards/accuracies": 0.3062500059604645,
	"rewards/chosen": -0.06083650514483452,
	"rewards/margins": 0.04520425945520401,
	"rewards/rejected": -0.10604077577590942,
	"step": 280,
	"use_label": 4580.875
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.65234375,
	"learning_rate": 4.335883851539693e-06,
	"logits/chosen": -2.0553781986236572,
	"logits/rejected": -2.0573229789733887,
	"logps/chosen": -69.96788024902344,
	"logps/rejected": -80.52223205566406,
	"loss": 0.6904,
	"pred_label": 824.5499877929688,
	"rewards/accuracies": 0.359375,
	"rewards/chosen": -0.04866168648004532,
	"rewards/margins": 0.09801270812749863,
	"rewards/rejected": -0.14667439460754395,
	"step": 300,
	"use_label": 4825.4501953125
	},
	{
	"epoch": 0.31,
	"eval_logits/chosen": -2.0163989067077637,
	"eval_logits/rejected": -1.9942671060562134,
	"eval_logps/chosen": -75.15243530273438,
	"eval_logps/rejected": -89.50163269042969,
	"eval_loss": 0.6908969879150391,
	"eval_pred_label": 923.3174438476562,
	"eval_rewards/accuracies": 0.3531745970249176,
	"eval_rewards/chosen": -0.06251893937587738,
	"eval_rewards/margins": 0.07851671427488327,
	"eval_rewards/rejected": -0.14103564620018005,
	"eval_runtime": 247.8241,
	"eval_samples_per_second": 8.07,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 5140.6826171875,
	"step": 300
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.9140625,
	"learning_rate": 4.206963828813555e-06,
	"logits/chosen": -2.065279483795166,
	"logits/rejected": -2.0684821605682373,
	"logps/chosen": -72.58639526367188,
	"logps/rejected": -89.45655822753906,
	"loss": 0.6899,
	"pred_label": 1033.7874755859375,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": -0.11120834201574326,
	"rewards/margins": 0.0645986869931221,
	"rewards/rejected": -0.17580702900886536,
	"step": 320,
	"use_label": 5440.21240234375
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.56640625,
	"learning_rate": 4.068915207986931e-06,
	"logits/chosen": -2.033398151397705,
	"logits/rejected": -1.991502046585083,
	"logps/chosen": -71.1894760131836,
	"logps/rejected": -84.0774154663086,
	"loss": 0.6917,
	"pred_label": 1122.112548828125,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.07950185984373093,
	"rewards/margins": 0.08617939054965973,
	"rewards/rejected": -0.16568127274513245,
	"step": 340,
	"use_label": 5671.8876953125
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.84765625,
	"learning_rate": 3.922476253313921e-06,
	"logits/chosen": -2.0358688831329346,
	"logits/rejected": -2.0224781036376953,
	"logps/chosen": -76.57051849365234,
	"logps/rejected": -84.2589340209961,
	"loss": 0.6914,
	"pred_label": 1204.4124755859375,
	"rewards/accuracies": 0.31562501192092896,
	"rewards/chosen": -0.11715561151504517,
	"rewards/margins": 0.07723374664783478,
	"rewards/rejected": -0.19438934326171875,
	"step": 360,
	"use_label": 5909.58740234375
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.55078125,
	"learning_rate": 3.768430099352445e-06,
	"logits/chosen": -2.12782621383667,
	"logits/rejected": -2.086026430130005,
	"logps/chosen": -74.41622161865234,
	"logps/rejected": -85.17180633544922,
	"loss": 0.6918,
	"pred_label": 1289.9375,
	"rewards/accuracies": 0.3656249940395355,
	"rewards/chosen": -0.07592298835515976,
	"rewards/margins": 0.08457346260547638,
	"rewards/rejected": -0.16049645841121674,
	"step": 380,
	"use_label": 6144.0625
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.73046875,
	"learning_rate": 3.607600562872785e-06,
	"logits/chosen": -2.126784086227417,
	"logits/rejected": -2.1261298656463623,
	"logps/chosen": -83.82131958007812,
	"logps/rejected": -86.00455474853516,
	"loss": 0.6906,
	"pred_label": 1373.137451171875,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.05874443054199219,
	"rewards/margins": 0.06775099784135818,
	"rewards/rejected": -0.12649545073509216,
	"step": 400,
	"use_label": 6380.8623046875
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": -2.0480618476867676,
	"eval_logits/rejected": -2.0248324871063232,
	"eval_logps/chosen": -75.26866149902344,
	"eval_logps/rejected": -90.80635070800781,
	"eval_loss": 0.6920759081840515,
	"eval_pred_label": 1472.5714111328125,
	"eval_rewards/accuracies": 0.3511904776096344,
	"eval_rewards/chosen": -0.06368114054203033,
	"eval_rewards/margins": 0.09040173143148422,
	"eval_rewards/rejected": -0.15408287942409515,
	"eval_runtime": 248.0088,
	"eval_samples_per_second": 8.064,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 6695.4287109375,
	"step": 400
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.78515625,
	"learning_rate": 3.4408477372034743e-06,
	"logits/chosen": -2.055358409881592,
	"logits/rejected": -2.068175792694092,
	"logps/chosen": -70.47552490234375,
	"logps/rejected": -79.02010345458984,
	"loss": 0.6903,
	"pred_label": 1589.0374755859375,
	"rewards/accuracies": 0.3656249940395355,
	"rewards/chosen": -0.06399895995855331,
	"rewards/margins": 0.0963120311498642,
	"rewards/rejected": -0.16031098365783691,
	"step": 420,
	"use_label": 6988.96240234375
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.95703125,
	"learning_rate": 3.269063392575352e-06,
	"logits/chosen": -2.0893940925598145,
	"logits/rejected": -2.09212589263916,
	"logps/chosen": -85.68560028076172,
	"logps/rejected": -87.41291809082031,
	"loss": 0.6912,
	"pred_label": 1667.6875,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.13728377223014832,
	"rewards/margins": 0.07875251770019531,
	"rewards/rejected": -0.21603628993034363,
	"step": 440,
	"use_label": 7230.3125
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.53515625,
	"learning_rate": 3.09316620706208e-06,
	"logits/chosen": -2.079465389251709,
	"logits/rejected": -2.091001033782959,
	"logps/chosen": -73.67254638671875,
	"logps/rejected": -81.05415344238281,
	"loss": 0.6916,
	"pred_label": 1751.75,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.0876312330365181,
	"rewards/margins": 0.08376732468605042,
	"rewards/rejected": -0.17139855027198792,
	"step": 460,
	"use_label": 7466.25
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.69921875,
	"learning_rate": 2.91409685362137e-06,
	"logits/chosen": -2.0379364490509033,
	"logits/rejected": -2.0492634773254395,
	"logps/chosen": -77.06828308105469,
	"logps/rejected": -89.38865661621094,
	"loss": 0.6912,
	"pred_label": 1832.6500244140625,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.06041146069765091,
	"rewards/margins": 0.10216375440359116,
	"rewards/rejected": -0.16257521510124207,
	"step": 480,
	"use_label": 7705.35009765625
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.86328125,
	"learning_rate": 2.7328129695107205e-06,
	"logits/chosen": -2.031346082687378,
	"logits/rejected": -2.0272762775421143,
	"logps/chosen": -79.55888366699219,
	"logps/rejected": -84.47586822509766,
	"loss": 0.6903,
	"pred_label": 1919.5374755859375,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.08177755773067474,
	"rewards/margins": 0.08017835766077042,
	"rewards/rejected": -0.16195592284202576,
	"step": 500,
	"use_label": 7938.46240234375
	},
	{
	"epoch": 0.52,
	"eval_logits/chosen": -2.0070507526397705,
	"eval_logits/rejected": -1.9800992012023926,
	"eval_logps/chosen": -76.36968231201172,
	"eval_logps/rejected": -92.65614318847656,
	"eval_loss": 0.6914148926734924,
	"eval_pred_label": 2025.793701171875,
	"eval_rewards/accuracies": 0.3492063581943512,
	"eval_rewards/chosen": -0.07469133287668228,
	"eval_rewards/margins": 0.09788943827152252,
	"eval_rewards/rejected": -0.1725807636976242,
	"eval_runtime": 247.8554,
	"eval_samples_per_second": 8.069,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 8246.2060546875,
	"step": 500
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.78125,
	"learning_rate": 2.5502840349805074e-06,
	"logits/chosen": -2.026449203491211,
	"logits/rejected": -2.0701510906219482,
	"logps/chosen": -75.1209487915039,
	"logps/rejected": -88.01356506347656,
	"loss": 0.6913,
	"pred_label": 2148.887451171875,
	"rewards/accuracies": 0.3531250059604645,
	"rewards/chosen": -0.06801941990852356,
	"rewards/margins": 0.09691040217876434,
	"rewards/rejected": -0.1649298369884491,
	"step": 520,
	"use_label": 8533.1123046875
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.09375,
	"learning_rate": 2.367486188632446e-06,
	"logits/chosen": -2.0245327949523926,
	"logits/rejected": -2.0479135513305664,
	"logps/chosen": -84.60169219970703,
	"logps/rejected": -90.6330795288086,
	"loss": 0.692,
	"pred_label": 2235.550048828125,
	"rewards/accuracies": 0.359375,
	"rewards/chosen": -0.09091995656490326,
	"rewards/margins": 0.11123095452785492,
	"rewards/rejected": -0.20215091109275818,
	"step": 540,
	"use_label": 8766.4501953125
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.75390625,
	"learning_rate": 2.1853970071701415e-06,
	"logits/chosen": -2.0177600383758545,
	"logits/rejected": -2.016798257827759,
	"logps/chosen": -78.94650268554688,
	"logps/rejected": -80.36412811279297,
	"loss": 0.6917,
	"pred_label": 2319.53759765625,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": -0.10138510167598724,
	"rewards/margins": 0.06911652535200119,
	"rewards/rejected": -0.17050163447856903,
	"step": 560,
	"use_label": 9002.462890625
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.71875,
	"learning_rate": 2.00499027745888e-06,
	"logits/chosen": -2.054065704345703,
	"logits/rejected": -2.0555384159088135,
	"logps/chosen": -80.3529281616211,
	"logps/rejected": -95.12947082519531,
	"loss": 0.6919,
	"pred_label": 2401.675048828125,
	"rewards/accuracies": 0.359375,
	"rewards/chosen": -0.09597108513116837,
	"rewards/margins": 0.09131233394145966,
	"rewards/rejected": -0.18728342652320862,
	"step": 580,
	"use_label": 9240.3251953125
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.76171875,
	"learning_rate": 1.8272307888529276e-06,
	"logits/chosen": -2.059126377105713,
	"logits/rejected": -2.099806547164917,
	"logps/chosen": -89.58797454833984,
	"logps/rejected": -108.6166000366211,
	"loss": 0.6903,
	"pred_label": 2492.9375,
	"rewards/accuracies": 0.41874998807907104,
	"rewards/chosen": -0.12580521404743195,
	"rewards/margins": 0.10241512209177017,
	"rewards/rejected": -0.22822031378746033,
	"step": 600,
	"use_label": 9469.0625
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": -1.9870026111602783,
	"eval_logits/rejected": -1.960112452507019,
	"eval_logps/chosen": -78.95431518554688,
	"eval_logps/rejected": -95.86695861816406,
	"eval_loss": 0.6917396187782288,
	"eval_pred_label": 2603.9365234375,
	"eval_rewards/accuracies": 0.3551587164402008,
	"eval_rewards/chosen": -0.1005377396941185,
	"eval_rewards/margins": 0.104151152074337,
	"eval_rewards/rejected": -0.2046888917684555,
	"eval_runtime": 247.9642,
	"eval_samples_per_second": 8.066,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 9772.0634765625,
	"step": 600
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.5859375,
	"learning_rate": 1.6530691736402317e-06,
	"logits/chosen": -1.9752880334854126,
	"logits/rejected": -2.011981964111328,
	"logps/chosen": -69.71615600585938,
	"logps/rejected": -95.88337707519531,
	"loss": 0.6918,
	"pred_label": 2726.324951171875,
	"rewards/accuracies": 0.34687501192092896,
	"rewards/chosen": -0.09408678859472275,
	"rewards/margins": 0.09362435340881348,
	"rewards/rejected": -0.18771114945411682,
	"step": 620,
	"use_label": 10059.6748046875
	},
	{
	"epoch": 0.67,
	"grad_norm": 0.73046875,
	"learning_rate": 1.4834368231970922e-06,
	"logits/chosen": -2.0288071632385254,
	"logits/rejected": -2.0409998893737793,
	"logps/chosen": -82.56907653808594,
	"logps/rejected": -90.75765228271484,
	"loss": 0.6894,
	"pred_label": 2805.512451171875,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.10210500657558441,
	"rewards/margins": 0.10695278644561768,
	"rewards/rejected": -0.2090577781200409,
	"step": 640,
	"use_label": 10300.4873046875
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.5625,
	"learning_rate": 1.3192409070404582e-06,
	"logits/chosen": -2.055405855178833,
	"logits/rejected": -2.0071816444396973,
	"logps/chosen": -77.25361633300781,
	"logps/rejected": -88.34065246582031,
	"loss": 0.6915,
	"pred_label": 2899.9375,
	"rewards/accuracies": 0.34687501192092896,
	"rewards/chosen": -0.11595650017261505,
	"rewards/margins": 0.0952102541923523,
	"rewards/rejected": -0.21116676926612854,
	"step": 660,
	"use_label": 10526.0625
	},
	{
	"epoch": 0.71,
	"grad_norm": 0.67578125,
	"learning_rate": 1.1613595214152713e-06,
	"logits/chosen": -2.056795597076416,
	"logits/rejected": -2.071035861968994,
	"logps/chosen": -88.15283203125,
	"logps/rejected": -96.39839172363281,
	"loss": 0.6918,
	"pred_label": 2978.0625,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.12273094803094864,
	"rewards/margins": 0.09404005855321884,
	"rewards/rejected": -0.2167709767818451,
	"step": 680,
	"use_label": 10767.9375
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.74609375,
	"learning_rate": 1.0106369933615043e-06,
	"logits/chosen": -2.0782313346862793,
	"logits/rejected": -2.0467371940612793,
	"logps/chosen": -97.93621826171875,
	"logps/rejected": -106.91497802734375,
	"loss": 0.6917,
	"pred_label": 3075.71240234375,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.1391007900238037,
	"rewards/margins": 0.10766571760177612,
	"rewards/rejected": -0.24676652252674103,
	"step": 700,
	"use_label": 10990.287109375
	},
	{
	"epoch": 0.73,
	"eval_logits/chosen": -1.9658821821212769,
	"eval_logits/rejected": -1.9401167631149292,
	"eval_logps/chosen": -80.06806182861328,
	"eval_logps/rejected": -97.64107513427734,
	"eval_loss": 0.6917343735694885,
	"eval_pred_label": 3195.22216796875,
	"eval_rewards/accuracies": 0.3511904776096344,
	"eval_rewards/chosen": -0.11167524009943008,
	"eval_rewards/margins": 0.1107548326253891,
	"eval_rewards/rejected": -0.2224300652742386,
	"eval_runtime": 247.943,
	"eval_samples_per_second": 8.066,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 11284.77734375,
	"step": 700
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.72265625,
	"learning_rate": 8.678793653740633e-07,
	"logits/chosen": -2.015249729156494,
	"logits/rejected": -2.0358498096466064,
	"logps/chosen": -70.9017562866211,
	"logps/rejected": -86.4397201538086,
	"loss": 0.6908,
	"pred_label": 3306.39990234375,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.10931293666362762,
	"rewards/margins": 0.0925455391407013,
	"rewards/rejected": -0.20185847580432892,
	"step": 720,
	"use_label": 11583.599609375
	},
	{
	"epoch": 0.77,
	"grad_norm": 0.83203125,
	"learning_rate": 7.338500848029603e-07,
	"logits/chosen": -2.01334810256958,
	"logits/rejected": -2.0296788215637207,
	"logps/chosen": -74.19635772705078,
	"logps/rejected": -83.99024200439453,
	"loss": 0.6911,
	"pred_label": 3386.16259765625,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": -0.08706559240818024,
	"rewards/margins": 0.11473299562931061,
	"rewards/rejected": -0.20179858803749084,
	"step": 740,
	"use_label": 11823.837890625
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.66015625,
	"learning_rate": 6.092659210462232e-07,
	"logits/chosen": -2.052433967590332,
	"logits/rejected": -2.060997724533081,
	"logps/chosen": -76.93110656738281,
	"logps/rejected": -97.30107879638672,
	"loss": 0.6904,
	"pred_label": 3466.5,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.11182014644145966,
	"rewards/margins": 0.07981495559215546,
	"rewards/rejected": -0.1916351020336151,
	"step": 760,
	"use_label": 12063.5
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.859375,
	"learning_rate": 4.947931323697983e-07,
	"logits/chosen": -2.032320737838745,
	"logits/rejected": -2.047227144241333,
	"logps/chosen": -89.46810913085938,
	"logps/rejected": -95.58660125732422,
	"loss": 0.6913,
	"pred_label": 3558.875,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.11294672638177872,
	"rewards/margins": 0.11753211170434952,
	"rewards/rejected": -0.23047883808612823,
	"step": 780,
	"use_label": 12291.125
	},
	{
	"epoch": 0.84,
	"grad_norm": 0.74609375,
	"learning_rate": 3.910439028537638e-07,
	"logits/chosen": -2.010045289993286,
	"logits/rejected": -1.989505410194397,
	"logps/chosen": -70.47514343261719,
	"logps/rejected": -75.11082458496094,
	"loss": 0.6912,
	"pred_label": 3649.22509765625,
	"rewards/accuracies": 0.3656249940395355,
	"rewards/chosen": -0.08034199476242065,
	"rewards/margins": 0.0995674580335617,
	"rewards/rejected": -0.17990948259830475,
	"step": 800,
	"use_label": 12520.775390625
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": -1.9421576261520386,
	"eval_logits/rejected": -1.9144233465194702,
	"eval_logps/chosen": -77.5874252319336,
	"eval_logps/rejected": -95.20885467529297,
	"eval_loss": 0.6917100548744202,
	"eval_pred_label": 3757.174560546875,
	"eval_rewards/accuracies": 0.363095223903656,
	"eval_rewards/chosen": -0.08686873316764832,
	"eval_rewards/margins": 0.11123905330896378,
	"eval_rewards/rejected": -0.19810780882835388,
	"eval_runtime": 247.8932,
	"eval_samples_per_second": 8.068,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 12826.8251953125,
	"step": 800
	},
	{
	"epoch": 0.86,
	"grad_norm": 0.828125,
	"learning_rate": 2.98573068519539e-07,
	"logits/chosen": -2.035728931427002,
	"logits/rejected": -2.029679775238037,
	"logps/chosen": -74.97032165527344,
	"logps/rejected": -84.2763900756836,
	"loss": 0.6908,
	"pred_label": 3872.199951171875,
	"rewards/accuracies": 0.3343749940395355,
	"rewards/chosen": -0.1004786491394043,
	"rewards/margins": 0.08142165094614029,
	"rewards/rejected": -0.181900292634964,
	"step": 820,
	"use_label": 13121.7998046875
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.6953125,
	"learning_rate": 2.178751501463036e-07,
	"logits/chosen": -2.0276803970336914,
	"logits/rejected": -2.0149848461151123,
	"logps/chosen": -66.70552062988281,
	"logps/rejected": -70.63726806640625,
	"loss": 0.6915,
	"pred_label": 3954.60009765625,
	"rewards/accuracies": 0.28437501192092896,
	"rewards/chosen": -0.08035041391849518,
	"rewards/margins": 0.07462439686059952,
	"rewards/rejected": -0.1549748182296753,
	"step": 840,
	"use_label": 13359.400390625
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.7578125,
	"learning_rate": 1.4938170864468636e-07,
	"logits/chosen": -2.048083543777466,
	"logits/rejected": -2.0321922302246094,
	"logps/chosen": -90.8042221069336,
	"logps/rejected": -100.8233413696289,
	"loss": 0.69,
	"pred_label": 4041.72509765625,
	"rewards/accuracies": 0.40625,
	"rewards/chosen": -0.0809466689825058,
	"rewards/margins": 0.1332779824733734,
	"rewards/rejected": -0.2142246663570404,
	"step": 860,
	"use_label": 13592.275390625
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.5546875,
	"learning_rate": 9.345903713082305e-08,
	"logits/chosen": -2.047487735748291,
	"logits/rejected": -2.034466505050659,
	"logps/chosen": -81.69231414794922,
	"logps/rejected": -101.5263442993164,
	"loss": 0.6915,
	"pred_label": 4142.625,
	"rewards/accuracies": 0.38749998807907104,
	"rewards/chosen": -0.09660721570253372,
	"rewards/margins": 0.13364934921264648,
	"rewards/rejected": -0.23025652766227722,
	"step": 880,
	"use_label": 13811.375
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.7578125,
	"learning_rate": 5.0406202043228604e-08,
	"logits/chosen": -1.9304163455963135,
	"logits/rejected": -1.9657026529312134,
	"logps/chosen": -75.30284118652344,
	"logps/rejected": -99.71704864501953,
	"loss": 0.6914,
	"pred_label": 4235.9248046875,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.08683101832866669,
	"rewards/margins": 0.10066400468349457,
	"rewards/rejected": -0.18749502301216125,
	"step": 900,
	"use_label": 14038.0751953125
	},
	{
	"epoch": 0.94,
	"eval_logits/chosen": -1.939072847366333,
	"eval_logits/rejected": -1.9112603664398193,
	"eval_logps/chosen": -77.5274658203125,
	"eval_logps/rejected": -95.22908020019531,
	"eval_loss": 0.6917905211448669,
	"eval_pred_label": 4352.28564453125,
	"eval_rewards/accuracies": 0.3571428656578064,
	"eval_rewards/chosen": -0.08626923710107803,
	"eval_rewards/margins": 0.1120409369468689,
	"eval_rewards/rejected": -0.19831016659736633,
	"eval_runtime": 247.7794,
	"eval_samples_per_second": 8.072,
	"eval_steps_per_second": 0.254,
	"eval_use_label": 14335.7138671875,
	"step": 900
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.80078125,
	"learning_rate": 2.0453443778310766e-08,
	"logits/chosen": -1.9801095724105835,
	"logits/rejected": -1.9714418649673462,
	"logps/chosen": -63.8930778503418,
	"logps/rejected": -85.15528869628906,
	"loss": 0.6906,
	"pred_label": 4473.8125,
	"rewards/accuracies": 0.31562501192092896,
	"rewards/chosen": -0.06585933268070221,
	"rewards/margins": 0.11039040982723236,
	"rewards/rejected": -0.17624975740909576,
	"step": 920,
	"use_label": 14624.1875
	},
	{
	"epoch": 0.98,
	"grad_norm": 0.8359375,
	"learning_rate": 3.760945397705828e-09,
	"logits/chosen": -1.9589160680770874,
	"logits/rejected": -1.9971154928207397,
	"logps/chosen": -74.0462646484375,
	"logps/rejected": -91.64708709716797,
	"loss": 0.6913,
	"pred_label": 4558.71240234375,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": -0.0799408107995987,
	"rewards/margins": 0.10116855055093765,
	"rewards/rejected": -0.18110935389995575,
	"step": 940,
	"use_label": 14859.287109375
	},
	{
	"epoch": 1.0,
	"step": 955,
	"total_flos": 0.0,
	"train_loss": 0.6906769273168754,
	"train_runtime": 20027.4031,
	"train_samples_per_second": 3.053,
	"train_steps_per_second": 0.048
	}
	],
	"logging_steps": 20,
	"max_steps": 955,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}