zephyr-7b / trainer_state.json

Model save

6b1b603 verified 8 months ago

30 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984301412872841,
	"eval_steps": 100,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.400390625,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -2.2547454833984375,
	"logits/rejected": -2.401865005493164,
	"logps/chosen": -53.759212493896484,
	"logps/rejected": -48.83185958862305,
	"loss": 0.6931,
	"pred_label": 0.0,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1,
	"use_label": 0.0
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.4609375,
	"learning_rate": 1.0416666666666667e-06,
	"logits/chosen": -2.2421462535858154,
	"logits/rejected": -2.2770614624023438,
	"logps/chosen": -51.98179626464844,
	"logps/rejected": -64.9604263305664,
	"loss": 0.6929,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2222222238779068,
	"rewards/chosen": 0.001975727966055274,
	"rewards/margins": 0.00047667179023846984,
	"rewards/rejected": 0.001499056350439787,
	"step": 10,
	"use_label": 0.0
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.39453125,
	"learning_rate": 2.0833333333333334e-06,
	"logits/chosen": -2.2520272731781006,
	"logits/rejected": -2.255510091781616,
	"logps/chosen": -62.492515563964844,
	"logps/rejected": -72.63607788085938,
	"loss": 0.6919,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": 0.01601376011967659,
	"rewards/margins": 0.0011284304782748222,
	"rewards/rejected": 0.014885328710079193,
	"step": 20,
	"use_label": 0.0
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.5078125,
	"learning_rate": 3.125e-06,
	"logits/chosen": -2.3422012329101562,
	"logits/rejected": -2.3548905849456787,
	"logps/chosen": -79.14694213867188,
	"logps/rejected": -98.82722473144531,
	"loss": 0.6898,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": 0.030949687585234642,
	"rewards/margins": 0.0029636542312800884,
	"rewards/rejected": 0.027986034750938416,
	"step": 30,
	"use_label": 0.0
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.515625,
	"learning_rate": 4.166666666666667e-06,
	"logits/chosen": -2.322833776473999,
	"logits/rejected": -2.3010501861572266,
	"logps/chosen": -82.85880279541016,
	"logps/rejected": -82.40392303466797,
	"loss": 0.6866,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": 0.033333443105220795,
	"rewards/margins": 0.011918319389224052,
	"rewards/rejected": 0.021415119990706444,
	"step": 40,
	"use_label": 0.0
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.67578125,
	"learning_rate": 4.999731868769027e-06,
	"logits/chosen": -2.241189956665039,
	"logits/rejected": -2.263849973678589,
	"logps/chosen": -67.93062591552734,
	"logps/rejected": -81.85546875,
	"loss": 0.6805,
	"pred_label": 0.0,
	"rewards/accuracies": 0.32499998807907104,
	"rewards/chosen": 0.009002490900456905,
	"rewards/margins": 0.03016103245317936,
	"rewards/rejected": -0.02115854248404503,
	"step": 50,
	"use_label": 0.0
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.09375,
	"learning_rate": 4.9903533134293035e-06,
	"logits/chosen": -2.218756914138794,
	"logits/rejected": -2.1594481468200684,
	"logps/chosen": -62.0407600402832,
	"logps/rejected": -71.9369888305664,
	"loss": 0.6748,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3062500059604645,
	"rewards/chosen": -0.0231451578438282,
	"rewards/margins": 0.04653460532426834,
	"rewards/rejected": -0.06967976689338684,
	"step": 60,
	"use_label": 0.0
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.8984375,
	"learning_rate": 4.967625656594782e-06,
	"logits/chosen": -2.08909273147583,
	"logits/rejected": -2.088801383972168,
	"logps/chosen": -68.09326171875,
	"logps/rejected": -81.9454116821289,
	"loss": 0.6684,
	"pred_label": 0.0,
	"rewards/accuracies": 0.25,
	"rewards/chosen": -0.12382155656814575,
	"rewards/margins": 0.03761869668960571,
	"rewards/rejected": -0.16144026815891266,
	"step": 70,
	"use_label": 0.0
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.15625,
	"learning_rate": 4.93167072587771e-06,
	"logits/chosen": -2.20400071144104,
	"logits/rejected": -2.1452622413635254,
	"logps/chosen": -55.867881774902344,
	"logps/rejected": -70.91771697998047,
	"loss": 0.6588,
	"pred_label": 0.0,
	"rewards/accuracies": 0.26875001192092896,
	"rewards/chosen": -0.0733698159456253,
	"rewards/margins": 0.10403277724981308,
	"rewards/rejected": -0.17740261554718018,
	"step": 80,
	"use_label": 0.0
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.0546875,
	"learning_rate": 4.882681251368549e-06,
	"logits/chosen": -1.991231918334961,
	"logits/rejected": -1.9964717626571655,
	"logps/chosen": -72.28443908691406,
	"logps/rejected": -90.79218292236328,
	"loss": 0.6587,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.13902384042739868,
	"rewards/margins": 0.08125626295804977,
	"rewards/rejected": -0.22028008103370667,
	"step": 90,
	"use_label": 0.0
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.359375,
	"learning_rate": 4.8209198325401815e-06,
	"logits/chosen": -1.9231764078140259,
	"logits/rejected": -1.9043807983398438,
	"logps/chosen": -103.5636978149414,
	"logps/rejected": -96.08602142333984,
	"loss": 0.6551,
	"pred_label": 0.0,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.2353379726409912,
	"rewards/margins": 0.08685441315174103,
	"rewards/rejected": -0.32219237089157104,
	"step": 100,
	"use_label": 0.0
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -1.762041687965393,
	"eval_logits/rejected": -1.7460479736328125,
	"eval_logps/chosen": -87.55253601074219,
	"eval_logps/rejected": -114.47212219238281,
	"eval_loss": 0.652633547782898,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.3359375,
	"eval_rewards/chosen": -0.23640292882919312,
	"eval_rewards/margins": 0.136388897895813,
	"eval_rewards/rejected": -0.3727918267250061,
	"eval_runtime": 125.4491,
	"eval_samples_per_second": 15.943,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 100
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.59375,
	"learning_rate": 4.746717530629565e-06,
	"logits/chosen": -1.7847106456756592,
	"logits/rejected": -1.7590484619140625,
	"logps/chosen": -85.73925018310547,
	"logps/rejected": -106.20509338378906,
	"loss": 0.6557,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.14638465642929077,
	"rewards/margins": 0.12975916266441345,
	"rewards/rejected": -0.2761438190937042,
	"step": 110,
	"use_label": 0.0
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.828125,
	"learning_rate": 4.660472094042121e-06,
	"logits/chosen": -1.1902318000793457,
	"logits/rejected": -1.0542975664138794,
	"logps/chosen": -108.4779052734375,
	"logps/rejected": -127.95109558105469,
	"loss": 0.6493,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.38532325625419617,
	"rewards/margins": 0.1649974286556244,
	"rewards/rejected": -0.5503206849098206,
	"step": 120,
	"use_label": 0.0
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.9375,
	"learning_rate": 4.5626458262912745e-06,
	"logits/chosen": -0.818010687828064,
	"logits/rejected": -0.7847374081611633,
	"logps/chosen": -109.61775207519531,
	"logps/rejected": -133.42086791992188,
	"loss": 0.6524,
	"pred_label": 0.0,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.43839359283447266,
	"rewards/margins": 0.16735044121742249,
	"rewards/rejected": -0.6057440638542175,
	"step": 130,
	"use_label": 0.0
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.71875,
	"learning_rate": 4.453763107901676e-06,
	"logits/chosen": -0.7395650148391724,
	"logits/rejected": -0.8444339036941528,
	"logps/chosen": -116.97528076171875,
	"logps/rejected": -130.2399139404297,
	"loss": 0.6381,
	"pred_label": 0.0,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.3622770607471466,
	"rewards/margins": 0.1490650475025177,
	"rewards/rejected": -0.5113420486450195,
	"step": 140,
	"use_label": 0.0
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.125,
	"learning_rate": 4.33440758555951e-06,
	"logits/chosen": -0.6497868299484253,
	"logits/rejected": -0.6378159523010254,
	"logps/chosen": -89.60552978515625,
	"logps/rejected": -115.42192077636719,
	"loss": 0.6379,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.2445882111787796,
	"rewards/margins": 0.23124215006828308,
	"rewards/rejected": -0.4758303761482239,
	"step": 150,
	"use_label": 0.0
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.15625,
	"learning_rate": 4.205219043576955e-06,
	"logits/chosen": -0.3159053921699524,
	"logits/rejected": -0.33064812421798706,
	"logps/chosen": -99.68696594238281,
	"logps/rejected": -129.45729064941406,
	"loss": 0.6317,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2874999940395355,
	"rewards/chosen": -0.35356926918029785,
	"rewards/margins": 0.16687795519828796,
	"rewards/rejected": -0.5204472541809082,
	"step": 160,
	"use_label": 0.0
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.4375,
	"learning_rate": 4.066889974440757e-06,
	"logits/chosen": 0.14531800150871277,
	"logits/rejected": 0.18166163563728333,
	"logps/chosen": -95.45491027832031,
	"logps/rejected": -125.1463623046875,
	"loss": 0.6291,
	"pred_label": 0.0,
	"rewards/accuracies": 0.29374998807907104,
	"rewards/chosen": -0.39946848154067993,
	"rewards/margins": 0.20978550612926483,
	"rewards/rejected": -0.609254002571106,
	"step": 170,
	"use_label": 0.0
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.453125,
	"learning_rate": 3.92016186682789e-06,
	"logits/chosen": -0.3282355070114136,
	"logits/rejected": -0.21966704726219177,
	"logps/chosen": -108.00712585449219,
	"logps/rejected": -128.67587280273438,
	"loss": 0.649,
	"pred_label": 0.0,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.4521949887275696,
	"rewards/margins": 0.27172034978866577,
	"rewards/rejected": -0.7239152789115906,
	"step": 180,
	"use_label": 0.0
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.84375,
	"learning_rate": 3.7658212309857576e-06,
	"logits/chosen": -0.889633297920227,
	"logits/rejected": -0.6851574778556824,
	"logps/chosen": -91.25111389160156,
	"logps/rejected": -118.9649887084961,
	"loss": 0.6461,
	"pred_label": 0.0,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.32139474153518677,
	"rewards/margins": 0.22424864768981934,
	"rewards/rejected": -0.5456433892250061,
	"step": 190,
	"use_label": 0.0
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.9453125,
	"learning_rate": 3.604695382782159e-06,
	"logits/chosen": -0.8204952478408813,
	"logits/rejected": -0.7186430096626282,
	"logps/chosen": -112.41142272949219,
	"logps/rejected": -120.7835693359375,
	"loss": 0.6376,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": -0.30735117197036743,
	"rewards/margins": 0.169038325548172,
	"rewards/rejected": -0.47638946771621704,
	"step": 200,
	"use_label": 0.0
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": -0.023804781958460808,
	"eval_logits/rejected": 0.04317883029580116,
	"eval_logps/chosen": -97.96138000488281,
	"eval_logps/rejected": -137.9141845703125,
	"eval_loss": 0.6288520693778992,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.3671875,
	"eval_rewards/chosen": -0.34049129486083984,
	"eval_rewards/margins": 0.26672109961509705,
	"eval_rewards/rejected": -0.6072123646736145,
	"eval_runtime": 125.433,
	"eval_samples_per_second": 15.945,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 200
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.265625,
	"learning_rate": 3.437648009023905e-06,
	"logits/chosen": -0.05805685371160507,
	"logits/rejected": -0.06056814268231392,
	"logps/chosen": -88.78871154785156,
	"logps/rejected": -124.3318862915039,
	"loss": 0.6218,
	"pred_label": 0.0,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.3281395435333252,
	"rewards/margins": 0.28538644313812256,
	"rewards/rejected": -0.613525927066803,
	"step": 210,
	"use_label": 0.0
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.21875,
	"learning_rate": 3.265574537815398e-06,
	"logits/chosen": -0.1400775909423828,
	"logits/rejected": -0.005620801355689764,
	"logps/chosen": -133.7158660888672,
	"logps/rejected": -136.84619140625,
	"loss": 0.627,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.5408719778060913,
	"rewards/margins": 0.16390959918498993,
	"rewards/rejected": -0.7047815918922424,
	"step": 220,
	"use_label": 0.0
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.8515625,
	"learning_rate": 3.089397338773569e-06,
	"logits/chosen": 0.16266627609729767,
	"logits/rejected": 0.2626825273036957,
	"logps/chosen": -93.3644027709961,
	"logps/rejected": -119.67996978759766,
	"loss": 0.6261,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.28929832577705383,
	"rewards/margins": 0.27991363406181335,
	"rewards/rejected": -0.5692119598388672,
	"step": 230,
	"use_label": 0.0
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.8984375,
	"learning_rate": 2.9100607788275547e-06,
	"logits/chosen": 0.854693591594696,
	"logits/rejected": 0.7261193990707397,
	"logps/chosen": -99.00528717041016,
	"logps/rejected": -135.73580932617188,
	"loss": 0.6295,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.2997274696826935,
	"rewards/margins": 0.3153937757015228,
	"rewards/rejected": -0.6151211857795715,
	"step": 240,
	"use_label": 0.0
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.03125,
	"learning_rate": 2.72852616010567e-06,
	"logits/chosen": 0.6816203594207764,
	"logits/rejected": 0.7033491134643555,
	"logps/chosen": -119.7255859375,
	"logps/rejected": -144.8857421875,
	"loss": 0.6376,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.4632648825645447,
	"rewards/margins": 0.2932681143283844,
	"rewards/rejected": -0.7565330266952515,
	"step": 250,
	"use_label": 0.0
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.8984375,
	"learning_rate": 2.5457665670441937e-06,
	"logits/chosen": 0.5938165187835693,
	"logits/rejected": 0.5592354536056519,
	"logps/chosen": -110.32804870605469,
	"logps/rejected": -146.76275634765625,
	"loss": 0.6162,
	"pred_label": 0.0,
	"rewards/accuracies": 0.34375,
	"rewards/chosen": -0.44222426414489746,
	"rewards/margins": 0.2809238135814667,
	"rewards/rejected": -0.7231480479240417,
	"step": 260,
	"use_label": 0.0
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.90625,
	"learning_rate": 2.3627616503391813e-06,
	"logits/chosen": 0.6390979290008545,
	"logits/rejected": 0.5789315700531006,
	"logps/chosen": -123.83528137207031,
	"logps/rejected": -144.61489868164062,
	"loss": 0.6162,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.5091949701309204,
	"rewards/margins": 0.24320097267627716,
	"rewards/rejected": -0.7523959279060364,
	"step": 270,
	"use_label": 0.0
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.34375,
	"learning_rate": 2.1804923757009885e-06,
	"logits/chosen": 0.8771865963935852,
	"logits/rejected": 1.0158352851867676,
	"logps/chosen": -118.5296859741211,
	"logps/rejected": -138.31729125976562,
	"loss": 0.6357,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.5302416086196899,
	"rewards/margins": 0.2237352430820465,
	"rewards/rejected": -0.7539768218994141,
	"step": 280,
	"use_label": 0.0
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.59375,
	"learning_rate": 1.9999357655598894e-06,
	"logits/chosen": 0.44083184003829956,
	"logits/rejected": 0.41123947501182556,
	"logps/chosen": -112.27372741699219,
	"logps/rejected": -146.95498657226562,
	"loss": 0.6228,
	"pred_label": 0.0,
	"rewards/accuracies": 0.30000001192092896,
	"rewards/chosen": -0.4572528004646301,
	"rewards/margins": 0.24868395924568176,
	"rewards/rejected": -0.7059367299079895,
	"step": 290,
	"use_label": 0.0
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.34375,
	"learning_rate": 1.8220596619089576e-06,
	"logits/chosen": 0.6273639798164368,
	"logits/rejected": 0.5140804052352905,
	"logps/chosen": -123.02046966552734,
	"logps/rejected": -168.80987548828125,
	"loss": 0.6196,
	"pred_label": 0.0,
	"rewards/accuracies": 0.40625,
	"rewards/chosen": -0.4542613625526428,
	"rewards/margins": 0.2926333546638489,
	"rewards/rejected": -0.7468947172164917,
	"step": 300,
	"use_label": 0.0
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": 1.0944873094558716,
	"eval_logits/rejected": 1.1831356287002563,
	"eval_logps/chosen": -102.62176513671875,
	"eval_logps/rejected": -150.12503051757812,
	"eval_loss": 0.618873655796051,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.375,
	"eval_rewards/chosen": -0.3870951533317566,
	"eval_rewards/margins": 0.34222573041915894,
	"eval_rewards/rejected": -0.7293209433555603,
	"eval_runtime": 125.4362,
	"eval_samples_per_second": 15.944,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 300
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.8515625,
	"learning_rate": 1.647817538357072e-06,
	"logits/chosen": 0.8131985664367676,
	"logits/rejected": 0.8752232789993286,
	"logps/chosen": -91.52378845214844,
	"logps/rejected": -139.95840454101562,
	"loss": 0.5999,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.3592718541622162,
	"rewards/margins": 0.3578081727027893,
	"rewards/rejected": -0.7170799970626831,
	"step": 310,
	"use_label": 0.0
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.40625,
	"learning_rate": 1.4781433892011132e-06,
	"logits/chosen": 0.9751952886581421,
	"logits/rejected": 1.1630818843841553,
	"logps/chosen": -135.82566833496094,
	"logps/rejected": -168.11805725097656,
	"loss": 0.6109,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3687500059604645,
	"rewards/chosen": -0.6275521516799927,
	"rewards/margins": 0.3816707730293274,
	"rewards/rejected": -1.0092228651046753,
	"step": 320,
	"use_label": 0.0
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.984375,
	"learning_rate": 1.3139467229135999e-06,
	"logits/chosen": 1.3293979167938232,
	"logits/rejected": 1.3260401487350464,
	"logps/chosen": -135.96664428710938,
	"logps/rejected": -166.52359008789062,
	"loss": 0.6295,
	"pred_label": 0.0,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.6585850715637207,
	"rewards/margins": 0.3205706775188446,
	"rewards/rejected": -0.9791557192802429,
	"step": 330,
	"use_label": 0.0
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.09375,
	"learning_rate": 1.1561076868822756e-06,
	"logits/chosen": 0.7383319139480591,
	"logits/rejected": 0.6407849192619324,
	"logps/chosen": -150.60504150390625,
	"logps/rejected": -166.74940490722656,
	"loss": 0.6247,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.658658504486084,
	"rewards/margins": 0.24373307824134827,
	"rewards/rejected": -0.9023915529251099,
	"step": 340,
	"use_label": 0.0
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.21875,
	"learning_rate": 1.0054723495346484e-06,
	"logits/chosen": 0.6359546184539795,
	"logits/rejected": 0.7167641520500183,
	"logps/chosen": -163.8385772705078,
	"logps/rejected": -195.6297607421875,
	"loss": 0.6138,
	"pred_label": 0.0,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": -0.7442194819450378,
	"rewards/margins": 0.3593973219394684,
	"rewards/rejected": -1.103616714477539,
	"step": 350,
	"use_label": 0.0
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.859375,
	"learning_rate": 8.628481651367876e-07,
	"logits/chosen": 0.7298086881637573,
	"logits/rejected": 0.8517257571220398,
	"logps/chosen": -119.41548156738281,
	"logps/rejected": -165.3460235595703,
	"loss": 0.6137,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.5577787160873413,
	"rewards/margins": 0.37339919805526733,
	"rewards/rejected": -0.9311779141426086,
	"step": 360,
	"use_label": 0.0
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.421875,
	"learning_rate": 7.289996455765749e-07,
	"logits/chosen": 0.8383787274360657,
	"logits/rejected": 0.9305205345153809,
	"logps/chosen": -111.84449768066406,
	"logps/rejected": -153.93136596679688,
	"loss": 0.6125,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.46409696340560913,
	"rewards/margins": 0.39606258273124695,
	"rewards/rejected": -0.8601595759391785,
	"step": 370,
	"use_label": 0.0
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.8984375,
	"learning_rate": 6.046442623320145e-07,
	"logits/chosen": 0.5329448580741882,
	"logits/rejected": 0.513522744178772,
	"logps/chosen": -116.62841796875,
	"logps/rejected": -165.17893981933594,
	"loss": 0.6191,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3187499940395355,
	"rewards/chosen": -0.5079302787780762,
	"rewards/margins": 0.2802185118198395,
	"rewards/rejected": -0.7881487607955933,
	"step": 380,
	"use_label": 0.0
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.4375,
	"learning_rate": 4.904486005914027e-07,
	"logits/chosen": 0.8266662359237671,
	"logits/rejected": 0.5234752893447876,
	"logps/chosen": -159.83407592773438,
	"logps/rejected": -186.96768188476562,
	"loss": 0.6085,
	"pred_label": 0.0,
	"rewards/accuracies": 0.38749998807907104,
	"rewards/chosen": -0.6701575517654419,
	"rewards/margins": 0.36982032656669617,
	"rewards/rejected": -1.039977788925171,
	"step": 390,
	"use_label": 0.0
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.46875,
	"learning_rate": 3.8702478614051353e-07,
	"logits/chosen": 0.511390745639801,
	"logits/rejected": 0.6720080971717834,
	"logps/chosen": -116.7987060546875,
	"logps/rejected": -141.3931884765625,
	"loss": 0.6139,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.4430771768093109,
	"rewards/margins": 0.3362268805503845,
	"rewards/rejected": -0.779304027557373,
	"step": 400,
	"use_label": 0.0
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": 1.4532994031906128,
	"eval_logits/rejected": 1.5453113317489624,
	"eval_logps/chosen": -112.56050109863281,
	"eval_logps/rejected": -162.19764709472656,
	"eval_loss": 0.6157013177871704,
	"eval_pred_label": 0.0,
	"eval_rewards/accuracies": 0.37109375,
	"eval_rewards/chosen": -0.4864824414253235,
	"eval_rewards/margins": 0.36356455087661743,
	"eval_rewards/rejected": -0.8500469923019409,
	"eval_runtime": 125.4203,
	"eval_samples_per_second": 15.946,
	"eval_steps_per_second": 0.255,
	"eval_use_label": 0.0,
	"step": 400
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.203125,
	"learning_rate": 2.9492720416985004e-07,
	"logits/chosen": 0.8359997868537903,
	"logits/rejected": 0.8144146800041199,
	"logps/chosen": -110.30177307128906,
	"logps/rejected": -143.6800079345703,
	"loss": 0.6222,
	"pred_label": 0.0,
	"rewards/accuracies": 0.39375001192092896,
	"rewards/chosen": -0.4887877404689789,
	"rewards/margins": 0.3508199453353882,
	"rewards/rejected": -0.8396075963973999,
	"step": 410,
	"use_label": 0.0
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.984375,
	"learning_rate": 2.1464952759020857e-07,
	"logits/chosen": 1.027252435684204,
	"logits/rejected": 0.9827619791030884,
	"logps/chosen": -106.49784851074219,
	"logps/rejected": -116.97566223144531,
	"loss": 0.6216,
	"pred_label": 0.0,
	"rewards/accuracies": 0.2750000059604645,
	"rewards/chosen": -0.4555872976779938,
	"rewards/margins": 0.20033884048461914,
	"rewards/rejected": -0.6559261083602905,
	"step": 420,
	"use_label": 0.0
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.96875,
	"learning_rate": 1.4662207078575685e-07,
	"logits/chosen": 0.9206047058105469,
	"logits/rejected": 0.8673297166824341,
	"logps/chosen": -151.376220703125,
	"logps/rejected": -178.04725646972656,
	"loss": 0.5986,
	"pred_label": 0.0,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.5210937261581421,
	"rewards/margins": 0.46580758690834045,
	"rewards/rejected": -0.9869012832641602,
	"step": 430,
	"use_label": 0.0
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.125,
	"learning_rate": 9.120948298936422e-08,
	"logits/chosen": 0.9004503488540649,
	"logits/rejected": 1.0573413372039795,
	"logps/chosen": -119.21500396728516,
	"logps/rejected": -165.19241333007812,
	"loss": 0.6064,
	"pred_label": 0.0,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.5231102705001831,
	"rewards/margins": 0.37818416953086853,
	"rewards/rejected": -0.9012944102287292,
	"step": 440,
	"use_label": 0.0
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.46875,
	"learning_rate": 4.870879364444109e-08,
	"logits/chosen": 1.300728440284729,
	"logits/rejected": 1.0580918788909912,
	"logps/chosen": -129.29281616210938,
	"logps/rejected": -178.3690948486328,
	"loss": 0.6111,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.570349931716919,
	"rewards/margins": 0.3304445147514343,
	"rewards/rejected": -0.9007943868637085,
	"step": 450,
	"use_label": 0.0
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.8359375,
	"learning_rate": 1.93478202307823e-08,
	"logits/chosen": 1.1906068325042725,
	"logits/rejected": 1.2149587869644165,
	"logps/chosen": -83.74864196777344,
	"logps/rejected": -130.91348266601562,
	"loss": 0.6154,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3375000059604645,
	"rewards/chosen": -0.3762877583503723,
	"rewards/margins": 0.2993956208229065,
	"rewards/rejected": -0.6756833791732788,
	"step": 460,
	"use_label": 0.0
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.375,
	"learning_rate": 3.283947088983663e-09,
	"logits/chosen": 1.1844379901885986,
	"logits/rejected": 0.9474547505378723,
	"logps/chosen": -113.1079330444336,
	"logps/rejected": -141.49147033691406,
	"loss": 0.6213,
	"pred_label": 0.0,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": -0.4577876627445221,
	"rewards/margins": 0.26655709743499756,
	"rewards/rejected": -0.7243447303771973,
	"step": 470,
	"use_label": 0.0
	},
	{
	"epoch": 1.0,
	"step": 477,
	"total_flos": 0.0,
	"train_loss": 0.6357159084743924,
	"train_runtime": 9601.7268,
	"train_samples_per_second": 6.367,
	"train_steps_per_second": 0.05
	}
	],
	"logging_steps": 10,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}