longt5_xl_sfd_bp_15 / trainer_state.json

End of training

81cba4b verified 9 months ago

21.2 kB

	{
	"best_metric": 25.2438,
	"best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/longt5_xl_sfd_bp_15/checkpoint-201",
	"epoch": 14.608695652173914,
	"eval_steps": 500,
	"global_step": 210,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.14,
	"grad_norm": 4.218067169189453,
	"learning_rate": 0.001,
	"loss": 2.9668,
	"step": 2
	},
	{
	"epoch": 0.28,
	"grad_norm": 200.38365173339844,
	"learning_rate": 0.001,
	"loss": 3.3198,
	"step": 4
	},
	{
	"epoch": 0.42,
	"grad_norm": 74.55081176757812,
	"learning_rate": 0.001,
	"loss": 2.6874,
	"step": 6
	},
	{
	"epoch": 0.56,
	"grad_norm": 19.85554313659668,
	"learning_rate": 0.001,
	"loss": 2.3138,
	"step": 8
	},
	{
	"epoch": 0.7,
	"grad_norm": 41.041751861572266,
	"learning_rate": 0.001,
	"loss": 2.0222,
	"step": 10
	},
	{
	"epoch": 0.83,
	"grad_norm": 3.789278507232666,
	"learning_rate": 0.001,
	"loss": 1.8363,
	"step": 12
	},
	{
	"epoch": 0.97,
	"grad_norm": 5.874878883361816,
	"learning_rate": 0.001,
	"loss": 2.5763,
	"step": 14
	},
	{
	"epoch": 0.97,
	"eval_gen_len": 509.64792899408286,
	"eval_loss": 2.541541814804077,
	"eval_rouge1": 10.6052,
	"eval_rouge2": 1.4494,
	"eval_rougeL": 10.4593,
	"eval_rougeLsum": 10.4801,
	"eval_runtime": 1798.047,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 14
	},
	{
	"epoch": 1.11,
	"grad_norm": 1.338165521621704,
	"learning_rate": 0.001,
	"loss": 2.4441,
	"step": 16
	},
	{
	"epoch": 1.25,
	"grad_norm": 3.755629777908325,
	"learning_rate": 0.001,
	"loss": 2.258,
	"step": 18
	},
	{
	"epoch": 1.39,
	"grad_norm": 6.490938663482666,
	"learning_rate": 0.001,
	"loss": 3.0147,
	"step": 20
	},
	{
	"epoch": 1.53,
	"grad_norm": 5.593593597412109,
	"learning_rate": 0.001,
	"loss": 2.4724,
	"step": 22
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.0521235466003418,
	"learning_rate": 0.001,
	"loss": 2.023,
	"step": 24
	},
	{
	"epoch": 1.81,
	"grad_norm": 12.585270881652832,
	"learning_rate": 0.001,
	"loss": 2.223,
	"step": 26
	},
	{
	"epoch": 1.95,
	"grad_norm": 78.1630630493164,
	"learning_rate": 0.001,
	"loss": 1.8998,
	"step": 28
	},
	{
	"epoch": 1.95,
	"eval_gen_len": 511.0,
	"eval_loss": 1.739753246307373,
	"eval_rouge1": 16.7989,
	"eval_rouge2": 4.1457,
	"eval_rougeL": 16.4049,
	"eval_rougeLsum": 15.1803,
	"eval_runtime": 1798.9905,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 28
	},
	{
	"epoch": 2.09,
	"grad_norm": 0.7915446758270264,
	"learning_rate": 0.001,
	"loss": 1.8375,
	"step": 30
	},
	{
	"epoch": 2.23,
	"grad_norm": 1.5996413230895996,
	"learning_rate": 0.001,
	"loss": 2.0326,
	"step": 32
	},
	{
	"epoch": 2.37,
	"grad_norm": 1.0431970357894897,
	"learning_rate": 0.001,
	"loss": 2.1242,
	"step": 34
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.5979584455490112,
	"learning_rate": 0.001,
	"loss": 2.0047,
	"step": 36
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.28407618403434753,
	"learning_rate": 0.001,
	"loss": 1.7317,
	"step": 38
	},
	{
	"epoch": 2.78,
	"grad_norm": 0.3217169940471649,
	"learning_rate": 0.001,
	"loss": 1.694,
	"step": 40
	},
	{
	"epoch": 2.92,
	"grad_norm": 0.33735284209251404,
	"learning_rate": 0.001,
	"loss": 1.6403,
	"step": 42
	},
	{
	"epoch": 2.99,
	"eval_gen_len": 511.0,
	"eval_loss": 1.5456656217575073,
	"eval_rouge1": 18.4716,
	"eval_rouge2": 5.4633,
	"eval_rougeL": 17.1393,
	"eval_rougeLsum": 16.9242,
	"eval_runtime": 1798.0277,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 43
	},
	{
	"epoch": 3.06,
	"grad_norm": 0.20745837688446045,
	"learning_rate": 0.001,
	"loss": 1.5256,
	"step": 44
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.24278272688388824,
	"learning_rate": 0.001,
	"loss": 1.4077,
	"step": 46
	},
	{
	"epoch": 3.34,
	"grad_norm": 3.5210845470428467,
	"learning_rate": 0.001,
	"loss": 1.4244,
	"step": 48
	},
	{
	"epoch": 3.48,
	"grad_norm": 0.31759026646614075,
	"learning_rate": 0.001,
	"loss": 1.3542,
	"step": 50
	},
	{
	"epoch": 3.62,
	"grad_norm": 0.2855791449546814,
	"learning_rate": 0.001,
	"loss": 1.3873,
	"step": 52
	},
	{
	"epoch": 3.76,
	"grad_norm": 0.30171895027160645,
	"learning_rate": 0.001,
	"loss": 1.4693,
	"step": 54
	},
	{
	"epoch": 3.9,
	"grad_norm": 0.28778406977653503,
	"learning_rate": 0.001,
	"loss": 1.5012,
	"step": 56
	},
	{
	"epoch": 3.97,
	"eval_gen_len": 511.0,
	"eval_loss": 1.5736442804336548,
	"eval_rouge1": 18.2259,
	"eval_rouge2": 5.3524,
	"eval_rougeL": 17.0162,
	"eval_rougeLsum": 16.7948,
	"eval_runtime": 1799.9735,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 57
	},
	{
	"epoch": 4.03,
	"grad_norm": 0.27410924434661865,
	"learning_rate": 0.001,
	"loss": 1.3865,
	"step": 58
	},
	{
	"epoch": 4.17,
	"grad_norm": 0.2398337870836258,
	"learning_rate": 0.001,
	"loss": 1.198,
	"step": 60
	},
	{
	"epoch": 4.31,
	"grad_norm": 0.24380528926849365,
	"learning_rate": 0.001,
	"loss": 1.1965,
	"step": 62
	},
	{
	"epoch": 4.45,
	"grad_norm": 0.28130125999450684,
	"learning_rate": 0.001,
	"loss": 1.2576,
	"step": 64
	},
	{
	"epoch": 4.59,
	"grad_norm": 0.22549273073673248,
	"learning_rate": 0.001,
	"loss": 1.2108,
	"step": 66
	},
	{
	"epoch": 4.73,
	"grad_norm": 0.3336837589740753,
	"learning_rate": 0.001,
	"loss": 1.23,
	"step": 68
	},
	{
	"epoch": 4.87,
	"grad_norm": 0.39294493198394775,
	"learning_rate": 0.001,
	"loss": 1.248,
	"step": 70
	},
	{
	"epoch": 4.94,
	"eval_gen_len": 511.0,
	"eval_loss": 1.5482468605041504,
	"eval_rouge1": 20.8275,
	"eval_rouge2": 6.7412,
	"eval_rougeL": 18.0859,
	"eval_rougeLsum": 19.3113,
	"eval_runtime": 1798.5715,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 71
	},
	{
	"epoch": 5.01,
	"grad_norm": 0.3731052577495575,
	"learning_rate": 0.001,
	"loss": 1.2523,
	"step": 72
	},
	{
	"epoch": 5.15,
	"grad_norm": 0.33552882075309753,
	"learning_rate": 0.001,
	"loss": 1.0577,
	"step": 74
	},
	{
	"epoch": 5.29,
	"grad_norm": 0.3163793087005615,
	"learning_rate": 0.001,
	"loss": 1.0478,
	"step": 76
	},
	{
	"epoch": 5.43,
	"grad_norm": 0.21926109492778778,
	"learning_rate": 0.001,
	"loss": 1.0127,
	"step": 78
	},
	{
	"epoch": 5.57,
	"grad_norm": 0.24710944294929504,
	"learning_rate": 0.001,
	"loss": 1.0042,
	"step": 80
	},
	{
	"epoch": 5.7,
	"grad_norm": 0.2397957742214203,
	"learning_rate": 0.001,
	"loss": 1.0332,
	"step": 82
	},
	{
	"epoch": 5.84,
	"grad_norm": 0.21428123116493225,
	"learning_rate": 0.001,
	"loss": 1.022,
	"step": 84
	},
	{
	"epoch": 5.98,
	"grad_norm": 0.2227003127336502,
	"learning_rate": 0.001,
	"loss": 1.0176,
	"step": 86
	},
	{
	"epoch": 5.98,
	"eval_gen_len": 510.6775147928994,
	"eval_loss": 1.625435709953308,
	"eval_rouge1": 21.1937,
	"eval_rouge2": 6.8813,
	"eval_rougeL": 18.411,
	"eval_rougeLsum": 19.8577,
	"eval_runtime": 1798.5872,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 86
	},
	{
	"epoch": 6.12,
	"grad_norm": 0.2959192991256714,
	"learning_rate": 0.001,
	"loss": 0.879,
	"step": 88
	},
	{
	"epoch": 6.26,
	"grad_norm": 0.33006206154823303,
	"learning_rate": 0.001,
	"loss": 0.8812,
	"step": 90
	},
	{
	"epoch": 6.4,
	"grad_norm": 0.34284549951553345,
	"learning_rate": 0.001,
	"loss": 0.8742,
	"step": 92
	},
	{
	"epoch": 6.54,
	"grad_norm": 0.4311819076538086,
	"learning_rate": 0.001,
	"loss": 0.8357,
	"step": 94
	},
	{
	"epoch": 6.68,
	"grad_norm": 0.5699031352996826,
	"learning_rate": 0.001,
	"loss": 0.8721,
	"step": 96
	},
	{
	"epoch": 6.82,
	"grad_norm": 0.39324450492858887,
	"learning_rate": 0.001,
	"loss": 0.8739,
	"step": 98
	},
	{
	"epoch": 6.96,
	"grad_norm": 0.3442493677139282,
	"learning_rate": 0.001,
	"loss": 0.8472,
	"step": 100
	},
	{
	"epoch": 6.96,
	"eval_gen_len": 479.9704142011834,
	"eval_loss": 1.6212307214736938,
	"eval_rouge1": 26.1873,
	"eval_rouge2": 9.1581,
	"eval_rougeL": 20.393,
	"eval_rougeLsum": 24.1393,
	"eval_runtime": 1802.4729,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 100
	},
	{
	"epoch": 7.1,
	"grad_norm": 0.2600483298301697,
	"learning_rate": 0.001,
	"loss": 0.7568,
	"step": 102
	},
	{
	"epoch": 7.23,
	"grad_norm": 0.28727108240127563,
	"learning_rate": 0.001,
	"loss": 0.6971,
	"step": 104
	},
	{
	"epoch": 7.37,
	"grad_norm": 0.3065392076969147,
	"learning_rate": 0.001,
	"loss": 0.6918,
	"step": 106
	},
	{
	"epoch": 7.51,
	"grad_norm": 0.427791029214859,
	"learning_rate": 0.001,
	"loss": 0.6902,
	"step": 108
	},
	{
	"epoch": 7.65,
	"grad_norm": 0.48664093017578125,
	"learning_rate": 0.001,
	"loss": 0.7415,
	"step": 110
	},
	{
	"epoch": 7.79,
	"grad_norm": 0.2857199013233185,
	"learning_rate": 0.001,
	"loss": 0.7442,
	"step": 112
	},
	{
	"epoch": 7.93,
	"grad_norm": 0.24586661159992218,
	"learning_rate": 0.001,
	"loss": 0.7242,
	"step": 114
	},
	{
	"epoch": 8.0,
	"eval_gen_len": 506.9112426035503,
	"eval_loss": 1.723126769065857,
	"eval_rouge1": 23.5881,
	"eval_rouge2": 7.8961,
	"eval_rougeL": 18.7014,
	"eval_rougeLsum": 22.2999,
	"eval_runtime": 1807.8192,
	"eval_samples_per_second": 0.187,
	"eval_steps_per_second": 0.024,
	"step": 115
	},
	{
	"epoch": 8.07,
	"grad_norm": 0.21033655107021332,
	"learning_rate": 0.001,
	"loss": 0.6797,
	"step": 116
	},
	{
	"epoch": 8.21,
	"grad_norm": 0.22591687738895416,
	"learning_rate": 0.001,
	"loss": 0.5446,
	"step": 118
	},
	{
	"epoch": 8.35,
	"grad_norm": 0.20658165216445923,
	"learning_rate": 0.001,
	"loss": 0.5545,
	"step": 120
	},
	{
	"epoch": 8.49,
	"grad_norm": 0.29855239391326904,
	"learning_rate": 0.001,
	"loss": 0.6124,
	"step": 122
	},
	{
	"epoch": 8.63,
	"grad_norm": 0.3976292312145233,
	"learning_rate": 0.001,
	"loss": 0.6052,
	"step": 124
	},
	{
	"epoch": 8.77,
	"grad_norm": 0.27770739793777466,
	"learning_rate": 0.001,
	"loss": 0.5755,
	"step": 126
	},
	{
	"epoch": 8.9,
	"grad_norm": 0.2741471529006958,
	"learning_rate": 0.001,
	"loss": 0.5876,
	"step": 128
	},
	{
	"epoch": 8.97,
	"eval_gen_len": 451.698224852071,
	"eval_loss": 1.9400925636291504,
	"eval_rouge1": 32.1851,
	"eval_rouge2": 12.6426,
	"eval_rougeL": 22.8358,
	"eval_rougeLsum": 30.6718,
	"eval_runtime": 1805.3092,
	"eval_samples_per_second": 0.187,
	"eval_steps_per_second": 0.024,
	"step": 129
	},
	{
	"epoch": 9.04,
	"grad_norm": 0.25768765807151794,
	"learning_rate": 0.001,
	"loss": 0.5517,
	"step": 130
	},
	{
	"epoch": 9.18,
	"grad_norm": 0.203142449259758,
	"learning_rate": 0.001,
	"loss": 0.4295,
	"step": 132
	},
	{
	"epoch": 9.32,
	"grad_norm": 0.29351434111595154,
	"learning_rate": 0.001,
	"loss": 0.493,
	"step": 134
	},
	{
	"epoch": 9.46,
	"grad_norm": 0.23967808485031128,
	"learning_rate": 0.001,
	"loss": 0.4877,
	"step": 136
	},
	{
	"epoch": 9.6,
	"grad_norm": 0.21488718688488007,
	"learning_rate": 0.001,
	"loss": 0.4943,
	"step": 138
	},
	{
	"epoch": 9.74,
	"grad_norm": 0.20587602257728577,
	"learning_rate": 0.001,
	"loss": 0.4729,
	"step": 140
	},
	{
	"epoch": 9.88,
	"grad_norm": 0.2094978392124176,
	"learning_rate": 0.001,
	"loss": 0.4756,
	"step": 142
	},
	{
	"epoch": 9.95,
	"eval_gen_len": 455.594674556213,
	"eval_loss": 1.9001177549362183,
	"eval_rouge1": 31.353,
	"eval_rouge2": 12.994,
	"eval_rougeL": 23.1542,
	"eval_rougeLsum": 29.8375,
	"eval_runtime": 1806.0454,
	"eval_samples_per_second": 0.187,
	"eval_steps_per_second": 0.024,
	"step": 143
	},
	{
	"epoch": 10.02,
	"grad_norm": 0.2443789541721344,
	"learning_rate": 0.001,
	"loss": 0.4707,
	"step": 144
	},
	{
	"epoch": 10.16,
	"grad_norm": 0.21666786074638367,
	"learning_rate": 0.001,
	"loss": 0.3612,
	"step": 146
	},
	{
	"epoch": 10.3,
	"grad_norm": 0.20268017053604126,
	"learning_rate": 0.001,
	"loss": 0.3739,
	"step": 148
	},
	{
	"epoch": 10.43,
	"grad_norm": 0.22428925335407257,
	"learning_rate": 0.001,
	"loss": 0.382,
	"step": 150
	},
	{
	"epoch": 10.57,
	"grad_norm": 0.21844923496246338,
	"learning_rate": 0.001,
	"loss": 0.3623,
	"step": 152
	},
	{
	"epoch": 10.71,
	"grad_norm": 0.2675388753414154,
	"learning_rate": 0.001,
	"loss": 0.3674,
	"step": 154
	},
	{
	"epoch": 10.85,
	"grad_norm": 0.2905120849609375,
	"learning_rate": 0.001,
	"loss": 0.39,
	"step": 156
	},
	{
	"epoch": 10.99,
	"grad_norm": 0.27420204877853394,
	"learning_rate": 0.001,
	"loss": 0.4042,
	"step": 158
	},
	{
	"epoch": 10.99,
	"eval_gen_len": 497.53550295857985,
	"eval_loss": 2.1294684410095215,
	"eval_rouge1": 28.6425,
	"eval_rouge2": 11.8399,
	"eval_rougeL": 21.3847,
	"eval_rougeLsum": 27.0508,
	"eval_runtime": 1807.4153,
	"eval_samples_per_second": 0.187,
	"eval_steps_per_second": 0.024,
	"step": 158
	},
	{
	"epoch": 11.13,
	"grad_norm": 0.26691916584968567,
	"learning_rate": 0.001,
	"loss": 0.3127,
	"step": 160
	},
	{
	"epoch": 11.27,
	"grad_norm": 0.3042663335800171,
	"learning_rate": 0.001,
	"loss": 0.305,
	"step": 162
	},
	{
	"epoch": 11.41,
	"grad_norm": 0.26255106925964355,
	"learning_rate": 0.001,
	"loss": 0.3133,
	"step": 164
	},
	{
	"epoch": 11.55,
	"grad_norm": 0.23816817998886108,
	"learning_rate": 0.001,
	"loss": 0.3118,
	"step": 166
	},
	{
	"epoch": 11.69,
	"grad_norm": 0.22553777694702148,
	"learning_rate": 0.001,
	"loss": 0.3073,
	"step": 168
	},
	{
	"epoch": 11.83,
	"grad_norm": 0.2234884351491928,
	"learning_rate": 0.001,
	"loss": 0.3346,
	"step": 170
	},
	{
	"epoch": 11.97,
	"grad_norm": 0.18143154680728912,
	"learning_rate": 0.001,
	"loss": 0.3292,
	"step": 172
	},
	{
	"epoch": 11.97,
	"eval_gen_len": 478.81065088757396,
	"eval_loss": 2.244086503982544,
	"eval_rouge1": 31.8393,
	"eval_rouge2": 13.1308,
	"eval_rougeL": 22.135,
	"eval_rougeLsum": 30.5866,
	"eval_runtime": 1798.3958,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 172
	},
	{
	"epoch": 12.1,
	"grad_norm": 0.24745677411556244,
	"learning_rate": 0.001,
	"loss": 0.2539,
	"step": 174
	},
	{
	"epoch": 12.24,
	"grad_norm": 0.26513755321502686,
	"learning_rate": 0.001,
	"loss": 0.2588,
	"step": 176
	},
	{
	"epoch": 12.38,
	"grad_norm": 0.20156317949295044,
	"learning_rate": 0.001,
	"loss": 0.2537,
	"step": 178
	},
	{
	"epoch": 12.52,
	"grad_norm": 0.21362556517124176,
	"learning_rate": 0.001,
	"loss": 0.2812,
	"step": 180
	},
	{
	"epoch": 12.66,
	"grad_norm": 0.5383086800575256,
	"learning_rate": 0.001,
	"loss": 0.2594,
	"step": 182
	},
	{
	"epoch": 12.8,
	"grad_norm": 0.2891131639480591,
	"learning_rate": 0.001,
	"loss": 0.2629,
	"step": 184
	},
	{
	"epoch": 12.94,
	"grad_norm": 0.265836238861084,
	"learning_rate": 0.001,
	"loss": 0.2812,
	"step": 186
	},
	{
	"epoch": 12.94,
	"eval_gen_len": 429.99112426035504,
	"eval_loss": 2.3464245796203613,
	"eval_rouge1": 34.4102,
	"eval_rouge2": 14.3607,
	"eval_rougeL": 23.8634,
	"eval_rougeLsum": 32.9732,
	"eval_runtime": 1798.2194,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 186
	},
	{
	"epoch": 13.08,
	"grad_norm": 0.2541401982307434,
	"learning_rate": 0.001,
	"loss": 0.2283,
	"step": 188
	},
	{
	"epoch": 13.22,
	"grad_norm": 9.848714828491211,
	"learning_rate": 0.001,
	"loss": 0.206,
	"step": 190
	},
	{
	"epoch": 13.36,
	"grad_norm": 0.4088878333568573,
	"learning_rate": 0.001,
	"loss": 0.2014,
	"step": 192
	},
	{
	"epoch": 13.5,
	"grad_norm": 0.4533099830150604,
	"learning_rate": 0.001,
	"loss": 0.2292,
	"step": 194
	},
	{
	"epoch": 13.63,
	"grad_norm": 0.28066885471343994,
	"learning_rate": 0.001,
	"loss": 0.2202,
	"step": 196
	},
	{
	"epoch": 13.77,
	"grad_norm": 0.38810494542121887,
	"learning_rate": 0.001,
	"loss": 0.2278,
	"step": 198
	},
	{
	"epoch": 13.91,
	"grad_norm": 0.2568497657775879,
	"learning_rate": 0.001,
	"loss": 0.2443,
	"step": 200
	},
	{
	"epoch": 13.98,
	"eval_gen_len": 392.53846153846155,
	"eval_loss": 2.2002713680267334,
	"eval_rouge1": 34.8239,
	"eval_rouge2": 14.8042,
	"eval_rougeL": 25.2438,
	"eval_rougeLsum": 33.0469,
	"eval_runtime": 1797.5392,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 201
	},
	{
	"epoch": 14.05,
	"grad_norm": 0.279291570186615,
	"learning_rate": 0.001,
	"loss": 0.2362,
	"step": 202
	},
	{
	"epoch": 14.19,
	"grad_norm": 0.18151430785655975,
	"learning_rate": 0.001,
	"loss": 0.1807,
	"step": 204
	},
	{
	"epoch": 14.33,
	"grad_norm": 0.2227843850851059,
	"learning_rate": 0.001,
	"loss": 0.1708,
	"step": 206
	},
	{
	"epoch": 14.47,
	"grad_norm": 0.2937067151069641,
	"learning_rate": 0.001,
	"loss": 0.1818,
	"step": 208
	},
	{
	"epoch": 14.61,
	"grad_norm": 0.3238927125930786,
	"learning_rate": 0.001,
	"loss": 0.1958,
	"step": 210
	},
	{
	"epoch": 14.61,
	"eval_gen_len": 503.5769230769231,
	"eval_loss": 2.5840089321136475,
	"eval_rouge1": 29.7482,
	"eval_rouge2": 12.0072,
	"eval_rougeL": 21.348,
	"eval_rougeLsum": 28.5849,
	"eval_runtime": 1799.2535,
	"eval_samples_per_second": 0.188,
	"eval_steps_per_second": 0.024,
	"step": 210
	},
	{
	"epoch": 14.61,
	"step": 210,
	"total_flos": 3.6715210940733604e+18,
	"train_loss": 0.9784720075981957,
	"train_runtime": 78497.3694,
	"train_samples_per_second": 0.702,
	"train_steps_per_second": 0.003
	}
	],
	"logging_steps": 2,
	"max_steps": 210,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 15,
	"save_steps": 500,
	"total_flos": 3.6715210940733604e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}