results / trainer_state.json

Upload 14 files

6f5c44e verified 6 months ago

15.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.174311926605505,
	"eval_steps": 1000,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.11467889908256881,
	"grad_norm": 4.947055339813232,
	"learning_rate": 0.000199079754601227,
	"loss": 4.2757,
	"step": 25
	},
	{
	"epoch": 0.22935779816513763,
	"grad_norm": 3.0868945121765137,
	"learning_rate": 0.00019754601226993864,
	"loss": 2.4215,
	"step": 50
	},
	{
	"epoch": 0.3440366972477064,
	"grad_norm": 3.1504604816436768,
	"learning_rate": 0.0001960122699386503,
	"loss": 1.5603,
	"step": 75
	},
	{
	"epoch": 0.45871559633027525,
	"grad_norm": 5.1320624351501465,
	"learning_rate": 0.00019447852760736198,
	"loss": 1.5129,
	"step": 100
	},
	{
	"epoch": 0.573394495412844,
	"grad_norm": 3.3029208183288574,
	"learning_rate": 0.00019294478527607362,
	"loss": 1.4394,
	"step": 125
	},
	{
	"epoch": 0.6880733944954128,
	"grad_norm": 4.884591102600098,
	"learning_rate": 0.0001914110429447853,
	"loss": 1.3357,
	"step": 150
	},
	{
	"epoch": 0.8027522935779816,
	"grad_norm": 2.960696220397949,
	"learning_rate": 0.00018987730061349693,
	"loss": 1.3536,
	"step": 175
	},
	{
	"epoch": 0.9174311926605505,
	"grad_norm": 3.2423105239868164,
	"learning_rate": 0.0001883435582822086,
	"loss": 1.3502,
	"step": 200
	},
	{
	"epoch": 1.0321100917431192,
	"grad_norm": 3.236219644546509,
	"learning_rate": 0.00018680981595092027,
	"loss": 1.2705,
	"step": 225
	},
	{
	"epoch": 1.146788990825688,
	"grad_norm": 6.417654514312744,
	"learning_rate": 0.0001852760736196319,
	"loss": 1.1982,
	"step": 250
	},
	{
	"epoch": 1.261467889908257,
	"grad_norm": 2.224224805831909,
	"learning_rate": 0.00018374233128834358,
	"loss": 0.9572,
	"step": 275
	},
	{
	"epoch": 1.3761467889908257,
	"grad_norm": 2.035285711288452,
	"learning_rate": 0.00018220858895705522,
	"loss": 1.1071,
	"step": 300
	},
	{
	"epoch": 1.4908256880733946,
	"grad_norm": 3.7886247634887695,
	"learning_rate": 0.0001806748466257669,
	"loss": 1.0682,
	"step": 325
	},
	{
	"epoch": 1.6055045871559632,
	"grad_norm": 5.813726902008057,
	"learning_rate": 0.00017914110429447856,
	"loss": 0.9436,
	"step": 350
	},
	{
	"epoch": 1.7201834862385321,
	"grad_norm": 7.5725178718566895,
	"learning_rate": 0.0001776073619631902,
	"loss": 1.0397,
	"step": 375
	},
	{
	"epoch": 1.834862385321101,
	"grad_norm": 3.6317062377929688,
	"learning_rate": 0.00017607361963190187,
	"loss": 1.1421,
	"step": 400
	},
	{
	"epoch": 1.9495412844036697,
	"grad_norm": 2.53063702583313,
	"learning_rate": 0.0001745398773006135,
	"loss": 1.1339,
	"step": 425
	},
	{
	"epoch": 2.0642201834862384,
	"grad_norm": 6.015753269195557,
	"learning_rate": 0.00017300613496932518,
	"loss": 0.8271,
	"step": 450
	},
	{
	"epoch": 2.1788990825688073,
	"grad_norm": 2.1599044799804688,
	"learning_rate": 0.00017147239263803682,
	"loss": 0.8183,
	"step": 475
	},
	{
	"epoch": 2.293577981651376,
	"grad_norm": 3.4313087463378906,
	"learning_rate": 0.00016993865030674846,
	"loss": 0.7794,
	"step": 500
	},
	{
	"epoch": 2.408256880733945,
	"grad_norm": 5.856240272521973,
	"learning_rate": 0.00016840490797546013,
	"loss": 0.8029,
	"step": 525
	},
	{
	"epoch": 2.522935779816514,
	"grad_norm": 3.658007860183716,
	"learning_rate": 0.00016687116564417177,
	"loss": 0.7877,
	"step": 550
	},
	{
	"epoch": 2.6376146788990824,
	"grad_norm": 4.434767723083496,
	"learning_rate": 0.00016533742331288344,
	"loss": 0.7313,
	"step": 575
	},
	{
	"epoch": 2.7522935779816513,
	"grad_norm": 5.971595287322998,
	"learning_rate": 0.0001638036809815951,
	"loss": 0.6757,
	"step": 600
	},
	{
	"epoch": 2.86697247706422,
	"grad_norm": 3.449643850326538,
	"learning_rate": 0.00016226993865030675,
	"loss": 0.8652,
	"step": 625
	},
	{
	"epoch": 2.981651376146789,
	"grad_norm": 3.473947763442993,
	"learning_rate": 0.00016073619631901842,
	"loss": 0.8634,
	"step": 650
	},
	{
	"epoch": 3.096330275229358,
	"grad_norm": 2.539017677307129,
	"learning_rate": 0.00015920245398773006,
	"loss": 0.6115,
	"step": 675
	},
	{
	"epoch": 3.2110091743119265,
	"grad_norm": 1.9025028944015503,
	"learning_rate": 0.00015766871165644173,
	"loss": 0.6218,
	"step": 700
	},
	{
	"epoch": 3.3256880733944953,
	"grad_norm": 5.206181526184082,
	"learning_rate": 0.0001561349693251534,
	"loss": 0.6527,
	"step": 725
	},
	{
	"epoch": 3.4403669724770642,
	"grad_norm": 7.43388032913208,
	"learning_rate": 0.00015460122699386504,
	"loss": 0.5914,
	"step": 750
	},
	{
	"epoch": 3.555045871559633,
	"grad_norm": 2.8263156414031982,
	"learning_rate": 0.0001530674846625767,
	"loss": 0.6598,
	"step": 775
	},
	{
	"epoch": 3.669724770642202,
	"grad_norm": 4.634042263031006,
	"learning_rate": 0.00015153374233128835,
	"loss": 0.6755,
	"step": 800
	},
	{
	"epoch": 3.7844036697247705,
	"grad_norm": 9.874078750610352,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.6494,
	"step": 825
	},
	{
	"epoch": 3.8990825688073394,
	"grad_norm": 6.18958854675293,
	"learning_rate": 0.00014846625766871168,
	"loss": 0.6396,
	"step": 850
	},
	{
	"epoch": 4.013761467889908,
	"grad_norm": 5.176502227783203,
	"learning_rate": 0.00014693251533742332,
	"loss": 0.6837,
	"step": 875
	},
	{
	"epoch": 4.128440366972477,
	"grad_norm": 5.866634368896484,
	"learning_rate": 0.000145398773006135,
	"loss": 0.5174,
	"step": 900
	},
	{
	"epoch": 4.243119266055046,
	"grad_norm": 5.940659999847412,
	"learning_rate": 0.00014386503067484663,
	"loss": 0.5614,
	"step": 925
	},
	{
	"epoch": 4.3577981651376145,
	"grad_norm": 2.2365148067474365,
	"learning_rate": 0.00014233128834355828,
	"loss": 0.5525,
	"step": 950
	},
	{
	"epoch": 4.472477064220183,
	"grad_norm": 2.6536717414855957,
	"learning_rate": 0.00014079754601226994,
	"loss": 0.6028,
	"step": 975
	},
	{
	"epoch": 4.587155963302752,
	"grad_norm": 6.802552223205566,
	"learning_rate": 0.00013926380368098159,
	"loss": 0.5658,
	"step": 1000
	},
	{
	"epoch": 4.587155963302752,
	"eval_loss": 0.46536171436309814,
	"eval_runtime": 12.9671,
	"eval_samples_per_second": 16.812,
	"eval_steps_per_second": 2.159,
	"step": 1000
	},
	{
	"epoch": 4.701834862385321,
	"grad_norm": 5.150993347167969,
	"learning_rate": 0.00013773006134969325,
	"loss": 0.5522,
	"step": 1025
	},
	{
	"epoch": 4.81651376146789,
	"grad_norm": 5.858363151550293,
	"learning_rate": 0.0001361963190184049,
	"loss": 0.4839,
	"step": 1050
	},
	{
	"epoch": 4.931192660550459,
	"grad_norm": 3.4022738933563232,
	"learning_rate": 0.00013466257668711656,
	"loss": 0.597,
	"step": 1075
	},
	{
	"epoch": 5.045871559633028,
	"grad_norm": 3.6270384788513184,
	"learning_rate": 0.00013312883435582823,
	"loss": 0.5217,
	"step": 1100
	},
	{
	"epoch": 5.160550458715596,
	"grad_norm": 2.8926446437835693,
	"learning_rate": 0.00013159509202453987,
	"loss": 0.5683,
	"step": 1125
	},
	{
	"epoch": 5.275229357798165,
	"grad_norm": 2.598726511001587,
	"learning_rate": 0.00013006134969325154,
	"loss": 0.4556,
	"step": 1150
	},
	{
	"epoch": 5.389908256880734,
	"grad_norm": 5.851846694946289,
	"learning_rate": 0.00012852760736196318,
	"loss": 0.4656,
	"step": 1175
	},
	{
	"epoch": 5.504587155963303,
	"grad_norm": 1.5751358270645142,
	"learning_rate": 0.00012699386503067485,
	"loss": 0.5022,
	"step": 1200
	},
	{
	"epoch": 5.6192660550458715,
	"grad_norm": 3.152641534805298,
	"learning_rate": 0.00012546012269938652,
	"loss": 0.4727,
	"step": 1225
	},
	{
	"epoch": 5.73394495412844,
	"grad_norm": 2.1421804428100586,
	"learning_rate": 0.00012392638036809816,
	"loss": 0.556,
	"step": 1250
	},
	{
	"epoch": 5.848623853211009,
	"grad_norm": 2.27579665184021,
	"learning_rate": 0.00012239263803680983,
	"loss": 0.5588,
	"step": 1275
	},
	{
	"epoch": 5.963302752293578,
	"grad_norm": 7.381156921386719,
	"learning_rate": 0.00012085889570552147,
	"loss": 0.4679,
	"step": 1300
	},
	{
	"epoch": 6.077981651376147,
	"grad_norm": 1.3406894207000732,
	"learning_rate": 0.00011932515337423313,
	"loss": 0.4235,
	"step": 1325
	},
	{
	"epoch": 6.192660550458716,
	"grad_norm": 3.048557758331299,
	"learning_rate": 0.0001177914110429448,
	"loss": 0.4295,
	"step": 1350
	},
	{
	"epoch": 6.307339449541284,
	"grad_norm": 5.965505123138428,
	"learning_rate": 0.00011625766871165644,
	"loss": 0.4265,
	"step": 1375
	},
	{
	"epoch": 6.422018348623853,
	"grad_norm": 3.253556728363037,
	"learning_rate": 0.0001147239263803681,
	"loss": 0.4953,
	"step": 1400
	},
	{
	"epoch": 6.536697247706422,
	"grad_norm": 4.381213665008545,
	"learning_rate": 0.00011319018404907975,
	"loss": 0.4989,
	"step": 1425
	},
	{
	"epoch": 6.651376146788991,
	"grad_norm": 5.1543803215026855,
	"learning_rate": 0.00011165644171779142,
	"loss": 0.4478,
	"step": 1450
	},
	{
	"epoch": 6.76605504587156,
	"grad_norm": 4.282744407653809,
	"learning_rate": 0.00011012269938650308,
	"loss": 0.5269,
	"step": 1475
	},
	{
	"epoch": 6.8807339449541285,
	"grad_norm": 1.405004858970642,
	"learning_rate": 0.00010858895705521473,
	"loss": 0.4448,
	"step": 1500
	},
	{
	"epoch": 6.995412844036697,
	"grad_norm": 3.463747024536133,
	"learning_rate": 0.0001070552147239264,
	"loss": 0.4897,
	"step": 1525
	},
	{
	"epoch": 7.110091743119266,
	"grad_norm": 2.876891851425171,
	"learning_rate": 0.00010552147239263804,
	"loss": 0.4073,
	"step": 1550
	},
	{
	"epoch": 7.224770642201835,
	"grad_norm": 1.9896137714385986,
	"learning_rate": 0.00010398773006134969,
	"loss": 0.4214,
	"step": 1575
	},
	{
	"epoch": 7.339449541284404,
	"grad_norm": 5.495143890380859,
	"learning_rate": 0.00010245398773006136,
	"loss": 0.4318,
	"step": 1600
	},
	{
	"epoch": 7.454128440366972,
	"grad_norm": 2.7708942890167236,
	"learning_rate": 0.000100920245398773,
	"loss": 0.4374,
	"step": 1625
	},
	{
	"epoch": 7.568807339449541,
	"grad_norm": 2.327313184738159,
	"learning_rate": 9.938650306748467e-05,
	"loss": 0.4393,
	"step": 1650
	},
	{
	"epoch": 7.68348623853211,
	"grad_norm": 2.895890951156616,
	"learning_rate": 9.785276073619632e-05,
	"loss": 0.457,
	"step": 1675
	},
	{
	"epoch": 7.798165137614679,
	"grad_norm": 3.2652461528778076,
	"learning_rate": 9.631901840490798e-05,
	"loss": 0.4833,
	"step": 1700
	},
	{
	"epoch": 7.912844036697248,
	"grad_norm": 2.947260618209839,
	"learning_rate": 9.478527607361963e-05,
	"loss": 0.4142,
	"step": 1725
	},
	{
	"epoch": 8.027522935779816,
	"grad_norm": 1.9098671674728394,
	"learning_rate": 9.325153374233129e-05,
	"loss": 0.4309,
	"step": 1750
	},
	{
	"epoch": 8.142201834862385,
	"grad_norm": 4.037384033203125,
	"learning_rate": 9.171779141104296e-05,
	"loss": 0.4019,
	"step": 1775
	},
	{
	"epoch": 8.256880733944953,
	"grad_norm": 3.7623095512390137,
	"learning_rate": 9.018404907975461e-05,
	"loss": 0.3649,
	"step": 1800
	},
	{
	"epoch": 8.371559633027523,
	"grad_norm": 2.049928903579712,
	"learning_rate": 8.865030674846625e-05,
	"loss": 0.3905,
	"step": 1825
	},
	{
	"epoch": 8.486238532110091,
	"grad_norm": 6.4500017166137695,
	"learning_rate": 8.711656441717791e-05,
	"loss": 0.4493,
	"step": 1850
	},
	{
	"epoch": 8.600917431192661,
	"grad_norm": 1.4894698858261108,
	"learning_rate": 8.558282208588958e-05,
	"loss": 0.4416,
	"step": 1875
	},
	{
	"epoch": 8.715596330275229,
	"grad_norm": 3.064404010772705,
	"learning_rate": 8.404907975460123e-05,
	"loss": 0.395,
	"step": 1900
	},
	{
	"epoch": 8.830275229357799,
	"grad_norm": 4.572951316833496,
	"learning_rate": 8.251533742331289e-05,
	"loss": 0.4606,
	"step": 1925
	},
	{
	"epoch": 8.944954128440367,
	"grad_norm": 3.9111504554748535,
	"learning_rate": 8.098159509202454e-05,
	"loss": 0.4291,
	"step": 1950
	},
	{
	"epoch": 9.059633027522937,
	"grad_norm": 2.4905645847320557,
	"learning_rate": 7.94478527607362e-05,
	"loss": 0.3797,
	"step": 1975
	},
	{
	"epoch": 9.174311926605505,
	"grad_norm": 2.3467962741851807,
	"learning_rate": 7.791411042944787e-05,
	"loss": 0.4023,
	"step": 2000
	},
	{
	"epoch": 9.174311926605505,
	"eval_loss": 0.3534790277481079,
	"eval_runtime": 12.9976,
	"eval_samples_per_second": 16.772,
	"eval_steps_per_second": 2.154,
	"step": 2000
	}
	],
	"logging_steps": 25,
	"max_steps": 3270,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 15,
	"save_steps": 500,
	"total_flos": 1448045812162560.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}