llama3-sudo-10epochs-mask / trainer_state.json

Qin Liu

Model save

08ad122 verified 2 months ago

80.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 2290,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004366812227074236,
	"grad_norm": 1.8752956704333947,
	"learning_rate": 8.733624454148472e-07,
	"loss": 3.7085,
	"step": 1
	},
	{
	"epoch": 0.021834061135371178,
	"grad_norm": 1.8028899921940393,
	"learning_rate": 4.3668122270742355e-06,
	"loss": 3.6291,
	"step": 5
	},
	{
	"epoch": 0.043668122270742356,
	"grad_norm": 1.75783914939411,
	"learning_rate": 8.733624454148471e-06,
	"loss": 3.547,
	"step": 10
	},
	{
	"epoch": 0.06550218340611354,
	"grad_norm": 2.1823195400139026,
	"learning_rate": 1.3100436681222708e-05,
	"loss": 3.6303,
	"step": 15
	},
	{
	"epoch": 0.08733624454148471,
	"grad_norm": 2.7703299276693256,
	"learning_rate": 1.7467248908296942e-05,
	"loss": 3.5805,
	"step": 20
	},
	{
	"epoch": 0.1091703056768559,
	"grad_norm": 3.0501154969163244,
	"learning_rate": 2.183406113537118e-05,
	"loss": 3.277,
	"step": 25
	},
	{
	"epoch": 0.13100436681222707,
	"grad_norm": 2.0575132099752795,
	"learning_rate": 2.6200873362445416e-05,
	"loss": 2.8289,
	"step": 30
	},
	{
	"epoch": 0.15283842794759825,
	"grad_norm": 1.2985876224099822,
	"learning_rate": 3.056768558951965e-05,
	"loss": 2.6017,
	"step": 35
	},
	{
	"epoch": 0.17467248908296942,
	"grad_norm": 0.7330786544465717,
	"learning_rate": 3.4934497816593884e-05,
	"loss": 2.4112,
	"step": 40
	},
	{
	"epoch": 0.1965065502183406,
	"grad_norm": 0.7933262369374595,
	"learning_rate": 3.930131004366812e-05,
	"loss": 2.2821,
	"step": 45
	},
	{
	"epoch": 0.2183406113537118,
	"grad_norm": 0.7790118551391272,
	"learning_rate": 4.366812227074236e-05,
	"loss": 2.0793,
	"step": 50
	},
	{
	"epoch": 0.24017467248908297,
	"grad_norm": 0.7082020251604142,
	"learning_rate": 4.8034934497816594e-05,
	"loss": 2.0505,
	"step": 55
	},
	{
	"epoch": 0.26200873362445415,
	"grad_norm": 0.5696342576311191,
	"learning_rate": 5.240174672489083e-05,
	"loss": 1.8173,
	"step": 60
	},
	{
	"epoch": 0.2838427947598253,
	"grad_norm": 0.5023621326635465,
	"learning_rate": 5.6768558951965065e-05,
	"loss": 1.8912,
	"step": 65
	},
	{
	"epoch": 0.3056768558951965,
	"grad_norm": 0.4787415611645182,
	"learning_rate": 6.11353711790393e-05,
	"loss": 1.7972,
	"step": 70
	},
	{
	"epoch": 0.32751091703056767,
	"grad_norm": 0.48422783401495123,
	"learning_rate": 6.550218340611354e-05,
	"loss": 1.7183,
	"step": 75
	},
	{
	"epoch": 0.34934497816593885,
	"grad_norm": 0.3910949318663936,
	"learning_rate": 6.986899563318777e-05,
	"loss": 1.6366,
	"step": 80
	},
	{
	"epoch": 0.37117903930131,
	"grad_norm": 0.3902520624627953,
	"learning_rate": 7.423580786026201e-05,
	"loss": 1.7019,
	"step": 85
	},
	{
	"epoch": 0.3930131004366812,
	"grad_norm": 0.3853385163155022,
	"learning_rate": 7.860262008733625e-05,
	"loss": 1.7606,
	"step": 90
	},
	{
	"epoch": 0.4148471615720524,
	"grad_norm": 0.3911758987224519,
	"learning_rate": 8.296943231441049e-05,
	"loss": 1.6395,
	"step": 95
	},
	{
	"epoch": 0.4366812227074236,
	"grad_norm": 0.42385759736776996,
	"learning_rate": 8.733624454148472e-05,
	"loss": 1.6328,
	"step": 100
	},
	{
	"epoch": 0.4585152838427948,
	"grad_norm": 0.3975926298253002,
	"learning_rate": 9.170305676855896e-05,
	"loss": 1.6775,
	"step": 105
	},
	{
	"epoch": 0.48034934497816595,
	"grad_norm": 0.4355288111027398,
	"learning_rate": 9.606986899563319e-05,
	"loss": 1.6008,
	"step": 110
	},
	{
	"epoch": 0.5021834061135371,
	"grad_norm": 0.44774118787630435,
	"learning_rate": 0.00010043668122270742,
	"loss": 1.6046,
	"step": 115
	},
	{
	"epoch": 0.5240174672489083,
	"grad_norm": 0.45365568335085893,
	"learning_rate": 0.00010480349344978167,
	"loss": 1.6348,
	"step": 120
	},
	{
	"epoch": 0.5458515283842795,
	"grad_norm": 0.3985940875605887,
	"learning_rate": 0.00010917030567685591,
	"loss": 1.616,
	"step": 125
	},
	{
	"epoch": 0.5676855895196506,
	"grad_norm": 0.4103041259632963,
	"learning_rate": 0.00011353711790393013,
	"loss": 1.6063,
	"step": 130
	},
	{
	"epoch": 0.5895196506550219,
	"grad_norm": 0.45594857125060284,
	"learning_rate": 0.00011790393013100438,
	"loss": 1.5782,
	"step": 135
	},
	{
	"epoch": 0.611353711790393,
	"grad_norm": 0.406753522288533,
	"learning_rate": 0.0001222707423580786,
	"loss": 1.5361,
	"step": 140
	},
	{
	"epoch": 0.6331877729257642,
	"grad_norm": 0.45489448779672886,
	"learning_rate": 0.00012663755458515284,
	"loss": 1.6416,
	"step": 145
	},
	{
	"epoch": 0.6550218340611353,
	"grad_norm": 0.4232268425851412,
	"learning_rate": 0.00013100436681222707,
	"loss": 1.5449,
	"step": 150
	},
	{
	"epoch": 0.6768558951965066,
	"grad_norm": 0.4008200720858846,
	"learning_rate": 0.00013537117903930133,
	"loss": 1.6322,
	"step": 155
	},
	{
	"epoch": 0.6986899563318777,
	"grad_norm": 0.41073046435729793,
	"learning_rate": 0.00013973799126637554,
	"loss": 1.6144,
	"step": 160
	},
	{
	"epoch": 0.7205240174672489,
	"grad_norm": 0.43150859357010535,
	"learning_rate": 0.0001441048034934498,
	"loss": 1.6816,
	"step": 165
	},
	{
	"epoch": 0.74235807860262,
	"grad_norm": 0.4209643739546475,
	"learning_rate": 0.00014847161572052403,
	"loss": 1.6049,
	"step": 170
	},
	{
	"epoch": 0.7641921397379913,
	"grad_norm": 0.4646259107508816,
	"learning_rate": 0.00015283842794759826,
	"loss": 1.6193,
	"step": 175
	},
	{
	"epoch": 0.7860262008733624,
	"grad_norm": 0.42132133209440126,
	"learning_rate": 0.0001572052401746725,
	"loss": 1.5542,
	"step": 180
	},
	{
	"epoch": 0.8078602620087336,
	"grad_norm": 0.4068655673248684,
	"learning_rate": 0.00016157205240174672,
	"loss": 1.5172,
	"step": 185
	},
	{
	"epoch": 0.8296943231441049,
	"grad_norm": 0.45022442420363395,
	"learning_rate": 0.00016593886462882098,
	"loss": 1.65,
	"step": 190
	},
	{
	"epoch": 0.851528384279476,
	"grad_norm": 0.4218769408186785,
	"learning_rate": 0.00017030567685589521,
	"loss": 1.7073,
	"step": 195
	},
	{
	"epoch": 0.8733624454148472,
	"grad_norm": 0.44363856749896563,
	"learning_rate": 0.00017467248908296945,
	"loss": 1.6647,
	"step": 200
	},
	{
	"epoch": 0.8951965065502183,
	"grad_norm": 0.39452894148369905,
	"learning_rate": 0.00017903930131004368,
	"loss": 1.4932,
	"step": 205
	},
	{
	"epoch": 0.9170305676855895,
	"grad_norm": 0.407234590774645,
	"learning_rate": 0.0001834061135371179,
	"loss": 1.5987,
	"step": 210
	},
	{
	"epoch": 0.9388646288209607,
	"grad_norm": 0.4299787387863718,
	"learning_rate": 0.00018777292576419214,
	"loss": 1.606,
	"step": 215
	},
	{
	"epoch": 0.9606986899563319,
	"grad_norm": 0.4459993359246055,
	"learning_rate": 0.00019213973799126638,
	"loss": 1.6248,
	"step": 220
	},
	{
	"epoch": 0.982532751091703,
	"grad_norm": 0.42477289910814814,
	"learning_rate": 0.0001965065502183406,
	"loss": 1.5145,
	"step": 225
	},
	{
	"epoch": 1.0043668122270741,
	"grad_norm": 0.4524366274873438,
	"learning_rate": 0.00019999988382473225,
	"loss": 1.6031,
	"step": 230
	},
	{
	"epoch": 1.0262008733624455,
	"grad_norm": 0.4084729303647835,
	"learning_rate": 0.00019999581771870396,
	"loss": 1.5467,
	"step": 235
	},
	{
	"epoch": 1.0480349344978166,
	"grad_norm": 0.5172909354442642,
	"learning_rate": 0.0001999859431192192,
	"loss": 1.4636,
	"step": 240
	},
	{
	"epoch": 1.0698689956331877,
	"grad_norm": 0.4686179138565006,
	"learning_rate": 0.00019997026059986742,
	"loss": 1.5244,
	"step": 245
	},
	{
	"epoch": 1.091703056768559,
	"grad_norm": 0.47437945549478044,
	"learning_rate": 0.00019994877107160482,
	"loss": 1.4414,
	"step": 250
	},
	{
	"epoch": 1.1135371179039302,
	"grad_norm": 0.45613574001819357,
	"learning_rate": 0.00019992147578270142,
	"loss": 1.4545,
	"step": 255
	},
	{
	"epoch": 1.1353711790393013,
	"grad_norm": 0.4440788329210085,
	"learning_rate": 0.00019988837631866864,
	"loss": 1.4727,
	"step": 260
	},
	{
	"epoch": 1.1572052401746724,
	"grad_norm": 0.43804218551099794,
	"learning_rate": 0.00019984947460216707,
	"loss": 1.5721,
	"step": 265
	},
	{
	"epoch": 1.1790393013100438,
	"grad_norm": 0.4712591099454086,
	"learning_rate": 0.0001998047728928949,
	"loss": 1.45,
	"step": 270
	},
	{
	"epoch": 1.2008733624454149,
	"grad_norm": 0.46682322093255346,
	"learning_rate": 0.00019975427378745659,
	"loss": 1.5364,
	"step": 275
	},
	{
	"epoch": 1.222707423580786,
	"grad_norm": 0.44776219185560584,
	"learning_rate": 0.00019969798021921201,
	"loss": 1.4799,
	"step": 280
	},
	{
	"epoch": 1.244541484716157,
	"grad_norm": 0.43694406427786026,
	"learning_rate": 0.0001996358954581062,
	"loss": 1.3916,
	"step": 285
	},
	{
	"epoch": 1.2663755458515285,
	"grad_norm": 0.4369949578213358,
	"learning_rate": 0.00019956802311047925,
	"loss": 1.5629,
	"step": 290
	},
	{
	"epoch": 1.2882096069868996,
	"grad_norm": 0.4507447731242532,
	"learning_rate": 0.00019949436711885686,
	"loss": 1.5553,
	"step": 295
	},
	{
	"epoch": 1.3100436681222707,
	"grad_norm": 0.4238763083224714,
	"learning_rate": 0.00019941493176172154,
	"loss": 1.555,
	"step": 300
	},
	{
	"epoch": 1.3318777292576418,
	"grad_norm": 0.44296845533811896,
	"learning_rate": 0.0001993297216532637,
	"loss": 1.5952,
	"step": 305
	},
	{
	"epoch": 1.3537117903930131,
	"grad_norm": 0.44395910006889616,
	"learning_rate": 0.00019923874174311394,
	"loss": 1.4769,
	"step": 310
	},
	{
	"epoch": 1.3755458515283843,
	"grad_norm": 0.44391981727033414,
	"learning_rate": 0.00019914199731605546,
	"loss": 1.5458,
	"step": 315
	},
	{
	"epoch": 1.3973799126637554,
	"grad_norm": 0.46314929089631696,
	"learning_rate": 0.00019903949399171692,
	"loss": 1.5994,
	"step": 320
	},
	{
	"epoch": 1.4192139737991267,
	"grad_norm": 0.4902612617938975,
	"learning_rate": 0.0001989312377242463,
	"loss": 1.5253,
	"step": 325
	},
	{
	"epoch": 1.4410480349344978,
	"grad_norm": 0.4264196408790441,
	"learning_rate": 0.0001988172348019648,
	"loss": 1.5378,
	"step": 330
	},
	{
	"epoch": 1.462882096069869,
	"grad_norm": 0.4125915654790707,
	"learning_rate": 0.00019869749184700156,
	"loss": 1.4231,
	"step": 335
	},
	{
	"epoch": 1.48471615720524,
	"grad_norm": 0.4121352169920894,
	"learning_rate": 0.00019857201581490933,
	"loss": 1.4937,
	"step": 340
	},
	{
	"epoch": 1.5065502183406112,
	"grad_norm": 0.46111501316021164,
	"learning_rate": 0.00019844081399425997,
	"loss": 1.6366,
	"step": 345
	},
	{
	"epoch": 1.5283842794759825,
	"grad_norm": 0.41020501591518393,
	"learning_rate": 0.0001983038940062214,
	"loss": 1.5345,
	"step": 350
	},
	{
	"epoch": 1.5502183406113537,
	"grad_norm": 0.42368595569558,
	"learning_rate": 0.00019816126380411476,
	"loss": 1.5478,
	"step": 355
	},
	{
	"epoch": 1.572052401746725,
	"grad_norm": 0.41418005567795424,
	"learning_rate": 0.0001980129316729526,
	"loss": 1.5202,
	"step": 360
	},
	{
	"epoch": 1.5938864628820961,
	"grad_norm": 0.4293992491929074,
	"learning_rate": 0.0001978589062289573,
	"loss": 1.4605,
	"step": 365
	},
	{
	"epoch": 1.6157205240174672,
	"grad_norm": 0.4361713850313702,
	"learning_rate": 0.00019769919641906097,
	"loss": 1.5154,
	"step": 370
	},
	{
	"epoch": 1.6375545851528384,
	"grad_norm": 0.3915518977683478,
	"learning_rate": 0.0001975338115203854,
	"loss": 1.3845,
	"step": 375
	},
	{
	"epoch": 1.6593886462882095,
	"grad_norm": 0.40952561447487074,
	"learning_rate": 0.0001973627611397034,
	"loss": 1.5663,
	"step": 380
	},
	{
	"epoch": 1.6812227074235808,
	"grad_norm": 0.41401676412381255,
	"learning_rate": 0.00019718605521288073,
	"loss": 1.5892,
	"step": 385
	},
	{
	"epoch": 1.703056768558952,
	"grad_norm": 0.40948687994041144,
	"learning_rate": 0.00019700370400429885,
	"loss": 1.5853,
	"step": 390
	},
	{
	"epoch": 1.7248908296943233,
	"grad_norm": 0.39912451760472517,
	"learning_rate": 0.00019681571810625873,
	"loss": 1.5086,
	"step": 395
	},
	{
	"epoch": 1.7467248908296944,
	"grad_norm": 0.4274906140041681,
	"learning_rate": 0.00019662210843836574,
	"loss": 1.5361,
	"step": 400
	},
	{
	"epoch": 1.7685589519650655,
	"grad_norm": 0.45496243462203195,
	"learning_rate": 0.00019642288624689501,
	"loss": 1.5281,
	"step": 405
	},
	{
	"epoch": 1.7903930131004366,
	"grad_norm": 0.40754588577831136,
	"learning_rate": 0.00019621806310413857,
	"loss": 1.4146,
	"step": 410
	},
	{
	"epoch": 1.8122270742358078,
	"grad_norm": 0.46020764826270205,
	"learning_rate": 0.00019600765090773282,
	"loss": 1.509,
	"step": 415
	},
	{
	"epoch": 1.8340611353711789,
	"grad_norm": 0.41433203928546175,
	"learning_rate": 0.0001957916618799676,
	"loss": 1.4521,
	"step": 420
	},
	{
	"epoch": 1.8558951965065502,
	"grad_norm": 0.4076208140451916,
	"learning_rate": 0.00019557010856707617,
	"loss": 1.5177,
	"step": 425
	},
	{
	"epoch": 1.8777292576419216,
	"grad_norm": 0.3861676767334766,
	"learning_rate": 0.00019534300383850642,
	"loss": 1.5334,
	"step": 430
	},
	{
	"epoch": 1.8995633187772927,
	"grad_norm": 0.38833060515579254,
	"learning_rate": 0.00019511036088617342,
	"loss": 1.5405,
	"step": 435
	},
	{
	"epoch": 1.9213973799126638,
	"grad_norm": 0.42695215319286783,
	"learning_rate": 0.000194872193223693,
	"loss": 1.5458,
	"step": 440
	},
	{
	"epoch": 1.943231441048035,
	"grad_norm": 0.4089286925168508,
	"learning_rate": 0.0001946285146855968,
	"loss": 1.5466,
	"step": 445
	},
	{
	"epoch": 1.965065502183406,
	"grad_norm": 0.42155330336215135,
	"learning_rate": 0.00019437933942652885,
	"loss": 1.566,
	"step": 450
	},
	{
	"epoch": 1.9868995633187772,
	"grad_norm": 0.3751384149186164,
	"learning_rate": 0.000194124681920423,
	"loss": 1.4511,
	"step": 455
	},
	{
	"epoch": 2.0087336244541483,
	"grad_norm": 0.4161005311145859,
	"learning_rate": 0.00019386455695966253,
	"loss": 1.4751,
	"step": 460
	},
	{
	"epoch": 2.03056768558952,
	"grad_norm": 0.4391122093349958,
	"learning_rate": 0.0001935989796542207,
	"loss": 1.4673,
	"step": 465
	},
	{
	"epoch": 2.052401746724891,
	"grad_norm": 0.4822422647436377,
	"learning_rate": 0.00019332796543078314,
	"loss": 1.4212,
	"step": 470
	},
	{
	"epoch": 2.074235807860262,
	"grad_norm": 0.47440157836581254,
	"learning_rate": 0.00019305153003185165,
	"loss": 1.4117,
	"step": 475
	},
	{
	"epoch": 2.096069868995633,
	"grad_norm": 0.5171235330183517,
	"learning_rate": 0.00019276968951482986,
	"loss": 1.377,
	"step": 480
	},
	{
	"epoch": 2.1179039301310043,
	"grad_norm": 0.5213453701595562,
	"learning_rate": 0.00019248246025109045,
	"loss": 1.3892,
	"step": 485
	},
	{
	"epoch": 2.1397379912663754,
	"grad_norm": 0.5031391500788147,
	"learning_rate": 0.0001921898589250242,
	"loss": 1.3859,
	"step": 490
	},
	{
	"epoch": 2.1615720524017465,
	"grad_norm": 0.48354639648956227,
	"learning_rate": 0.00019189190253307082,
	"loss": 1.3916,
	"step": 495
	},
	{
	"epoch": 2.183406113537118,
	"grad_norm": 0.5173445212952421,
	"learning_rate": 0.00019158860838273172,
	"loss": 1.3977,
	"step": 500
	},
	{
	"epoch": 2.2052401746724892,
	"grad_norm": 0.513094289634623,
	"learning_rate": 0.00019127999409156453,
	"loss": 1.3707,
	"step": 505
	},
	{
	"epoch": 2.2270742358078603,
	"grad_norm": 0.5024827997518101,
	"learning_rate": 0.00019096607758615998,
	"loss": 1.3482,
	"step": 510
	},
	{
	"epoch": 2.2489082969432315,
	"grad_norm": 0.5798563945761437,
	"learning_rate": 0.0001906468771011003,
	"loss": 1.4178,
	"step": 515
	},
	{
	"epoch": 2.2707423580786026,
	"grad_norm": 0.5150755731275006,
	"learning_rate": 0.00019032241117790028,
	"loss": 1.4191,
	"step": 520
	},
	{
	"epoch": 2.2925764192139737,
	"grad_norm": 0.5437625450565541,
	"learning_rate": 0.00018999269866393006,
	"loss": 1.3817,
	"step": 525
	},
	{
	"epoch": 2.314410480349345,
	"grad_norm": 0.4924027196915137,
	"learning_rate": 0.00018965775871132044,
	"loss": 1.3745,
	"step": 530
	},
	{
	"epoch": 2.3362445414847164,
	"grad_norm": 0.5287496980456949,
	"learning_rate": 0.00018931761077585035,
	"loss": 1.3749,
	"step": 535
	},
	{
	"epoch": 2.3580786026200875,
	"grad_norm": 0.5123509887446156,
	"learning_rate": 0.00018897227461581672,
	"loss": 1.4476,
	"step": 540
	},
	{
	"epoch": 2.3799126637554586,
	"grad_norm": 0.5054089069691902,
	"learning_rate": 0.00018862177029088675,
	"loss": 1.4103,
	"step": 545
	},
	{
	"epoch": 2.4017467248908297,
	"grad_norm": 0.5339659464397467,
	"learning_rate": 0.00018826611816093273,
	"loss": 1.421,
	"step": 550
	},
	{
	"epoch": 2.423580786026201,
	"grad_norm": 0.5367901761635062,
	"learning_rate": 0.00018790533888484937,
	"loss": 1.4725,
	"step": 555
	},
	{
	"epoch": 2.445414847161572,
	"grad_norm": 0.5453912898301467,
	"learning_rate": 0.00018753945341935376,
	"loss": 1.4671,
	"step": 560
	},
	{
	"epoch": 2.467248908296943,
	"grad_norm": 0.5114254543022997,
	"learning_rate": 0.0001871684830177681,
	"loss": 1.5483,
	"step": 565
	},
	{
	"epoch": 2.489082969432314,
	"grad_norm": 0.5183339258600979,
	"learning_rate": 0.00018679244922878516,
	"loss": 1.4277,
	"step": 570
	},
	{
	"epoch": 2.5109170305676853,
	"grad_norm": 0.5202383438539178,
	"learning_rate": 0.00018641137389521645,
	"loss": 1.4767,
	"step": 575
	},
	{
	"epoch": 2.532751091703057,
	"grad_norm": 0.5293048970285786,
	"learning_rate": 0.0001860252791527236,
	"loss": 1.4691,
	"step": 580
	},
	{
	"epoch": 2.554585152838428,
	"grad_norm": 0.5307661790603934,
	"learning_rate": 0.0001856341874285324,
	"loss": 1.484,
	"step": 585
	},
	{
	"epoch": 2.576419213973799,
	"grad_norm": 0.5298444162459437,
	"learning_rate": 0.0001852381214401302,
	"loss": 1.3704,
	"step": 590
	},
	{
	"epoch": 2.5982532751091703,
	"grad_norm": 0.5045622495753448,
	"learning_rate": 0.00018483710419394615,
	"loss": 1.4273,
	"step": 595
	},
	{
	"epoch": 2.6200873362445414,
	"grad_norm": 0.516020284616684,
	"learning_rate": 0.00018443115898401504,
	"loss": 1.5253,
	"step": 600
	},
	{
	"epoch": 2.641921397379913,
	"grad_norm": 0.5212259321852013,
	"learning_rate": 0.000184020309390624,
	"loss": 1.4966,
	"step": 605
	},
	{
	"epoch": 2.6637554585152836,
	"grad_norm": 0.571739861550278,
	"learning_rate": 0.00018360457927894287,
	"loss": 1.489,
	"step": 610
	},
	{
	"epoch": 2.685589519650655,
	"grad_norm": 0.5165260257002361,
	"learning_rate": 0.00018318399279763797,
	"loss": 1.419,
	"step": 615
	},
	{
	"epoch": 2.7074235807860263,
	"grad_norm": 0.5022734014528262,
	"learning_rate": 0.00018275857437746932,
	"loss": 1.5218,
	"step": 620
	},
	{
	"epoch": 2.7292576419213974,
	"grad_norm": 0.5065667081884927,
	"learning_rate": 0.00018232834872987147,
	"loss": 1.3765,
	"step": 625
	},
	{
	"epoch": 2.7510917030567685,
	"grad_norm": 0.5208990486632071,
	"learning_rate": 0.00018189334084551826,
	"loss": 1.4514,
	"step": 630
	},
	{
	"epoch": 2.7729257641921397,
	"grad_norm": 0.4881264484974513,
	"learning_rate": 0.00018145357599287095,
	"loss": 1.4477,
	"step": 635
	},
	{
	"epoch": 2.7947598253275108,
	"grad_norm": 0.513600593429205,
	"learning_rate": 0.00018100907971671054,
	"loss": 1.4449,
	"step": 640
	},
	{
	"epoch": 2.816593886462882,
	"grad_norm": 0.6046158817500052,
	"learning_rate": 0.00018055987783665404,
	"loss": 1.3161,
	"step": 645
	},
	{
	"epoch": 2.8384279475982535,
	"grad_norm": 0.5208894858087225,
	"learning_rate": 0.00018010599644565457,
	"loss": 1.4693,
	"step": 650
	},
	{
	"epoch": 2.8602620087336246,
	"grad_norm": 0.5746066357275653,
	"learning_rate": 0.0001796474619084856,
	"loss": 1.4347,
	"step": 655
	},
	{
	"epoch": 2.8820960698689957,
	"grad_norm": 0.5569260278390025,
	"learning_rate": 0.00017918430086020975,
	"loss": 1.4628,
	"step": 660
	},
	{
	"epoch": 2.903930131004367,
	"grad_norm": 0.5015533731915597,
	"learning_rate": 0.0001787165402046313,
	"loss": 1.4082,
	"step": 665
	},
	{
	"epoch": 2.925764192139738,
	"grad_norm": 0.4930090755602876,
	"learning_rate": 0.0001782442071127338,
	"loss": 1.4412,
	"step": 670
	},
	{
	"epoch": 2.947598253275109,
	"grad_norm": 0.5351113450288878,
	"learning_rate": 0.0001777673290211014,
	"loss": 1.3765,
	"step": 675
	},
	{
	"epoch": 2.96943231441048,
	"grad_norm": 0.5333783396073188,
	"learning_rate": 0.00017728593363032532,
	"loss": 1.4074,
	"step": 680
	},
	{
	"epoch": 2.9912663755458517,
	"grad_norm": 0.5148622195538735,
	"learning_rate": 0.0001768000489033949,
	"loss": 1.355,
	"step": 685
	},
	{
	"epoch": 3.013100436681223,
	"grad_norm": 0.5136549354887358,
	"learning_rate": 0.00017630970306407311,
	"loss": 1.33,
	"step": 690
	},
	{
	"epoch": 3.034934497816594,
	"grad_norm": 0.587330448131839,
	"learning_rate": 0.00017581492459525712,
	"loss": 1.267,
	"step": 695
	},
	{
	"epoch": 3.056768558951965,
	"grad_norm": 0.5781502863776671,
	"learning_rate": 0.00017531574223732396,
	"loss": 1.3391,
	"step": 700
	},
	{
	"epoch": 3.078602620087336,
	"grad_norm": 0.5801593817600947,
	"learning_rate": 0.0001748121849864609,
	"loss": 1.3398,
	"step": 705
	},
	{
	"epoch": 3.1004366812227073,
	"grad_norm": 0.6358481598657785,
	"learning_rate": 0.00017430428209298126,
	"loss": 1.3191,
	"step": 710
	},
	{
	"epoch": 3.1222707423580784,
	"grad_norm": 0.635414065898168,
	"learning_rate": 0.00017379206305962526,
	"loss": 1.3233,
	"step": 715
	},
	{
	"epoch": 3.14410480349345,
	"grad_norm": 0.6721891418870005,
	"learning_rate": 0.0001732755576398463,
	"loss": 1.2795,
	"step": 720
	},
	{
	"epoch": 3.165938864628821,
	"grad_norm": 0.6262467411308055,
	"learning_rate": 0.00017275479583608261,
	"loss": 1.3117,
	"step": 725
	},
	{
	"epoch": 3.1877729257641922,
	"grad_norm": 0.7147271334112754,
	"learning_rate": 0.00017222980789801477,
	"loss": 1.3604,
	"step": 730
	},
	{
	"epoch": 3.2096069868995634,
	"grad_norm": 0.677887647709634,
	"learning_rate": 0.00017170062432080805,
	"loss": 1.3356,
	"step": 735
	},
	{
	"epoch": 3.2314410480349345,
	"grad_norm": 0.6529188195262589,
	"learning_rate": 0.00017116727584334159,
	"loss": 1.3092,
	"step": 740
	},
	{
	"epoch": 3.2532751091703056,
	"grad_norm": 0.6545432757758792,
	"learning_rate": 0.00017062979344642244,
	"loss": 1.3272,
	"step": 745
	},
	{
	"epoch": 3.2751091703056767,
	"grad_norm": 0.6417623946150004,
	"learning_rate": 0.00017008820835098627,
	"loss": 1.3712,
	"step": 750
	},
	{
	"epoch": 3.2969432314410483,
	"grad_norm": 0.6419119938295037,
	"learning_rate": 0.00016954255201628358,
	"loss": 1.372,
	"step": 755
	},
	{
	"epoch": 3.3187772925764194,
	"grad_norm": 0.6643469655488602,
	"learning_rate": 0.00016899285613805246,
	"loss": 1.3883,
	"step": 760
	},
	{
	"epoch": 3.3406113537117905,
	"grad_norm": 0.6617592247751748,
	"learning_rate": 0.00016843915264667746,
	"loss": 1.3131,
	"step": 765
	},
	{
	"epoch": 3.3624454148471616,
	"grad_norm": 0.6721660291620549,
	"learning_rate": 0.00016788147370533482,
	"loss": 1.3677,
	"step": 770
	},
	{
	"epoch": 3.3842794759825328,
	"grad_norm": 0.6696065641348963,
	"learning_rate": 0.00016731985170812414,
	"loss": 1.3612,
	"step": 775
	},
	{
	"epoch": 3.406113537117904,
	"grad_norm": 0.6442936479861974,
	"learning_rate": 0.00016675431927818678,
	"loss": 1.3288,
	"step": 780
	},
	{
	"epoch": 3.427947598253275,
	"grad_norm": 0.6665292623524364,
	"learning_rate": 0.00016618490926581086,
	"loss": 1.3302,
	"step": 785
	},
	{
	"epoch": 3.449781659388646,
	"grad_norm": 0.6832138001277586,
	"learning_rate": 0.00016561165474652292,
	"loss": 1.296,
	"step": 790
	},
	{
	"epoch": 3.4716157205240172,
	"grad_norm": 0.6676829472258946,
	"learning_rate": 0.0001650345890191669,
	"loss": 1.258,
	"step": 795
	},
	{
	"epoch": 3.493449781659389,
	"grad_norm": 0.6462889175077688,
	"learning_rate": 0.00016445374560396974,
	"loss": 1.3108,
	"step": 800
	},
	{
	"epoch": 3.51528384279476,
	"grad_norm": 0.6538188867916314,
	"learning_rate": 0.00016386915824059427,
	"loss": 1.2225,
	"step": 805
	},
	{
	"epoch": 3.537117903930131,
	"grad_norm": 0.6573367032320154,
	"learning_rate": 0.0001632808608861794,
	"loss": 1.2692,
	"step": 810
	},
	{
	"epoch": 3.558951965065502,
	"grad_norm": 0.6707468426806011,
	"learning_rate": 0.0001626888877133677,
	"loss": 1.2621,
	"step": 815
	},
	{
	"epoch": 3.5807860262008733,
	"grad_norm": 0.6607806582929415,
	"learning_rate": 0.00016209327310832028,
	"loss": 1.3217,
	"step": 820
	},
	{
	"epoch": 3.6026200873362444,
	"grad_norm": 0.6695542325826566,
	"learning_rate": 0.00016149405166871947,
	"loss": 1.2445,
	"step": 825
	},
	{
	"epoch": 3.6244541484716155,
	"grad_norm": 0.6854945885270477,
	"learning_rate": 0.00016089125820175913,
	"loss": 1.2334,
	"step": 830
	},
	{
	"epoch": 3.646288209606987,
	"grad_norm": 0.6998882406491346,
	"learning_rate": 0.00016028492772212277,
	"loss": 1.3228,
	"step": 835
	},
	{
	"epoch": 3.668122270742358,
	"grad_norm": 0.6481594617699246,
	"learning_rate": 0.00015967509544994959,
	"loss": 1.3119,
	"step": 840
	},
	{
	"epoch": 3.6899563318777293,
	"grad_norm": 0.6775238829866298,
	"learning_rate": 0.00015906179680878876,
	"loss": 1.2587,
	"step": 845
	},
	{
	"epoch": 3.7117903930131004,
	"grad_norm": 0.667250254807951,
	"learning_rate": 0.00015844506742354164,
	"loss": 1.335,
	"step": 850
	},
	{
	"epoch": 3.7336244541484715,
	"grad_norm": 0.6850864766225458,
	"learning_rate": 0.00015782494311839248,
	"loss": 1.3585,
	"step": 855
	},
	{
	"epoch": 3.7554585152838427,
	"grad_norm": 0.7100136757699026,
	"learning_rate": 0.00015720145991472746,
	"loss": 1.3494,
	"step": 860
	},
	{
	"epoch": 3.777292576419214,
	"grad_norm": 0.6455753266089419,
	"learning_rate": 0.00015657465402904239,
	"loss": 1.32,
	"step": 865
	},
	{
	"epoch": 3.7991266375545854,
	"grad_norm": 0.6774008615272976,
	"learning_rate": 0.00015594456187083887,
	"loss": 1.3053,
	"step": 870
	},
	{
	"epoch": 3.8209606986899565,
	"grad_norm": 0.6412117270718072,
	"learning_rate": 0.0001553112200405094,
	"loss": 1.3468,
	"step": 875
	},
	{
	"epoch": 3.8427947598253276,
	"grad_norm": 0.6299987093163749,
	"learning_rate": 0.00015467466532721136,
	"loss": 1.2464,
	"step": 880
	},
	{
	"epoch": 3.8646288209606987,
	"grad_norm": 0.6648608762625429,
	"learning_rate": 0.00015403493470673006,
	"loss": 1.4054,
	"step": 885
	},
	{
	"epoch": 3.88646288209607,
	"grad_norm": 0.6973437539106749,
	"learning_rate": 0.00015339206533933087,
	"loss": 1.3005,
	"step": 890
	},
	{
	"epoch": 3.908296943231441,
	"grad_norm": 0.6609891540439728,
	"learning_rate": 0.00015274609456760073,
	"loss": 1.3751,
	"step": 895
	},
	{
	"epoch": 3.930131004366812,
	"grad_norm": 0.6243806427317503,
	"learning_rate": 0.0001520970599142789,
	"loss": 1.309,
	"step": 900
	},
	{
	"epoch": 3.9519650655021836,
	"grad_norm": 0.6701604629698161,
	"learning_rate": 0.00015144499908007757,
	"loss": 1.3302,
	"step": 905
	},
	{
	"epoch": 3.9737991266375547,
	"grad_norm": 0.6417002641455068,
	"learning_rate": 0.00015078994994149167,
	"loss": 1.3244,
	"step": 910
	},
	{
	"epoch": 3.995633187772926,
	"grad_norm": 0.6227627176738441,
	"learning_rate": 0.00015013195054859894,
	"loss": 1.3739,
	"step": 915
	},
	{
	"epoch": 4.0174672489082965,
	"grad_norm": 0.69565512329475,
	"learning_rate": 0.00014947103912284958,
	"loss": 1.1587,
	"step": 920
	},
	{
	"epoch": 4.039301310043668,
	"grad_norm": 0.9168936710349829,
	"learning_rate": 0.0001488072540548461,
	"loss": 1.183,
	"step": 925
	},
	{
	"epoch": 4.06113537117904,
	"grad_norm": 0.768969897857725,
	"learning_rate": 0.00014814063390211334,
	"loss": 1.1114,
	"step": 930
	},
	{
	"epoch": 4.08296943231441,
	"grad_norm": 0.8549092972669946,
	"learning_rate": 0.00014747121738685874,
	"loss": 1.2111,
	"step": 935
	},
	{
	"epoch": 4.104803493449782,
	"grad_norm": 0.8316566189643829,
	"learning_rate": 0.00014679904339372302,
	"loss": 1.1581,
	"step": 940
	},
	{
	"epoch": 4.126637554585153,
	"grad_norm": 0.8226115993114171,
	"learning_rate": 0.00014612415096752155,
	"loss": 1.1881,
	"step": 945
	},
	{
	"epoch": 4.148471615720524,
	"grad_norm": 0.8505226801184157,
	"learning_rate": 0.0001454465793109763,
	"loss": 1.135,
	"step": 950
	},
	{
	"epoch": 4.170305676855895,
	"grad_norm": 0.8021211984624651,
	"learning_rate": 0.00014476636778243878,
	"loss": 1.1768,
	"step": 955
	},
	{
	"epoch": 4.192139737991266,
	"grad_norm": 0.8578093150750806,
	"learning_rate": 0.00014408355589360348,
	"loss": 1.0631,
	"step": 960
	},
	{
	"epoch": 4.213973799126638,
	"grad_norm": 0.8812497659618362,
	"learning_rate": 0.00014339818330721314,
	"loss": 1.1288,
	"step": 965
	},
	{
	"epoch": 4.235807860262009,
	"grad_norm": 0.7816446218878502,
	"learning_rate": 0.0001427102898347546,
	"loss": 1.1777,
	"step": 970
	},
	{
	"epoch": 4.25764192139738,
	"grad_norm": 0.8163412581216741,
	"learning_rate": 0.0001420199154341464,
	"loss": 1.1469,
	"step": 975
	},
	{
	"epoch": 4.279475982532751,
	"grad_norm": 0.8410801009958802,
	"learning_rate": 0.0001413271002074176,
	"loss": 1.1547,
	"step": 980
	},
	{
	"epoch": 4.301310043668122,
	"grad_norm": 0.8957226442397316,
	"learning_rate": 0.00014063188439837832,
	"loss": 1.1054,
	"step": 985
	},
	{
	"epoch": 4.323144104803493,
	"grad_norm": 0.8533966074014762,
	"learning_rate": 0.0001399343083902824,
	"loss": 1.1468,
	"step": 990
	},
	{
	"epoch": 4.344978165938865,
	"grad_norm": 0.7969709395883895,
	"learning_rate": 0.00013923441270348124,
	"loss": 1.1661,
	"step": 995
	},
	{
	"epoch": 4.366812227074236,
	"grad_norm": 0.830675985424985,
	"learning_rate": 0.00013853223799307031,
	"loss": 1.1714,
	"step": 1000
	},
	{
	"epoch": 4.388646288209607,
	"grad_norm": 0.879665119495671,
	"learning_rate": 0.00013782782504652763,
	"loss": 1.2237,
	"step": 1005
	},
	{
	"epoch": 4.4104803493449785,
	"grad_norm": 0.8513132295064585,
	"learning_rate": 0.0001371212147813443,
	"loss": 1.2524,
	"step": 1010
	},
	{
	"epoch": 4.432314410480349,
	"grad_norm": 0.8345543594033096,
	"learning_rate": 0.00013641244824264803,
	"loss": 1.2055,
	"step": 1015
	},
	{
	"epoch": 4.454148471615721,
	"grad_norm": 0.8449282094486232,
	"learning_rate": 0.00013570156660081868,
	"loss": 1.1459,
	"step": 1020
	},
	{
	"epoch": 4.475982532751091,
	"grad_norm": 0.8491089050635324,
	"learning_rate": 0.00013498861114909685,
	"loss": 1.165,
	"step": 1025
	},
	{
	"epoch": 4.497816593886463,
	"grad_norm": 0.8675954453498238,
	"learning_rate": 0.00013427362330118543,
	"loss": 1.1048,
	"step": 1030
	},
	{
	"epoch": 4.5196506550218345,
	"grad_norm": 0.9120386243780424,
	"learning_rate": 0.0001335566445888437,
	"loss": 1.2427,
	"step": 1035
	},
	{
	"epoch": 4.541484716157205,
	"grad_norm": 0.8105081633081175,
	"learning_rate": 0.00013283771665947505,
	"loss": 1.278,
	"step": 1040
	},
	{
	"epoch": 4.563318777292577,
	"grad_norm": 0.8869239311496004,
	"learning_rate": 0.00013211688127370784,
	"loss": 1.1099,
	"step": 1045
	},
	{
	"epoch": 4.585152838427947,
	"grad_norm": 0.8873085989909458,
	"learning_rate": 0.00013139418030296937,
	"loss": 1.1783,
	"step": 1050
	},
	{
	"epoch": 4.606986899563319,
	"grad_norm": 0.80023844006387,
	"learning_rate": 0.00013066965572705401,
	"loss": 1.1504,
	"step": 1055
	},
	{
	"epoch": 4.62882096069869,
	"grad_norm": 0.8438162486126547,
	"learning_rate": 0.00012994334963168443,
	"loss": 1.2292,
	"step": 1060
	},
	{
	"epoch": 4.650655021834061,
	"grad_norm": 0.8687319952846376,
	"learning_rate": 0.00012921530420606714,
	"loss": 1.2132,
	"step": 1065
	},
	{
	"epoch": 4.672489082969433,
	"grad_norm": 0.8481724475183398,
	"learning_rate": 0.00012848556174044183,
	"loss": 1.2114,
	"step": 1070
	},
	{
	"epoch": 4.6943231441048034,
	"grad_norm": 0.8170589588250686,
	"learning_rate": 0.00012775416462362457,
	"loss": 1.2152,
	"step": 1075
	},
	{
	"epoch": 4.716157205240175,
	"grad_norm": 0.8800579649975868,
	"learning_rate": 0.00012702115534054593,
	"loss": 1.1693,
	"step": 1080
	},
	{
	"epoch": 4.737991266375546,
	"grad_norm": 0.8601610801550544,
	"learning_rate": 0.0001262865764697829,
	"loss": 1.1846,
	"step": 1085
	},
	{
	"epoch": 4.759825327510917,
	"grad_norm": 0.8386680065719362,
	"learning_rate": 0.00012555047068108568,
	"loss": 1.249,
	"step": 1090
	},
	{
	"epoch": 4.781659388646288,
	"grad_norm": 0.8517305343726155,
	"learning_rate": 0.00012481288073289912,
	"loss": 1.1364,
	"step": 1095
	},
	{
	"epoch": 4.8034934497816595,
	"grad_norm": 0.8088860139786535,
	"learning_rate": 0.00012407384946987898,
	"loss": 1.1527,
	"step": 1100
	},
	{
	"epoch": 4.825327510917031,
	"grad_norm": 0.8583326581924249,
	"learning_rate": 0.00012333341982040323,
	"loss": 1.1515,
	"step": 1105
	},
	{
	"epoch": 4.847161572052402,
	"grad_norm": 0.9360072468671379,
	"learning_rate": 0.00012259163479407832,
	"loss": 1.0865,
	"step": 1110
	},
	{
	"epoch": 4.868995633187773,
	"grad_norm": 0.8650317997007926,
	"learning_rate": 0.00012184853747924112,
	"loss": 1.131,
	"step": 1115
	},
	{
	"epoch": 4.890829694323144,
	"grad_norm": 0.8102946053666945,
	"learning_rate": 0.00012110417104045575,
	"loss": 1.111,
	"step": 1120
	},
	{
	"epoch": 4.9126637554585155,
	"grad_norm": 0.9358255576727259,
	"learning_rate": 0.00012035857871600649,
	"loss": 1.2429,
	"step": 1125
	},
	{
	"epoch": 4.934497816593886,
	"grad_norm": 0.8877109383416729,
	"learning_rate": 0.00011961180381538599,
	"loss": 1.1798,
	"step": 1130
	},
	{
	"epoch": 4.956331877729258,
	"grad_norm": 0.8523579756065384,
	"learning_rate": 0.0001188638897167797,
	"loss": 1.1524,
	"step": 1135
	},
	{
	"epoch": 4.978165938864628,
	"grad_norm": 0.8309844177132272,
	"learning_rate": 0.00011811487986454612,
	"loss": 1.2469,
	"step": 1140
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.8482507314409842,
	"learning_rate": 0.00011736481776669306,
	"loss": 1.1823,
	"step": 1145
	},
	{
	"epoch": 5.021834061135372,
	"grad_norm": 1.0322243914151594,
	"learning_rate": 0.00011661374699235057,
	"loss": 1.0325,
	"step": 1150
	},
	{
	"epoch": 5.043668122270742,
	"grad_norm": 1.0324089865002601,
	"learning_rate": 0.00011586171116924014,
	"loss": 1.0234,
	"step": 1155
	},
	{
	"epoch": 5.065502183406114,
	"grad_norm": 0.9762094077290032,
	"learning_rate": 0.00011510875398114027,
	"loss": 1.0794,
	"step": 1160
	},
	{
	"epoch": 5.0873362445414845,
	"grad_norm": 1.1952296969892835,
	"learning_rate": 0.00011435491916534919,
	"loss": 1.0145,
	"step": 1165
	},
	{
	"epoch": 5.109170305676856,
	"grad_norm": 1.0895050768888697,
	"learning_rate": 0.0001136002505101442,
	"loss": 1.0151,
	"step": 1170
	},
	{
	"epoch": 5.131004366812227,
	"grad_norm": 1.0235853080588493,
	"learning_rate": 0.00011284479185223812,
	"loss": 1.0388,
	"step": 1175
	},
	{
	"epoch": 5.152838427947598,
	"grad_norm": 1.0490311233025102,
	"learning_rate": 0.00011208858707423299,
	"loss": 1.0072,
	"step": 1180
	},
	{
	"epoch": 5.17467248908297,
	"grad_norm": 1.1856197953264118,
	"learning_rate": 0.00011133168010207091,
	"loss": 1.0504,
	"step": 1185
	},
	{
	"epoch": 5.1965065502183405,
	"grad_norm": 1.0065811557379292,
	"learning_rate": 0.00011057411490248266,
	"loss": 0.9977,
	"step": 1190
	},
	{
	"epoch": 5.218340611353712,
	"grad_norm": 1.1043632872539175,
	"learning_rate": 0.00010981593548043374,
	"loss": 0.9932,
	"step": 1195
	},
	{
	"epoch": 5.240174672489083,
	"grad_norm": 1.0753914347833422,
	"learning_rate": 0.00010905718587656811,
	"loss": 1.092,
	"step": 1200
	},
	{
	"epoch": 5.262008733624454,
	"grad_norm": 1.0266820326577377,
	"learning_rate": 0.0001082979101646502,
	"loss": 1.0655,
	"step": 1205
	},
	{
	"epoch": 5.283842794759825,
	"grad_norm": 0.9941194317158725,
	"learning_rate": 0.00010753815244900458,
	"loss": 0.9828,
	"step": 1210
	},
	{
	"epoch": 5.3056768558951966,
	"grad_norm": 1.084324048580049,
	"learning_rate": 0.00010677795686195422,
	"loss": 1.0229,
	"step": 1215
	},
	{
	"epoch": 5.327510917030567,
	"grad_norm": 1.051439528201926,
	"learning_rate": 0.00010601736756125685,
	"loss": 1.0168,
	"step": 1220
	},
	{
	"epoch": 5.349344978165939,
	"grad_norm": 1.1580814102197374,
	"learning_rate": 0.00010525642872753996,
	"loss": 0.935,
	"step": 1225
	},
	{
	"epoch": 5.37117903930131,
	"grad_norm": 1.0710336894680983,
	"learning_rate": 0.00010449518456173456,
	"loss": 1.067,
	"step": 1230
	},
	{
	"epoch": 5.393013100436681,
	"grad_norm": 1.0463850478020345,
	"learning_rate": 0.00010373367928250749,
	"loss": 1.0489,
	"step": 1235
	},
	{
	"epoch": 5.414847161572053,
	"grad_norm": 1.1057562523337745,
	"learning_rate": 0.00010297195712369311,
	"loss": 0.954,
	"step": 1240
	},
	{
	"epoch": 5.436681222707423,
	"grad_norm": 1.0647508212261871,
	"learning_rate": 0.0001022100623317237,
	"loss": 0.9094,
	"step": 1245
	},
	{
	"epoch": 5.458515283842795,
	"grad_norm": 1.0854376270937827,
	"learning_rate": 0.00010144803916305925,
	"loss": 0.9996,
	"step": 1250
	},
	{
	"epoch": 5.4803493449781655,
	"grad_norm": 1.0768231071114585,
	"learning_rate": 0.00010068593188161697,
	"loss": 1.0098,
	"step": 1255
	},
	{
	"epoch": 5.502183406113537,
	"grad_norm": 1.0629470347878223,
	"learning_rate": 9.992378475619981e-05,
	"loss": 1.0252,
	"step": 1260
	},
	{
	"epoch": 5.524017467248909,
	"grad_norm": 1.051250411684801,
	"learning_rate": 9.916164205792527e-05,
	"loss": 0.9879,
	"step": 1265
	},
	{
	"epoch": 5.545851528384279,
	"grad_norm": 1.0100574406024927,
	"learning_rate": 9.839954805765364e-05,
	"loss": 1.0638,
	"step": 1270
	},
	{
	"epoch": 5.567685589519651,
	"grad_norm": 1.0416962539798005,
	"learning_rate": 9.763754702341646e-05,
	"loss": 0.9556,
	"step": 1275
	},
	{
	"epoch": 5.5895196506550215,
	"grad_norm": 1.041656249717949,
	"learning_rate": 9.687568321784509e-05,
	"loss": 1.0295,
	"step": 1280
	},
	{
	"epoch": 5.611353711790393,
	"grad_norm": 1.057095267929098,
	"learning_rate": 9.611400089559975e-05,
	"loss": 1.0233,
	"step": 1285
	},
	{
	"epoch": 5.633187772925764,
	"grad_norm": 1.0153521926215252,
	"learning_rate": 9.535254430079864e-05,
	"loss": 0.9867,
	"step": 1290
	},
	{
	"epoch": 5.655021834061135,
	"grad_norm": 1.1345238181227135,
	"learning_rate": 9.459135766444815e-05,
	"loss": 1.0027,
	"step": 1295
	},
	{
	"epoch": 5.676855895196507,
	"grad_norm": 1.1187108189925221,
	"learning_rate": 9.383048520187344e-05,
	"loss": 0.9987,
	"step": 1300
	},
	{
	"epoch": 5.698689956331878,
	"grad_norm": 1.0636989170846824,
	"learning_rate": 9.306997111015014e-05,
	"loss": 1.0486,
	"step": 1305
	},
	{
	"epoch": 5.720524017467249,
	"grad_norm": 1.0706396029944643,
	"learning_rate": 9.23098595655371e-05,
	"loss": 0.9931,
	"step": 1310
	},
	{
	"epoch": 5.74235807860262,
	"grad_norm": 1.0475360658888055,
	"learning_rate": 9.155019472091022e-05,
	"loss": 0.9749,
	"step": 1315
	},
	{
	"epoch": 5.764192139737991,
	"grad_norm": 1.0214139834738702,
	"learning_rate": 9.079102070319786e-05,
	"loss": 1.0693,
	"step": 1320
	},
	{
	"epoch": 5.786026200873362,
	"grad_norm": 1.0530973134949948,
	"learning_rate": 9.003238161081743e-05,
	"loss": 1.0228,
	"step": 1325
	},
	{
	"epoch": 5.807860262008734,
	"grad_norm": 1.103677474707846,
	"learning_rate": 8.9274321511114e-05,
	"loss": 0.9761,
	"step": 1330
	},
	{
	"epoch": 5.829694323144105,
	"grad_norm": 1.0644633976825475,
	"learning_rate": 8.851688443780043e-05,
	"loss": 1.0239,
	"step": 1335
	},
	{
	"epoch": 5.851528384279476,
	"grad_norm": 1.0555551246349646,
	"learning_rate": 8.776011438839977e-05,
	"loss": 1.0473,
	"step": 1340
	},
	{
	"epoch": 5.873362445414847,
	"grad_norm": 1.122056836899885,
	"learning_rate": 8.70040553216892e-05,
	"loss": 0.9723,
	"step": 1345
	},
	{
	"epoch": 5.895196506550218,
	"grad_norm": 0.9963873601564418,
	"learning_rate": 8.624875115514697e-05,
	"loss": 1.0268,
	"step": 1350
	},
	{
	"epoch": 5.91703056768559,
	"grad_norm": 1.0336940380478288,
	"learning_rate": 8.549424576240102e-05,
	"loss": 0.9574,
	"step": 1355
	},
	{
	"epoch": 5.93886462882096,
	"grad_norm": 1.0760501661341102,
	"learning_rate": 8.474058297068071e-05,
	"loss": 1.0979,
	"step": 1360
	},
	{
	"epoch": 5.960698689956332,
	"grad_norm": 1.0890942343064978,
	"learning_rate": 8.398780655827096e-05,
	"loss": 0.9427,
	"step": 1365
	},
	{
	"epoch": 5.9825327510917035,
	"grad_norm": 1.1415589599070428,
	"learning_rate": 8.323596025196911e-05,
	"loss": 1.0041,
	"step": 1370
	},
	{
	"epoch": 6.004366812227074,
	"grad_norm": 1.1509480354124522,
	"learning_rate": 8.248508772454529e-05,
	"loss": 0.9545,
	"step": 1375
	},
	{
	"epoch": 6.026200873362446,
	"grad_norm": 1.4252192004046074,
	"learning_rate": 8.173523259220521e-05,
	"loss": 0.8584,
	"step": 1380
	},
	{
	"epoch": 6.048034934497816,
	"grad_norm": 1.37449264500959,
	"learning_rate": 8.098643841205685e-05,
	"loss": 0.8417,
	"step": 1385
	},
	{
	"epoch": 6.069868995633188,
	"grad_norm": 1.1455224268481572,
	"learning_rate": 8.023874867958027e-05,
	"loss": 0.8365,
	"step": 1390
	},
	{
	"epoch": 6.091703056768559,
	"grad_norm": 1.4517829308762,
	"learning_rate": 7.949220682610109e-05,
	"loss": 0.8772,
	"step": 1395
	},
	{
	"epoch": 6.11353711790393,
	"grad_norm": 1.2198167511326543,
	"learning_rate": 7.874685621626767e-05,
	"loss": 0.7638,
	"step": 1400
	},
	{
	"epoch": 6.135371179039302,
	"grad_norm": 1.2285129578196883,
	"learning_rate": 7.80027401455321e-05,
	"loss": 0.8632,
	"step": 1405
	},
	{
	"epoch": 6.157205240174672,
	"grad_norm": 1.3128304307256697,
	"learning_rate": 7.725990183763541e-05,
	"loss": 0.7864,
	"step": 1410
	},
	{
	"epoch": 6.179039301310044,
	"grad_norm": 1.2223078968334138,
	"learning_rate": 7.651838444209678e-05,
	"loss": 0.8107,
	"step": 1415
	},
	{
	"epoch": 6.200873362445415,
	"grad_norm": 1.2116494464520935,
	"learning_rate": 7.577823103170695e-05,
	"loss": 0.7665,
	"step": 1420
	},
	{
	"epoch": 6.222707423580786,
	"grad_norm": 1.2710441404657735,
	"learning_rate": 7.503948460002651e-05,
	"loss": 0.8755,
	"step": 1425
	},
	{
	"epoch": 6.244541484716157,
	"grad_norm": 1.3090624013120402,
	"learning_rate": 7.430218805888831e-05,
	"loss": 0.8635,
	"step": 1430
	},
	{
	"epoch": 6.2663755458515285,
	"grad_norm": 1.3421074934086965,
	"learning_rate": 7.356638423590485e-05,
	"loss": 0.8408,
	"step": 1435
	},
	{
	"epoch": 6.2882096069869,
	"grad_norm": 1.2190845509165837,
	"learning_rate": 7.283211587198056e-05,
	"loss": 0.901,
	"step": 1440
	},
	{
	"epoch": 6.310043668122271,
	"grad_norm": 1.2848215636192764,
	"learning_rate": 7.209942561882914e-05,
	"loss": 0.8183,
	"step": 1445
	},
	{
	"epoch": 6.331877729257642,
	"grad_norm": 1.2782891875098124,
	"learning_rate": 7.136835603649599e-05,
	"loss": 0.8144,
	"step": 1450
	},
	{
	"epoch": 6.353711790393013,
	"grad_norm": 1.3643650683015465,
	"learning_rate": 7.0638949590886e-05,
	"loss": 0.815,
	"step": 1455
	},
	{
	"epoch": 6.3755458515283845,
	"grad_norm": 1.3747527932453862,
	"learning_rate": 6.991124865129683e-05,
	"loss": 0.8058,
	"step": 1460
	},
	{
	"epoch": 6.397379912663755,
	"grad_norm": 1.324272429862148,
	"learning_rate": 6.918529548795781e-05,
	"loss": 0.8359,
	"step": 1465
	},
	{
	"epoch": 6.419213973799127,
	"grad_norm": 1.329733488330745,
	"learning_rate": 6.846113226957456e-05,
	"loss": 0.8081,
	"step": 1470
	},
	{
	"epoch": 6.441048034934497,
	"grad_norm": 1.3973165024504683,
	"learning_rate": 6.773880106087945e-05,
	"loss": 0.9255,
	"step": 1475
	},
	{
	"epoch": 6.462882096069869,
	"grad_norm": 1.2579802684349493,
	"learning_rate": 6.701834382018832e-05,
	"loss": 0.8932,
	"step": 1480
	},
	{
	"epoch": 6.4847161572052405,
	"grad_norm": 1.3102021281865468,
	"learning_rate": 6.629980239696315e-05,
	"loss": 0.8651,
	"step": 1485
	},
	{
	"epoch": 6.506550218340611,
	"grad_norm": 1.3096833467828455,
	"learning_rate": 6.558321852938099e-05,
	"loss": 0.8145,
	"step": 1490
	},
	{
	"epoch": 6.528384279475983,
	"grad_norm": 1.3466234774293075,
	"learning_rate": 6.486863384190987e-05,
	"loss": 0.8885,
	"step": 1495
	},
	{
	"epoch": 6.550218340611353,
	"grad_norm": 1.296177045867574,
	"learning_rate": 6.415608984289052e-05,
	"loss": 0.8546,
	"step": 1500
	},
	{
	"epoch": 6.572052401746725,
	"grad_norm": 1.2633240958805778,
	"learning_rate": 6.344562792212554e-05,
	"loss": 0.8685,
	"step": 1505
	},
	{
	"epoch": 6.593886462882097,
	"grad_norm": 1.3534959976317207,
	"learning_rate": 6.273728934847516e-05,
	"loss": 0.7986,
	"step": 1510
	},
	{
	"epoch": 6.615720524017467,
	"grad_norm": 1.252619828877404,
	"learning_rate": 6.203111526745985e-05,
	"loss": 0.8332,
	"step": 1515
	},
	{
	"epoch": 6.637554585152839,
	"grad_norm": 1.3249258619095206,
	"learning_rate": 6.132714669887044e-05,
	"loss": 0.8308,
	"step": 1520
	},
	{
	"epoch": 6.6593886462882095,
	"grad_norm": 1.2054299066608396,
	"learning_rate": 6.0625424534385425e-05,
	"loss": 0.8697,
	"step": 1525
	},
	{
	"epoch": 6.681222707423581,
	"grad_norm": 1.1955192517041973,
	"learning_rate": 5.99259895351955e-05,
	"loss": 0.8591,
	"step": 1530
	},
	{
	"epoch": 6.703056768558952,
	"grad_norm": 1.2570222378899258,
	"learning_rate": 5.9228882329636094e-05,
	"loss": 0.7953,
	"step": 1535
	},
	{
	"epoch": 6.724890829694323,
	"grad_norm": 1.3956159571082007,
	"learning_rate": 5.8534143410827104e-05,
	"loss": 0.8367,
	"step": 1540
	},
	{
	"epoch": 6.746724890829694,
	"grad_norm": 1.3649251909287845,
	"learning_rate": 5.7841813134320975e-05,
	"loss": 0.8553,
	"step": 1545
	},
	{
	"epoch": 6.7685589519650655,
	"grad_norm": 1.3726673140188062,
	"learning_rate": 5.715193171575842e-05,
	"loss": 0.8649,
	"step": 1550
	},
	{
	"epoch": 6.790393013100436,
	"grad_norm": 1.2184325480564675,
	"learning_rate": 5.64645392285325e-05,
	"loss": 0.8222,
	"step": 1555
	},
	{
	"epoch": 6.812227074235808,
	"grad_norm": 1.3383861408747,
	"learning_rate": 5.577967560146077e-05,
	"loss": 0.851,
	"step": 1560
	},
	{
	"epoch": 6.834061135371179,
	"grad_norm": 1.3171908370457348,
	"learning_rate": 5.5097380616466057e-05,
	"loss": 0.8662,
	"step": 1565
	},
	{
	"epoch": 6.85589519650655,
	"grad_norm": 1.3054511507141975,
	"learning_rate": 5.4417693906265365e-05,
	"loss": 0.8979,
	"step": 1570
	},
	{
	"epoch": 6.877729257641922,
	"grad_norm": 1.2387745464762083,
	"learning_rate": 5.374065495206805e-05,
	"loss": 0.8119,
	"step": 1575
	},
	{
	"epoch": 6.899563318777292,
	"grad_norm": 1.3948067425415336,
	"learning_rate": 5.306630308128229e-05,
	"loss": 0.8409,
	"step": 1580
	},
	{
	"epoch": 6.921397379912664,
	"grad_norm": 1.3502073303444249,
	"learning_rate": 5.239467746523048e-05,
	"loss": 0.8391,
	"step": 1585
	},
	{
	"epoch": 6.9432314410480345,
	"grad_norm": 1.3334535387387385,
	"learning_rate": 5.172581711687438e-05,
	"loss": 0.8577,
	"step": 1590
	},
	{
	"epoch": 6.965065502183406,
	"grad_norm": 1.3381286547460995,
	"learning_rate": 5.105976088854842e-05,
	"loss": 0.8925,
	"step": 1595
	},
	{
	"epoch": 6.986899563318778,
	"grad_norm": 1.2107404270853181,
	"learning_rate": 5.0396547469703106e-05,
	"loss": 0.8894,
	"step": 1600
	},
	{
	"epoch": 7.008733624454148,
	"grad_norm": 1.2856577830397042,
	"learning_rate": 4.973621538465768e-05,
	"loss": 0.8269,
	"step": 1605
	},
	{
	"epoch": 7.03056768558952,
	"grad_norm": 1.5720811121732976,
	"learning_rate": 4.907880299036234e-05,
	"loss": 0.6532,
	"step": 1610
	},
	{
	"epoch": 7.0524017467248905,
	"grad_norm": 1.513790910492325,
	"learning_rate": 4.8424348474170014e-05,
	"loss": 0.6398,
	"step": 1615
	},
	{
	"epoch": 7.074235807860262,
	"grad_norm": 1.3731923874867311,
	"learning_rate": 4.7772889851618405e-05,
	"loss": 0.7323,
	"step": 1620
	},
	{
	"epoch": 7.096069868995633,
	"grad_norm": 1.3538833010462115,
	"learning_rate": 4.712446496422165e-05,
	"loss": 0.6906,
	"step": 1625
	},
	{
	"epoch": 7.117903930131004,
	"grad_norm": 1.4454754507310241,
	"learning_rate": 4.647911147727209e-05,
	"loss": 0.7328,
	"step": 1630
	},
	{
	"epoch": 7.139737991266376,
	"grad_norm": 1.449171514767732,
	"learning_rate": 4.583686687765264e-05,
	"loss": 0.6782,
	"step": 1635
	},
	{
	"epoch": 7.1615720524017465,
	"grad_norm": 1.6050731544814476,
	"learning_rate": 4.5197768471659104e-05,
	"loss": 0.7385,
	"step": 1640
	},
	{
	"epoch": 7.183406113537118,
	"grad_norm": 1.3388820740639182,
	"learning_rate": 4.4561853382833206e-05,
	"loss": 0.6937,
	"step": 1645
	},
	{
	"epoch": 7.205240174672489,
	"grad_norm": 1.3724590934014314,
	"learning_rate": 4.3929158549806096e-05,
	"loss": 0.6899,
	"step": 1650
	},
	{
	"epoch": 7.22707423580786,
	"grad_norm": 1.5165378554181088,
	"learning_rate": 4.32997207241528e-05,
	"loss": 0.7044,
	"step": 1655
	},
	{
	"epoch": 7.248908296943231,
	"grad_norm": 1.6117091341741596,
	"learning_rate": 4.267357646825746e-05,
	"loss": 0.7093,
	"step": 1660
	},
	{
	"epoch": 7.270742358078603,
	"grad_norm": 1.4490430208656846,
	"learning_rate": 4.205076215318925e-05,
	"loss": 0.6967,
	"step": 1665
	},
	{
	"epoch": 7.292576419213974,
	"grad_norm": 1.469380632694007,
	"learning_rate": 4.143131395658996e-05,
	"loss": 0.7164,
	"step": 1670
	},
	{
	"epoch": 7.314410480349345,
	"grad_norm": 1.519813749480573,
	"learning_rate": 4.081526786057254e-05,
	"loss": 0.6724,
	"step": 1675
	},
	{
	"epoch": 7.336244541484716,
	"grad_norm": 1.4588612796193572,
	"learning_rate": 4.020265964963066e-05,
	"loss": 0.731,
	"step": 1680
	},
	{
	"epoch": 7.358078602620087,
	"grad_norm": 1.429975103899558,
	"learning_rate": 3.9593524908560464e-05,
	"loss": 0.7327,
	"step": 1685
	},
	{
	"epoch": 7.379912663755459,
	"grad_norm": 1.6113371519439155,
	"learning_rate": 3.898789902039338e-05,
	"loss": 0.709,
	"step": 1690
	},
	{
	"epoch": 7.401746724890829,
	"grad_norm": 1.5463250020435173,
	"learning_rate": 3.8385817164340723e-05,
	"loss": 0.7246,
	"step": 1695
	},
	{
	"epoch": 7.423580786026201,
	"grad_norm": 1.463616658449462,
	"learning_rate": 3.778731431375041e-05,
	"loss": 0.7013,
	"step": 1700
	},
	{
	"epoch": 7.445414847161572,
	"grad_norm": 1.5566283347360372,
	"learning_rate": 3.719242523407539e-05,
	"loss": 0.7344,
	"step": 1705
	},
	{
	"epoch": 7.467248908296943,
	"grad_norm": 1.4398876621434327,
	"learning_rate": 3.6601184480854066e-05,
	"loss": 0.7323,
	"step": 1710
	},
	{
	"epoch": 7.489082969432315,
	"grad_norm": 1.5252195085267406,
	"learning_rate": 3.601362639770328e-05,
	"loss": 0.7091,
	"step": 1715
	},
	{
	"epoch": 7.510917030567685,
	"grad_norm": 1.6881923973765582,
	"learning_rate": 3.542978511432325e-05,
	"loss": 0.7585,
	"step": 1720
	},
	{
	"epoch": 7.532751091703057,
	"grad_norm": 1.450411669170985,
	"learning_rate": 3.484969454451511e-05,
	"loss": 0.7258,
	"step": 1725
	},
	{
	"epoch": 7.554585152838428,
	"grad_norm": 1.523075629927926,
	"learning_rate": 3.4273388384210855e-05,
	"loss": 0.6716,
	"step": 1730
	},
	{
	"epoch": 7.576419213973799,
	"grad_norm": 1.4565661875305633,
	"learning_rate": 3.3700900109516184e-05,
	"loss": 0.6586,
	"step": 1735
	},
	{
	"epoch": 7.598253275109171,
	"grad_norm": 1.6164061159781367,
	"learning_rate": 3.3132262974765906e-05,
	"loss": 0.7123,
	"step": 1740
	},
	{
	"epoch": 7.620087336244541,
	"grad_norm": 1.5157276652461606,
	"learning_rate": 3.256751001059214e-05,
	"loss": 0.723,
	"step": 1745
	},
	{
	"epoch": 7.641921397379913,
	"grad_norm": 1.5600828466807661,
	"learning_rate": 3.200667402200586e-05,
	"loss": 0.7477,
	"step": 1750
	},
	{
	"epoch": 7.663755458515284,
	"grad_norm": 1.5728766811598356,
	"learning_rate": 3.144978758649133e-05,
	"loss": 0.7001,
	"step": 1755
	},
	{
	"epoch": 7.685589519650655,
	"grad_norm": 1.458458820326098,
	"learning_rate": 3.0896883052113525e-05,
	"loss": 0.7066,
	"step": 1760
	},
	{
	"epoch": 7.707423580786026,
	"grad_norm": 1.5980960571332508,
	"learning_rate": 3.034799253563939e-05,
	"loss": 0.6878,
	"step": 1765
	},
	{
	"epoch": 7.729257641921397,
	"grad_norm": 1.544990160417705,
	"learning_rate": 2.9803147920672146e-05,
	"loss": 0.6894,
	"step": 1770
	},
	{
	"epoch": 7.751091703056769,
	"grad_norm": 1.6353637199811462,
	"learning_rate": 2.9262380855799164e-05,
	"loss": 0.7297,
	"step": 1775
	},
	{
	"epoch": 7.77292576419214,
	"grad_norm": 1.5830327061313785,
	"learning_rate": 2.872572275275379e-05,
	"loss": 0.6983,
	"step": 1780
	},
	{
	"epoch": 7.794759825327511,
	"grad_norm": 1.4630236788620592,
	"learning_rate": 2.8193204784590597e-05,
	"loss": 0.7176,
	"step": 1785
	},
	{
	"epoch": 7.816593886462882,
	"grad_norm": 1.3928429612080049,
	"learning_rate": 2.766485788387455e-05,
	"loss": 0.7269,
	"step": 1790
	},
	{
	"epoch": 7.8384279475982535,
	"grad_norm": 1.5318894677152983,
	"learning_rate": 2.7140712740884376e-05,
	"loss": 0.7094,
	"step": 1795
	},
	{
	"epoch": 7.860262008733624,
	"grad_norm": 1.5006081477924398,
	"learning_rate": 2.6620799801829765e-05,
	"loss": 0.7356,
	"step": 1800
	},
	{
	"epoch": 7.882096069868996,
	"grad_norm": 1.4913103972222401,
	"learning_rate": 2.610514926708285e-05,
	"loss": 0.7563,
	"step": 1805
	},
	{
	"epoch": 7.903930131004367,
	"grad_norm": 1.5640971425352013,
	"learning_rate": 2.5593791089423858e-05,
	"loss": 0.6974,
	"step": 1810
	},
	{
	"epoch": 7.925764192139738,
	"grad_norm": 1.5288946416263425,
	"learning_rate": 2.5086754972301384e-05,
	"loss": 0.7597,
	"step": 1815
	},
	{
	"epoch": 7.9475982532751095,
	"grad_norm": 1.4850580236939783,
	"learning_rate": 2.4584070368106928e-05,
	"loss": 0.731,
	"step": 1820
	},
	{
	"epoch": 7.96943231441048,
	"grad_norm": 1.5394321618591782,
	"learning_rate": 2.4085766476463967e-05,
	"loss": 0.712,
	"step": 1825
	},
	{
	"epoch": 7.991266375545852,
	"grad_norm": 1.6849009773020913,
	"learning_rate": 2.3591872242532066e-05,
	"loss": 0.7327,
	"step": 1830
	},
	{
	"epoch": 8.013100436681222,
	"grad_norm": 1.4739518847631212,
	"learning_rate": 2.310241635532531e-05,
	"loss": 0.6777,
	"step": 1835
	},
	{
	"epoch": 8.034934497816593,
	"grad_norm": 1.4710344726002955,
	"learning_rate": 2.2617427246045973e-05,
	"loss": 0.5886,
	"step": 1840
	},
	{
	"epoch": 8.056768558951966,
	"grad_norm": 1.8620287227429924,
	"learning_rate": 2.2136933086432955e-05,
	"loss": 0.6258,
	"step": 1845
	},
	{
	"epoch": 8.078602620087336,
	"grad_norm": 1.4930799825826104,
	"learning_rate": 2.1660961787125388e-05,
	"loss": 0.6041,
	"step": 1850
	},
	{
	"epoch": 8.100436681222707,
	"grad_norm": 1.469008850941141,
	"learning_rate": 2.1189540996041313e-05,
	"loss": 0.647,
	"step": 1855
	},
	{
	"epoch": 8.12227074235808,
	"grad_norm": 1.6154095310822976,
	"learning_rate": 2.0722698096771832e-05,
	"loss": 0.5866,
	"step": 1860
	},
	{
	"epoch": 8.14410480349345,
	"grad_norm": 1.7217187185906804,
	"learning_rate": 2.026046020699035e-05,
	"loss": 0.6718,
	"step": 1865
	},
	{
	"epoch": 8.16593886462882,
	"grad_norm": 1.5816769270478201,
	"learning_rate": 1.980285417687735e-05,
	"loss": 0.6303,
	"step": 1870
	},
	{
	"epoch": 8.187772925764191,
	"grad_norm": 1.5330680888020691,
	"learning_rate": 1.9349906587560862e-05,
	"loss": 0.6166,
	"step": 1875
	},
	{
	"epoch": 8.209606986899564,
	"grad_norm": 1.4811035124378678,
	"learning_rate": 1.8901643749572374e-05,
	"loss": 0.6245,
	"step": 1880
	},
	{
	"epoch": 8.231441048034934,
	"grad_norm": 1.6432943675024339,
	"learning_rate": 1.8458091701318504e-05,
	"loss": 0.6261,
	"step": 1885
	},
	{
	"epoch": 8.253275109170305,
	"grad_norm": 1.6763677385421005,
	"learning_rate": 1.801927620756847e-05,
	"loss": 0.6468,
	"step": 1890
	},
	{
	"epoch": 8.275109170305678,
	"grad_norm": 1.5425807262553166,
	"learning_rate": 1.7585222757957576e-05,
	"loss": 0.6059,
	"step": 1895
	},
	{
	"epoch": 8.296943231441048,
	"grad_norm": 1.7341819757802275,
	"learning_rate": 1.7155956565506547e-05,
	"loss": 0.6728,
	"step": 1900
	},
	{
	"epoch": 8.318777292576419,
	"grad_norm": 1.4483276727621572,
	"learning_rate": 1.6731502565156875e-05,
	"loss": 0.6033,
	"step": 1905
	},
	{
	"epoch": 8.34061135371179,
	"grad_norm": 1.5596252995782947,
	"learning_rate": 1.6311885412322602e-05,
	"loss": 0.63,
	"step": 1910
	},
	{
	"epoch": 8.362445414847162,
	"grad_norm": 1.747814876036389,
	"learning_rate": 1.5897129481457996e-05,
	"loss": 0.5621,
	"step": 1915
	},
	{
	"epoch": 8.384279475982533,
	"grad_norm": 1.5550499771354138,
	"learning_rate": 1.5487258864641717e-05,
	"loss": 0.6306,
	"step": 1920
	},
	{
	"epoch": 8.406113537117903,
	"grad_norm": 1.5708977251660243,
	"learning_rate": 1.50822973701775e-05,
	"loss": 0.6281,
	"step": 1925
	},
	{
	"epoch": 8.427947598253276,
	"grad_norm": 1.5052322890768695,
	"learning_rate": 1.4682268521211073e-05,
	"loss": 0.5805,
	"step": 1930
	},
	{
	"epoch": 8.449781659388647,
	"grad_norm": 1.5682376306714874,
	"learning_rate": 1.4287195554363718e-05,
	"loss": 0.6103,
	"step": 1935
	},
	{
	"epoch": 8.471615720524017,
	"grad_norm": 1.5926672273219815,
	"learning_rate": 1.3897101418382663e-05,
	"loss": 0.6086,
	"step": 1940
	},
	{
	"epoch": 8.493449781659388,
	"grad_norm": 1.6920842457267133,
	"learning_rate": 1.3512008772807993e-05,
	"loss": 0.6075,
	"step": 1945
	},
	{
	"epoch": 8.51528384279476,
	"grad_norm": 1.7066301478594386,
	"learning_rate": 1.3131939986656305e-05,
	"loss": 0.6037,
	"step": 1950
	},
	{
	"epoch": 8.537117903930131,
	"grad_norm": 1.6263309583877439,
	"learning_rate": 1.2756917137121527e-05,
	"loss": 0.6137,
	"step": 1955
	},
	{
	"epoch": 8.558951965065502,
	"grad_norm": 1.63476708848148,
	"learning_rate": 1.2386962008292413e-05,
	"loss": 0.5858,
	"step": 1960
	},
	{
	"epoch": 8.580786026200874,
	"grad_norm": 1.558434256481925,
	"learning_rate": 1.2022096089887191e-05,
	"loss": 0.6426,
	"step": 1965
	},
	{
	"epoch": 8.602620087336245,
	"grad_norm": 1.551619834712178,
	"learning_rate": 1.1662340576005216e-05,
	"loss": 0.6084,
	"step": 1970
	},
	{
	"epoch": 8.624454148471616,
	"grad_norm": 1.555097964766268,
	"learning_rate": 1.130771636389596e-05,
	"loss": 0.6687,
	"step": 1975
	},
	{
	"epoch": 8.646288209606986,
	"grad_norm": 1.6643047208497839,
	"learning_rate": 1.0958244052745126e-05,
	"loss": 0.6155,
	"step": 1980
	},
	{
	"epoch": 8.668122270742359,
	"grad_norm": 1.611005114630636,
	"learning_rate": 1.0613943942478e-05,
	"loss": 0.6089,
	"step": 1985
	},
	{
	"epoch": 8.68995633187773,
	"grad_norm": 1.5244955674562928,
	"learning_rate": 1.0274836032580415e-05,
	"loss": 0.6487,
	"step": 1990
	},
	{
	"epoch": 8.7117903930131,
	"grad_norm": 1.6030907080208872,
	"learning_rate": 9.940940020936951e-06,
	"loss": 0.6293,
	"step": 1995
	},
	{
	"epoch": 8.733624454148472,
	"grad_norm": 1.5700446980317904,
	"learning_rate": 9.612275302686713e-06,
	"loss": 0.6326,
	"step": 2000
	},
	{
	"epoch": 8.755458515283843,
	"grad_norm": 1.5394752226532917,
	"learning_rate": 9.288860969096857e-06,
	"loss": 0.6107,
	"step": 2005
	},
	{
	"epoch": 8.777292576419214,
	"grad_norm": 1.667355715027956,
	"learning_rate": 8.970715806453489e-06,
	"loss": 0.636,
	"step": 2010
	},
	{
	"epoch": 8.799126637554584,
	"grad_norm": 1.7421757272877927,
	"learning_rate": 8.657858294970412e-06,
	"loss": 0.6358,
	"step": 2015
	},
	{
	"epoch": 8.820960698689957,
	"grad_norm": 1.48526713960321,
	"learning_rate": 8.350306607715774e-06,
	"loss": 0.6456,
	"step": 2020
	},
	{
	"epoch": 8.842794759825328,
	"grad_norm": 1.7150442937256956,
	"learning_rate": 8.048078609556386e-06,
	"loss": 0.6443,
	"step": 2025
	},
	{
	"epoch": 8.864628820960698,
	"grad_norm": 1.6511037454437418,
	"learning_rate": 7.751191856119932e-06,
	"loss": 0.671,
	"step": 2030
	},
	{
	"epoch": 8.886462882096069,
	"grad_norm": 1.6987081532253472,
	"learning_rate": 7.459663592775334e-06,
	"loss": 0.6577,
	"step": 2035
	},
	{
	"epoch": 8.908296943231441,
	"grad_norm": 1.534952723839,
	"learning_rate": 7.173510753630919e-06,
	"loss": 0.6233,
	"step": 2040
	},
	{
	"epoch": 8.930131004366812,
	"grad_norm": 1.641736331583932,
	"learning_rate": 6.892749960550815e-06,
	"loss": 0.6289,
	"step": 2045
	},
	{
	"epoch": 8.951965065502183,
	"grad_norm": 1.5438647483260877,
	"learning_rate": 6.6173975221893615e-06,
	"loss": 0.5888,
	"step": 2050
	},
	{
	"epoch": 8.973799126637555,
	"grad_norm": 1.5243321966646095,
	"learning_rate": 6.347469433043851e-06,
	"loss": 0.6707,
	"step": 2055
	},
	{
	"epoch": 8.995633187772926,
	"grad_norm": 1.6062799594767991,
	"learning_rate": 6.082981372525487e-06,
	"loss": 0.5971,
	"step": 2060
	},
	{
	"epoch": 9.017467248908297,
	"grad_norm": 1.462091614630793,
	"learning_rate": 5.823948704048443e-06,
	"loss": 0.5631,
	"step": 2065
	},
	{
	"epoch": 9.039301310043669,
	"grad_norm": 1.4923902769131498,
	"learning_rate": 5.570386474137623e-06,
	"loss": 0.5617,
	"step": 2070
	},
	{
	"epoch": 9.06113537117904,
	"grad_norm": 1.6248158642620525,
	"learning_rate": 5.322309411554582e-06,
	"loss": 0.6111,
	"step": 2075
	},
	{
	"epoch": 9.08296943231441,
	"grad_norm": 1.6615679454812948,
	"learning_rate": 5.0797319264419105e-06,
	"loss": 0.563,
	"step": 2080
	},
	{
	"epoch": 9.104803493449781,
	"grad_norm": 1.6126706246375568,
	"learning_rate": 4.84266810948627e-06,
	"loss": 0.5686,
	"step": 2085
	},
	{
	"epoch": 9.126637554585153,
	"grad_norm": 1.5809643369161743,
	"learning_rate": 4.611131731099905e-06,
	"loss": 0.5533,
	"step": 2090
	},
	{
	"epoch": 9.148471615720524,
	"grad_norm": 1.6161716990207524,
	"learning_rate": 4.385136240620657e-06,
	"loss": 0.5962,
	"step": 2095
	},
	{
	"epoch": 9.170305676855895,
	"grad_norm": 1.5154717234389132,
	"learning_rate": 4.164694765530841e-06,
	"loss": 0.5946,
	"step": 2100
	},
	{
	"epoch": 9.192139737991265,
	"grad_norm": 1.5768496797034472,
	"learning_rate": 3.94982011069468e-06,
	"loss": 0.5383,
	"step": 2105
	},
	{
	"epoch": 9.213973799126638,
	"grad_norm": 1.6583634682510404,
	"learning_rate": 3.7405247576144054e-06,
	"loss": 0.6018,
	"step": 2110
	},
	{
	"epoch": 9.235807860262009,
	"grad_norm": 1.5801691223578864,
	"learning_rate": 3.5368208637053702e-06,
	"loss": 0.5564,
	"step": 2115
	},
	{
	"epoch": 9.25764192139738,
	"grad_norm": 1.702349073192532,
	"learning_rate": 3.338720261589823e-06,
	"loss": 0.578,
	"step": 2120
	},
	{
	"epoch": 9.279475982532752,
	"grad_norm": 1.5184620025021562,
	"learning_rate": 3.146234458409525e-06,
	"loss": 0.5649,
	"step": 2125
	},
	{
	"epoch": 9.301310043668122,
	"grad_norm": 1.4782870440067606,
	"learning_rate": 2.959374635157364e-06,
	"loss": 0.5708,
	"step": 2130
	},
	{
	"epoch": 9.323144104803493,
	"grad_norm": 1.5908300327141753,
	"learning_rate": 2.7781516460279157e-06,
	"loss": 0.5719,
	"step": 2135
	},
	{
	"epoch": 9.344978165938866,
	"grad_norm": 1.653067982991365,
	"learning_rate": 2.6025760177869063e-06,
	"loss": 0.5914,
	"step": 2140
	},
	{
	"epoch": 9.366812227074236,
	"grad_norm": 1.5475103396862675,
	"learning_rate": 2.4326579491597333e-06,
	"loss": 0.5931,
	"step": 2145
	},
	{
	"epoch": 9.388646288209607,
	"grad_norm": 1.6475600779910462,
	"learning_rate": 2.2684073102391066e-06,
	"loss": 0.5978,
	"step": 2150
	},
	{
	"epoch": 9.410480349344978,
	"grad_norm": 1.5891384582888524,
	"learning_rate": 2.1098336419116625e-06,
	"loss": 0.5656,
	"step": 2155
	},
	{
	"epoch": 9.43231441048035,
	"grad_norm": 1.5178759944544706,
	"learning_rate": 1.956946155303785e-06,
	"loss": 0.6198,
	"step": 2160
	},
	{
	"epoch": 9.45414847161572,
	"grad_norm": 1.641246543950594,
	"learning_rate": 1.809753731246544e-06,
	"loss": 0.5829,
	"step": 2165
	},
	{
	"epoch": 9.475982532751091,
	"grad_norm": 1.665331469610374,
	"learning_rate": 1.6682649197598433e-06,
	"loss": 0.5871,
	"step": 2170
	},
	{
	"epoch": 9.497816593886462,
	"grad_norm": 1.823654408381571,
	"learning_rate": 1.5324879395557933e-06,
	"loss": 0.5906,
	"step": 2175
	},
	{
	"epoch": 9.519650655021834,
	"grad_norm": 1.564912693530831,
	"learning_rate": 1.4024306775612283e-06,
	"loss": 0.6207,
	"step": 2180
	},
	{
	"epoch": 9.541484716157205,
	"grad_norm": 1.5863861199272236,
	"learning_rate": 1.2781006884596825e-06,
	"loss": 0.6267,
	"step": 2185
	},
	{
	"epoch": 9.563318777292576,
	"grad_norm": 1.6063472205433305,
	"learning_rate": 1.1595051942524637e-06,
	"loss": 0.5755,
	"step": 2190
	},
	{
	"epoch": 9.585152838427948,
	"grad_norm": 1.5366202264694289,
	"learning_rate": 1.0466510838392229e-06,
	"loss": 0.5384,
	"step": 2195
	},
	{
	"epoch": 9.606986899563319,
	"grad_norm": 1.61763818006577,
	"learning_rate": 9.395449126177291e-07,
	"loss": 0.6435,
	"step": 2200
	},
	{
	"epoch": 9.62882096069869,
	"grad_norm": 1.5959225303743334,
	"learning_rate": 8.381929021031409e-07,
	"loss": 0.5587,
	"step": 2205
	},
	{
	"epoch": 9.65065502183406,
	"grad_norm": 1.5317193865637022,
	"learning_rate": 7.426009395665734e-07,
	"loss": 0.6166,
	"step": 2210
	},
	{
	"epoch": 9.672489082969433,
	"grad_norm": 1.7050859904255076,
	"learning_rate": 6.527745776931382e-07,
	"loss": 0.6078,
	"step": 2215
	},
	{
	"epoch": 9.694323144104803,
	"grad_norm": 1.626127532872475,
	"learning_rate": 5.687190342594239e-07,
	"loss": 0.6022,
	"step": 2220
	},
	{
	"epoch": 9.716157205240174,
	"grad_norm": 1.6752520068014993,
	"learning_rate": 4.904391918303608e-07,
	"loss": 0.6126,
	"step": 2225
	},
	{
	"epoch": 9.737991266375547,
	"grad_norm": 1.6226696728292287,
	"learning_rate": 4.1793959747565836e-07,
	"loss": 0.5671,
	"step": 2230
	},
	{
	"epoch": 9.759825327510917,
	"grad_norm": 1.6182868533567345,
	"learning_rate": 3.5122446250562825e-07,
	"loss": 0.5859,
	"step": 2235
	},
	{
	"epoch": 9.781659388646288,
	"grad_norm": 1.686162675556006,
	"learning_rate": 2.902976622265907e-07,
	"loss": 0.5634,
	"step": 2240
	},
	{
	"epoch": 9.803493449781659,
	"grad_norm": 1.5169542450593143,
	"learning_rate": 2.3516273571577708e-07,
	"loss": 0.5578,
	"step": 2245
	},
	{
	"epoch": 9.825327510917031,
	"grad_norm": 1.6287222229266196,
	"learning_rate": 1.8582288561573847e-07,
	"loss": 0.5543,
	"step": 2250
	},
	{
	"epoch": 9.847161572052402,
	"grad_norm": 1.4791363351235698,
	"learning_rate": 1.4228097794828366e-07,
	"loss": 0.5705,
	"step": 2255
	},
	{
	"epoch": 9.868995633187772,
	"grad_norm": 1.5782969298269662,
	"learning_rate": 1.045395419480677e-07,
	"loss": 0.5742,
	"step": 2260
	},
	{
	"epoch": 9.890829694323145,
	"grad_norm": 1.5934772169541918,
	"learning_rate": 7.260076991560949e-08,
	"loss": 0.6509,
	"step": 2265
	},
	{
	"epoch": 9.912663755458516,
	"grad_norm": 1.5072353913111483,
	"learning_rate": 4.646651708998251e-08,
	"loss": 0.5509,
	"step": 2270
	},
	{
	"epoch": 9.934497816593886,
	"grad_norm": 1.5448684833958992,
	"learning_rate": 2.6138301541056564e-08,
	"loss": 0.5666,
	"step": 2275
	},
	{
	"epoch": 9.956331877729257,
	"grad_norm": 1.504682951530182,
	"learning_rate": 1.1617304081268376e-08,
	"loss": 0.5865,
	"step": 2280
	},
	{
	"epoch": 9.97816593886463,
	"grad_norm": 1.5933513163764192,
	"learning_rate": 2.9043681970875035e-09,
	"loss": 0.5653,
	"step": 2285
	},
	{
	"epoch": 10.0,
	"grad_norm": 1.5918112804762306,
	"learning_rate": 0.0,
	"loss": 0.5502,
	"step": 2290
	},
	{
	"epoch": 10.0,
	"step": 2290,
	"total_flos": 5211452815179776.0,
	"train_loss": 1.1147898718779785,
	"train_runtime": 4502.6314,
	"train_samples_per_second": 32.519,
	"train_steps_per_second": 0.509
	}
	],
	"logging_steps": 5,
	"max_steps": 2290,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5211452815179776.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}