{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 3248,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 0.2709156318785633,
      "learning_rate": 6.153846153846154e-07,
      "loss": 0.9934,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4419044510206839,
      "learning_rate": 3.0769230769230774e-06,
      "loss": 1.0584,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5233721395581817,
      "learning_rate": 6.153846153846155e-06,
      "loss": 1.1615,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6649670185877594,
      "learning_rate": 9.230769230769232e-06,
      "loss": 1.1631,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.4305302514113907,
      "learning_rate": 1.230769230769231e-05,
      "loss": 1.2207,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5755996114609079,
      "learning_rate": 1.5384615384615387e-05,
      "loss": 0.9927,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.20368238004024766,
      "learning_rate": 1.8461538461538465e-05,
      "loss": 0.9844,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.24375178341672513,
      "learning_rate": 2.1538461538461542e-05,
      "loss": 0.9985,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.38432351721666425,
      "learning_rate": 2.461538461538462e-05,
      "loss": 1.0881,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.8927024097300557,
      "learning_rate": 2.7692307692307694e-05,
      "loss": 1.0362,
      "step": 45
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.24949485533837065,
      "learning_rate": 3.0769230769230774e-05,
      "loss": 0.9051,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3003048201124618,
      "learning_rate": 3.384615384615385e-05,
      "loss": 0.9026,
      "step": 55
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3884135265695224,
      "learning_rate": 3.692307692307693e-05,
      "loss": 0.8955,
      "step": 60
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5578919802311338,
      "learning_rate": 4e-05,
      "loss": 0.7901,
      "step": 65
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.2289752603512456,
      "learning_rate": 4.3076923076923084e-05,
      "loss": 0.8754,
      "step": 70
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.459950526314893,
      "learning_rate": 4.615384615384616e-05,
      "loss": 0.7449,
      "step": 75
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3061061622913128,
      "learning_rate": 4.923076923076924e-05,
      "loss": 0.8067,
      "step": 80
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.26485910183284767,
      "learning_rate": 5.230769230769231e-05,
      "loss": 0.8737,
      "step": 85
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.21605949900797208,
      "learning_rate": 5.538461538461539e-05,
      "loss": 0.8169,
      "step": 90
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2286110237629433,
      "learning_rate": 5.846153846153847e-05,
      "loss": 0.8132,
      "step": 95
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.24556746259970036,
      "learning_rate": 6.153846153846155e-05,
      "loss": 0.8198,
      "step": 100
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2948151232563899,
      "learning_rate": 6.461538461538462e-05,
      "loss": 0.8163,
      "step": 105
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2659100532190652,
      "learning_rate": 6.76923076923077e-05,
      "loss": 0.8979,
      "step": 110
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.24575597154935636,
      "learning_rate": 7.076923076923078e-05,
      "loss": 0.8273,
      "step": 115
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3093299661054237,
      "learning_rate": 7.384615384615386e-05,
      "loss": 0.8091,
      "step": 120
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.2908225328310054,
      "learning_rate": 7.692307692307693e-05,
      "loss": 0.8313,
      "step": 125
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3020091724093868,
      "learning_rate": 8e-05,
      "loss": 0.8358,
      "step": 130
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.2694408106299054,
      "learning_rate": 8.307692307692309e-05,
      "loss": 0.8349,
      "step": 135
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3000515761359836,
      "learning_rate": 8.615384615384617e-05,
      "loss": 0.8707,
      "step": 140
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3079582972721868,
      "learning_rate": 8.923076923076924e-05,
      "loss": 0.8617,
      "step": 145
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3795146820147972,
      "learning_rate": 9.230769230769232e-05,
      "loss": 0.7768,
      "step": 150
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4775337525844143,
      "learning_rate": 9.53846153846154e-05,
      "loss": 0.8528,
      "step": 155
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.27382955396233616,
      "learning_rate": 9.846153846153848e-05,
      "loss": 0.9321,
      "step": 160
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3493866683153211,
      "learning_rate": 0.00010153846153846153,
      "loss": 0.8745,
      "step": 165
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.392311201345868,
      "learning_rate": 0.00010461538461538463,
      "loss": 0.8214,
      "step": 170
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.2542347730845665,
      "learning_rate": 0.0001076923076923077,
      "loss": 0.8266,
      "step": 175
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.30567410806640644,
      "learning_rate": 0.00011076923076923077,
      "loss": 0.8421,
      "step": 180
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3347043226775438,
      "learning_rate": 0.00011384615384615384,
      "loss": 0.8482,
      "step": 185
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.39125501413574576,
      "learning_rate": 0.00011692307692307694,
      "loss": 0.7707,
      "step": 190
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.27082032316598875,
      "learning_rate": 0.00012,
      "loss": 0.8802,
      "step": 195
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.2655311149315157,
      "learning_rate": 0.0001230769230769231,
      "loss": 0.8666,
      "step": 200
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3211818059226096,
      "learning_rate": 0.00012615384615384615,
      "loss": 0.8397,
      "step": 205
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.2924195950677733,
      "learning_rate": 0.00012923076923076923,
      "loss": 0.8067,
      "step": 210
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.27236793564577827,
      "learning_rate": 0.0001323076923076923,
      "loss": 0.8266,
      "step": 215
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.31068056017205964,
      "learning_rate": 0.0001353846153846154,
      "loss": 0.727,
      "step": 220
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.24520172222389908,
      "learning_rate": 0.00013846153846153847,
      "loss": 0.7937,
      "step": 225
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.28996280021429405,
      "learning_rate": 0.00014153846153846156,
      "loss": 0.8405,
      "step": 230
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.26492992094167794,
      "learning_rate": 0.0001446153846153846,
      "loss": 0.8417,
      "step": 235
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.28305833332691566,
      "learning_rate": 0.00014769230769230772,
      "loss": 0.9148,
      "step": 240
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.31032712702750226,
      "learning_rate": 0.00015076923076923077,
      "loss": 0.8458,
      "step": 245
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.32447015298077714,
      "learning_rate": 0.00015384615384615385,
      "loss": 0.7821,
      "step": 250
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.2547532649722294,
      "learning_rate": 0.00015692307692307693,
      "loss": 0.8207,
      "step": 255
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.2735833452730825,
      "learning_rate": 0.00016,
      "loss": 0.8249,
      "step": 260
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.22729853067013947,
      "learning_rate": 0.0001630769230769231,
      "loss": 0.8387,
      "step": 265
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.3343853232959839,
      "learning_rate": 0.00016615384615384617,
      "loss": 0.8648,
      "step": 270
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.3108160988317094,
      "learning_rate": 0.00016923076923076923,
      "loss": 0.804,
      "step": 275
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.2609065872820603,
      "learning_rate": 0.00017230769230769234,
      "loss": 0.8216,
      "step": 280
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.24454880681449043,
      "learning_rate": 0.0001753846153846154,
      "loss": 0.8174,
      "step": 285
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.22180414129702308,
      "learning_rate": 0.00017846153846153847,
      "loss": 0.8579,
      "step": 290
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.26081939474045385,
      "learning_rate": 0.00018153846153846155,
      "loss": 0.8432,
      "step": 295
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.2751512686500224,
      "learning_rate": 0.00018461538461538463,
      "loss": 0.6994,
      "step": 300
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.24286008540174067,
      "learning_rate": 0.0001876923076923077,
      "loss": 0.8409,
      "step": 305
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.2306911443540912,
      "learning_rate": 0.0001907692307692308,
      "loss": 0.8241,
      "step": 310
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.3568984623630479,
      "learning_rate": 0.00019384615384615385,
      "loss": 0.7153,
      "step": 315
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.36681138166946803,
      "learning_rate": 0.00019692307692307696,
      "loss": 0.8065,
      "step": 320
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.22369081814221262,
      "learning_rate": 0.0002,
      "loss": 0.757,
      "step": 325
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.32740968759147726,
      "learning_rate": 0.00019999855605356607,
      "loss": 0.785,
      "step": 330
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.38663458318983307,
      "learning_rate": 0.0001999942242559639,
      "loss": 0.7893,
      "step": 335
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.3744195353028169,
      "learning_rate": 0.00019998700473229113,
      "loss": 0.8817,
      "step": 340
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.2937020154962458,
      "learning_rate": 0.00019997689769103992,
      "loss": 0.8068,
      "step": 345
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.31130184115081005,
      "learning_rate": 0.00019996390342409071,
      "loss": 0.8888,
      "step": 350
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.27717910910942206,
      "learning_rate": 0.00019994802230670415,
      "loss": 0.8296,
      "step": 355
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.28929048963159804,
      "learning_rate": 0.00019992925479750978,
      "loss": 0.8375,
      "step": 360
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.30278441435173964,
      "learning_rate": 0.00019990760143849317,
      "loss": 0.7978,
      "step": 365
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.3926711605744842,
      "learning_rate": 0.00019988306285498018,
      "loss": 0.8156,
      "step": 370
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.2056371002966051,
      "learning_rate": 0.0001998556397556188,
      "loss": 0.8492,
      "step": 375
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.3386258840898327,
      "learning_rate": 0.00019982533293235873,
      "loss": 0.7553,
      "step": 380
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.24704095019032765,
      "learning_rate": 0.00019979214326042857,
      "loss": 0.8032,
      "step": 385
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.3027504102198928,
      "learning_rate": 0.0001997560716983105,
      "loss": 0.8777,
      "step": 390
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.25850106416138335,
      "learning_rate": 0.00019971711928771257,
      "loss": 0.8353,
      "step": 395
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.42457411611908963,
      "learning_rate": 0.0001996752871535387,
      "loss": 0.7962,
      "step": 400
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.32389294595176554,
      "learning_rate": 0.00019963057650385606,
      "loss": 0.8473,
      "step": 405
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2232805240763939,
      "learning_rate": 0.0001995829886298604,
      "loss": 0.7768,
      "step": 410
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.26355868762668144,
      "learning_rate": 0.00019953252490583843,
      "loss": 0.8432,
      "step": 415
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2479995279505114,
      "learning_rate": 0.00019947918678912848,
      "loss": 0.8742,
      "step": 420
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.26547854409221383,
      "learning_rate": 0.0001994229758200783,
      "loss": 0.8072,
      "step": 425
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.23642626786417162,
      "learning_rate": 0.00019936389362200033,
      "loss": 0.7956,
      "step": 430
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.25913092229555307,
      "learning_rate": 0.00019930194190112522,
      "loss": 0.7345,
      "step": 435
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2966162150235158,
      "learning_rate": 0.00019923712244655225,
      "loss": 0.8089,
      "step": 440
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2187595004800295,
      "learning_rate": 0.00019916943713019794,
      "loss": 0.7427,
      "step": 445
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.29051575591401246,
      "learning_rate": 0.00019909888790674155,
      "loss": 0.8768,
      "step": 450
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.3296601997445316,
      "learning_rate": 0.00019902547681356923,
      "loss": 0.8616,
      "step": 455
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.29185622420361307,
      "learning_rate": 0.0001989492059707146,
      "loss": 0.7993,
      "step": 460
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.285867084295898,
      "learning_rate": 0.00019887007758079793,
      "loss": 0.8207,
      "step": 465
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.30952870458662307,
      "learning_rate": 0.00019878809392896235,
      "loss": 0.8668,
      "step": 470
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3381740373711063,
      "learning_rate": 0.00019870325738280785,
      "loss": 0.8842,
      "step": 475
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.21684296837932523,
      "learning_rate": 0.0001986155703923231,
      "loss": 0.7966,
      "step": 480
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3040871521339894,
      "learning_rate": 0.0001985250354898143,
      "loss": 0.8622,
      "step": 485
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.26978651830594724,
      "learning_rate": 0.0001984316552898326,
      "loss": 0.8748,
      "step": 490
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.29082578689683647,
      "learning_rate": 0.00019833543248909798,
      "loss": 0.8407,
      "step": 495
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.301663442193365,
      "learning_rate": 0.00019823636986642199,
      "loss": 0.8568,
      "step": 500
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2552544076755423,
      "learning_rate": 0.0001981344702826269,
      "loss": 0.8286,
      "step": 505
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.24913640355204184,
      "learning_rate": 0.00019802973668046363,
      "loss": 0.8022,
      "step": 510
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2217941168846133,
      "learning_rate": 0.00019792217208452635,
      "loss": 0.8674,
      "step": 515
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2891487359747499,
      "learning_rate": 0.00019781177960116538,
      "loss": 0.8123,
      "step": 520
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.34655206684809864,
      "learning_rate": 0.00019769856241839737,
      "loss": 0.8517,
      "step": 525
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3053447288771597,
      "learning_rate": 0.00019758252380581328,
      "loss": 0.8821,
      "step": 530
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3307139329014054,
      "learning_rate": 0.00019746366711448387,
      "loss": 0.8677,
      "step": 535
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.306144694096585,
      "learning_rate": 0.00019734199577686314,
      "loss": 0.7189,
      "step": 540
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2774735539484507,
      "learning_rate": 0.0001972175133066889,
      "loss": 0.7494,
      "step": 545
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3140012878663545,
      "learning_rate": 0.00019709022329888155,
      "loss": 0.7943,
      "step": 550
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2646845744217625,
      "learning_rate": 0.00019696012942944013,
      "loss": 0.836,
      "step": 555
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2308386439333217,
      "learning_rate": 0.00019682723545533628,
      "loss": 0.8478,
      "step": 560
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.262138689846067,
      "learning_rate": 0.00019669154521440553,
      "loss": 0.7914,
      "step": 565
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6748339885003066,
      "learning_rate": 0.0001965530626252367,
      "loss": 0.8494,
      "step": 570
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.33850537974316935,
      "learning_rate": 0.00019641179168705862,
      "loss": 0.6988,
      "step": 575
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2655667830205273,
      "learning_rate": 0.00019626773647962457,
      "loss": 0.8944,
      "step": 580
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.266738555121118,
      "learning_rate": 0.0001961209011630947,
      "loss": 0.8797,
      "step": 585
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2867657573604784,
      "learning_rate": 0.0001959712899779156,
      "loss": 0.8718,
      "step": 590
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3370395857653061,
      "learning_rate": 0.00019581890724469802,
      "loss": 0.8289,
      "step": 595
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.29934897150076484,
      "learning_rate": 0.00019566375736409204,
      "loss": 0.822,
      "step": 600
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.28585720261383735,
      "learning_rate": 0.00019550584481666002,
      "loss": 0.8579,
      "step": 605
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3285211504524654,
      "learning_rate": 0.0001953451741627471,
      "loss": 0.8795,
      "step": 610
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.24511909912168928,
      "learning_rate": 0.0001951817500423497,
      "loss": 0.7862,
      "step": 615
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.253601728108672,
      "learning_rate": 0.0001950155771749813,
      "loss": 0.8076,
      "step": 620
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3092833252431494,
      "learning_rate": 0.00019484666035953632,
      "loss": 0.7513,
      "step": 625
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.26385573322113004,
      "learning_rate": 0.00019467500447415138,
      "loss": 0.8263,
      "step": 630
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.28938768331562686,
      "learning_rate": 0.00019450061447606455,
      "loss": 0.7777,
      "step": 635
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2529231145412997,
      "learning_rate": 0.00019432349540147222,
      "loss": 0.8287,
      "step": 640
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.21789719255683243,
      "learning_rate": 0.00019414365236538342,
      "loss": 0.789,
      "step": 645
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.2926240350717249,
      "learning_rate": 0.00019396109056147242,
      "loss": 0.8396,
      "step": 650
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.21569069093149024,
      "learning_rate": 0.00019377581526192853,
      "loss": 0.7599,
      "step": 655
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.26361195643008684,
      "learning_rate": 0.00019358783181730387,
      "loss": 0.8687,
      "step": 660
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.285068572985004,
      "learning_rate": 0.00019339714565635898,
      "loss": 0.7735,
      "step": 665
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.32266517654300897,
      "learning_rate": 0.0001932037622859059,
      "loss": 0.754,
      "step": 670
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2678959128715121,
      "learning_rate": 0.00019300768729064912,
      "loss": 0.8024,
      "step": 675
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2808314964971424,
      "learning_rate": 0.00019280892633302454,
      "loss": 0.767,
      "step": 680
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.25044630314755334,
      "learning_rate": 0.00019260748515303563,
      "loss": 0.8454,
      "step": 685
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.30242650123792125,
      "learning_rate": 0.00019240336956808786,
      "loss": 0.8812,
      "step": 690
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.2701055207795336,
      "learning_rate": 0.00019219658547282067,
      "loss": 0.7791,
      "step": 695
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2232333034817994,
      "learning_rate": 0.0001919871388389372,
      "loss": 0.7782,
      "step": 700
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2578136050088398,
      "learning_rate": 0.0001917750357150318,
      "loss": 0.7164,
      "step": 705
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2974468917976116,
      "learning_rate": 0.00019156028222641554,
      "loss": 0.8559,
      "step": 710
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2811089697192464,
      "learning_rate": 0.00019134288457493904,
      "loss": 0.7352,
      "step": 715
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3892901045304661,
      "learning_rate": 0.0001911228490388136,
      "loss": 0.7775,
      "step": 720
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.32835288605201257,
      "learning_rate": 0.00019090018197242972,
      "loss": 0.8125,
      "step": 725
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3396081375822814,
      "learning_rate": 0.00019067488980617384,
      "loss": 0.8498,
      "step": 730
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2725077722420475,
      "learning_rate": 0.00019044697904624226,
      "loss": 0.8652,
      "step": 735
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.26882238969800315,
      "learning_rate": 0.0001902164562744536,
      "loss": 0.8316,
      "step": 740
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2942779783614407,
      "learning_rate": 0.00018998332814805852,
      "loss": 0.8937,
      "step": 745
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.23318828090848456,
      "learning_rate": 0.0001897476013995476,
      "loss": 0.7247,
      "step": 750
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3207657739253934,
      "learning_rate": 0.00018950928283645676,
      "loss": 0.8168,
      "step": 755
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.27343106758276103,
      "learning_rate": 0.00018926837934117084,
      "loss": 0.7436,
      "step": 760
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.2380153711122644,
      "learning_rate": 0.0001890248978707246,
      "loss": 0.845,
      "step": 765
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.28205742315414456,
      "learning_rate": 0.00018877884545660215,
      "loss": 0.8329,
      "step": 770
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.248001179467568,
      "learning_rate": 0.0001885302292045336,
      "loss": 0.8322,
      "step": 775
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.512811292371171,
      "learning_rate": 0.0001882790562942899,
      "loss": 0.7778,
      "step": 780
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3027018813313023,
      "learning_rate": 0.00018802533397947567,
      "loss": 0.8338,
      "step": 785
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.2940436466186521,
      "learning_rate": 0.00018776906958731953,
      "loss": 0.6823,
      "step": 790
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.33833283166239086,
      "learning_rate": 0.00018751027051846258,
      "loss": 0.7669,
      "step": 795
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.31248954654812844,
      "learning_rate": 0.00018724894424674467,
      "loss": 0.7851,
      "step": 800
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3080103407030162,
      "learning_rate": 0.00018698509831898853,
      "loss": 0.8465,
      "step": 805
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.27928229688289624,
      "learning_rate": 0.00018671874035478195,
      "loss": 0.7708,
      "step": 810
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2926934897262978,
      "learning_rate": 0.00018644987804625757,
      "loss": 0.8816,
      "step": 815
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2564445050641534,
      "learning_rate": 0.00018617851915787078,
      "loss": 0.8748,
      "step": 820
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3167275363170148,
      "learning_rate": 0.0001859046715261756,
      "loss": 0.7955,
      "step": 825
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4082416585797153,
      "learning_rate": 0.00018562834305959824,
      "loss": 0.7464,
      "step": 830
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3030422995435233,
      "learning_rate": 0.0001853495417382088,
      "loss": 0.9046,
      "step": 835
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.2536332149798187,
      "learning_rate": 0.00018506827561349073,
      "loss": 0.7143,
      "step": 840
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3272764072322209,
      "learning_rate": 0.00018478455280810838,
      "loss": 0.8358,
      "step": 845
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.28310232183891465,
      "learning_rate": 0.00018449838151567244,
      "loss": 0.842,
      "step": 850
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.26576658481713733,
      "learning_rate": 0.00018420977000050323,
      "loss": 0.7563,
      "step": 855
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.2612196906596331,
      "learning_rate": 0.00018391872659739215,
      "loss": 0.7631,
      "step": 860
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43199033496139155,
      "learning_rate": 0.00018362525971136082,
      "loss": 0.8585,
      "step": 865
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3011184188491384,
      "learning_rate": 0.00018332937781741858,
      "loss": 0.807,
      "step": 870
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3432230727339861,
      "learning_rate": 0.00018303108946031747,
      "loss": 0.806,
      "step": 875
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.28699539333378254,
      "learning_rate": 0.00018273040325430574,
      "loss": 0.8063,
      "step": 880
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.2895901648006327,
      "learning_rate": 0.00018242732788287884,
      "loss": 0.7773,
      "step": 885
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.30393045217103676,
      "learning_rate": 0.00018212187209852888,
      "loss": 0.7721,
      "step": 890
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4409757200332159,
      "learning_rate": 0.00018181404472249158,
      "loss": 0.805,
      "step": 895
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.36679860235251033,
      "learning_rate": 0.00018150385464449183,
      "loss": 0.7759,
      "step": 900
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.276840442597116,
      "learning_rate": 0.00018119131082248676,
      "loss": 0.8182,
      "step": 905
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.2365689665357522,
      "learning_rate": 0.00018087642228240713,
      "loss": 0.7851,
      "step": 910
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.30377473821055756,
      "learning_rate": 0.00018055919811789658,
      "loss": 0.7467,
      "step": 915
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40215196146679155,
      "learning_rate": 0.00018023964749004921,
      "loss": 0.7436,
      "step": 920
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.24424508927481137,
      "learning_rate": 0.00017991777962714472,
      "loss": 0.8502,
      "step": 925
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3549699023868391,
      "learning_rate": 0.00017959360382438226,
      "loss": 0.8607,
      "step": 930
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.29288526726309294,
      "learning_rate": 0.00017926712944361164,
      "loss": 0.7812,
      "step": 935
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38300023494160845,
      "learning_rate": 0.00017893836591306326,
      "loss": 0.965,
      "step": 940
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3400552848154392,
      "learning_rate": 0.00017860732272707565,
      "loss": 0.9296,
      "step": 945
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.33946589539162436,
      "learning_rate": 0.0001782740094458214,
      "loss": 0.7948,
      "step": 950
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3106409161075979,
      "learning_rate": 0.00017793843569503096,
      "loss": 0.9234,
      "step": 955
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3048504659492406,
      "learning_rate": 0.00017760061116571472,
      "loss": 0.735,
      "step": 960
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3699006267760609,
      "learning_rate": 0.00017726054561388325,
      "loss": 0.8097,
      "step": 965
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3812470781886498,
      "learning_rate": 0.0001769182488602653,
      "loss": 0.7924,
      "step": 970
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.31391420913653745,
      "learning_rate": 0.0001765737307900244,
      "loss": 0.8468,
      "step": 975
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2798144915599161,
      "learning_rate": 0.00017622700135247336,
      "loss": 0.7466,
      "step": 980
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4373736539748376,
      "learning_rate": 0.0001758780705607869,
      "loss": 0.7782,
      "step": 985
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.31499380584195635,
      "learning_rate": 0.00017552694849171238,
      "loss": 0.7623,
      "step": 990
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.34084198516003655,
      "learning_rate": 0.00017517364528527905,
      "loss": 0.7643,
      "step": 995
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.220259377380433,
      "learning_rate": 0.00017481817114450504,
      "loss": 0.7041,
      "step": 1000
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3741361155303008,
      "learning_rate": 0.00017446053633510267,
      "loss": 0.8331,
      "step": 1005
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.25186403738162744,
      "learning_rate": 0.00017410075118518207,
      "loss": 0.7746,
      "step": 1010
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3381680931423155,
      "learning_rate": 0.000173738826084953,
      "loss": 0.8091,
      "step": 1015
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.30332385851807925,
      "learning_rate": 0.00017337477148642453,
      "loss": 0.8123,
      "step": 1020
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4189781620141866,
      "learning_rate": 0.0001730085979031035,
      "loss": 0.7662,
      "step": 1025
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.20916757459764715,
      "learning_rate": 0.0001726403159096907,
      "loss": 0.7658,
      "step": 1030
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.25400278359501394,
      "learning_rate": 0.0001722699361417755,
      "loss": 0.7761,
      "step": 1035
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.29634266788228114,
      "learning_rate": 0.00017189746929552885,
      "loss": 0.7712,
      "step": 1040
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.34416521475533296,
      "learning_rate": 0.00017152292612739427,
      "loss": 0.8657,
      "step": 1045
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.26477218894974247,
      "learning_rate": 0.00017114631745377716,
      "loss": 0.7979,
      "step": 1050
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39575314169996223,
      "learning_rate": 0.00017076765415073252,
      "loss": 0.7657,
      "step": 1055
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3060703163684423,
      "learning_rate": 0.0001703869471536509,
      "loss": 0.7758,
      "step": 1060
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3041979747156484,
      "learning_rate": 0.00017000420745694254,
      "loss": 0.8641,
      "step": 1065
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2891225024964161,
      "learning_rate": 0.0001696194461137198,
      "loss": 0.8824,
      "step": 1070
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2718444108580119,
      "learning_rate": 0.0001692326742354781,
      "loss": 0.7924,
      "step": 1075
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.259262158014512,
      "learning_rate": 0.00016884390299177492,
      "loss": 0.8369,
      "step": 1080
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3499348899825314,
      "learning_rate": 0.00016845314360990727,
      "loss": 0.8346,
      "step": 1085
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2715739588374178,
      "learning_rate": 0.00016806040737458745,
      "loss": 0.8032,
      "step": 1090
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.31767202890667356,
      "learning_rate": 0.00016766570562761726,
      "loss": 0.7771,
      "step": 1095
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2775818452285115,
      "learning_rate": 0.00016726904976756024,
      "loss": 0.7571,
      "step": 1100
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40533408177768837,
      "learning_rate": 0.00016687045124941268,
      "loss": 0.7487,
      "step": 1105
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.23186261109536282,
      "learning_rate": 0.0001664699215842728,
      "loss": 0.7442,
      "step": 1110
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39092343811338354,
      "learning_rate": 0.00016606747233900815,
      "loss": 0.8009,
      "step": 1115
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3086065524408362,
      "learning_rate": 0.00016566311513592188,
      "loss": 0.8045,
      "step": 1120
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3367565478870619,
      "learning_rate": 0.00016525686165241673,
      "loss": 0.767,
      "step": 1125
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3086208201423001,
      "learning_rate": 0.00016484872362065818,
      "loss": 0.8297,
      "step": 1130
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.29118078471035397,
      "learning_rate": 0.0001644387128272353,
      "loss": 0.73,
      "step": 1135
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.2276647259111584,
      "learning_rate": 0.00016402684111282048,
      "loss": 0.7594,
      "step": 1140
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.31848819925406663,
      "learning_rate": 0.00016361312037182764,
      "loss": 0.7175,
      "step": 1145
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3783361351946572,
      "learning_rate": 0.00016319756255206856,
      "loss": 0.8027,
      "step": 1150
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.266088499578184,
      "learning_rate": 0.00016278017965440787,
      "loss": 0.7452,
      "step": 1155
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.29706113106114784,
      "learning_rate": 0.0001623609837324165,
      "loss": 0.8534,
      "step": 1160
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3339471167119851,
      "learning_rate": 0.00016193998689202358,
      "loss": 0.8144,
      "step": 1165
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.28540623867963755,
      "learning_rate": 0.00016151720129116686,
      "loss": 0.7651,
      "step": 1170
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2639670831879774,
      "learning_rate": 0.00016109263913944154,
      "loss": 0.7034,
      "step": 1175
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.33170223538556726,
      "learning_rate": 0.00016066631269774767,
      "loss": 0.7217,
      "step": 1180
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3941911797947879,
      "learning_rate": 0.00016023823427793626,
      "loss": 0.7772,
      "step": 1185
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3440363876277395,
      "learning_rate": 0.00015980841624245335,
      "loss": 0.727,
      "step": 1190
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.27303644578696656,
      "learning_rate": 0.00015937687100398343,
      "loss": 0.7976,
      "step": 1195
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.19363446071730062,
      "learning_rate": 0.0001589436110250906,
      "loss": 0.7601,
      "step": 1200
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3220033440998593,
      "learning_rate": 0.00015850864881785892,
      "loss": 0.8059,
      "step": 1205
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.24875841441874524,
      "learning_rate": 0.00015807199694353093,
      "loss": 0.7766,
      "step": 1210
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.27144712486585415,
      "learning_rate": 0.000157633668012145,
      "loss": 0.9517,
      "step": 1215
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.29984291637849303,
      "learning_rate": 0.00015719367468217102,
      "loss": 0.7078,
      "step": 1220
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42717086324378223,
      "learning_rate": 0.00015675202966014502,
      "loss": 0.6811,
      "step": 1225
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.34151608330461036,
      "learning_rate": 0.0001563087457003021,
      "loss": 0.7748,
      "step": 1230
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3709398696526256,
      "learning_rate": 0.0001558638356042081,
      "loss": 0.7182,
      "step": 1235
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.34922444682335496,
      "learning_rate": 0.00015541731222038998,
      "loss": 0.8094,
      "step": 1240
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3980009403514347,
      "learning_rate": 0.00015496918844396467,
      "loss": 0.8039,
      "step": 1245
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3512099804126243,
      "learning_rate": 0.00015451947721626676,
      "loss": 0.79,
      "step": 1250
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40719330570424017,
      "learning_rate": 0.00015406819152447474,
      "loss": 0.6692,
      "step": 1255
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.32754689412178806,
      "learning_rate": 0.0001536153444012359,
      "loss": 0.7442,
      "step": 1260
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3468017225536143,
      "learning_rate": 0.00015316094892428995,
      "loss": 0.7848,
      "step": 1265
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3434551451114442,
      "learning_rate": 0.00015270501821609158,
      "loss": 0.7438,
      "step": 1270
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.34114725338586066,
      "learning_rate": 0.00015224756544343114,
      "loss": 0.6742,
      "step": 1275
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.35582931502840126,
      "learning_rate": 0.00015178860381705457,
      "loss": 0.6642,
      "step": 1280
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3951492370139673,
      "learning_rate": 0.00015132814659128205,
      "loss": 0.7963,
      "step": 1285
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3017429849876104,
      "learning_rate": 0.00015086620706362486,
      "loss": 0.7752,
      "step": 1290
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2626021589785786,
      "learning_rate": 0.00015040279857440176,
      "loss": 0.7782,
      "step": 1295
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.33978693007893296,
      "learning_rate": 0.0001499379345063534,
      "loss": 0.7799,
      "step": 1300
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3251454729934429,
      "learning_rate": 0.00014947162828425606,
      "loss": 0.7907,
      "step": 1305
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.46699196417323946,
      "learning_rate": 0.00014900389337453392,
      "loss": 0.8757,
      "step": 1310
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.30759216383899046,
      "learning_rate": 0.00014853474328487,
      "loss": 0.8248,
      "step": 1315
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5240595026063802,
      "learning_rate": 0.00014806419156381632,
      "loss": 0.8153,
      "step": 1320
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2984711481085597,
      "learning_rate": 0.0001475922518004025,
      "loss": 0.8307,
      "step": 1325
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.34139646796135426,
      "learning_rate": 0.00014711893762374322,
      "loss": 0.7983,
      "step": 1330
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2571926484335572,
      "learning_rate": 0.00014664426270264493,
      "loss": 0.6837,
      "step": 1335
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3257702661543834,
      "learning_rate": 0.00014616824074521075,
      "loss": 0.7656,
      "step": 1340
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5681687224975429,
      "learning_rate": 0.00014569088549844488,
      "loss": 0.8412,
      "step": 1345
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3442468618645148,
      "learning_rate": 0.00014521221074785542,
      "loss": 0.7408,
      "step": 1350
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3889043102333772,
      "learning_rate": 0.00014473223031705637,
      "loss": 0.7891,
      "step": 1355
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3512289539889666,
      "learning_rate": 0.0001442509580673684,
      "loss": 0.7438,
      "step": 1360
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3124271122113035,
      "learning_rate": 0.00014376840789741838,
      "loss": 0.7047,
      "step": 1365
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2200391690908901,
      "learning_rate": 0.00014328459374273833,
      "loss": 0.7432,
      "step": 1370
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.32400034100164815,
      "learning_rate": 0.00014279952957536266,
      "loss": 0.8155,
      "step": 1375
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3003484274407438,
      "learning_rate": 0.00014231322940342492,
      "loss": 0.7521,
      "step": 1380
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4116598695778175,
      "learning_rate": 0.00014182570727075308,
      "loss": 0.8548,
      "step": 1385
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42125576864395314,
      "learning_rate": 0.00014133697725646403,
      "loss": 0.8552,
      "step": 1390
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.32506737333947255,
      "learning_rate": 0.000140847053474557,
      "loss": 0.7796,
      "step": 1395
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3558852515623043,
      "learning_rate": 0.00014035595007350592,
      "loss": 0.782,
      "step": 1400
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.32892065566412354,
      "learning_rate": 0.00013986368123585093,
      "loss": 0.7912,
      "step": 1405
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3309987342740096,
      "learning_rate": 0.00013937026117778867,
      "loss": 0.7852,
      "step": 1410
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.317076816745732,
      "learning_rate": 0.00013887570414876176,
      "loss": 0.8792,
      "step": 1415
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3888229597038326,
      "learning_rate": 0.00013838002443104742,
      "loss": 0.7537,
      "step": 1420
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3505522947043339,
      "learning_rate": 0.00013788323633934484,
      "loss": 0.7765,
      "step": 1425
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.30255809120744814,
      "learning_rate": 0.0001373853542203619,
      "loss": 0.7445,
      "step": 1430
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38394599313950495,
      "learning_rate": 0.00013688639245240078,
      "loss": 0.717,
      "step": 1435
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3546082273774911,
      "learning_rate": 0.00013638636544494287,
      "loss": 0.7088,
      "step": 1440
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.46456400202121617,
      "learning_rate": 0.00013588528763823233,
      "loss": 0.6481,
      "step": 1445
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38142306418882993,
      "learning_rate": 0.0001353831735028595,
      "loss": 0.8121,
      "step": 1450
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.34062042874830745,
      "learning_rate": 0.00013488003753934263,
      "loss": 0.7098,
      "step": 1455
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.19799193048705183,
      "learning_rate": 0.0001343758942777094,
      "loss": 0.6883,
      "step": 1460
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3696985192619358,
      "learning_rate": 0.000133870758277077,
      "loss": 0.8092,
      "step": 1465
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2874954359019885,
      "learning_rate": 0.00013336464412523207,
      "loss": 0.8209,
      "step": 1470
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3592024936010695,
      "learning_rate": 0.000132857566438209,
      "loss": 0.854,
      "step": 1475
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.29409773858597665,
      "learning_rate": 0.00013234953985986824,
      "loss": 0.798,
      "step": 1480
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2415718204855592,
      "learning_rate": 0.0001318405790614731,
      "loss": 0.7382,
      "step": 1485
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2584643780619029,
      "learning_rate": 0.0001313306987412661,
      "loss": 0.8092,
      "step": 1490
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.34126538154076436,
      "learning_rate": 0.00013081991362404475,
      "loss": 0.789,
      "step": 1495
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.32753475635130697,
      "learning_rate": 0.00013030823846073595,
      "loss": 0.8413,
      "step": 1500
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3285555673315335,
      "learning_rate": 0.00012979568802797022,
      "loss": 0.7092,
      "step": 1505
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2947608781251718,
      "learning_rate": 0.00012928227712765504,
      "loss": 0.645,
      "step": 1510
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.33949478474040173,
      "learning_rate": 0.00012876802058654714,
      "loss": 0.804,
      "step": 1515
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.43727181136357957,
      "learning_rate": 0.0001282529332558245,
      "loss": 0.8041,
      "step": 1520
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3609023630640718,
      "learning_rate": 0.00012773703001065737,
      "loss": 0.8356,
      "step": 1525
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3494948390700119,
      "learning_rate": 0.00012722032574977881,
      "loss": 0.7872,
      "step": 1530
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3275549957683315,
      "learning_rate": 0.0001267028353950543,
      "loss": 0.7883,
      "step": 1535
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2434171834573686,
      "learning_rate": 0.00012618457389105094,
      "loss": 0.7766,
      "step": 1540
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.35813509273993893,
      "learning_rate": 0.00012566555620460569,
      "loss": 0.7723,
      "step": 1545
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3850234800177591,
      "learning_rate": 0.00012514579732439323,
      "loss": 0.7127,
      "step": 1550
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.2990175481928644,
      "learning_rate": 0.00012462531226049335,
      "loss": 0.8027,
      "step": 1555
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.26743125802211676,
      "learning_rate": 0.00012410411604395696,
      "loss": 0.7775,
      "step": 1560
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3003015429775997,
      "learning_rate": 0.00012358222372637248,
      "loss": 0.8003,
      "step": 1565
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.25952231751732324,
      "learning_rate": 0.00012305965037943096,
      "loss": 0.7946,
      "step": 1570
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3571723160585395,
      "learning_rate": 0.00012253641109449074,
      "loss": 0.7369,
      "step": 1575
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3502660576927713,
      "learning_rate": 0.00012201252098214186,
      "loss": 0.8105,
      "step": 1580
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3925450057088276,
      "learning_rate": 0.00012148799517176948,
      "loss": 0.7664,
      "step": 1585
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2894085765012847,
      "learning_rate": 0.00012096284881111711,
      "loss": 0.8213,
      "step": 1590
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.29374369830200575,
      "learning_rate": 0.00012043709706584902,
      "loss": 0.7723,
      "step": 1595
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2863311083269218,
      "learning_rate": 0.00011991075511911236,
      "loss": 0.696,
      "step": 1600
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3036662438900221,
      "learning_rate": 0.00011938383817109868,
      "loss": 0.8753,
      "step": 1605
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3020605197833583,
      "learning_rate": 0.00011885636143860492,
      "loss": 0.8759,
      "step": 1610
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3639681427966891,
      "learning_rate": 0.00011832834015459404,
      "loss": 0.8606,
      "step": 1615
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37953818216433793,
      "learning_rate": 0.00011779978956775506,
      "loss": 0.7051,
      "step": 1620
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3184781493318525,
      "learning_rate": 0.00011727072494206262,
      "loss": 0.7916,
      "step": 1625
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.35142683733387886,
      "learning_rate": 0.00011674116155633637,
      "loss": 0.8831,
      "step": 1630
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3117830556752173,
      "learning_rate": 0.00011621111470379951,
      "loss": 0.8306,
      "step": 1635
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4495145775092123,
      "learning_rate": 0.00011568059969163734,
      "loss": 0.7767,
      "step": 1640
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.29751872220308234,
      "learning_rate": 0.00011514963184055503,
      "loss": 0.7627,
      "step": 1645
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5069779219255514,
      "learning_rate": 0.00011461822648433527,
      "loss": 0.7007,
      "step": 1650
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3685939765535684,
      "learning_rate": 0.00011408639896939548,
      "loss": 0.7903,
      "step": 1655
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.35043401596057283,
      "learning_rate": 0.0001135541646543445,
      "loss": 0.8195,
      "step": 1660
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.43437482478281425,
      "learning_rate": 0.00011302153890953917,
      "loss": 0.7474,
      "step": 1665
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.424740143766434,
      "learning_rate": 0.00011248853711664037,
      "loss": 0.7487,
      "step": 1670
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4206812162224315,
      "learning_rate": 0.00011195517466816892,
      "loss": 0.7663,
      "step": 1675
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3528935885168195,
      "learning_rate": 0.00011142146696706086,
      "loss": 0.7075,
      "step": 1680
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3022231077132756,
      "learning_rate": 0.00011088742942622285,
      "loss": 0.7005,
      "step": 1685
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.24230122499008153,
      "learning_rate": 0.00011035307746808696,
      "loss": 0.7103,
      "step": 1690
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3274240826179655,
      "learning_rate": 0.00010981842652416525,
      "loss": 0.7585,
      "step": 1695
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3226818393613587,
      "learning_rate": 0.00010928349203460421,
      "loss": 0.6873,
      "step": 1700
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.42160428435071856,
      "learning_rate": 0.00010874828944773884,
      "loss": 0.7033,
      "step": 1705
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3673664828653425,
      "learning_rate": 0.0001082128342196464,
      "loss": 0.7568,
      "step": 1710
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.35369832231150045,
      "learning_rate": 0.00010767714181370032,
      "loss": 0.7459,
      "step": 1715
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3648184560113796,
      "learning_rate": 0.00010714122770012332,
      "loss": 0.7744,
      "step": 1720
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4505619268522559,
      "learning_rate": 0.0001066051073555409,
      "loss": 0.7257,
      "step": 1725
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.43443202284742777,
      "learning_rate": 0.00010606879626253425,
      "loss": 0.7188,
      "step": 1730
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3553258041770261,
      "learning_rate": 0.00010553230990919316,
      "loss": 0.7459,
      "step": 1735
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4661654069610038,
      "learning_rate": 0.00010499566378866879,
      "loss": 0.7836,
      "step": 1740
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37584682327967367,
      "learning_rate": 0.00010445887339872613,
      "loss": 0.7602,
      "step": 1745
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39145966702225243,
      "learning_rate": 0.00010392195424129663,
      "loss": 0.7742,
      "step": 1750
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3393184813627934,
      "learning_rate": 0.0001033849218220303,
      "loss": 0.7641,
      "step": 1755
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3324768161048583,
      "learning_rate": 0.00010284779164984808,
      "loss": 0.7084,
      "step": 1760
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4536643875844217,
      "learning_rate": 0.00010231057923649395,
      "loss": 0.7546,
      "step": 1765
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3383053206020978,
      "learning_rate": 0.00010177330009608679,
      "loss": 0.7897,
      "step": 1770
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3291950908164226,
      "learning_rate": 0.00010123596974467267,
      "loss": 0.837,
      "step": 1775
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40591985948567333,
      "learning_rate": 0.00010069860369977644,
      "loss": 0.7881,
      "step": 1780
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3947516646576018,
      "learning_rate": 0.0001001612174799538,
      "loss": 0.7554,
      "step": 1785
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.48999744278201957,
      "learning_rate": 9.962382660434302e-05,
      "loss": 0.7049,
      "step": 1790
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.27763093083945417,
      "learning_rate": 9.908644659221692e-05,
      "loss": 0.7906,
      "step": 1795
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36597705216081855,
      "learning_rate": 9.854909296253454e-05,
      "loss": 0.7717,
      "step": 1800
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.361260421586406,
      "learning_rate": 9.801178123349298e-05,
      "loss": 0.8052,
      "step": 1805
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40479237805543866,
      "learning_rate": 9.747452692207944e-05,
      "loss": 0.6528,
      "step": 1810
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3337778576325595,
      "learning_rate": 9.693734554362274e-05,
      "loss": 0.7956,
      "step": 1815
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.352206821846608,
      "learning_rate": 9.640025261134566e-05,
      "loss": 0.8004,
      "step": 1820
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3007022043507481,
      "learning_rate": 9.586326363591667e-05,
      "loss": 0.6586,
      "step": 1825
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.32806169397898344,
      "learning_rate": 9.532639412500214e-05,
      "loss": 0.6469,
      "step": 1830
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2948353441185244,
      "learning_rate": 9.478965958281831e-05,
      "loss": 0.772,
      "step": 1835
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.29433563822493,
      "learning_rate": 9.425307550968379e-05,
      "loss": 0.7587,
      "step": 1840
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.2929390819806653,
      "learning_rate": 9.371665740157177e-05,
      "loss": 0.7641,
      "step": 1845
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36587748924129493,
      "learning_rate": 9.318042074966249e-05,
      "loss": 0.7423,
      "step": 1850
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3157914575950516,
      "learning_rate": 9.2644381039896e-05,
      "loss": 0.7802,
      "step": 1855
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3083734823157643,
      "learning_rate": 9.210855375252488e-05,
      "loss": 0.6806,
      "step": 1860
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37273540588458964,
      "learning_rate": 9.157295436166706e-05,
      "loss": 0.8018,
      "step": 1865
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2891457780890995,
      "learning_rate": 9.103759833485921e-05,
      "loss": 0.7924,
      "step": 1870
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.31880678342943103,
      "learning_rate": 9.050250113260988e-05,
      "loss": 0.6784,
      "step": 1875
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38652296771171907,
      "learning_rate": 8.996767820795295e-05,
      "loss": 0.8423,
      "step": 1880
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36151176691802633,
      "learning_rate": 8.943314500600153e-05,
      "loss": 0.7657,
      "step": 1885
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3630982909299649,
      "learning_rate": 8.889891696350182e-05,
      "loss": 0.7316,
      "step": 1890
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.346561432187551,
      "learning_rate": 8.836500950838743e-05,
      "loss": 0.7937,
      "step": 1895
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3552138882564471,
      "learning_rate": 8.783143805933356e-05,
      "loss": 0.7688,
      "step": 1900
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3883059056946058,
      "learning_rate": 8.729821802531212e-05,
      "loss": 0.8022,
      "step": 1905
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3654198034463761,
      "learning_rate": 8.676536480514646e-05,
      "loss": 0.6797,
      "step": 1910
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3437677388699394,
      "learning_rate": 8.623289378706665e-05,
      "loss": 0.8503,
      "step": 1915
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.23831382342326574,
      "learning_rate": 8.570082034826525e-05,
      "loss": 0.725,
      "step": 1920
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4978109719850785,
      "learning_rate": 8.51691598544532e-05,
      "loss": 0.8173,
      "step": 1925
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3849488236961706,
      "learning_rate": 8.463792765941598e-05,
      "loss": 0.7935,
      "step": 1930
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.2564830548422943,
      "learning_rate": 8.410713910457022e-05,
      "loss": 0.7616,
      "step": 1935
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3883061081379379,
      "learning_rate": 8.357680951852074e-05,
      "loss": 0.7351,
      "step": 1940
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3506058449194061,
      "learning_rate": 8.30469542166179e-05,
      "loss": 0.7693,
      "step": 1945
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.30929676711753123,
      "learning_rate": 8.25175885005151e-05,
      "loss": 0.7873,
      "step": 1950
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.40865576499509826,
      "learning_rate": 8.19887276577271e-05,
      "loss": 0.8042,
      "step": 1955
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5195995711187212,
      "learning_rate": 8.146038696118855e-05,
      "loss": 0.7973,
      "step": 1960
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.42197209504725125,
      "learning_rate": 8.093258166881262e-05,
      "loss": 0.7533,
      "step": 1965
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.30422958535775585,
      "learning_rate": 8.04053270230508e-05,
      "loss": 0.779,
      "step": 1970
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3455509672202836,
      "learning_rate": 7.987863825045234e-05,
      "loss": 0.8111,
      "step": 1975
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.23483119931888347,
      "learning_rate": 7.935253056122478e-05,
      "loss": 0.6691,
      "step": 1980
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5096365631799179,
      "learning_rate": 7.882701914879454e-05,
      "loss": 0.8173,
      "step": 1985
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.27454232980225196,
      "learning_rate": 7.83021191893682e-05,
      "loss": 0.8318,
      "step": 1990
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.25340939505328935,
      "learning_rate": 7.777784584149431e-05,
      "loss": 0.7749,
      "step": 1995
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41218592002469173,
      "learning_rate": 7.725421424562541e-05,
      "loss": 0.7486,
      "step": 2000
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3166340386687328,
      "learning_rate": 7.673123952368105e-05,
      "loss": 0.7371,
      "step": 2005
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37125596925100546,
      "learning_rate": 7.620893677861097e-05,
      "loss": 0.8205,
      "step": 2010
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.389340046711289,
      "learning_rate": 7.568732109395882e-05,
      "loss": 0.8052,
      "step": 2015
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.297511489273485,
      "learning_rate": 7.516640753342677e-05,
      "loss": 0.8116,
      "step": 2020
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3551932787364764,
      "learning_rate": 7.464621114044041e-05,
      "loss": 0.7256,
      "step": 2025
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.32976411229944613,
      "learning_rate": 7.41267469377143e-05,
      "loss": 0.7779,
      "step": 2030
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36641305934003204,
      "learning_rate": 7.360802992681803e-05,
      "loss": 0.7769,
      "step": 2035
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.32848405433392913,
      "learning_rate": 7.309007508774319e-05,
      "loss": 0.7449,
      "step": 2040
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3818192607183943,
      "learning_rate": 7.257289737847067e-05,
      "loss": 0.7298,
      "step": 2045
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3956889666509929,
      "learning_rate": 7.205651173453859e-05,
      "loss": 0.7438,
      "step": 2050
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3186630869883142,
      "learning_rate": 7.154093306861115e-05,
      "loss": 0.8091,
      "step": 2055
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.33431044470129717,
      "learning_rate": 7.102617627004795e-05,
      "loss": 0.7518,
      "step": 2060
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.32535315210688565,
      "learning_rate": 7.051225620447375e-05,
      "loss": 0.8321,
      "step": 2065
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4508357834061351,
      "learning_rate": 6.999918771334952e-05,
      "loss": 0.7282,
      "step": 2070
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3512613827114045,
      "learning_rate": 6.948698561354363e-05,
      "loss": 0.7826,
      "step": 2075
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.49837144853088533,
      "learning_rate": 6.897566469690397e-05,
      "loss": 0.795,
      "step": 2080
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4003697684296247,
      "learning_rate": 6.846523972983085e-05,
      "loss": 0.7951,
      "step": 2085
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3815043269956921,
      "learning_rate": 6.795572545285044e-05,
      "loss": 0.826,
      "step": 2090
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3291683320960395,
      "learning_rate": 6.74471365801893e-05,
      "loss": 0.7708,
      "step": 2095
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.41704151240520887,
      "learning_rate": 6.693948779934911e-05,
      "loss": 0.7386,
      "step": 2100
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.463623793653466,
      "learning_rate": 6.643279377068283e-05,
      "loss": 0.7713,
      "step": 2105
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3658375594477012,
      "learning_rate": 6.592706912697124e-05,
      "loss": 0.7786,
      "step": 2110
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4059447230155753,
      "learning_rate": 6.542232847300015e-05,
      "loss": 0.798,
      "step": 2115
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3927246312306725,
      "learning_rate": 6.491858638513899e-05,
      "loss": 0.8166,
      "step": 2120
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.35333239481209877,
      "learning_rate": 6.441585741091955e-05,
      "loss": 0.7539,
      "step": 2125
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3623671701689697,
      "learning_rate": 6.391415606861608e-05,
      "loss": 0.8162,
      "step": 2130
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.430064026231262,
      "learning_rate": 6.341349684682576e-05,
      "loss": 0.7593,
      "step": 2135
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.30707444492883157,
      "learning_rate": 6.291389420405062e-05,
      "loss": 0.7593,
      "step": 2140
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.29281767006409765,
      "learning_rate": 6.241536256827978e-05,
      "loss": 0.7074,
      "step": 2145
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3397684880342664,
      "learning_rate": 6.191791633657268e-05,
      "loss": 0.7077,
      "step": 2150
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.35070530863747645,
      "learning_rate": 6.142156987464367e-05,
      "loss": 0.7888,
      "step": 2155
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.31884184127852916,
      "learning_rate": 6.0926337516446784e-05,
      "loss": 0.8045,
      "step": 2160
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.34522310174070975,
      "learning_rate": 6.043223356376197e-05,
      "loss": 0.8115,
      "step": 2165
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.35929303458552225,
      "learning_rate": 5.9939272285782066e-05,
      "loss": 0.8234,
      "step": 2170
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3835859771257563,
      "learning_rate": 5.9447467918700614e-05,
      "loss": 0.7295,
      "step": 2175
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.33889717245375717,
      "learning_rate": 5.895683466530091e-05,
      "loss": 0.7491,
      "step": 2180
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.34625485711737686,
      "learning_rate": 5.8467386694545635e-05,
      "loss": 0.7882,
      "step": 2185
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3834886156777842,
      "learning_rate": 5.797913814116781e-05,
      "loss": 0.7093,
      "step": 2190
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3892980195228429,
      "learning_rate": 5.7492103105262715e-05,
      "loss": 0.794,
      "step": 2195
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39210633693040825,
      "learning_rate": 5.7006295651880246e-05,
      "loss": 0.7566,
      "step": 2200
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3582797057469045,
      "learning_rate": 5.6521729810619317e-05,
      "loss": 0.8021,
      "step": 2205
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3542924342264584,
      "learning_rate": 5.603841957522227e-05,
      "loss": 0.756,
      "step": 2210
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.36575349651181366,
      "learning_rate": 5.555637890317091e-05,
      "loss": 0.7921,
      "step": 2215
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38535314462569586,
      "learning_rate": 5.507562171528342e-05,
      "loss": 0.7781,
      "step": 2220
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39735016460723493,
      "learning_rate": 5.459616189531234e-05,
      "loss": 0.6632,
      "step": 2225
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4056677466996733,
      "learning_rate": 5.411801328954368e-05,
      "loss": 0.7334,
      "step": 2230
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.42376106078500364,
      "learning_rate": 5.36411897063968e-05,
      "loss": 0.8772,
      "step": 2235
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.35144323747646544,
      "learning_rate": 5.316570491602606e-05,
      "loss": 0.7793,
      "step": 2240
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3783769784963828,
      "learning_rate": 5.269157264992276e-05,
      "loss": 0.8655,
      "step": 2245
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.44209683459363136,
      "learning_rate": 5.221880660051881e-05,
      "loss": 0.8032,
      "step": 2250
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4882374682401987,
      "learning_rate": 5.1747420420791196e-05,
      "loss": 0.7007,
      "step": 2255
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3237759848919934,
      "learning_rate": 5.127742772386786e-05,
      "loss": 0.7897,
      "step": 2260
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.36606432111465076,
      "learning_rate": 5.0808842082634314e-05,
      "loss": 0.8064,
      "step": 2265
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40999182095921494,
      "learning_rate": 5.0341677029341895e-05,
      "loss": 0.7103,
      "step": 2270
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3272955637327382,
      "learning_rate": 4.987594605521682e-05,
      "loss": 0.6785,
      "step": 2275
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3490487483696679,
      "learning_rate": 4.941166261007077e-05,
      "loss": 0.7292,
      "step": 2280
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3433624374602265,
      "learning_rate": 4.894884010191211e-05,
      "loss": 0.6762,
      "step": 2285
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.325285651430037,
      "learning_rate": 4.848749189655915e-05,
      "loss": 0.7659,
      "step": 2290
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.31571712296306303,
      "learning_rate": 4.802763131725378e-05,
      "loss": 0.7736,
      "step": 2295
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.35722394621197917,
      "learning_rate": 4.756927164427685e-05,
      "loss": 0.7155,
      "step": 2300
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36377115960758405,
      "learning_rate": 4.711242611456469e-05,
      "loss": 0.7326,
      "step": 2305
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4323956507240235,
      "learning_rate": 4.665710792132671e-05,
      "loss": 0.7775,
      "step": 2310
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4046174615365396,
      "learning_rate": 4.620333021366463e-05,
      "loss": 0.7643,
      "step": 2315
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3796515442594094,
      "learning_rate": 4.5751106096192476e-05,
      "loss": 0.6264,
      "step": 2320
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.46275385650934453,
      "learning_rate": 4.5300448628658254e-05,
      "loss": 0.688,
      "step": 2325
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4343032727751153,
      "learning_rate": 4.485137082556685e-05,
      "loss": 0.7238,
      "step": 2330
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.42658163696603996,
      "learning_rate": 4.4403885655804115e-05,
      "loss": 0.7691,
      "step": 2335
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5374930429188296,
      "learning_rate": 4.395800604226229e-05,
      "loss": 0.8293,
      "step": 2340
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5178849424936606,
      "learning_rate": 4.351374486146706e-05,
      "loss": 0.6683,
      "step": 2345
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2580914515654273,
      "learning_rate": 4.307111494320524e-05,
      "loss": 0.6295,
      "step": 2350
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38787306791139886,
      "learning_rate": 4.263012907015477e-05,
      "loss": 0.6748,
      "step": 2355
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4320242881816677,
      "learning_rate": 4.219079997751515e-05,
      "loss": 0.6848,
      "step": 2360
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39451448787145293,
      "learning_rate": 4.175314035264002e-05,
      "loss": 0.7691,
      "step": 2365
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3024402074904783,
      "learning_rate": 4.131716283467034e-05,
      "loss": 0.7674,
      "step": 2370
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39413439687935803,
      "learning_rate": 4.0882880014169865e-05,
      "loss": 0.83,
      "step": 2375
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.45210137336011785,
      "learning_rate": 4.045030443276115e-05,
      "loss": 0.7117,
      "step": 2380
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4767595879985179,
      "learning_rate": 4.001944858276356e-05,
      "loss": 0.7424,
      "step": 2385
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3405433186754331,
      "learning_rate": 3.9590324906832435e-05,
      "loss": 0.7944,
      "step": 2390
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38698863622073953,
      "learning_rate": 3.9162945797599895e-05,
      "loss": 0.7486,
      "step": 2395
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.33122873819033993,
      "learning_rate": 3.873732359731661e-05,
      "loss": 0.7339,
      "step": 2400
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3593189874663698,
      "learning_rate": 3.831347059749587e-05,
      "loss": 0.8308,
      "step": 2405
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.32020688896625343,
      "learning_rate": 3.78913990385582e-05,
      "loss": 0.7932,
      "step": 2410
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.35408477803883764,
      "learning_rate": 3.7471121109478004e-05,
      "loss": 0.6155,
      "step": 2415
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.33845060971026897,
      "learning_rate": 3.705264894743167e-05,
      "loss": 0.7798,
      "step": 2420
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5583150637853672,
      "learning_rate": 3.6635994637446845e-05,
      "loss": 0.6673,
      "step": 2425
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4929136893319016,
      "learning_rate": 3.6221170212053766e-05,
      "loss": 0.8048,
      "step": 2430
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5429072066090833,
      "learning_rate": 3.5808187650937276e-05,
      "loss": 0.7507,
      "step": 2435
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.46201271372482866,
      "learning_rate": 3.53970588805914e-05,
      "loss": 0.7259,
      "step": 2440
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3129228737179152,
      "learning_rate": 3.498779577397453e-05,
      "loss": 0.7715,
      "step": 2445
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.32996488069999697,
      "learning_rate": 3.458041015016681e-05,
      "loss": 0.7797,
      "step": 2450
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3214733415000198,
      "learning_rate": 3.4174913774028485e-05,
      "loss": 0.7226,
      "step": 2455
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.42589629830207104,
      "learning_rate": 3.3771318355860593e-05,
      "loss": 0.7218,
      "step": 2460
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3047848353555366,
      "learning_rate": 3.336963555106638e-05,
      "loss": 0.7956,
      "step": 2465
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.34359240246923894,
      "learning_rate": 3.296987695981493e-05,
      "loss": 0.666,
      "step": 2470
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4144993432032501,
      "learning_rate": 3.257205412670605e-05,
      "loss": 0.7416,
      "step": 2475
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3731255551783685,
      "learning_rate": 3.217617854043707e-05,
      "loss": 0.8345,
      "step": 2480
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4050140213208934,
      "learning_rate": 3.178226163347067e-05,
      "loss": 0.7122,
      "step": 2485
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4002439491991807,
      "learning_rate": 3.139031478170522e-05,
      "loss": 0.6805,
      "step": 2490
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.42917304751384394,
      "learning_rate": 3.100034930414585e-05,
      "loss": 0.733,
      "step": 2495
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4136643224459766,
      "learning_rate": 3.0612376462577784e-05,
      "loss": 0.7807,
      "step": 2500
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3890309362984174,
      "learning_rate": 3.0226407461241056e-05,
      "loss": 0.643,
      "step": 2505
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4262911129142299,
      "learning_rate": 2.9842453446506868e-05,
      "loss": 0.823,
      "step": 2510
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.30650720385697705,
      "learning_rate": 2.9460525506555947e-05,
      "loss": 0.7002,
      "step": 2515
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3980581468888342,
      "learning_rate": 2.9080634671057892e-05,
      "loss": 0.7899,
      "step": 2520
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4056498788574052,
      "learning_rate": 2.8702791910853144e-05,
      "loss": 0.701,
      "step": 2525
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4548787143471859,
      "learning_rate": 2.832700813763579e-05,
      "loss": 0.8386,
      "step": 2530
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4404855029802744,
      "learning_rate": 2.7953294203638625e-05,
      "loss": 0.7813,
      "step": 2535
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40369488587415225,
      "learning_rate": 2.7581660901319663e-05,
      "loss": 0.7886,
      "step": 2540
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.44025189268752124,
      "learning_rate": 2.7212118963050592e-05,
      "loss": 0.6854,
      "step": 2545
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38769461649930276,
      "learning_rate": 2.6844679060806666e-05,
      "loss": 0.7533,
      "step": 2550
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39043309802901266,
      "learning_rate": 2.647935180585861e-05,
      "loss": 0.7324,
      "step": 2555
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4031278133263342,
      "learning_rate": 2.6116147748466136e-05,
      "loss": 0.8095,
      "step": 2560
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.31989753369104523,
      "learning_rate": 2.575507737757341e-05,
      "loss": 0.7635,
      "step": 2565
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3825808697754477,
      "learning_rate": 2.5396151120505797e-05,
      "loss": 0.7067,
      "step": 2570
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.34014553791218866,
      "learning_rate": 2.5039379342669156e-05,
      "loss": 0.7454,
      "step": 2575
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3441742765574342,
      "learning_rate": 2.4684772347250194e-05,
      "loss": 0.7269,
      "step": 2580
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.268563145640876,
      "learning_rate": 2.433234037491904e-05,
      "loss": 0.7188,
      "step": 2585
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.44327204267255527,
      "learning_rate": 2.3982093603533485e-05,
      "loss": 0.6476,
      "step": 2590
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.47944546289888046,
      "learning_rate": 2.3634042147845036e-05,
      "loss": 0.7312,
      "step": 2595
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3735226907786184,
      "learning_rate": 2.3288196059206936e-05,
      "loss": 0.8098,
      "step": 2600
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.48173286401906895,
      "learning_rate": 2.2944565325283608e-05,
      "loss": 0.7692,
      "step": 2605
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.454018593107754,
      "learning_rate": 2.260315986976258e-05,
      "loss": 0.7258,
      "step": 2610
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4102026616293206,
      "learning_rate": 2.2263989552067644e-05,
      "loss": 0.8175,
      "step": 2615
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.36721285813725996,
      "learning_rate": 2.1927064167074197e-05,
      "loss": 0.7741,
      "step": 2620
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5058554441705722,
      "learning_rate": 2.1592393444826377e-05,
      "loss": 0.7664,
      "step": 2625
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41227200976610034,
      "learning_rate": 2.125998705025619e-05,
      "loss": 0.7922,
      "step": 2630
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3739806966013022,
      "learning_rate": 2.0929854582904095e-05,
      "loss": 0.6827,
      "step": 2635
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3526698208142984,
      "learning_rate": 2.060200557664215e-05,
      "loss": 0.7712,
      "step": 2640
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.355624340580361,
      "learning_rate": 2.0276449499398352e-05,
      "loss": 0.7217,
      "step": 2645
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.35879322380857276,
      "learning_rate": 1.9953195752883535e-05,
      "loss": 0.8101,
      "step": 2650
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4381419678532357,
      "learning_rate": 1.9632253672319466e-05,
      "loss": 0.7784,
      "step": 2655
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3338214481525901,
      "learning_rate": 1.9313632526169713e-05,
      "loss": 0.7633,
      "step": 2660
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3419374997650999,
      "learning_rate": 1.899734151587157e-05,
      "loss": 0.6726,
      "step": 2665
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39283447932176424,
      "learning_rate": 1.868338977557058e-05,
      "loss": 0.7787,
      "step": 2670
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37003709150492736,
      "learning_rate": 1.837178637185666e-05,
      "loss": 0.7466,
      "step": 2675
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3961613001539733,
      "learning_rate": 1.8062540303502284e-05,
      "loss": 0.7097,
      "step": 2680
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.35142355910690376,
      "learning_rate": 1.7755660501202565e-05,
      "loss": 0.6774,
      "step": 2685
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41038393576069904,
      "learning_rate": 1.745115582731749e-05,
      "loss": 0.7496,
      "step": 2690
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39409588845344945,
      "learning_rate": 1.7149035075615794e-05,
      "loss": 0.7187,
      "step": 2695
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.44791745932431604,
      "learning_rate": 1.6849306971021116e-05,
      "loss": 0.7898,
      "step": 2700
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3525758016199936,
      "learning_rate": 1.6551980169360005e-05,
      "loss": 0.7511,
      "step": 2705
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.36563645526797983,
      "learning_rate": 1.6257063257111938e-05,
      "loss": 0.7397,
      "step": 2710
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3351064266182499,
      "learning_rate": 1.596456475116147e-05,
      "loss": 0.7379,
      "step": 2715
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5068000232220052,
      "learning_rate": 1.567449309855199e-05,
      "loss": 0.751,
      "step": 2720
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.43979138745697033,
      "learning_rate": 1.5386856676242146e-05,
      "loss": 0.8085,
      "step": 2725
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.356641089597573,
      "learning_rate": 1.5101663790863596e-05,
      "loss": 0.6256,
      "step": 2730
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.44817921454892296,
      "learning_rate": 1.4818922678481429e-05,
      "loss": 0.7675,
      "step": 2735
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38078400449692273,
      "learning_rate": 1.4538641504355965e-05,
      "loss": 0.689,
      "step": 2740
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39634310148432367,
      "learning_rate": 1.4260828362707301e-05,
      "loss": 0.7727,
      "step": 2745
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3227302452177864,
      "learning_rate": 1.3985491276481323e-05,
      "loss": 0.6711,
      "step": 2750
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.35229071646321697,
      "learning_rate": 1.3712638197118111e-05,
      "loss": 0.7711,
      "step": 2755
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3536271561860169,
      "learning_rate": 1.3442277004322257e-05,
      "loss": 0.8075,
      "step": 2760
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.348867332644309,
      "learning_rate": 1.3174415505835436e-05,
      "loss": 0.7561,
      "step": 2765
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3535699706794319,
      "learning_rate": 1.2909061437210669e-05,
      "loss": 0.6532,
      "step": 2770
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.29622730647422324,
      "learning_rate": 1.264622246158924e-05,
      "loss": 0.7651,
      "step": 2775
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.36090199758429575,
      "learning_rate": 1.2385906169479167e-05,
      "loss": 0.8015,
      "step": 2780
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.402156004342123,
      "learning_rate": 1.2128120078536076e-05,
      "loss": 0.6387,
      "step": 2785
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.42634964362612304,
      "learning_rate": 1.1872871633346094e-05,
      "loss": 0.7452,
      "step": 2790
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4198409057077085,
      "learning_rate": 1.1620168205210869e-05,
      "loss": 0.7722,
      "step": 2795
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.32753834269003024,
      "learning_rate": 1.1370017091934714e-05,
      "loss": 0.6906,
      "step": 2800
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.32874585989735094,
      "learning_rate": 1.1122425517613722e-05,
      "loss": 0.6583,
      "step": 2805
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40652778318077754,
      "learning_rate": 1.0877400632427359e-05,
      "loss": 0.674,
      "step": 2810
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.507341912219104,
      "learning_rate": 1.0634949512431814e-05,
      "loss": 0.7677,
      "step": 2815
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3696792851429222,
      "learning_rate": 1.0395079159355658e-05,
      "loss": 0.7034,
      "step": 2820
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4493375882862214,
      "learning_rate": 1.0157796500397699e-05,
      "loss": 0.7487,
      "step": 2825
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41029746791384736,
      "learning_rate": 9.92310838802698e-06,
      "loss": 0.7405,
      "step": 2830
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2972360830137905,
      "learning_rate": 9.691021599784711e-06,
      "loss": 0.6979,
      "step": 2835
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4032566104643188,
      "learning_rate": 9.461542838088722e-06,
      "loss": 0.7898,
      "step": 2840
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.27918369114356745,
      "learning_rate": 9.23467873003977e-06,
      "loss": 0.8092,
      "step": 2845
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.36249726345459377,
      "learning_rate": 9.010435827230313e-06,
      "loss": 0.6445,
      "step": 2850
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3964708844545875,
      "learning_rate": 8.788820605555082e-06,
      "loss": 0.7462,
      "step": 2855
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3502801511645061,
      "learning_rate": 8.569839465024299e-06,
      "loss": 0.7233,
      "step": 2860
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4033170990560745,
      "learning_rate": 8.35349872957869e-06,
      "loss": 0.8105,
      "step": 2865
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3954070605648136,
      "learning_rate": 8.139804646906923e-06,
      "loss": 0.7059,
      "step": 2870
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37474529564255277,
      "learning_rate": 7.928763388265181e-06,
      "loss": 0.8582,
      "step": 2875
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.32809524672734786,
      "learning_rate": 7.720381048298897e-06,
      "loss": 0.7581,
      "step": 2880
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4149259283243587,
      "learning_rate": 7.5146636448668485e-06,
      "loss": 0.7735,
      "step": 2885
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4263926138100582,
      "learning_rate": 7.3116171188671865e-06,
      "loss": 0.8028,
      "step": 2890
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.45104438156690363,
      "learning_rate": 7.111247334066129e-06,
      "loss": 0.752,
      "step": 2895
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.43860221599692545,
      "learning_rate": 6.913560076928361e-06,
      "loss": 0.7119,
      "step": 2900
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3597066697079075,
      "learning_rate": 6.71856105645009e-06,
      "loss": 0.7666,
      "step": 2905
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5298228542098834,
      "learning_rate": 6.526255903994105e-06,
      "loss": 0.6903,
      "step": 2910
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.348385379079852,
      "learning_rate": 6.336650173127223e-06,
      "loss": 0.7291,
      "step": 2915
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40348728722999555,
      "learning_rate": 6.149749339459787e-06,
      "loss": 0.6929,
      "step": 2920
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42152434212067974,
      "learning_rate": 5.96555880048767e-06,
      "loss": 0.7092,
      "step": 2925
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3418766857878975,
      "learning_rate": 5.784083875436286e-06,
      "loss": 0.7017,
      "step": 2930
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4129577303513544,
      "learning_rate": 5.605329805107084e-06,
      "loss": 0.8389,
      "step": 2935
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.34322551067313023,
      "learning_rate": 5.429301751726068e-06,
      "loss": 0.8468,
      "step": 2940
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42129646163250906,
      "learning_rate": 5.256004798794889e-06,
      "loss": 0.7467,
      "step": 2945
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38112811696400956,
      "learning_rate": 5.085443950943858e-06,
      "loss": 0.6878,
      "step": 2950
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38823071010954757,
      "learning_rate": 4.917624133787535e-06,
      "loss": 0.839,
      "step": 2955
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41462150440141854,
      "learning_rate": 4.752550193782457e-06,
      "loss": 0.7937,
      "step": 2960
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.47038565975041013,
      "learning_rate": 4.590226898087169e-06,
      "loss": 0.7394,
      "step": 2965
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42313697531774797,
      "learning_rate": 4.430658934424536e-06,
      "loss": 0.7365,
      "step": 2970
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.37056389807076956,
      "learning_rate": 4.2738509109464194e-06,
      "loss": 0.7771,
      "step": 2975
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4282991333253571,
      "learning_rate": 4.119807356100536e-06,
      "loss": 0.8332,
      "step": 2980
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3399316066449957,
      "learning_rate": 3.968532718499718e-06,
      "loss": 0.719,
      "step": 2985
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3045272007549396,
      "learning_rate": 3.8200313667934415e-06,
      "loss": 0.7398,
      "step": 2990
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3940052052861745,
      "learning_rate": 3.674307589541637e-06,
      "loss": 0.6926,
      "step": 2995
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5430719327118287,
      "learning_rate": 3.5313655950908964e-06,
      "loss": 0.724,
      "step": 3000
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3409882746688945,
      "learning_rate": 3.391209511452853e-06,
      "loss": 0.7768,
      "step": 3005
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.32988045764813406,
      "learning_rate": 3.253843386185085e-06,
      "loss": 0.7503,
      "step": 3010
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.30435984793513565,
      "learning_rate": 3.1192711862740865e-06,
      "loss": 0.7373,
      "step": 3015
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4219409570685578,
      "learning_rate": 2.9874967980208724e-06,
      "loss": 0.7532,
      "step": 3020
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40198268281516975,
      "learning_rate": 2.858524026928555e-06,
      "loss": 0.746,
      "step": 3025
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5529913137285583,
      "learning_rate": 2.7323565975926222e-06,
      "loss": 0.8412,
      "step": 3030
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5641310624198427,
      "learning_rate": 2.6089981535932453e-06,
      "loss": 0.7381,
      "step": 3035
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4070763719787106,
      "learning_rate": 2.4884522573901505e-06,
      "loss": 0.7469,
      "step": 3040
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.412932484046869,
      "learning_rate": 2.3707223902196595e-06,
      "loss": 0.8027,
      "step": 3045
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3698602015181267,
      "learning_rate": 2.2558119519942357e-06,
      "loss": 0.7422,
      "step": 3050
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41987825527789996,
      "learning_rate": 2.143724261204194e-06,
      "loss": 0.7901,
      "step": 3055
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4558561938965998,
      "learning_rate": 2.034462554821992e-06,
      "loss": 0.7254,
      "step": 3060
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.31521663581005915,
      "learning_rate": 1.928029988208635e-06,
      "loss": 0.7234,
      "step": 3065
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4536950604685854,
      "learning_rate": 1.8244296350226398e-06,
      "loss": 0.8439,
      "step": 3070
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3324327843215253,
      "learning_rate": 1.7236644871312047e-06,
      "loss": 0.7318,
      "step": 3075
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3441401957085473,
      "learning_rate": 1.6257374545238457e-06,
      "loss": 0.7219,
      "step": 3080
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.31548933651921574,
      "learning_rate": 1.530651365228375e-06,
      "loss": 0.6584,
      "step": 3085
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.43658195529889465,
      "learning_rate": 1.4384089652291543e-06,
      "loss": 0.8155,
      "step": 3090
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.28926411213003883,
      "learning_rate": 1.349012918387904e-06,
      "loss": 0.7126,
      "step": 3095
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5240863579149662,
      "learning_rate": 1.2624658063666639e-06,
      "loss": 0.8585,
      "step": 3100
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.34319193062085684,
      "learning_rate": 1.1787701285533193e-06,
      "loss": 0.7302,
      "step": 3105
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.37091855665958207,
      "learning_rate": 1.0979283019893704e-06,
      "loss": 0.8102,
      "step": 3110
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4173368619893207,
      "learning_rate": 1.019942661300166e-06,
      "loss": 0.8052,
      "step": 3115
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2740737663998489,
      "learning_rate": 9.448154586274794e-07,
      "loss": 0.6628,
      "step": 3120
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39165587634667004,
      "learning_rate": 8.725488635644152e-07,
      "loss": 0.8068,
      "step": 3125
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3462783087024963,
      "learning_rate": 8.031449630928167e-07,
      "loss": 0.755,
      "step": 3130
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3501973539234669,
      "learning_rate": 7.366057615229904e-07,
      "loss": 0.8435,
      "step": 3135
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3089654640513169,
      "learning_rate": 6.729331804357863e-07,
      "loss": 0.7804,
      "step": 3140
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3732310282262484,
      "learning_rate": 6.121290586271311e-07,
      "loss": 0.7352,
      "step": 3145
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.35885721051799435,
      "learning_rate": 5.54195152054926e-07,
      "loss": 0.719,
      "step": 3150
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4350143969198028,
      "learning_rate": 4.99133133788332e-07,
      "loss": 0.7083,
      "step": 3155
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3878552023049681,
      "learning_rate": 4.4694459395943077e-07,
      "loss": 0.787,
      "step": 3160
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5569927297196836,
      "learning_rate": 3.9763103971734993e-07,
      "loss": 0.8012,
      "step": 3165
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4146895070331553,
      "learning_rate": 3.5119389518470936e-07,
      "loss": 0.6918,
      "step": 3170
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3438997693511246,
      "learning_rate": 3.076345014164872e-07,
      "loss": 0.7113,
      "step": 3175
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3948501011870127,
      "learning_rate": 2.669541163613176e-07,
      "loss": 0.7671,
      "step": 3180
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3840771316522947,
      "learning_rate": 2.2915391482514204e-07,
      "loss": 0.7372,
      "step": 3185
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.34038583545962225,
      "learning_rate": 1.9423498843726962e-07,
      "loss": 0.6481,
      "step": 3190
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3931737526809346,
      "learning_rate": 1.6219834561889136e-07,
      "loss": 0.7199,
      "step": 3195
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38986041242847186,
      "learning_rate": 1.3304491155393674e-07,
      "loss": 0.7816,
      "step": 3200
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4355430101066633,
      "learning_rate": 1.0677552816233949e-07,
      "loss": 0.6702,
      "step": 3205
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.388098975061164,
      "learning_rate": 8.339095407575715e-08,
      "loss": 0.6688,
      "step": 3210
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3699381979359166,
      "learning_rate": 6.28918646156329e-08,
      "loss": 0.8179,
      "step": 3215
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.374170534262767,
      "learning_rate": 4.5278851773711274e-08,
      "loss": 0.7136,
      "step": 3220
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41255583678961755,
      "learning_rate": 3.055242419492954e-08,
      "loss": 0.7418,
      "step": 3225
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.45777314712192396,
      "learning_rate": 1.8713007162740605e-08,
      "loss": 0.7344,
      "step": 3230
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.47083864745606346,
      "learning_rate": 9.760942586822808e-09,
      "loss": 0.8361,
      "step": 3235
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4272718560438237,
      "learning_rate": 3.69648899322117e-09,
      "loss": 0.7523,
      "step": 3240
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4516813250246949,
      "learning_rate": 5.198215168533693e-10,
      "loss": 0.7346,
      "step": 3245
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.2166675329208374,
      "eval_runtime": 1667.535,
      "eval_samples_per_second": 1.385,
      "eval_steps_per_second": 0.347,
      "step": 3248
    },
    {
      "epoch": 1.0,
      "step": 3248,
      "total_flos": 6658064344678400.0,
      "train_loss": 0.6257000189696627,
      "train_runtime": 38581.5438,
      "train_samples_per_second": 1.347,
      "train_steps_per_second": 0.084
    }
  ],
  "logging_steps": 5,
  "max_steps": 3248,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 6658064344678400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}