{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.972307692307693,
  "eval_steps": 1000,
  "global_step": 505,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.009846153846153846,
      "grad_norm": 38.5,
      "learning_rate": 3.125e-06,
      "loss": 1.348,
      "step": 1
    },
    {
      "epoch": 0.019692307692307693,
      "grad_norm": 28.625,
      "learning_rate": 6.25e-06,
      "loss": 1.3239,
      "step": 2
    },
    {
      "epoch": 0.039384615384615386,
      "grad_norm": 18.375,
      "learning_rate": 1.25e-05,
      "loss": 1.3144,
      "step": 4
    },
    {
      "epoch": 0.059076923076923075,
      "grad_norm": 14.3125,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 1.4069,
      "step": 6
    },
    {
      "epoch": 0.07876923076923077,
      "grad_norm": 11.5625,
      "learning_rate": 2.5e-05,
      "loss": 1.247,
      "step": 8
    },
    {
      "epoch": 0.09846153846153846,
      "grad_norm": 11.25,
      "learning_rate": 3.125e-05,
      "loss": 1.2618,
      "step": 10
    },
    {
      "epoch": 0.11815384615384615,
      "grad_norm": 10.25,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 1.287,
      "step": 12
    },
    {
      "epoch": 0.13784615384615384,
      "grad_norm": 5.9375,
      "learning_rate": 4.375e-05,
      "loss": 1.1393,
      "step": 14
    },
    {
      "epoch": 0.15753846153846154,
      "grad_norm": 7.34375,
      "learning_rate": 5e-05,
      "loss": 1.1422,
      "step": 16
    },
    {
      "epoch": 0.17723076923076922,
      "grad_norm": 7.84375,
      "learning_rate": 4.9997936302412985e-05,
      "loss": 1.0547,
      "step": 18
    },
    {
      "epoch": 0.19692307692307692,
      "grad_norm": 7.0,
      "learning_rate": 4.9991745550359746e-05,
      "loss": 1.0486,
      "step": 20
    },
    {
      "epoch": 0.21661538461538463,
      "grad_norm": 7.75,
      "learning_rate": 4.99814287659075e-05,
      "loss": 1.0206,
      "step": 22
    },
    {
      "epoch": 0.2363076923076923,
      "grad_norm": 13.0625,
      "learning_rate": 4.996698765231409e-05,
      "loss": 0.9878,
      "step": 24
    },
    {
      "epoch": 0.256,
      "grad_norm": 4.59375,
      "learning_rate": 4.994842459374682e-05,
      "loss": 0.9275,
      "step": 26
    },
    {
      "epoch": 0.2756923076923077,
      "grad_norm": 6.46875,
      "learning_rate": 4.992574265488883e-05,
      "loss": 0.9555,
      "step": 28
    },
    {
      "epoch": 0.2953846153846154,
      "grad_norm": 3.890625,
      "learning_rate": 4.989894558043312e-05,
      "loss": 0.9275,
      "step": 30
    },
    {
      "epoch": 0.3150769230769231,
      "grad_norm": 4.75,
      "learning_rate": 4.986803779446432e-05,
      "loss": 0.9301,
      "step": 32
    },
    {
      "epoch": 0.33476923076923076,
      "grad_norm": 2.71875,
      "learning_rate": 4.983302439972829e-05,
      "loss": 0.8875,
      "step": 34
    },
    {
      "epoch": 0.35446153846153844,
      "grad_norm": 6.65625,
      "learning_rate": 4.979391117678969e-05,
      "loss": 0.8649,
      "step": 36
    },
    {
      "epoch": 0.37415384615384617,
      "grad_norm": 2.59375,
      "learning_rate": 4.975070458307763e-05,
      "loss": 0.8497,
      "step": 38
    },
    {
      "epoch": 0.39384615384615385,
      "grad_norm": 3.625,
      "learning_rate": 4.970341175181956e-05,
      "loss": 0.8358,
      "step": 40
    },
    {
      "epoch": 0.4135384615384615,
      "grad_norm": 4.1875,
      "learning_rate": 4.9652040490863624e-05,
      "loss": 0.8191,
      "step": 42
    },
    {
      "epoch": 0.43323076923076925,
      "grad_norm": 4.75,
      "learning_rate": 4.95965992813896e-05,
      "loss": 0.8425,
      "step": 44
    },
    {
      "epoch": 0.45292307692307693,
      "grad_norm": 2.796875,
      "learning_rate": 4.9537097276508704e-05,
      "loss": 0.8027,
      "step": 46
    },
    {
      "epoch": 0.4726153846153846,
      "grad_norm": 2.453125,
      "learning_rate": 4.947354429975245e-05,
      "loss": 0.812,
      "step": 48
    },
    {
      "epoch": 0.49230769230769234,
      "grad_norm": 1.9140625,
      "learning_rate": 4.940595084345082e-05,
      "loss": 0.7979,
      "step": 50
    },
    {
      "epoch": 0.512,
      "grad_norm": 2.3125,
      "learning_rate": 4.933432806700004e-05,
      "loss": 0.7927,
      "step": 52
    },
    {
      "epoch": 0.5316923076923077,
      "grad_norm": 2.953125,
      "learning_rate": 4.925868779502015e-05,
      "loss": 0.7773,
      "step": 54
    },
    {
      "epoch": 0.5513846153846154,
      "grad_norm": 3.625,
      "learning_rate": 4.9179042515402926e-05,
      "loss": 0.7694,
      "step": 56
    },
    {
      "epoch": 0.571076923076923,
      "grad_norm": 2.109375,
      "learning_rate": 4.909540537725007e-05,
      "loss": 0.7703,
      "step": 58
    },
    {
      "epoch": 0.5907692307692308,
      "grad_norm": 1.890625,
      "learning_rate": 4.900779018870239e-05,
      "loss": 0.8162,
      "step": 60
    },
    {
      "epoch": 0.6104615384615385,
      "grad_norm": 2.15625,
      "learning_rate": 4.891621141466014e-05,
      "loss": 0.743,
      "step": 62
    },
    {
      "epoch": 0.6301538461538462,
      "grad_norm": 1.6875,
      "learning_rate": 4.882068417439493e-05,
      "loss": 0.7572,
      "step": 64
    },
    {
      "epoch": 0.6498461538461539,
      "grad_norm": 2.078125,
      "learning_rate": 4.872122423905358e-05,
      "loss": 0.7445,
      "step": 66
    },
    {
      "epoch": 0.6695384615384615,
      "grad_norm": 1.4609375,
      "learning_rate": 4.8617848029054354e-05,
      "loss": 0.7419,
      "step": 68
    },
    {
      "epoch": 0.6892307692307692,
      "grad_norm": 1.46875,
      "learning_rate": 4.851057261137608e-05,
      "loss": 0.7402,
      "step": 70
    },
    {
      "epoch": 0.7089230769230769,
      "grad_norm": 4.09375,
      "learning_rate": 4.839941569674041e-05,
      "loss": 0.7131,
      "step": 72
    },
    {
      "epoch": 0.7286153846153847,
      "grad_norm": 4.25,
      "learning_rate": 4.8284395636687854e-05,
      "loss": 0.6954,
      "step": 74
    },
    {
      "epoch": 0.7483076923076923,
      "grad_norm": 3.21875,
      "learning_rate": 4.816553142054805e-05,
      "loss": 0.699,
      "step": 76
    },
    {
      "epoch": 0.768,
      "grad_norm": 4.125,
      "learning_rate": 4.804284267230468e-05,
      "loss": 0.6775,
      "step": 78
    },
    {
      "epoch": 0.7876923076923077,
      "grad_norm": 2.984375,
      "learning_rate": 4.791634964735564e-05,
      "loss": 0.7056,
      "step": 80
    },
    {
      "epoch": 0.8073846153846154,
      "grad_norm": 2.59375,
      "learning_rate": 4.778607322916896e-05,
      "loss": 0.6944,
      "step": 82
    },
    {
      "epoch": 0.827076923076923,
      "grad_norm": 1.859375,
      "learning_rate": 4.765203492583502e-05,
      "loss": 0.668,
      "step": 84
    },
    {
      "epoch": 0.8467692307692307,
      "grad_norm": 2.109375,
      "learning_rate": 4.751425686651568e-05,
      "loss": 0.673,
      "step": 86
    },
    {
      "epoch": 0.8664615384615385,
      "grad_norm": 1.84375,
      "learning_rate": 4.737276179779083e-05,
      "loss": 0.7153,
      "step": 88
    },
    {
      "epoch": 0.8861538461538462,
      "grad_norm": 2.125,
      "learning_rate": 4.722757307990302e-05,
      "loss": 0.7234,
      "step": 90
    },
    {
      "epoch": 0.9058461538461539,
      "grad_norm": 1.3984375,
      "learning_rate": 4.707871468290078e-05,
      "loss": 0.6231,
      "step": 92
    },
    {
      "epoch": 0.9255384615384615,
      "grad_norm": 1.6484375,
      "learning_rate": 4.69262111826813e-05,
      "loss": 0.642,
      "step": 94
    },
    {
      "epoch": 0.9452307692307692,
      "grad_norm": 1.5625,
      "learning_rate": 4.6770087756932995e-05,
      "loss": 0.6231,
      "step": 96
    },
    {
      "epoch": 0.9649230769230769,
      "grad_norm": 1.78125,
      "learning_rate": 4.661037018097884e-05,
      "loss": 0.671,
      "step": 98
    },
    {
      "epoch": 0.9846153846153847,
      "grad_norm": 1.5625,
      "learning_rate": 4.6447084823520926e-05,
      "loss": 0.6657,
      "step": 100
    },
    {
      "epoch": 1.0043076923076923,
      "grad_norm": 1.5390625,
      "learning_rate": 4.62802586422871e-05,
      "loss": 0.607,
      "step": 102
    },
    {
      "epoch": 1.024,
      "grad_norm": 1.5078125,
      "learning_rate": 4.610991917958037e-05,
      "loss": 0.5739,
      "step": 104
    },
    {
      "epoch": 1.0436923076923077,
      "grad_norm": 1.484375,
      "learning_rate": 4.593609455773181e-05,
      "loss": 0.6011,
      "step": 106
    },
    {
      "epoch": 1.0633846153846154,
      "grad_norm": 1.5234375,
      "learning_rate": 4.5758813474457606e-05,
      "loss": 0.5776,
      "step": 108
    },
    {
      "epoch": 1.083076923076923,
      "grad_norm": 1.234375,
      "learning_rate": 4.557810519812128e-05,
      "loss": 0.5808,
      "step": 110
    },
    {
      "epoch": 1.1027692307692307,
      "grad_norm": 1.7890625,
      "learning_rate": 4.539399956290152e-05,
      "loss": 0.5965,
      "step": 112
    },
    {
      "epoch": 1.1224615384615384,
      "grad_norm": 1.2109375,
      "learning_rate": 4.520652696386677e-05,
      "loss": 0.608,
      "step": 114
    },
    {
      "epoch": 1.142153846153846,
      "grad_norm": 1.625,
      "learning_rate": 4.5015718351957015e-05,
      "loss": 0.5714,
      "step": 116
    },
    {
      "epoch": 1.1618461538461538,
      "grad_norm": 1.5703125,
      "learning_rate": 4.482160522887403e-05,
      "loss": 0.5876,
      "step": 118
    },
    {
      "epoch": 1.1815384615384614,
      "grad_norm": 1.5078125,
      "learning_rate": 4.462421964188052e-05,
      "loss": 0.5835,
      "step": 120
    },
    {
      "epoch": 1.2012307692307693,
      "grad_norm": 1.3515625,
      "learning_rate": 4.442359417850924e-05,
      "loss": 0.5881,
      "step": 122
    },
    {
      "epoch": 1.220923076923077,
      "grad_norm": 1.9140625,
      "learning_rate": 4.421976196118297e-05,
      "loss": 0.5471,
      "step": 124
    },
    {
      "epoch": 1.2406153846153847,
      "grad_norm": 1.625,
      "learning_rate": 4.401275664174611e-05,
      "loss": 0.5417,
      "step": 126
    },
    {
      "epoch": 1.2603076923076924,
      "grad_norm": 1.625,
      "learning_rate": 4.380261239590892e-05,
      "loss": 0.5337,
      "step": 128
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.5625,
      "learning_rate": 4.358936391760524e-05,
      "loss": 0.5731,
      "step": 130
    },
    {
      "epoch": 1.2996923076923077,
      "grad_norm": 1.5625,
      "learning_rate": 4.337304641326467e-05,
      "loss": 0.5363,
      "step": 132
    },
    {
      "epoch": 1.3193846153846154,
      "grad_norm": 1.515625,
      "learning_rate": 4.315369559600018e-05,
      "loss": 0.5566,
      "step": 134
    },
    {
      "epoch": 1.339076923076923,
      "grad_norm": 1.3359375,
      "learning_rate": 4.2931347679711924e-05,
      "loss": 0.586,
      "step": 136
    },
    {
      "epoch": 1.3587692307692307,
      "grad_norm": 1.6015625,
      "learning_rate": 4.270603937310859e-05,
      "loss": 0.5535,
      "step": 138
    },
    {
      "epoch": 1.3784615384615384,
      "grad_norm": 1.2734375,
      "learning_rate": 4.2477807873646845e-05,
      "loss": 0.5788,
      "step": 140
    },
    {
      "epoch": 1.398153846153846,
      "grad_norm": 1.484375,
      "learning_rate": 4.2246690861390294e-05,
      "loss": 0.538,
      "step": 142
    },
    {
      "epoch": 1.417846153846154,
      "grad_norm": 1.453125,
      "learning_rate": 4.201272649278856e-05,
      "loss": 0.5531,
      "step": 144
    },
    {
      "epoch": 1.4375384615384617,
      "grad_norm": 1.5,
      "learning_rate": 4.177595339437789e-05,
      "loss": 0.55,
      "step": 146
    },
    {
      "epoch": 1.4572307692307693,
      "grad_norm": 1.2890625,
      "learning_rate": 4.153641065640402e-05,
      "loss": 0.5333,
      "step": 148
    },
    {
      "epoch": 1.476923076923077,
      "grad_norm": 1.4296875,
      "learning_rate": 4.129413782636859e-05,
      "loss": 0.5372,
      "step": 150
    },
    {
      "epoch": 1.4966153846153847,
      "grad_norm": 1.359375,
      "learning_rate": 4.1049174902499974e-05,
      "loss": 0.5575,
      "step": 152
    },
    {
      "epoch": 1.5163076923076924,
      "grad_norm": 1.4296875,
      "learning_rate": 4.080156232714976e-05,
      "loss": 0.5571,
      "step": 154
    },
    {
      "epoch": 1.536,
      "grad_norm": 1.2421875,
      "learning_rate": 4.055134098011589e-05,
      "loss": 0.5246,
      "step": 156
    },
    {
      "epoch": 1.5556923076923077,
      "grad_norm": 1.5546875,
      "learning_rate": 4.0298552171893576e-05,
      "loss": 0.5597,
      "step": 158
    },
    {
      "epoch": 1.5753846153846154,
      "grad_norm": 1.3046875,
      "learning_rate": 4.0043237636855116e-05,
      "loss": 0.5536,
      "step": 160
    },
    {
      "epoch": 1.595076923076923,
      "grad_norm": 1.5078125,
      "learning_rate": 3.978543952635967e-05,
      "loss": 0.5527,
      "step": 162
    },
    {
      "epoch": 1.6147692307692307,
      "grad_norm": 1.3359375,
      "learning_rate": 3.952520040179434e-05,
      "loss": 0.5137,
      "step": 164
    },
    {
      "epoch": 1.6344615384615384,
      "grad_norm": 1.34375,
      "learning_rate": 3.92625632275474e-05,
      "loss": 0.5795,
      "step": 166
    },
    {
      "epoch": 1.654153846153846,
      "grad_norm": 1.46875,
      "learning_rate": 3.899757136391507e-05,
      "loss": 0.5237,
      "step": 168
    },
    {
      "epoch": 1.6738461538461538,
      "grad_norm": 1.28125,
      "learning_rate": 3.873026855994292e-05,
      "loss": 0.5326,
      "step": 170
    },
    {
      "epoch": 1.6935384615384614,
      "grad_norm": 1.3125,
      "learning_rate": 3.8460698946203054e-05,
      "loss": 0.5231,
      "step": 172
    },
    {
      "epoch": 1.7132307692307691,
      "grad_norm": 1.5546875,
      "learning_rate": 3.818890702750841e-05,
      "loss": 0.5492,
      "step": 174
    },
    {
      "epoch": 1.7329230769230768,
      "grad_norm": 1.453125,
      "learning_rate": 3.791493767556511e-05,
      "loss": 0.6126,
      "step": 176
    },
    {
      "epoch": 1.7526153846153845,
      "grad_norm": 1.1953125,
      "learning_rate": 3.7638836121564415e-05,
      "loss": 0.5463,
      "step": 178
    },
    {
      "epoch": 1.7723076923076924,
      "grad_norm": 1.3515625,
      "learning_rate": 3.7360647948715164e-05,
      "loss": 0.515,
      "step": 180
    },
    {
      "epoch": 1.792,
      "grad_norm": 1.296875,
      "learning_rate": 3.708041908471827e-05,
      "loss": 0.5259,
      "step": 182
    },
    {
      "epoch": 1.8116923076923077,
      "grad_norm": 1.578125,
      "learning_rate": 3.679819579418414e-05,
      "loss": 0.5059,
      "step": 184
    },
    {
      "epoch": 1.8313846153846154,
      "grad_norm": 1.375,
      "learning_rate": 3.651402467099468e-05,
      "loss": 0.5709,
      "step": 186
    },
    {
      "epoch": 1.851076923076923,
      "grad_norm": 1.21875,
      "learning_rate": 3.622795263061079e-05,
      "loss": 0.5628,
      "step": 188
    },
    {
      "epoch": 1.8707692307692307,
      "grad_norm": 1.4609375,
      "learning_rate": 3.594002690232682e-05,
      "loss": 0.5066,
      "step": 190
    },
    {
      "epoch": 1.8904615384615384,
      "grad_norm": 1.3203125,
      "learning_rate": 3.565029502147323e-05,
      "loss": 0.5625,
      "step": 192
    },
    {
      "epoch": 1.9101538461538463,
      "grad_norm": 1.6796875,
      "learning_rate": 3.53588048215687e-05,
      "loss": 0.5336,
      "step": 194
    },
    {
      "epoch": 1.929846153846154,
      "grad_norm": 1.4921875,
      "learning_rate": 3.506560442642299e-05,
      "loss": 0.5215,
      "step": 196
    },
    {
      "epoch": 1.9495384615384617,
      "grad_norm": 1.546875,
      "learning_rate": 3.4770742242191945e-05,
      "loss": 0.5296,
      "step": 198
    },
    {
      "epoch": 1.9692307692307693,
      "grad_norm": 2.421875,
      "learning_rate": 3.4474266949385817e-05,
      "loss": 0.523,
      "step": 200
    },
    {
      "epoch": 1.988923076923077,
      "grad_norm": 1.34375,
      "learning_rate": 3.4176227494832305e-05,
      "loss": 0.4856,
      "step": 202
    },
    {
      "epoch": 2.0086153846153847,
      "grad_norm": 1.3984375,
      "learning_rate": 3.387667308359568e-05,
      "loss": 0.5298,
      "step": 204
    },
    {
      "epoch": 2.0283076923076924,
      "grad_norm": 1.375,
      "learning_rate": 3.3575653170853175e-05,
      "loss": 0.4869,
      "step": 206
    },
    {
      "epoch": 2.048,
      "grad_norm": 1.0703125,
      "learning_rate": 3.327321745373021e-05,
      "loss": 0.479,
      "step": 208
    },
    {
      "epoch": 2.0676923076923077,
      "grad_norm": 1.234375,
      "learning_rate": 3.2969415863095556e-05,
      "loss": 0.4935,
      "step": 210
    },
    {
      "epoch": 2.0873846153846154,
      "grad_norm": 1.2734375,
      "learning_rate": 3.266429855531797e-05,
      "loss": 0.4773,
      "step": 212
    },
    {
      "epoch": 2.107076923076923,
      "grad_norm": 1.3515625,
      "learning_rate": 3.2357915903985605e-05,
      "loss": 0.4611,
      "step": 214
    },
    {
      "epoch": 2.1267692307692307,
      "grad_norm": 1.2265625,
      "learning_rate": 3.2050318491589506e-05,
      "loss": 0.469,
      "step": 216
    },
    {
      "epoch": 2.1464615384615384,
      "grad_norm": 1.2109375,
      "learning_rate": 3.174155710117271e-05,
      "loss": 0.4758,
      "step": 218
    },
    {
      "epoch": 2.166153846153846,
      "grad_norm": 1.34375,
      "learning_rate": 3.143168270794612e-05,
      "loss": 0.4933,
      "step": 220
    },
    {
      "epoch": 2.1858461538461538,
      "grad_norm": 1.2109375,
      "learning_rate": 3.112074647087274e-05,
      "loss": 0.4814,
      "step": 222
    },
    {
      "epoch": 2.2055384615384614,
      "grad_norm": 1.203125,
      "learning_rate": 3.080879972422154e-05,
      "loss": 0.5064,
      "step": 224
    },
    {
      "epoch": 2.225230769230769,
      "grad_norm": 1.34375,
      "learning_rate": 3.0495893969092392e-05,
      "loss": 0.4576,
      "step": 226
    },
    {
      "epoch": 2.244923076923077,
      "grad_norm": 1.4453125,
      "learning_rate": 3.0182080864913452e-05,
      "loss": 0.4902,
      "step": 228
    },
    {
      "epoch": 2.2646153846153845,
      "grad_norm": 1.21875,
      "learning_rate": 2.9867412220912373e-05,
      "loss": 0.4486,
      "step": 230
    },
    {
      "epoch": 2.284307692307692,
      "grad_norm": 1.1953125,
      "learning_rate": 2.9551939987562866e-05,
      "loss": 0.4786,
      "step": 232
    },
    {
      "epoch": 2.304,
      "grad_norm": 1.2578125,
      "learning_rate": 2.923571624800787e-05,
      "loss": 0.4814,
      "step": 234
    },
    {
      "epoch": 2.3236923076923075,
      "grad_norm": 1.3359375,
      "learning_rate": 2.891879320946086e-05,
      "loss": 0.4915,
      "step": 236
    },
    {
      "epoch": 2.3433846153846156,
      "grad_norm": 1.2265625,
      "learning_rate": 2.8601223194586612e-05,
      "loss": 0.4931,
      "step": 238
    },
    {
      "epoch": 2.363076923076923,
      "grad_norm": 1.4453125,
      "learning_rate": 2.8283058632863003e-05,
      "loss": 0.481,
      "step": 240
    },
    {
      "epoch": 2.382769230769231,
      "grad_norm": 1.4140625,
      "learning_rate": 2.7964352051925103e-05,
      "loss": 0.4458,
      "step": 242
    },
    {
      "epoch": 2.4024615384615386,
      "grad_norm": 1.28125,
      "learning_rate": 2.7645156068893073e-05,
      "loss": 0.499,
      "step": 244
    },
    {
      "epoch": 2.4221538461538463,
      "grad_norm": 2.078125,
      "learning_rate": 2.732552338168531e-05,
      "loss": 0.4937,
      "step": 246
    },
    {
      "epoch": 2.441846153846154,
      "grad_norm": 1.1875,
      "learning_rate": 2.7005506760318235e-05,
      "loss": 0.4628,
      "step": 248
    },
    {
      "epoch": 2.4615384615384617,
      "grad_norm": 1.421875,
      "learning_rate": 2.66851590381942e-05,
      "loss": 0.4741,
      "step": 250
    },
    {
      "epoch": 2.4812307692307694,
      "grad_norm": 1.21875,
      "learning_rate": 2.6364533103378896e-05,
      "loss": 0.4569,
      "step": 252
    },
    {
      "epoch": 2.500923076923077,
      "grad_norm": 1.3515625,
      "learning_rate": 2.604368188986977e-05,
      "loss": 0.4851,
      "step": 254
    },
    {
      "epoch": 2.5206153846153847,
      "grad_norm": 1.4921875,
      "learning_rate": 2.5722658368856816e-05,
      "loss": 0.4935,
      "step": 256
    },
    {
      "epoch": 2.5403076923076924,
      "grad_norm": 1.203125,
      "learning_rate": 2.5401515539977305e-05,
      "loss": 0.4947,
      "step": 258
    },
    {
      "epoch": 2.56,
      "grad_norm": 1.328125,
      "learning_rate": 2.5080306422565707e-05,
      "loss": 0.4642,
      "step": 260
    },
    {
      "epoch": 2.5796923076923077,
      "grad_norm": 1.4140625,
      "learning_rate": 2.4759084046900486e-05,
      "loss": 0.5064,
      "step": 262
    },
    {
      "epoch": 2.5993846153846154,
      "grad_norm": 1.2734375,
      "learning_rate": 2.4437901445448936e-05,
      "loss": 0.4376,
      "step": 264
    },
    {
      "epoch": 2.619076923076923,
      "grad_norm": 1.2734375,
      "learning_rate": 2.4116811644111852e-05,
      "loss": 0.4861,
      "step": 266
    },
    {
      "epoch": 2.6387692307692308,
      "grad_norm": 1.3203125,
      "learning_rate": 2.379586765346907e-05,
      "loss": 0.4878,
      "step": 268
    },
    {
      "epoch": 2.6584615384615384,
      "grad_norm": 1.3125,
      "learning_rate": 2.347512246002774e-05,
      "loss": 0.4827,
      "step": 270
    },
    {
      "epoch": 2.678153846153846,
      "grad_norm": 1.3359375,
      "learning_rate": 2.3154629017474384e-05,
      "loss": 0.4769,
      "step": 272
    },
    {
      "epoch": 2.697846153846154,
      "grad_norm": 1.3203125,
      "learning_rate": 2.2834440237932536e-05,
      "loss": 0.5063,
      "step": 274
    },
    {
      "epoch": 2.7175384615384615,
      "grad_norm": 1.15625,
      "learning_rate": 2.251460898322712e-05,
      "loss": 0.4483,
      "step": 276
    },
    {
      "epoch": 2.737230769230769,
      "grad_norm": 1.3984375,
      "learning_rate": 2.219518805615724e-05,
      "loss": 0.4855,
      "step": 278
    },
    {
      "epoch": 2.756923076923077,
      "grad_norm": 1.296875,
      "learning_rate": 2.1876230191778598e-05,
      "loss": 0.4663,
      "step": 280
    },
    {
      "epoch": 2.7766153846153845,
      "grad_norm": 1.109375,
      "learning_rate": 2.155778804869721e-05,
      "loss": 0.5065,
      "step": 282
    },
    {
      "epoch": 2.796307692307692,
      "grad_norm": 1.25,
      "learning_rate": 2.123991420037565e-05,
      "loss": 0.4757,
      "step": 284
    },
    {
      "epoch": 2.816,
      "grad_norm": 1.359375,
      "learning_rate": 2.0922661126453432e-05,
      "loss": 0.4768,
      "step": 286
    },
    {
      "epoch": 2.835692307692308,
      "grad_norm": 1.265625,
      "learning_rate": 2.0606081204082797e-05,
      "loss": 0.4383,
      "step": 288
    },
    {
      "epoch": 2.855384615384615,
      "grad_norm": 1.5625,
      "learning_rate": 2.02902266992815e-05,
      "loss": 0.4976,
      "step": 290
    },
    {
      "epoch": 2.8750769230769233,
      "grad_norm": 1.078125,
      "learning_rate": 1.9975149758303883e-05,
      "loss": 0.4871,
      "step": 292
    },
    {
      "epoch": 2.8947692307692305,
      "grad_norm": 1.3125,
      "learning_rate": 1.9660902399031782e-05,
      "loss": 0.4807,
      "step": 294
    },
    {
      "epoch": 2.9144615384615387,
      "grad_norm": 1.4765625,
      "learning_rate": 1.9347536502386553e-05,
      "loss": 0.4544,
      "step": 296
    },
    {
      "epoch": 2.934153846153846,
      "grad_norm": 1.2109375,
      "learning_rate": 1.9035103803763792e-05,
      "loss": 0.4924,
      "step": 298
    },
    {
      "epoch": 2.953846153846154,
      "grad_norm": 1.3828125,
      "learning_rate": 1.8723655884491982e-05,
      "loss": 0.4846,
      "step": 300
    },
    {
      "epoch": 2.9735384615384617,
      "grad_norm": 1.21875,
      "learning_rate": 1.8413244163316696e-05,
      "loss": 0.4921,
      "step": 302
    },
    {
      "epoch": 2.9932307692307694,
      "grad_norm": 1.3359375,
      "learning_rate": 1.8103919887911526e-05,
      "loss": 0.4728,
      "step": 304
    },
    {
      "epoch": 3.012923076923077,
      "grad_norm": 1.109375,
      "learning_rate": 1.7795734126417326e-05,
      "loss": 0.4531,
      "step": 306
    },
    {
      "epoch": 3.0326153846153847,
      "grad_norm": 1.328125,
      "learning_rate": 1.7488737759011105e-05,
      "loss": 0.4468,
      "step": 308
    },
    {
      "epoch": 3.0523076923076924,
      "grad_norm": 1.234375,
      "learning_rate": 1.718298146950585e-05,
      "loss": 0.4727,
      "step": 310
    },
    {
      "epoch": 3.072,
      "grad_norm": 1.09375,
      "learning_rate": 1.6878515736982915e-05,
      "loss": 0.4429,
      "step": 312
    },
    {
      "epoch": 3.0916923076923077,
      "grad_norm": 1.1484375,
      "learning_rate": 1.657539082745811e-05,
      "loss": 0.4304,
      "step": 314
    },
    {
      "epoch": 3.1113846153846154,
      "grad_norm": 1.125,
      "learning_rate": 1.6273656785582986e-05,
      "loss": 0.4814,
      "step": 316
    },
    {
      "epoch": 3.131076923076923,
      "grad_norm": 1.0625,
      "learning_rate": 1.597336342638266e-05,
      "loss": 0.411,
      "step": 318
    },
    {
      "epoch": 3.1507692307692308,
      "grad_norm": 1.40625,
      "learning_rate": 1.5674560327031613e-05,
      "loss": 0.4318,
      "step": 320
    },
    {
      "epoch": 3.1704615384615384,
      "grad_norm": 1.5703125,
      "learning_rate": 1.5377296818668638e-05,
      "loss": 0.4685,
      "step": 322
    },
    {
      "epoch": 3.190153846153846,
      "grad_norm": 1.109375,
      "learning_rate": 1.5081621978252548e-05,
      "loss": 0.423,
      "step": 324
    },
    {
      "epoch": 3.209846153846154,
      "grad_norm": 1.2734375,
      "learning_rate": 1.47875846204597e-05,
      "loss": 0.4587,
      "step": 326
    },
    {
      "epoch": 3.2295384615384615,
      "grad_norm": 1.078125,
      "learning_rate": 1.449523328962496e-05,
      "loss": 0.4341,
      "step": 328
    },
    {
      "epoch": 3.249230769230769,
      "grad_norm": 1.140625,
      "learning_rate": 1.420461625172721e-05,
      "loss": 0.4596,
      "step": 330
    },
    {
      "epoch": 3.268923076923077,
      "grad_norm": 1.3828125,
      "learning_rate": 1.3915781486420848e-05,
      "loss": 0.4357,
      "step": 332
    },
    {
      "epoch": 3.2886153846153845,
      "grad_norm": 1.2421875,
      "learning_rate": 1.3628776679114517e-05,
      "loss": 0.4672,
      "step": 334
    },
    {
      "epoch": 3.308307692307692,
      "grad_norm": 1.34375,
      "learning_rate": 1.3343649213098486e-05,
      "loss": 0.4494,
      "step": 336
    },
    {
      "epoch": 3.328,
      "grad_norm": 1.296875,
      "learning_rate": 1.3060446161721855e-05,
      "loss": 0.4619,
      "step": 338
    },
    {
      "epoch": 3.3476923076923075,
      "grad_norm": 1.171875,
      "learning_rate": 1.277921428062091e-05,
      "loss": 0.4561,
      "step": 340
    },
    {
      "epoch": 3.367384615384615,
      "grad_norm": 1.1484375,
      "learning_rate": 1.2500000000000006e-05,
      "loss": 0.4275,
      "step": 342
    },
    {
      "epoch": 3.387076923076923,
      "grad_norm": 1.390625,
      "learning_rate": 1.2222849416966117e-05,
      "loss": 0.4704,
      "step": 344
    },
    {
      "epoch": 3.406769230769231,
      "grad_norm": 1.296875,
      "learning_rate": 1.1947808287918404e-05,
      "loss": 0.4283,
      "step": 346
    },
    {
      "epoch": 3.4264615384615382,
      "grad_norm": 1.1953125,
      "learning_rate": 1.1674922020994022e-05,
      "loss": 0.4346,
      "step": 348
    },
    {
      "epoch": 3.4461538461538463,
      "grad_norm": 1.203125,
      "learning_rate": 1.14042356685714e-05,
      "loss": 0.4613,
      "step": 350
    },
    {
      "epoch": 3.465846153846154,
      "grad_norm": 1.3046875,
      "learning_rate": 1.1135793919832336e-05,
      "loss": 0.4634,
      "step": 352
    },
    {
      "epoch": 3.4855384615384617,
      "grad_norm": 1.3828125,
      "learning_rate": 1.0869641093383962e-05,
      "loss": 0.4702,
      "step": 354
    },
    {
      "epoch": 3.5052307692307694,
      "grad_norm": 1.2578125,
      "learning_rate": 1.0605821129941934e-05,
      "loss": 0.458,
      "step": 356
    },
    {
      "epoch": 3.524923076923077,
      "grad_norm": 1.6796875,
      "learning_rate": 1.0344377585075998e-05,
      "loss": 0.4286,
      "step": 358
    },
    {
      "epoch": 3.5446153846153847,
      "grad_norm": 1.3125,
      "learning_rate": 1.0085353622019175e-05,
      "loss": 0.46,
      "step": 360
    },
    {
      "epoch": 3.5643076923076924,
      "grad_norm": 1.25,
      "learning_rate": 9.82879200454167e-06,
      "loss": 0.4323,
      "step": 362
    },
    {
      "epoch": 3.584,
      "grad_norm": 1.3125,
      "learning_rate": 9.574735089890766e-06,
      "loss": 0.4452,
      "step": 364
    },
    {
      "epoch": 3.6036923076923078,
      "grad_norm": 1.2734375,
      "learning_rate": 9.323224821797782e-06,
      "loss": 0.4605,
      "step": 366
    },
    {
      "epoch": 3.6233846153846154,
      "grad_norm": 1.09375,
      "learning_rate": 9.074302723553398e-06,
      "loss": 0.4871,
      "step": 368
    },
    {
      "epoch": 3.643076923076923,
      "grad_norm": 1.21875,
      "learning_rate": 8.8280098911523e-06,
      "loss": 0.4801,
      "step": 370
    },
    {
      "epoch": 3.6627692307692308,
      "grad_norm": 1.15625,
      "learning_rate": 8.584386986508388e-06,
      "loss": 0.4666,
      "step": 372
    },
    {
      "epoch": 3.6824615384615385,
      "grad_norm": 1.4296875,
      "learning_rate": 8.343474230741715e-06,
      "loss": 0.4404,
      "step": 374
    },
    {
      "epoch": 3.702153846153846,
      "grad_norm": 1.1484375,
      "learning_rate": 8.105311397538085e-06,
      "loss": 0.4526,
      "step": 376
    },
    {
      "epoch": 3.721846153846154,
      "grad_norm": 1.4296875,
      "learning_rate": 7.869937806582642e-06,
      "loss": 0.4433,
      "step": 378
    },
    {
      "epoch": 3.7415384615384615,
      "grad_norm": 1.1484375,
      "learning_rate": 7.63739231706833e-06,
      "loss": 0.4287,
      "step": 380
    },
    {
      "epoch": 3.761230769230769,
      "grad_norm": 1.40625,
      "learning_rate": 7.407713321280377e-06,
      "loss": 0.465,
      "step": 382
    },
    {
      "epoch": 3.780923076923077,
      "grad_norm": 1.203125,
      "learning_rate": 7.180938738257944e-06,
      "loss": 0.445,
      "step": 384
    },
    {
      "epoch": 3.8006153846153845,
      "grad_norm": 1.3203125,
      "learning_rate": 6.957106007533826e-06,
      "loss": 0.4544,
      "step": 386
    },
    {
      "epoch": 3.820307692307692,
      "grad_norm": 1.15625,
      "learning_rate": 6.736252082953307e-06,
      "loss": 0.4508,
      "step": 388
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.3671875,
      "learning_rate": 6.5184134265733e-06,
      "loss": 0.4575,
      "step": 390
    },
    {
      "epoch": 3.8596923076923075,
      "grad_norm": 1.28125,
      "learning_rate": 6.303626002642554e-06,
      "loss": 0.4432,
      "step": 392
    },
    {
      "epoch": 3.879384615384615,
      "grad_norm": 1.34375,
      "learning_rate": 6.091925271664156e-06,
      "loss": 0.4614,
      "step": 394
    },
    {
      "epoch": 3.8990769230769233,
      "grad_norm": 1.0625,
      "learning_rate": 5.883346184541128e-06,
      "loss": 0.4645,
      "step": 396
    },
    {
      "epoch": 3.9187692307692306,
      "grad_norm": 1.234375,
      "learning_rate": 5.67792317680616e-06,
      "loss": 0.4533,
      "step": 398
    },
    {
      "epoch": 3.9384615384615387,
      "grad_norm": 1.2421875,
      "learning_rate": 5.475690162936489e-06,
      "loss": 0.4232,
      "step": 400
    },
    {
      "epoch": 3.958153846153846,
      "grad_norm": 2.046875,
      "learning_rate": 5.27668053075474e-06,
      "loss": 0.4266,
      "step": 402
    },
    {
      "epoch": 3.977846153846154,
      "grad_norm": 1.2890625,
      "learning_rate": 5.0809271359167215e-06,
      "loss": 0.4529,
      "step": 404
    },
    {
      "epoch": 3.9975384615384613,
      "grad_norm": 1.40625,
      "learning_rate": 4.888462296487128e-06,
      "loss": 0.4429,
      "step": 406
    },
    {
      "epoch": 4.017230769230769,
      "grad_norm": 1.109375,
      "learning_rate": 4.699317787603927e-06,
      "loss": 0.4537,
      "step": 408
    },
    {
      "epoch": 4.036923076923077,
      "grad_norm": 1.3046875,
      "learning_rate": 4.513524836232458e-06,
      "loss": 0.4659,
      "step": 410
    },
    {
      "epoch": 4.056615384615385,
      "grad_norm": 1.09375,
      "learning_rate": 4.331114116009938e-06,
      "loss": 0.4156,
      "step": 412
    },
    {
      "epoch": 4.076307692307692,
      "grad_norm": 1.3125,
      "learning_rate": 4.152115742181434e-06,
      "loss": 0.4561,
      "step": 414
    },
    {
      "epoch": 4.096,
      "grad_norm": 1.5390625,
      "learning_rate": 3.97655926662791e-06,
      "loss": 0.4438,
      "step": 416
    },
    {
      "epoch": 4.115692307692307,
      "grad_norm": 1.234375,
      "learning_rate": 3.80447367298738e-06,
      "loss": 0.4331,
      "step": 418
    },
    {
      "epoch": 4.135384615384615,
      "grad_norm": 1.1328125,
      "learning_rate": 3.6358873718697726e-06,
      "loss": 0.4261,
      "step": 420
    },
    {
      "epoch": 4.155076923076923,
      "grad_norm": 1.2890625,
      "learning_rate": 3.470828196166523e-06,
      "loss": 0.4629,
      "step": 422
    },
    {
      "epoch": 4.174769230769231,
      "grad_norm": 1.1875,
      "learning_rate": 3.3093233964554466e-06,
      "loss": 0.4271,
      "step": 424
    },
    {
      "epoch": 4.194461538461539,
      "grad_norm": 1.2578125,
      "learning_rate": 3.151399636501773e-06,
      "loss": 0.4229,
      "step": 426
    },
    {
      "epoch": 4.214153846153846,
      "grad_norm": 1.28125,
      "learning_rate": 2.997082988856087e-06,
      "loss": 0.4504,
      "step": 428
    },
    {
      "epoch": 4.233846153846154,
      "grad_norm": 1.4921875,
      "learning_rate": 2.8463989305498596e-06,
      "loss": 0.428,
      "step": 430
    },
    {
      "epoch": 4.2535384615384615,
      "grad_norm": 1.3125,
      "learning_rate": 2.699372338889297e-06,
      "loss": 0.4399,
      "step": 432
    },
    {
      "epoch": 4.27323076923077,
      "grad_norm": 1.2890625,
      "learning_rate": 2.5560274873481975e-06,
      "loss": 0.4375,
      "step": 434
    },
    {
      "epoch": 4.292923076923077,
      "grad_norm": 1.1875,
      "learning_rate": 2.416388041560491e-06,
      "loss": 0.4231,
      "step": 436
    },
    {
      "epoch": 4.312615384615385,
      "grad_norm": 1.2578125,
      "learning_rate": 2.2804770554131686e-06,
      "loss": 0.4409,
      "step": 438
    },
    {
      "epoch": 4.332307692307692,
      "grad_norm": 1.25,
      "learning_rate": 2.1483169672401686e-06,
      "loss": 0.4693,
      "step": 440
    },
    {
      "epoch": 4.352,
      "grad_norm": 1.234375,
      "learning_rate": 2.0199295961178893e-06,
      "loss": 0.4454,
      "step": 442
    },
    {
      "epoch": 4.3716923076923075,
      "grad_norm": 1.40625,
      "learning_rate": 1.895336138262968e-06,
      "loss": 0.4543,
      "step": 444
    },
    {
      "epoch": 4.391384615384616,
      "grad_norm": 1.1015625,
      "learning_rate": 1.7745571635328723e-06,
      "loss": 0.4302,
      "step": 446
    },
    {
      "epoch": 4.411076923076923,
      "grad_norm": 1.125,
      "learning_rate": 1.6576126120299045e-06,
      "loss": 0.4325,
      "step": 448
    },
    {
      "epoch": 4.430769230769231,
      "grad_norm": 1.2734375,
      "learning_rate": 1.5445217908091613e-06,
      "loss": 0.4406,
      "step": 450
    },
    {
      "epoch": 4.450461538461538,
      "grad_norm": 1.21875,
      "learning_rate": 1.4353033706910296e-06,
      "loss": 0.4631,
      "step": 452
    },
    {
      "epoch": 4.470153846153846,
      "grad_norm": 1.15625,
      "learning_rate": 1.3299753831787192e-06,
      "loss": 0.4466,
      "step": 454
    },
    {
      "epoch": 4.489846153846154,
      "grad_norm": 1.4140625,
      "learning_rate": 1.2285552174813225e-06,
      "loss": 0.4379,
      "step": 456
    },
    {
      "epoch": 4.509538461538462,
      "grad_norm": 1.171875,
      "learning_rate": 1.131059617642935e-06,
      "loss": 0.443,
      "step": 458
    },
    {
      "epoch": 4.529230769230769,
      "grad_norm": 1.1796875,
      "learning_rate": 1.0375046797782866e-06,
      "loss": 0.4793,
      "step": 460
    },
    {
      "epoch": 4.548923076923077,
      "grad_norm": 1.3046875,
      "learning_rate": 9.479058494153425e-07,
      "loss": 0.4512,
      "step": 462
    },
    {
      "epoch": 4.568615384615384,
      "grad_norm": 1.1328125,
      "learning_rate": 8.622779189453007e-07,
      "loss": 0.4558,
      "step": 464
    },
    {
      "epoch": 4.588307692307692,
      "grad_norm": 1.3125,
      "learning_rate": 7.806350251804484e-07,
      "loss": 0.4365,
      "step": 466
    },
    {
      "epoch": 4.608,
      "grad_norm": 1.3359375,
      "learning_rate": 7.029906470202046e-07,
      "loss": 0.4499,
      "step": 468
    },
    {
      "epoch": 4.627692307692308,
      "grad_norm": 1.421875,
      "learning_rate": 6.293576032258413e-07,
      "loss": 0.4228,
      "step": 470
    },
    {
      "epoch": 4.647384615384615,
      "grad_norm": 1.3828125,
      "learning_rate": 5.597480503041486e-07,
      "loss": 0.4443,
      "step": 472
    },
    {
      "epoch": 4.667076923076923,
      "grad_norm": 1.375,
      "learning_rate": 4.941734805004289e-07,
      "loss": 0.4462,
      "step": 474
    },
    {
      "epoch": 4.686769230769231,
      "grad_norm": 1.140625,
      "learning_rate": 4.326447199012068e-07,
      "loss": 0.4136,
      "step": 476
    },
    {
      "epoch": 4.7064615384615385,
      "grad_norm": 1.078125,
      "learning_rate": 3.751719266468584e-07,
      "loss": 0.418,
      "step": 478
    },
    {
      "epoch": 4.726153846153846,
      "grad_norm": 1.28125,
      "learning_rate": 3.217645892545695e-07,
      "loss": 0.437,
      "step": 480
    },
    {
      "epoch": 4.745846153846154,
      "grad_norm": 1.234375,
      "learning_rate": 2.724315250518056e-07,
      "loss": 0.4599,
      "step": 482
    },
    {
      "epoch": 4.765538461538462,
      "grad_norm": 1.2578125,
      "learning_rate": 2.271808787206092e-07,
      "loss": 0.4741,
      "step": 484
    },
    {
      "epoch": 4.785230769230769,
      "grad_norm": 1.0625,
      "learning_rate": 1.860201209529483e-07,
      "loss": 0.454,
      "step": 486
    },
    {
      "epoch": 4.804923076923077,
      "grad_norm": 1.2421875,
      "learning_rate": 1.489560472173468e-07,
      "loss": 0.4625,
      "step": 488
    },
    {
      "epoch": 4.8246153846153845,
      "grad_norm": 1.5390625,
      "learning_rate": 1.1599477663696845e-07,
      "loss": 0.443,
      "step": 490
    },
    {
      "epoch": 4.844307692307693,
      "grad_norm": 1.109375,
      "learning_rate": 8.714175097937204e-08,
      "loss": 0.4617,
      "step": 492
    },
    {
      "epoch": 4.864,
      "grad_norm": 1.2578125,
      "learning_rate": 6.240173375811343e-08,
      "loss": 0.4432,
      "step": 494
    },
    {
      "epoch": 4.883692307692308,
      "grad_norm": 1.3125,
      "learning_rate": 4.1778809446302304e-08,
      "loss": 0.4661,
      "step": 496
    },
    {
      "epoch": 4.903384615384615,
      "grad_norm": 1.1953125,
      "learning_rate": 2.5276382802272292e-08,
      "loss": 0.4307,
      "step": 498
    },
    {
      "epoch": 4.923076923076923,
      "grad_norm": 1.2890625,
      "learning_rate": 1.2897178307461067e-08,
      "loss": 0.4554,
      "step": 500
    },
    {
      "epoch": 4.942769230769231,
      "grad_norm": 1.140625,
      "learning_rate": 4.6432397166285e-09,
      "loss": 0.4637,
      "step": 502
    },
    {
      "epoch": 4.962461538461539,
      "grad_norm": 1.3515625,
      "learning_rate": 5.159297204238023e-10,
      "loss": 0.459,
      "step": 504
    }
  ],
  "logging_steps": 2,
  "max_steps": 505,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4919954461790044e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}