Upload 8 files

Browse files

Files changed (8) hide show

README.md +218 -0
adapter_config.json +31 -0
adapter_model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +3421 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,218 @@

+---
+library_name: peft
+base_model: meta-llama/Llama-2-7b-chat-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.7.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "v_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af657105b97d6b886849a312d279641050398587ad2b625cad5a69de7d44ed11
+size 319876032

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cb5e6d359f0ef7050678c1beb0072db5f592740ae33bb124f01dd0a9fabeef6
+size 160736095

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40fb251bc604d5d24acc8f525528d2d5b0bda81f8f27f9cfc970f4d21e43d6ab
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c55751e8017b497a5d70692c134da1472d6b742a78d5b456c2924b6690ed5497
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3421 @@

+{
+  "best_metric": 0.6130674481391907,
+  "best_model_checkpoint": "./agentinstruct_os_env-filtered_v2-sharegpt-out/checkpoint-560",
+  "epoch": 1.9803921568627452,
+  "eval_steps": 140,
+  "global_step": 560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.863,
+      "step": 1
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 1.0282199382781982,
+      "eval_runtime": 198.386,
+      "eval_samples_per_second": 2.808,
+      "eval_steps_per_second": 0.353,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.8378,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 7.142857142857142e-05,
+      "loss": 0.9216,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.523809523809524e-05,
+      "loss": 0.8635,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00011904761904761905,
+      "loss": 0.7866,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014285714285714284,
+      "loss": 0.7888,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.7994,
+      "step": 7
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019047619047619048,
+      "loss": 0.8029,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00021428571428571427,
+      "loss": 0.6334,
+      "step": 9
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002380952380952381,
+      "loss": 0.687,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002619047619047619,
+      "loss": 0.7071,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002857142857142857,
+      "loss": 0.6969,
+      "step": 12
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00030952380952380956,
+      "loss": 0.6407,
+      "step": 13
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.7206,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00035714285714285714,
+      "loss": 0.6571,
+      "step": 15
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00038095238095238096,
+      "loss": 0.6624,
+      "step": 16
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004047619047619048,
+      "loss": 0.6537,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00042857142857142855,
+      "loss": 0.6381,
+      "step": 18
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00045238095238095237,
+      "loss": 0.5956,
+      "step": 19
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004761904761904762,
+      "loss": 0.6249,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0005,
+      "loss": 0.6368,
+      "step": 21
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00049999575350127,
+      "loss": 0.7129,
+      "step": 22
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004999830141493422,
+      "loss": 0.6447,
+      "step": 23
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004999617823769977,
+      "loss": 0.6229,
+      "step": 24
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004999320589055218,
+      "loss": 0.5793,
+      "step": 25
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004998938447446803,
+      "loss": 0.6708,
+      "step": 26
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000499847141192684,
+      "loss": 0.5894,
+      "step": 27
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004997919498361457,
+      "loss": 0.6331,
+      "step": 28
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004997282725500256,
+      "loss": 0.6331,
+      "step": 29
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004996561114975677,
+      "loss": 0.6769,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004995754691302267,
+      "loss": 0.6436,
+      "step": 31
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004994863481875841,
+      "loss": 0.6138,
+      "step": 32
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004993887516972557,
+      "loss": 0.6039,
+      "step": 33
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004992826829747886,
+      "loss": 0.7299,
+      "step": 34
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004991681456235483,
+      "loss": 0.6432,
+      "step": 35
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004990451435345965,
+      "loss": 0.6116,
+      "step": 36
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000498913680886559,
+      "loss": 0.6346,
+      "step": 37
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004987737621454833,
+      "loss": 0.5927,
+      "step": 38
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004986253920646877,
+      "loss": 0.5812,
+      "step": 39
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004984685756845991,
+      "loss": 0.5937,
+      "step": 40
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004983033183325818,
+      "loss": 0.6622,
+      "step": 41
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.000498129625622757,
+      "loss": 0.5578,
+      "step": 42
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004979475034558115,
+      "loss": 0.6567,
+      "step": 43
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.000497756958018798,
+      "loss": 0.5818,
+      "step": 44
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004975579957849238,
+      "loss": 0.6331,
+      "step": 45
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004973506235133322,
+      "loss": 0.6818,
+      "step": 46
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004971348482488718,
+      "loss": 0.6146,
+      "step": 47
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004969106773218577,
+      "loss": 0.536,
+      "step": 48
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004966781183478222,
+      "loss": 0.5789,
+      "step": 49
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004964371792272566,
+      "loss": 0.5943,
+      "step": 50
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004961878681453422,
+      "loss": 0.6709,
+      "step": 51
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004959301935716725,
+      "loss": 0.5814,
+      "step": 52
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004956641642599655,
+      "loss": 0.6365,
+      "step": 53
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004953897892477664,
+      "loss": 0.5948,
+      "step": 54
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004951070778561401,
+      "loss": 0.5721,
+      "step": 55
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004948160396893552,
+      "loss": 0.6116,
+      "step": 56
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004945166846345576,
+      "loss": 0.6379,
+      "step": 57
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004942090228614339,
+      "loss": 0.6734,
+      "step": 58
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004938930648218666,
+      "loss": 0.593,
+      "step": 59
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004935688212495795,
+      "loss": 0.6318,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004932363031597716,
+      "loss": 0.6614,
+      "step": 61
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004928955218487439,
+      "loss": 0.5249,
+      "step": 62
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004925464888935161,
+      "loss": 0.6975,
+      "step": 63
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004921892161514319,
+      "loss": 0.6102,
+      "step": 64
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0004918237157597574,
+      "loss": 0.6337,
+      "step": 65
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000491450000135268,
+      "loss": 0.5722,
+      "step": 66
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004910680819738274,
+      "loss": 0.6372,
+      "step": 67
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000490677974249955,
+      "loss": 0.6206,
+      "step": 68
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004902796902163871,
+      "loss": 0.5946,
+      "step": 69
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004898732434036243,
+      "loss": 0.5578,
+      "step": 70
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0004894586476194739,
+      "loss": 0.6914,
+      "step": 71
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004890359169485795,
+      "loss": 0.6141,
+      "step": 72
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004886050657519433,
+      "loss": 0.5633,
+      "step": 73
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004881661086664376,
+      "loss": 0.5502,
+      "step": 74
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00048771906060430815,
+      "loss": 0.6032,
+      "step": 75
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0004872639367526672,
+      "loss": 0.5921,
+      "step": 76
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00048680075257297753,
+      "loss": 0.6411,
+      "step": 77
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004863295238005274,
+      "loss": 0.5643,
+      "step": 78
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000485850266443896,
+      "loss": 0.5996,
+      "step": 79
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00048536299678440933,
+      "loss": 0.6331,
+      "step": 80
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00048486773137558715,
+      "loss": 0.6552,
+      "step": 81
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00048436448704258106,
+      "loss": 0.5525,
+      "step": 82
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004838532808816024,
+      "loss": 0.6486,
+      "step": 83
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004833341302593417,
+      "loss": 0.5828,
+      "step": 84
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004828070528123786,
+      "loss": 0.5655,
+      "step": 85
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004822720664465827,
+      "loss": 0.6685,
+      "step": 86
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004817291893365054,
+      "loss": 0.5382,
+      "step": 87
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004811784399247625,
+      "loss": 0.5927,
+      "step": 88
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00048061983692140734,
+      "loss": 0.5624,
+      "step": 89
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00048005339930329543,
+      "loss": 0.5469,
+      "step": 90
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0004794791463134399,
+      "loss": 0.5331,
+      "step": 91
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00047889709746035727,
+      "loss": 0.6245,
+      "step": 92
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004783072725174055,
+      "loss": 0.5385,
+      "step": 93
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00047770969152211143,
+      "loss": 0.5714,
+      "step": 94
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00047710437477549054,
+      "loss": 0.5202,
+      "step": 95
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004764913428413572,
+      "loss": 0.5005,
+      "step": 96
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00047587061654562617,
+      "loss": 0.5889,
+      "step": 97
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00047524221697560476,
+      "loss": 0.4823,
+      "step": 98
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004746061654792768,
+      "loss": 0.5695,
+      "step": 99
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004739624836645773,
+      "loss": 0.5772,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004733111933986582,
+      "loss": 0.5324,
+      "step": 101
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.000472652316807146,
+      "loss": 0.5866,
+      "step": 102
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004719858762733894,
+      "loss": 0.5702,
+      "step": 103
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004713118944376995,
+      "loss": 0.6104,
+      "step": 104
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004706303941965803,
+      "loss": 0.628,
+      "step": 105
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004699413987019512,
+      "loss": 0.5598,
+      "step": 106
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004692449313603601,
+      "loss": 0.6371,
+      "step": 107
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004685410158321884,
+      "loss": 0.6538,
+      "step": 108
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00046782967603084736,
+      "loss": 0.5947,
+      "step": 109
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00046711093612196545,
+      "loss": 0.5938,
+      "step": 110
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00046638482052256734,
+      "loss": 0.5982,
+      "step": 111
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00046565135390024513,
+      "loss": 0.5767,
+      "step": 112
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00046491056117231935,
+      "loss": 0.5784,
+      "step": 113
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00046416246750499295,
+      "loss": 0.5581,
+      "step": 114
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004634070983124965,
+      "loss": 0.6195,
+      "step": 115
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004626444792562244,
+      "loss": 0.4939,
+      "step": 116
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00046187463624386356,
+      "loss": 0.6722,
+      "step": 117
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004610975954285129,
+      "loss": 0.5186,
+      "step": 118
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004603133832077953,
+      "loss": 0.5793,
+      "step": 119
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00045952202622296013,
+      "loss": 0.601,
+      "step": 120
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00045872355135797904,
+      "loss": 0.5567,
+      "step": 121
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00045791798573863185,
+      "loss": 0.7046,
+      "step": 122
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0004571053567315857,
+      "loss": 0.5256,
+      "step": 123
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00045628569194346494,
+      "loss": 0.5995,
+      "step": 124
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00045545901921991333,
+      "loss": 0.5806,
+      "step": 125
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00045462536664464835,
+      "loss": 0.5754,
+      "step": 126
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004537847625385069,
+      "loss": 0.5708,
+      "step": 127
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0004529372354584829,
+      "loss": 0.4903,
+      "step": 128
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00045208281419675784,
+      "loss": 0.6224,
+      "step": 129
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00045122152777972213,
+      "loss": 0.541,
+      "step": 130
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00045035340546698916,
+      "loss": 0.5375,
+      "step": 131
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0004494784767504013,
+      "loss": 0.6203,
+      "step": 132
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0004485967713530281,
+      "loss": 0.4937,
+      "step": 133
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00044770831922815634,
+      "loss": 0.5854,
+      "step": 134
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00044681315055827256,
+      "loss": 0.587,
+      "step": 135
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00044591129575403764,
+      "loss": 0.5902,
+      "step": 136
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0004450027854532539,
+      "loss": 0.5616,
+      "step": 137
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0004440876505198241,
+      "loss": 0.52,
+      "step": 138
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0004431659220427028,
+      "loss": 0.6061,
+      "step": 139
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00044223763133484053,
+      "loss": 0.6221,
+      "step": 140
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.63558429479599,
+      "eval_runtime": 198.9919,
+      "eval_samples_per_second": 2.799,
+      "eval_steps_per_second": 0.352,
+      "step": 140
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00044130280993211977,
+      "loss": 0.5824,
+      "step": 141
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0004403614895922836,
+      "loss": 0.5593,
+      "step": 142
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0004394137022938572,
+      "loss": 0.5498,
+      "step": 143
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000438459480235061,
+      "loss": 0.4511,
+      "step": 144
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00043749885583271706,
+      "loss": 0.6089,
+      "step": 145
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0004365318617211479,
+      "loss": 0.5361,
+      "step": 146
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0004355585307510675,
+      "loss": 0.5839,
+      "step": 147
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0004345788959884658,
+      "loss": 0.6201,
+      "step": 148
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0004335929907134849,
+      "loss": 0.5846,
+      "step": 149
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0004326008484192889,
+      "loss": 0.6182,
+      "step": 150
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0004316025028109257,
+      "loss": 0.5627,
+      "step": 151
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00043059798780418227,
+      "loss": 0.5682,
+      "step": 152
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0004295873375244319,
+      "loss": 0.553,
+      "step": 153
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00042857058630547593,
+      "loss": 0.5855,
+      "step": 154
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0004275477686883763,
+      "loss": 0.5767,
+      "step": 155
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00042651891942028277,
+      "loss": 0.6073,
+      "step": 156
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0004254840734532521,
+      "loss": 0.6588,
+      "step": 157
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0004244432659430611,
+      "loss": 0.6238,
+      "step": 158
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.000423396532248012,
+      "loss": 0.5849,
+      "step": 159
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00042234390792773104,
+      "loss": 0.5523,
+      "step": 160
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00042128542874196107,
+      "loss": 0.6036,
+      "step": 161
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0004202211306493462,
+      "loss": 0.5092,
+      "step": 162
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00041915104980621036,
+      "loss": 0.5824,
+      "step": 163
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0004180752225653292,
+      "loss": 0.5954,
+      "step": 164
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00041699368547469474,
+      "loss": 0.6017,
+      "step": 165
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.000415906475276274,
+      "loss": 0.6067,
+      "step": 166
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00041481362890476094,
+      "loss": 0.5795,
+      "step": 167
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0004137151834863213,
+      "loss": 0.5781,
+      "step": 168
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0004126111763373316,
+      "loss": 0.4852,
+      "step": 169
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0004115016449631116,
+      "loss": 0.5648,
+      "step": 170
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00041038662705664977,
+      "loss": 0.5295,
+      "step": 171
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00040926616049732326,
+      "loss": 0.5873,
+      "step": 172
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00040814028334961046,
+      "loss": 0.5378,
+      "step": 173
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00040700903386179846,
+      "loss": 0.5169,
+      "step": 174
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0004058724504646834,
+      "loss": 0.6132,
+      "step": 175
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0004047305717702648,
+      "loss": 0.552,
+      "step": 176
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00040358343657043426,
+      "loss": 0.603,
+      "step": 177
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.000402431083835657,
+      "loss": 0.6098,
+      "step": 178
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0004012735527136484,
+      "loss": 0.5621,
+      "step": 179
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.000400110882528044,
+      "loss": 0.6059,
+      "step": 180
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00039894311277706353,
+      "loss": 0.4741,
+      "step": 181
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00039777028313216917,
+      "loss": 0.5297,
+      "step": 182
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0003965924334367176,
+      "loss": 0.6088,
+      "step": 183
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00039540960370460675,
+      "loss": 0.5557,
+      "step": 184
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0003942218341189163,
+      "loss": 0.5715,
+      "step": 185
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00039302916503054243,
+      "loss": 0.5159,
+      "step": 186
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00039183163695682743,
+      "loss": 0.5934,
+      "step": 187
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0003906292905801828,
+      "loss": 0.5653,
+      "step": 188
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00038942216674670737,
+      "loss": 0.5228,
+      "step": 189
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0003882103064647998,
+      "loss": 0.5935,
+      "step": 190
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0003869937509037653,
+      "loss": 0.6082,
+      "step": 191
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00038577254139241705,
+      "loss": 0.5425,
+      "step": 192
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00038454671941767207,
+      "loss": 0.5189,
+      "step": 193
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0003833163266231421,
+      "loss": 0.5987,
+      "step": 194
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0003820814048077186,
+      "loss": 0.627,
+      "step": 195
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.000380841995924153,
+      "loss": 0.5571,
+      "step": 196
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0003795981420776313,
+      "loss": 0.6027,
+      "step": 197
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0003783498855243436,
+      "loss": 0.5935,
+      "step": 198
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000377097268670049,
+      "loss": 0.5434,
+      "step": 199
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00037584033406863447,
+      "loss": 0.5526,
+      "step": 200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00037457912442066967,
+      "loss": 0.5365,
+      "step": 201
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00037331368257195567,
+      "loss": 0.5107,
+      "step": 202
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0003720440515120703,
+      "loss": 0.5263,
+      "step": 203
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.000370770274372907,
+      "loss": 0.5953,
+      "step": 204
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00036949239442720977,
+      "loss": 0.6457,
+      "step": 205
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0003682104550871031,
+      "loss": 0.624,
+      "step": 206
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0003669244999026173,
+      "loss": 0.5689,
+      "step": 207
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00036563457256020887,
+      "loss": 0.5494,
+      "step": 208
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00036434071688127624,
+      "loss": 0.5659,
+      "step": 209
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00036304297682067144,
+      "loss": 0.5498,
+      "step": 210
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00036174139646520664,
+      "loss": 0.5938,
+      "step": 211
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00036043602003215655,
+      "loss": 0.4765,
+      "step": 212
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00035912689186775595,
+      "loss": 0.5613,
+      "step": 213
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0003578140564456935,
+      "loss": 0.5598,
+      "step": 214
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00035649755836560104,
+      "loss": 0.5731,
+      "step": 215
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0003551774423515378,
+      "loss": 0.5232,
+      "step": 216
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00035385375325047166,
+      "loss": 0.5798,
+      "step": 217
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0003525265360307552,
+      "loss": 0.588,
+      "step": 218
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00035119583578059843,
+      "loss": 0.5125,
+      "step": 219
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0003498616977065368,
+      "loss": 0.5019,
+      "step": 220
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00034852416713189525,
+      "loss": 0.5665,
+      "step": 221
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0003471832894952489,
+      "loss": 0.5772,
+      "step": 222
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00034583911034887925,
+      "loss": 0.5062,
+      "step": 223
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0003444916753572266,
+      "loss": 0.5611,
+      "step": 224
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00034314103029533887,
+      "loss": 0.5059,
+      "step": 225
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00034178722104731617,
+      "loss": 0.5506,
+      "step": 226
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0003404302936047527,
+      "loss": 0.6399,
+      "step": 227
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0003390702940651737,
+      "loss": 0.5479,
+      "step": 228
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00033770726863046967,
+      "loss": 0.571,
+      "step": 229
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0003363412636053269,
+      "loss": 0.5847,
+      "step": 230
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00033497232539565416,
+      "loss": 0.5788,
+      "step": 231
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00033360050050700653,
+      "loss": 0.5877,
+      "step": 232
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00033222583554300497,
+      "loss": 0.6003,
+      "step": 233
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0003308483772037538,
+      "loss": 0.635,
+      "step": 234
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00032946817228425373,
+      "loss": 0.4722,
+      "step": 235
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00032808526767281223,
+      "loss": 0.5363,
+      "step": 236
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00032669971034945077,
+      "loss": 0.5213,
+      "step": 237
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00032531154738430856,
+      "loss": 0.6031,
+      "step": 238
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0003239208259360439,
+      "loss": 0.5493,
+      "step": 239
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0003225275932502315,
+      "loss": 0.4935,
+      "step": 240
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0003211318966577581,
+      "loss": 0.5087,
+      "step": 241
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00031973378357321423,
+      "loss": 0.6433,
+      "step": 242
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0003183333014932833,
+      "loss": 0.6,
+      "step": 243
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0003169304979951284,
+      "loss": 0.5165,
+      "step": 244
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0003155254207347755,
+      "loss": 0.5166,
+      "step": 245
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00031411811744549534,
+      "loss": 0.613,
+      "step": 246
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00031270863593618064,
+      "loss": 0.519,
+      "step": 247
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00031129702408972315,
+      "loss": 0.557,
+      "step": 248
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0003098833298613861,
+      "loss": 0.523,
+      "step": 249
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00030846760127717533,
+      "loss": 0.5623,
+      "step": 250
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0003070498864322081,
+      "loss": 0.4991,
+      "step": 251
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0003056302334890786,
+      "loss": 0.5366,
+      "step": 252
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00030420869067622225,
+      "loss": 0.5112,
+      "step": 253
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00030278530628627707,
+      "loss": 0.5889,
+      "step": 254
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.000301360128674443,
+      "loss": 0.5482,
+      "step": 255
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002999332062568395,
+      "loss": 0.4544,
+      "step": 256
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00029850458750886025,
+      "loss": 0.6034,
+      "step": 257
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002970743209635271,
+      "loss": 0.5452,
+      "step": 258
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00029564245520984046,
+      "loss": 0.5371,
+      "step": 259
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002942090388911291,
+      "loss": 0.547,
+      "step": 260
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00029277412070339784,
+      "loss": 0.5784,
+      "step": 261
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00029133774939367246,
+      "loss": 0.65,
+      "step": 262
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00028989997375834483,
+      "loss": 0.5748,
+      "step": 263
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000288460842641514,
+      "loss": 0.6431,
+      "step": 264
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002870204049333278,
+      "loss": 0.6197,
+      "step": 265
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00028557870956832135,
+      "loss": 0.5406,
+      "step": 266
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002841358055237548,
+      "loss": 0.5561,
+      "step": 267
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00028269174181795,
+      "loss": 0.5431,
+      "step": 268
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002812465675086242,
+      "loss": 0.4532,
+      "step": 269
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00027980033169122453,
+      "loss": 0.5608,
+      "step": 270
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002783530834972594,
+      "loss": 0.5714,
+      "step": 271
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00027690487209262985,
+      "loss": 0.5358,
+      "step": 272
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002754557466759589,
+      "loss": 0.5983,
+      "step": 273
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00027400575647692046,
+      "loss": 0.554,
+      "step": 274
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002725549507545669,
+      "loss": 0.5627,
+      "step": 275
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002711033787956555,
+      "loss": 0.5589,
+      "step": 276
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002696510899129741,
+      "loss": 0.5278,
+      "step": 277
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002681981334436658,
+      "loss": 0.5899,
+      "step": 278
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.000266744558747553,
+      "loss": 0.5495,
+      "step": 279
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00026529041520546073,
+      "loss": 0.623,
+      "step": 280
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6136069893836975,
+      "eval_runtime": 198.4894,
+      "eval_samples_per_second": 2.806,
+      "eval_steps_per_second": 0.353,
+      "step": 280
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002638357522175383,
+      "loss": 0.6154,
+      "step": 281
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002623806192015822,
+      "loss": 0.5743,
+      "step": 282
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00026092506559135636,
+      "loss": 0.6908,
+      "step": 283
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00025946914083491314,
+      "loss": 0.5411,
+      "step": 284
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00025801289439291385,
+      "loss": 0.4812,
+      "step": 285
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00025655637573694754,
+      "loss": 0.496,
+      "step": 286
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002550996343478514,
+      "loss": 0.5207,
+      "step": 287
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00025364271971402893,
+      "loss": 0.5031,
+      "step": 288
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002521856813297694,
+      "loss": 0.5271,
+      "step": 289
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002507285686935659,
+      "loss": 0.518,
+      "step": 290
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00024927143130643416,
+      "loss": 0.5057,
+      "step": 291
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002478143186702307,
+      "loss": 0.5351,
+      "step": 292
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00024635728028597114,
+      "loss": 0.4433,
+      "step": 293
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00024490036565214874,
+      "loss": 0.5077,
+      "step": 294
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00024344362426305253,
+      "loss": 0.5399,
+      "step": 295
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002419871056070862,
+      "loss": 0.4793,
+      "step": 296
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00024053085916508682,
+      "loss": 0.4622,
+      "step": 297
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00023907493440864376,
+      "loss": 0.4974,
+      "step": 298
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002376193807984179,
+      "loss": 0.5253,
+      "step": 299
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00023616424778246173,
+      "loss": 0.4982,
+      "step": 300
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0002347095847945394,
+      "loss": 0.5616,
+      "step": 301
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.000233255441252447,
+      "loss": 0.4371,
+      "step": 302
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0002318018665563342,
+      "loss": 0.4778,
+      "step": 303
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002303489100870259,
+      "loss": 0.4945,
+      "step": 304
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002288966212043445,
+      "loss": 0.5463,
+      "step": 305
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00022744504924543312,
+      "loss": 0.5336,
+      "step": 306
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00022599424352307955,
+      "loss": 0.4718,
+      "step": 307
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0002245442533240412,
+      "loss": 0.5304,
+      "step": 308
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00022309512790737022,
+      "loss": 0.542,
+      "step": 309
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0002216469165027406,
+      "loss": 0.4194,
+      "step": 310
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00022019966830877545,
+      "loss": 0.4644,
+      "step": 311
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00021875343249137585,
+      "loss": 0.5484,
+      "step": 312
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00021730825818205005,
+      "loss": 0.5093,
+      "step": 313
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00021586419447624516,
+      "loss": 0.509,
+      "step": 314
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00021442129043167875,
+      "loss": 0.5271,
+      "step": 315
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00021297959506667226,
+      "loss": 0.4942,
+      "step": 316
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.000211539157358486,
+      "loss": 0.4353,
+      "step": 317
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00021010002624165526,
+      "loss": 0.4904,
+      "step": 318
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00020866225060632758,
+      "loss": 0.5331,
+      "step": 319
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00020722587929660225,
+      "loss": 0.4968,
+      "step": 320
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0002057909611088709,
+      "loss": 0.466,
+      "step": 321
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0002043575447901596,
+      "loss": 0.5048,
+      "step": 322
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00020292567903647295,
+      "loss": 0.4814,
+      "step": 323
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00020149541249113974,
+      "loss": 0.4597,
+      "step": 324
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0002000667937431606,
+      "loss": 0.4713,
+      "step": 325
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00019863987132555706,
+      "loss": 0.4872,
+      "step": 326
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00019721469371372294,
+      "loss": 0.5875,
+      "step": 327
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00019579130932377773,
+      "loss": 0.5324,
+      "step": 328
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00019436976651092142,
+      "loss": 0.5202,
+      "step": 329
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00019295011356779194,
+      "loss": 0.5041,
+      "step": 330
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00019153239872282468,
+      "loss": 0.5868,
+      "step": 331
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.000190116670138614,
+      "loss": 0.5245,
+      "step": 332
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018870297591027692,
+      "loss": 0.5102,
+      "step": 333
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018729136406381937,
+      "loss": 0.5316,
+      "step": 334
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018588188255450467,
+      "loss": 0.5335,
+      "step": 335
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018447457926522453,
+      "loss": 0.5014,
+      "step": 336
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018306950200487165,
+      "loss": 0.4703,
+      "step": 337
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001816666985067167,
+      "loss": 0.4909,
+      "step": 338
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001802662164267858,
+      "loss": 0.4592,
+      "step": 339
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001788681033422419,
+      "loss": 0.4392,
+      "step": 340
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00017747240674976855,
+      "loss": 0.4714,
+      "step": 341
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00017607917406395625,
+      "loss": 0.5095,
+      "step": 342
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001746884526156915,
+      "loss": 0.4739,
+      "step": 343
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00017330028965054924,
+      "loss": 0.4514,
+      "step": 344
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00017191473232718775,
+      "loss": 0.5462,
+      "step": 345
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017053182771574634,
+      "loss": 0.4647,
+      "step": 346
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00016915162279624625,
+      "loss": 0.4706,
+      "step": 347
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00016777416445699507,
+      "loss": 0.4885,
+      "step": 348
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001663994994929936,
+      "loss": 0.4365,
+      "step": 349
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00016502767460434587,
+      "loss": 0.5016,
+      "step": 350
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016365873639467314,
+      "loss": 0.4837,
+      "step": 351
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016229273136953026,
+      "loss": 0.4126,
+      "step": 352
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016092970593482636,
+      "loss": 0.5363,
+      "step": 353
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0001595697063952473,
+      "loss": 0.5038,
+      "step": 354
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00015821277895268382,
+      "loss": 0.4651,
+      "step": 355
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0001568589697046612,
+      "loss": 0.4944,
+      "step": 356
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001555083246427734,
+      "loss": 0.4825,
+      "step": 357
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00015416088965112073,
+      "loss": 0.4307,
+      "step": 358
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00015281671050475104,
+      "loss": 0.4316,
+      "step": 359
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00015147583286810484,
+      "loss": 0.5455,
+      "step": 360
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00015013830229346326,
+      "loss": 0.4345,
+      "step": 361
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00014880416421940155,
+      "loss": 0.5216,
+      "step": 362
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00014747346396924482,
+      "loss": 0.4518,
+      "step": 363
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001461462467495284,
+      "loss": 0.5116,
+      "step": 364
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00014482255764846226,
+      "loss": 0.5125,
+      "step": 365
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00014350244163439891,
+      "loss": 0.5778,
+      "step": 366
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00014218594355430646,
+      "loss": 0.4964,
+      "step": 367
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00014087310813224414,
+      "loss": 0.5371,
+      "step": 368
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001395639799678435,
+      "loss": 0.4608,
+      "step": 369
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013825860353479337,
+      "loss": 0.4868,
+      "step": 370
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013695702317932862,
+      "loss": 0.5318,
+      "step": 371
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0001356592831187238,
+      "loss": 0.4313,
+      "step": 372
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013436542743979125,
+      "loss": 0.525,
+      "step": 373
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013307550009738266,
+      "loss": 0.386,
+      "step": 374
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013178954491289692,
+      "loss": 0.4689,
+      "step": 375
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013050760557279024,
+      "loss": 0.465,
+      "step": 376
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00012922972562709302,
+      "loss": 0.4812,
+      "step": 377
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00012795594848792973,
+      "loss": 0.4999,
+      "step": 378
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001266863174280443,
+      "loss": 0.4398,
+      "step": 379
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001254208755793304,
+      "loss": 0.5315,
+      "step": 380
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00012415966593136546,
+      "loss": 0.4359,
+      "step": 381
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.000122902731329951,
+      "loss": 0.5416,
+      "step": 382
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00012165011447565636,
+      "loss": 0.4697,
+      "step": 383
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00012040185792236874,
+      "loss": 0.4389,
+      "step": 384
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00011915800407584704,
+      "loss": 0.5152,
+      "step": 385
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00011791859519228137,
+      "loss": 0.5661,
+      "step": 386
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00011668367337685793,
+      "loss": 0.47,
+      "step": 387
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00011545328058232798,
+      "loss": 0.5173,
+      "step": 388
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00011422745860758296,
+      "loss": 0.5436,
+      "step": 389
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00011300624909623464,
+      "loss": 0.495,
+      "step": 390
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00011178969353520019,
+      "loss": 0.4903,
+      "step": 391
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00011057783325329268,
+      "loss": 0.5159,
+      "step": 392
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00010937070941981722,
+      "loss": 0.5128,
+      "step": 393
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00010816836304317263,
+      "loss": 0.4602,
+      "step": 394
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00010697083496945764,
+      "loss": 0.445,
+      "step": 395
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00010577816588108377,
+      "loss": 0.5254,
+      "step": 396
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00010459039629539332,
+      "loss": 0.4894,
+      "step": 397
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00010340756656328244,
+      "loss": 0.5055,
+      "step": 398
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00010222971686783088,
+      "loss": 0.4607,
+      "step": 399
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00010105688722293644,
+      "loss": 0.4432,
+      "step": 400
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 9.988911747195604e-05,
+      "loss": 0.4167,
+      "step": 401
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 9.872644728635166e-05,
+      "loss": 0.5107,
+      "step": 402
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 9.756891616434302e-05,
+      "loss": 0.606,
+      "step": 403
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 9.641656342956576e-05,
+      "loss": 0.4947,
+      "step": 404
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.526942822973523e-05,
+      "loss": 0.5628,
+      "step": 405
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.412754953531663e-05,
+      "loss": 0.4475,
+      "step": 406
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.299096613820152e-05,
+      "loss": 0.5077,
+      "step": 407
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 9.185971665038959e-05,
+      "loss": 0.4719,
+      "step": 408
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 9.073383950267683e-05,
+      "loss": 0.4542,
+      "step": 409
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.96133729433502e-05,
+      "loss": 0.4706,
+      "step": 410
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.849835503688847e-05,
+      "loss": 0.4846,
+      "step": 411
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.738882366266848e-05,
+      "loss": 0.4589,
+      "step": 412
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.628481651367875e-05,
+      "loss": 0.5083,
+      "step": 413
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.518637109523899e-05,
+      "loss": 0.5076,
+      "step": 414
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.409352472372595e-05,
+      "loss": 0.4556,
+      "step": 415
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.30063145253053e-05,
+      "loss": 0.4898,
+      "step": 416
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.192477743467078e-05,
+      "loss": 0.4479,
+      "step": 417
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.084895019378965e-05,
+      "loss": 0.5159,
+      "step": 418
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.97788693506539e-05,
+      "loss": 0.5399,
+      "step": 419
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.871457125803897e-05,
+      "loss": 0.4997,
+      "step": 420
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.6151015758514404,
+      "eval_runtime": 198.8239,
+      "eval_samples_per_second": 2.801,
+      "eval_steps_per_second": 0.352,
+      "step": 420
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.7656092072269e-05,
+      "loss": 0.4932,
+      "step": 421
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.660346775198809e-05,
+      "loss": 0.5201,
+      "step": 422
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.555673405693886e-05,
+      "loss": 0.4777,
+      "step": 423
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.451592654674786e-05,
+      "loss": 0.5305,
+      "step": 424
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.348108057971728e-05,
+      "loss": 0.5176,
+      "step": 425
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.245223131162376e-05,
+      "loss": 0.5056,
+      "step": 426
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.142941369452411e-05,
+      "loss": 0.4603,
+      "step": 427
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.041266247556813e-05,
+      "loss": 0.4812,
+      "step": 428
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 6.940201219581788e-05,
+      "loss": 0.517,
+      "step": 429
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.839749718907428e-05,
+      "loss": 0.5618,
+      "step": 430
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.739915158071106e-05,
+      "loss": 0.5113,
+      "step": 431
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.640700928651508e-05,
+      "loss": 0.5053,
+      "step": 432
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.542110401153426e-05,
+      "loss": 0.4828,
+      "step": 433
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.444146924893252e-05,
+      "loss": 0.4571,
+      "step": 434
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.346813827885218e-05,
+      "loss": 0.4938,
+      "step": 435
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.250114416728297e-05,
+      "loss": 0.4745,
+      "step": 436
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.154051976493898e-05,
+      "loss": 0.4098,
+      "step": 437
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.058629770614274e-05,
+      "loss": 0.5036,
+      "step": 438
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 5.96385104077164e-05,
+      "loss": 0.466,
+      "step": 439
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 5.869719006788032e-05,
+      "loss": 0.5415,
+      "step": 440
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.776236866515946e-05,
+      "loss": 0.5179,
+      "step": 441
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.6834077957297225e-05,
+      "loss": 0.5271,
+      "step": 442
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.5912349480175955e-05,
+      "loss": 0.448,
+      "step": 443
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 5.499721454674608e-05,
+      "loss": 0.4831,
+      "step": 444
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 5.4088704245962376e-05,
+      "loss": 0.5227,
+      "step": 445
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 5.3186849441727524e-05,
+      "loss": 0.4825,
+      "step": 446
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.229168077184365e-05,
+      "loss": 0.3757,
+      "step": 447
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.1403228646971835e-05,
+      "loss": 0.4671,
+      "step": 448
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.052152324959866e-05,
+      "loss": 0.4731,
+      "step": 449
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 4.9646594533010875e-05,
+      "loss": 0.4625,
+      "step": 450
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 4.877847222027787e-05,
+      "loss": 0.4626,
+      "step": 451
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.79171858032422e-05,
+      "loss": 0.4639,
+      "step": 452
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.706276454151717e-05,
+      "loss": 0.5474,
+      "step": 453
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.621523746149317e-05,
+      "loss": 0.4318,
+      "step": 454
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.537463335535161e-05,
+      "loss": 0.4204,
+      "step": 455
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.454098078008667e-05,
+      "loss": 0.4811,
+      "step": 456
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.3714308056535144e-05,
+      "loss": 0.4637,
+      "step": 457
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.289464326841433e-05,
+      "loss": 0.4446,
+      "step": 458
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.208201426136818e-05,
+      "loss": 0.4835,
+      "step": 459
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.1276448642021045e-05,
+      "loss": 0.5123,
+      "step": 460
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.047797377703985e-05,
+      "loss": 0.4797,
+      "step": 461
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 3.968661679220467e-05,
+      "loss": 0.4424,
+      "step": 462
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 3.890240457148711e-05,
+      "loss": 0.5405,
+      "step": 463
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3.8125363756136484e-05,
+      "loss": 0.4412,
+      "step": 464
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3.7355520743775626e-05,
+      "loss": 0.4988,
+      "step": 465
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.6592901687503564e-05,
+      "loss": 0.4874,
+      "step": 466
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.583753249500707e-05,
+      "loss": 0.4893,
+      "step": 467
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.508943882768065e-05,
+      "loss": 0.4555,
+      "step": 468
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.43486460997548e-05,
+      "loss": 0.4939,
+      "step": 469
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.361517947743265e-05,
+      "loss": 0.4607,
+      "step": 470
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.288906387803464e-05,
+      "loss": 0.5049,
+      "step": 471
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.217032396915265e-05,
+      "loss": 0.4791,
+      "step": 472
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.1458984167811594e-05,
+      "loss": 0.4995,
+      "step": 473
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.0755068639639924e-05,
+      "loss": 0.4018,
+      "step": 474
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3.005860129804877e-05,
+      "loss": 0.4718,
+      "step": 475
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 2.9369605803419713e-05,
+      "loss": 0.4302,
+      "step": 476
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 2.8688105562300587e-05,
+      "loss": 0.5425,
+      "step": 477
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.8014123726610635e-05,
+      "loss": 0.4779,
+      "step": 478
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.7347683192853995e-05,
+      "loss": 0.5093,
+      "step": 479
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.6688806601341765e-05,
+      "loss": 0.4631,
+      "step": 480
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.603751633542273e-05,
+      "loss": 0.5296,
+      "step": 481
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.5393834520723164e-05,
+      "loss": 0.639,
+      "step": 482
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.4757783024395242e-05,
+      "loss": 0.4798,
+      "step": 483
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.412938345437385e-05,
+      "loss": 0.52,
+      "step": 484
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.3508657158642783e-05,
+      "loss": 0.5141,
+      "step": 485
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.289562522450947e-05,
+      "loss": 0.5019,
+      "step": 486
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.229030847788868e-05,
+      "loss": 0.4782,
+      "step": 487
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.1692727482594542e-05,
+      "loss": 0.518,
+      "step": 488
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.1102902539642725e-05,
+      "loss": 0.4981,
+      "step": 489
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.0520853686560177e-05,
+      "loss": 0.426,
+      "step": 490
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.9946600696704592e-05,
+      "loss": 0.4998,
+      "step": 491
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.9380163078592667e-05,
+      "loss": 0.4775,
+      "step": 492
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.8821560075237444e-05,
+      "loss": 0.4904,
+      "step": 493
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.827081066349459e-05,
+      "loss": 0.4876,
+      "step": 494
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.7727933553417342e-05,
+      "loss": 0.4773,
+      "step": 495
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.719294718762143e-05,
+      "loss": 0.486,
+      "step": 496
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.6665869740658312e-05,
+      "loss": 0.5171,
+      "step": 497
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.6146719118397602e-05,
+      "loss": 0.4989,
+      "step": 498
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.5635512957418914e-05,
+      "loss": 0.4892,
+      "step": 499
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.513226862441286e-05,
+      "loss": 0.5041,
+      "step": 500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.463700321559075e-05,
+      "loss": 0.504,
+      "step": 501
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.4149733556103994e-05,
+      "loss": 0.4338,
+      "step": 502
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.3670476199472537e-05,
+      "loss": 0.5795,
+      "step": 503
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.3199247427022527e-05,
+      "loss": 0.5138,
+      "step": 504
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.273606324733284e-05,
+      "loss": 0.513,
+      "step": 505
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.228093939569186e-05,
+      "loss": 0.4021,
+      "step": 506
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.1833891333562441e-05,
+      "loss": 0.4603,
+      "step": 507
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.1394934248056764e-05,
+      "loss": 0.5092,
+      "step": 508
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.0964083051420464e-05,
+      "loss": 0.4402,
+      "step": 509
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.0541352380526086e-05,
+      "loss": 0.4754,
+      "step": 510
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.0126756596375685e-05,
+      "loss": 0.4785,
+      "step": 511
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 9.720309783612935e-06,
+      "loss": 0.5453,
+      "step": 512
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 9.322025750044871e-06,
+      "loss": 0.4536,
+      "step": 513
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 8.931918026172714e-06,
+      "loss": 0.4639,
+      "step": 514
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 8.54999986473201e-06,
+      "loss": 0.4571,
+      "step": 515
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 8.176284240242638e-06,
+      "loss": 0.4553,
+      "step": 516
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.810783848568066e-06,
+      "loss": 0.5058,
+      "step": 517
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.453511106483902e-06,
+      "loss": 0.4727,
+      "step": 518
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.104478151256005e-06,
+      "loss": 0.5874,
+      "step": 519
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 6.763696840228456e-06,
+      "loss": 0.4752,
+      "step": 520
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 6.4311787504205135e-06,
+      "loss": 0.4508,
+      "step": 521
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 6.1069351781333216e-06,
+      "loss": 0.4929,
+      "step": 522
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 5.790977138566161e-06,
+      "loss": 0.4245,
+      "step": 523
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 5.483315365442443e-06,
+      "loss": 0.4372,
+      "step": 524
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 5.183960310644747e-06,
+      "loss": 0.4755,
+      "step": 525
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 4.892922143859918e-06,
+      "loss": 0.4648,
+      "step": 526
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 4.61021075223364e-06,
+      "loss": 0.465,
+      "step": 527
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 4.335835740034516e-06,
+      "loss": 0.4937,
+      "step": 528
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 4.069806428327522e-06,
+      "loss": 0.486,
+      "step": 529
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.812131854657813e-06,
+      "loss": 0.5037,
+      "step": 530
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.5628207727433912e-06,
+      "loss": 0.4823,
+      "step": 531
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.3218816521777827e-06,
+      "loss": 0.4627,
+      "step": 532
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.0893226781423258e-06,
+      "loss": 0.4894,
+      "step": 533
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.8651517511281697e-06,
+      "loss": 0.4826,
+      "step": 534
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.649376486667743e-06,
+      "loss": 0.4793,
+      "step": 535
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.4420042150761214e-06,
+      "loss": 0.4506,
+      "step": 536
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.2430419812020374e-06,
+      "loss": 0.4904,
+      "step": 537
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.052496544188487e-06,
+      "loss": 0.4514,
+      "step": 538
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.8703743772430782e-06,
+      "loss": 0.5149,
+      "step": 539
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.6966816674182372e-06,
+      "loss": 0.5111,
+      "step": 540
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.531424315400931e-06,
+      "loss": 0.5379,
+      "step": 541
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.374607935312272e-06,
+      "loss": 0.4893,
+      "step": 542
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.2262378545166707e-06,
+      "loss": 0.3815,
+      "step": 543
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.0863191134410643e-06,
+      "loss": 0.4226,
+      "step": 544
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 9.548564654034974e-07,
+      "loss": 0.4907,
+      "step": 545
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 8.318543764516961e-07,
+      "loss": 0.4648,
+      "step": 546
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 7.173170252113559e-07,
+      "loss": 0.5363,
+      "step": 547
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.11248302744255e-07,
+      "loss": 0.5549,
+      "step": 548
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 5.136518124159162e-07,
+      "loss": 0.5403,
+      "step": 549
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 4.2453086977334297e-07,
+      "loss": 0.446,
+      "step": 550
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.4388850243227687e-07,
+      "loss": 0.577,
+      "step": 551
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 2.717274499744182e-07,
+      "loss": 0.4708,
+      "step": 552
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 2.0805016385427867e-07,
+      "loss": 0.462,
+      "step": 553
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.5285880731599755e-07,
+      "loss": 0.3966,
+      "step": 554
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.0615525531978976e-07,
+      "loss": 0.4071,
+      "step": 555
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.794109447824659e-08,
+      "loss": 0.4859,
+      "step": 556
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3.821762300240672e-08,
+      "loss": 0.5478,
+      "step": 557
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.69858506578191e-08,
+      "loss": 0.505,
+      "step": 558
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 4.2464987299595245e-09,
+      "loss": 0.4193,
+      "step": 559
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 0.4168,
+      "step": 560
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.6130674481391907,
+      "eval_runtime": 198.6175,
+      "eval_samples_per_second": 2.804,
+      "eval_steps_per_second": 0.352,
+      "step": 560
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 280,
+  "total_flos": 1.471727602111611e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a0a25f42c874573a7d72b2f014c1738c213fc0e05f60601b6784bfb6210e5aa
+size 4859