Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

config.json +187 -0
preprocessor_config.json +20 -0
pytorch_model-00001-of-00004.bin +3 -0
pytorch_model-00002-of-00004.bin +3 -0
pytorch_model-00003-of-00004.bin +3 -0
pytorch_model-00004-of-00004.bin +3 -0
pytorch_model.bin.index.json +869 -0
special_tokens_map.json +24 -0
tokenizer.model +3 -0
tokenizer_config.json +42 -0
trainer_state.json +4230 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,187 @@

+{
+  "_name_or_path": "MAGAer13/mplug-owl2-llama2-7b",
+  "architectures": [
+    "MPLUGOwl2LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "freeze_vision_model": false,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "image_aspect_ratio": "pad",
+  "image_grid_pinpoints": null,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 2048,
+  "model_type": "mplug_owl2",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.36.1",
+  "tune_visual_abstractor": true,
+  "use_cache": true,
+  "visual_abstractor_lr": null,
+  "visual_config": {
+    "visual_abstractor": {
+      "_name_or_path": "",
+      "add_cross_attention": false,
+      "architectures": null,
+      "attention_probs_dropout_prob": 0.0,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": null,
+      "chunk_size_feed_forward": 0,
+      "cross_attention_hidden_size": null,
+      "decoder_start_token_id": null,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "early_stopping": false,
+      "encoder_hidden_size": 1024,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": null,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "grid_size": 32,
+      "hidden_size": 1024,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "initializer_range": 0.02,
+      "intermediate_size": 2816,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "layer_norm_eps": 1e-06,
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "min_length": 0,
+      "model_type": "mplug_owl_visual_abstract",
+      "no_repeat_ngram_size": 0,
+      "num_attention_heads": 16,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_hidden_layers": 6,
+      "num_learnable_queries": 64,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "prefix": null,
+      "problem_type": null,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "sep_token_id": null,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": true,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torch_dtype": null,
+      "torchscript": false,
+      "transformers_version": "4.28.1",
+      "typical_p": 1.0,
+      "use_bfloat16": false
+    },
+    "visual_model": {
+      "_name_or_path": "",
+      "add_cross_attention": false,
+      "architectures": null,
+      "attention_dropout": 0.0,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": null,
+      "chunk_size_feed_forward": 0,
+      "cross_attention_hidden_size": null,
+      "decoder_start_token_id": null,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "early_stopping": false,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": null,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "hidden_act": "quick_gelu",
+      "hidden_size": 1024,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "image_size": 448,
+      "initializer_factor": 1.0,
+      "initializer_range": 0.02,
+      "intermediate_size": 4096,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "layer_norm_eps": 1e-06,
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "min_length": 0,
+      "model_type": "mplug_owl_vision_model",
+      "no_repeat_ngram_size": 0,
+      "num_attention_heads": 16,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_channels": 3,
+      "num_hidden_layers": 24,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "patch_size": 14,
+      "prefix": null,
+      "problem_type": null,
+      "projection_dim": 768,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "sep_token_id": null,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": true,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torch_dtype": null,
+      "torchscript": false,
+      "transformers_version": "4.28.1",
+      "typical_p": 1.0,
+      "use_bfloat16": false,
+      "use_flash_attn": false
+    }
+  },
+  "vocab_size": 32000
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "crop_size": 448,
+  "do_center_crop": true,
+  "do_normalize": true,
+  "do_resize": true,
+  "feature_extractor_type": "CLIPFeatureExtractor",
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "resample": 3,
+  "size": 448
+}

pytorch_model-00001-of-00004.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed8122250227df70b6db31033ac569b1eff18c190b1f4e11c20558470296f488
+size 4981108780

pytorch_model-00002-of-00004.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d784cfd3138bbcfafa3108f7c3ac13b8d49703ae0e709a206770237689d787d
+size 4920293259

pytorch_model-00003-of-00004.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a24467f8dcd72d610a35a5e353920952b2e6056d40435dc4f6ef2abe7d35c70
+size 4989532454

pytorch_model-00004-of-00004.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b52854fd07e4d4d55df3970f5d75f984e0164707dc2477b92b69e46f92d0238
+size 1518469929

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,869 @@

+{
+  "metadata": {
+    "total_size": 16409100288
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00004-of-00004.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.10.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.input_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.input_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.post_attention_layernorm.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.post_attention_layernorm.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.2.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.20.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.k_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.20.self_attn.k_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.20.self_attn.v_proj.multiway.0.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.20.self_attn.v_proj.multiway.1.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.21.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.28.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.29.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.3.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.30.input_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.input_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.post_attention_layernorm.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.post_attention_layernorm.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.k_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.k_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.v_proj.multiway.0.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.30.self_attn.v_proj.multiway.1.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.31.input_layernorm.multiway.0.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.input_layernorm.multiway.1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.post_attention_layernorm.multiway.0.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.post_attention_layernorm.multiway.1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.k_proj.multiway.0.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.k_proj.multiway.1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.v_proj.multiway.0.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.31.self_attn.v_proj.multiway.1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.layers.4.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.input_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.input_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.post_attention_layernorm.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.post_attention_layernorm.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.k_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.k_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.v_proj.multiway.0.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.9.self_attn.v_proj.multiway.1.weight": "pytorch_model-00001-of-00004.bin",
+    "model.norm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.embeddings.cls_token": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.embeddings.patch_embed.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.embeddings.position_embedding": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.embeddings.pre_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.embeddings.pre_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.0.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.1.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.10.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.11.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.12.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.13.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.14.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.15.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.16.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.17.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.18.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.19.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.2.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.20.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.21.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.22.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.23.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.3.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.4.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.5.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.6.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.7.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.8.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.input_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.mlp.fc1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.mlp.fc1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.mlp.fc2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.mlp.fc2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.post_attention_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.self_attn.dense.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.self_attn.dense.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.self_attn.query_key_value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.encoder.layers.9.self_attn.query_key_value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.post_layernorm.bias": "pytorch_model-00004-of-00004.bin",
+    "model.vision_model.post_layernorm.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.0.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.1.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.2.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.3.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.4.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.k_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.key.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.key.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.q_pos_embed": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.query.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.query.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.value.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.attention.value.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.norm1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.norm1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.normk.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.normk.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.ffn_ln.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.ffn_ln.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w1.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w1.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w3.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.mlp.w3.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.norm2.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.norm2.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.out_proj.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.encoder.layers.5.crossattention.output.out_proj.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.query_embeds": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.visual_fc.bias": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.visual_fc.weight": "pytorch_model-00004-of-00004.bin",
+    "model.visual_abstractor.vit_eos": "pytorch_model-00004-of-00004.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,4230 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 700,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.523809523809525e-07,
+      "loss": 0.9682,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.904761904761905e-06,
+      "loss": 1.0391,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 1.0184,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 3.80952380952381e-06,
+      "loss": 0.9074,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.761904761904762e-06,
+      "loss": 0.7204,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.3424,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.2966,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 7.61904761904762e-06,
+      "loss": 0.2079,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 0.1443,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.523809523809525e-06,
+      "loss": 0.1984,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.0476190476190477e-05,
+      "loss": 0.2289,
+      "step": 11
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.1791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.2380952380952383e-05,
+      "loss": 0.1422,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1695,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.1504,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.523809523809524e-05,
+      "loss": 0.1498,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.6190476190476193e-05,
+      "loss": 0.1533,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.7142857142857142e-05,
+      "loss": 0.1885,
+      "step": 18
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.8095238095238097e-05,
+      "loss": 0.1423,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.904761904761905e-05,
+      "loss": 0.1335,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2e-05,
+      "loss": 0.1319,
+      "step": 21
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9999892964109543e-05,
+      "loss": 0.1405,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.999957185872951e-05,
+      "loss": 0.1292,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.9999036690733865e-05,
+      "loss": 0.1346,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.9998287471579036e-05,
+      "loss": 0.1221,
+      "step": 25
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.99973242173037e-05,
+      "loss": 0.1244,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.99961469485284e-05,
+      "loss": 0.1248,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.9994755690455154e-05,
+      "loss": 0.1207,
+      "step": 28
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.9993150472866856e-05,
+      "loss": 0.1265,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.9991331330126698e-05,
+      "loss": 0.1241,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.9989298301177387e-05,
+      "loss": 0.123,
+      "step": 31
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.9987051429540335e-05,
+      "loss": 0.12,
+      "step": 32
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.9984590763314722e-05,
+      "loss": 0.1177,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9981916355176473e-05,
+      "loss": 0.12,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.997902826237712e-05,
+      "loss": 0.1248,
+      "step": 35
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9975926546742573e-05,
+      "loss": 0.1171,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9972611274671815e-05,
+      "loss": 0.1167,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9969082517135463e-05,
+      "loss": 0.1177,
+      "step": 38
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9965340349674262e-05,
+      "loss": 0.12,
+      "step": 39
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9961384852397456e-05,
+      "loss": 0.1212,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.995721610998108e-05,
+      "loss": 0.1179,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.995283421166614e-05,
+      "loss": 0.1165,
+      "step": 42
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.994823925125672e-05,
+      "loss": 0.113,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9943431327117955e-05,
+      "loss": 0.1194,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9938410542173937e-05,
+      "loss": 0.114,
+      "step": 45
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9933177003905494e-05,
+      "loss": 0.119,
+      "step": 46
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9927730824347915e-05,
+      "loss": 0.1158,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.9922072120088537e-05,
+      "loss": 0.1151,
+      "step": 48
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.9916201012264255e-05,
+      "loss": 0.1182,
+      "step": 49
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.9910117626558908e-05,
+      "loss": 0.1149,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.9903822093200625e-05,
+      "loss": 0.1166,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.9897314546959015e-05,
+      "loss": 0.1158,
+      "step": 52
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.989059512714227e-05,
+      "loss": 0.1171,
+      "step": 53
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.988366397759421e-05,
+      "loss": 0.1168,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.9876521246691183e-05,
+      "loss": 0.1139,
+      "step": 55
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.9869167087338908e-05,
+      "loss": 0.1164,
+      "step": 56
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.9861601656969185e-05,
+      "loss": 0.1141,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.9853825117536522e-05,
+      "loss": 0.114,
+      "step": 58
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.9845837635514692e-05,
+      "loss": 0.1151,
+      "step": 59
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.9837639381893137e-05,
+      "loss": 0.1164,
+      "step": 60
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.9829230532173337e-05,
+      "loss": 0.1125,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9820611266365036e-05,
+      "loss": 0.1128,
+      "step": 62
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9811781768982392e-05,
+      "loss": 0.1156,
+      "step": 63
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9802742229040027e-05,
+      "loss": 0.1144,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.979349284004898e-05,
+      "loss": 0.1161,
+      "step": 65
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.978403380001257e-05,
+      "loss": 0.1154,
+      "step": 66
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.9774365311422155e-05,
+      "loss": 0.1111,
+      "step": 67
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.9764487581252787e-05,
+      "loss": 0.1173,
+      "step": 68
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9754400820958798e-05,
+      "loss": 0.1142,
+      "step": 69
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9744105246469264e-05,
+      "loss": 0.1145,
+      "step": 70
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9733601078183377e-05,
+      "loss": 0.1149,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1.9722888540965738e-05,
+      "loss": 0.1142,
+      "step": 72
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1.9711967864141542e-05,
+      "loss": 0.1135,
+      "step": 73
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1.970083928149166e-05,
+      "loss": 0.1149,
+      "step": 74
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1.968950303124765e-05,
+      "loss": 0.1093,
+      "step": 75
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.967795935608663e-05,
+      "loss": 0.1142,
+      "step": 76
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9666208503126115e-05,
+      "loss": 0.1141,
+      "step": 77
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9654250723918706e-05,
+      "loss": 0.1118,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.9642086274446713e-05,
+      "loss": 0.1121,
+      "step": 79
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.962971541511667e-05,
+      "loss": 0.1136,
+      "step": 80
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.961713841075377e-05,
+      "loss": 0.1182,
+      "step": 81
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.9604355530596182e-05,
+      "loss": 0.1138,
+      "step": 82
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.9591367048289297e-05,
+      "loss": 0.114,
+      "step": 83
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.957817324187987e-05,
+      "loss": 0.1149,
+      "step": 84
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.9564774393810068e-05,
+      "loss": 0.1121,
+      "step": 85
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.9551170790911415e-05,
+      "loss": 0.1152,
+      "step": 86
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.953736272439866e-05,
+      "loss": 0.1113,
+      "step": 87
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.9523350489863545e-05,
+      "loss": 0.1092,
+      "step": 88
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.9509134387268463e-05,
+      "loss": 0.1131,
+      "step": 89
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.9494714720940065e-05,
+      "loss": 0.1138,
+      "step": 90
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.9480091799562706e-05,
+      "loss": 0.1169,
+      "step": 91
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.9465265936171875e-05,
+      "loss": 0.1173,
+      "step": 92
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.9450237448147463e-05,
+      "loss": 0.1154,
+      "step": 93
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.9435006657206998e-05,
+      "loss": 0.1151,
+      "step": 94
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.941957388939873e-05,
+      "loss": 0.1166,
+      "step": 95
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.9403939475094664e-05,
+      "loss": 0.1153,
+      "step": 96
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.9388103748983496e-05,
+      "loss": 0.1157,
+      "step": 97
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.937206705006344e-05,
+      "loss": 0.1134,
+      "step": 98
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.9355829721634952e-05,
+      "loss": 0.112,
+      "step": 99
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9339392111293425e-05,
+      "loss": 0.1107,
+      "step": 100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9322754570921713e-05,
+      "loss": 0.1134,
+      "step": 101
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.930591745668259e-05,
+      "loss": 0.108,
+      "step": 102
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9288881129011177e-05,
+      "loss": 0.1107,
+      "step": 103
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.9271645952607164e-05,
+      "loss": 0.1059,
+      "step": 104
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.9254212296427043e-05,
+      "loss": 0.1062,
+      "step": 105
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.92365805336762e-05,
+      "loss": 0.1045,
+      "step": 106
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.921875104180092e-05,
+      "loss": 0.1073,
+      "step": 107
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.9200724202480305e-05,
+      "loss": 0.1071,
+      "step": 108
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.9182500401618122e-05,
+      "loss": 0.111,
+      "step": 109
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.9164080029334517e-05,
+      "loss": 0.1053,
+      "step": 110
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.914546347995768e-05,
+      "loss": 0.1068,
+      "step": 111
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.9126651152015404e-05,
+      "loss": 0.1051,
+      "step": 112
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.9107643448226536e-05,
+      "loss": 0.1014,
+      "step": 113
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.9088440775492386e-05,
+      "loss": 0.0971,
+      "step": 114
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.9069043544887978e-05,
+      "loss": 0.1099,
+      "step": 115
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.904945217165329e-05,
+      "loss": 0.1003,
+      "step": 116
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.9029667075184333e-05,
+      "loss": 0.1041,
+      "step": 117
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.900968867902419e-05,
+      "loss": 0.1097,
+      "step": 118
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.8989517410853956e-05,
+      "loss": 0.1041,
+      "step": 119
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.896915370248355e-05,
+      "loss": 0.0966,
+      "step": 120
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.8948597989842504e-05,
+      "loss": 0.1023,
+      "step": 121
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.8927850712970626e-05,
+      "loss": 0.1037,
+      "step": 122
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.890691231600856e-05,
+      "loss": 0.1021,
+      "step": 123
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.8885783247188305e-05,
+      "loss": 0.1063,
+      "step": 124
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.8864463958823598e-05,
+      "loss": 0.1032,
+      "step": 125
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.8842954907300236e-05,
+      "loss": 0.0982,
+      "step": 126
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.8821256553066326e-05,
+      "loss": 0.103,
+      "step": 127
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8799369360622394e-05,
+      "loss": 0.0964,
+      "step": 128
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8777293798511466e-05,
+      "loss": 0.1024,
+      "step": 129
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8755030339309037e-05,
+      "loss": 0.1063,
+      "step": 130
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8732579459612935e-05,
+      "loss": 0.0967,
+      "step": 131
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8709941640033153e-05,
+      "loss": 0.0943,
+      "step": 132
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8687117365181514e-05,
+      "loss": 0.0932,
+      "step": 133
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8664107123661337e-05,
+      "loss": 0.0993,
+      "step": 134
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8640911408056963e-05,
+      "loss": 0.0995,
+      "step": 135
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.861753071492321e-05,
+      "loss": 0.0981,
+      "step": 136
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.859396554477473e-05,
+      "loss": 0.1041,
+      "step": 137
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8570216402075326e-05,
+      "loss": 0.0976,
+      "step": 138
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.854628379522712e-05,
+      "loss": 0.0956,
+      "step": 139
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8522168236559693e-05,
+      "loss": 0.0985,
+      "step": 140
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8497870242319103e-05,
+      "loss": 0.0995,
+      "step": 141
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.847339033265684e-05,
+      "loss": 0.1016,
+      "step": 142
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.8448729031618687e-05,
+      "loss": 0.0901,
+      "step": 143
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.842388686713351e-05,
+      "loss": 0.0951,
+      "step": 144
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.8398864371001945e-05,
+      "loss": 0.1018,
+      "step": 145
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.8373662078885028e-05,
+      "loss": 0.0982,
+      "step": 146
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.8348280530292712e-05,
+      "loss": 0.0956,
+      "step": 147
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.8322720268572333e-05,
+      "loss": 0.0992,
+      "step": 148
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.829698184089695e-05,
+      "loss": 0.086,
+      "step": 149
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.8271065798253688e-05,
+      "loss": 0.103,
+      "step": 150
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.8244972695431874e-05,
+      "loss": 0.0894,
+      "step": 151
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.8218703091011214e-05,
+      "loss": 0.0954,
+      "step": 152
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.8192257547349805e-05,
+      "loss": 0.1016,
+      "step": 153
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.816563663057211e-05,
+      "loss": 0.1004,
+      "step": 154
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.8138840910556836e-05,
+      "loss": 0.102,
+      "step": 155
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.8111870960924733e-05,
+      "loss": 0.0996,
+      "step": 156
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.8084727359026316e-05,
+      "loss": 0.092,
+      "step": 157
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.8057410685929505e-05,
+      "loss": 0.0948,
+      "step": 158
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.8029921526407184e-05,
+      "loss": 0.0914,
+      "step": 159
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.8002260468924696e-05,
+      "loss": 0.0905,
+      "step": 160
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.797442810562721e-05,
+      "loss": 0.0962,
+      "step": 161
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.794642503232709e-05,
+      "loss": 0.1,
+      "step": 162
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.7918251848491118e-05,
+      "loss": 0.0966,
+      "step": 163
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.7889909157227652e-05,
+      "loss": 0.1106,
+      "step": 164
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.7861397565273736e-05,
+      "loss": 0.1,
+      "step": 165
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.7832717682982092e-05,
+      "loss": 0.0976,
+      "step": 166
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.780387012430807e-05,
+      "loss": 0.0976,
+      "step": 167
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.7774855506796497e-05,
+      "loss": 0.0995,
+      "step": 168
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.7745674451568454e-05,
+      "loss": 0.1011,
+      "step": 169
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.7716327583307988e-05,
+      "loss": 0.1059,
+      "step": 170
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.768681553024874e-05,
+      "loss": 0.0956,
+      "step": 171
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.765713892416048e-05,
+      "loss": 0.0935,
+      "step": 172
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.76272984003356e-05,
+      "loss": 0.1022,
+      "step": 173
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.759729459757551e-05,
+      "loss": 0.0948,
+      "step": 174
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.7567128158176955e-05,
+      "loss": 0.0965,
+      "step": 175
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 1.753679972791828e-05,
+      "loss": 0.0905,
+      "step": 176
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.750630995604559e-05,
+      "loss": 0.0964,
+      "step": 177
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.7475659495258864e-05,
+      "loss": 0.0999,
+      "step": 178
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.7444849001697976e-05,
+      "loss": 0.091,
+      "step": 179
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.7413879134928644e-05,
+      "loss": 0.097,
+      "step": 180
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.7382750557928323e-05,
+      "loss": 0.0955,
+      "step": 181
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.7351463937072008e-05,
+      "loss": 0.099,
+      "step": 182
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.7320019942117954e-05,
+      "loss": 0.0943,
+      "step": 183
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.7288419246193373e-05,
+      "loss": 0.0892,
+      "step": 184
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.7256662525779984e-05,
+      "loss": 0.0981,
+      "step": 185
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.7224750460699558e-05,
+      "loss": 0.0912,
+      "step": 186
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.7192683734099355e-05,
+      "loss": 0.0951,
+      "step": 187
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 1.71604630324375e-05,
+      "loss": 0.0908,
+      "step": 188
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 1.7128089045468294e-05,
+      "loss": 0.0934,
+      "step": 189
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 1.709556246622744e-05,
+      "loss": 0.0954,
+      "step": 190
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.7062883991017217e-05,
+      "loss": 0.0995,
+      "step": 191
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.7030054319391563e-05,
+      "loss": 0.1032,
+      "step": 192
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.6997074154141097e-05,
+      "loss": 0.0919,
+      "step": 193
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.6963944201278097e-05,
+      "loss": 0.0893,
+      "step": 194
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 1.6930665170021364e-05,
+      "loss": 0.0967,
+      "step": 195
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 1.6897237772781046e-05,
+      "loss": 0.0876,
+      "step": 196
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 1.6863662725143383e-05,
+      "loss": 0.0921,
+      "step": 197
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.682994074585541e-05,
+      "loss": 0.0921,
+      "step": 198
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.6796072556809536e-05,
+      "loss": 0.0877,
+      "step": 199
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.676205888302812e-05,
+      "loss": 0.093,
+      "step": 200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.6727900452647925e-05,
+      "loss": 0.0902,
+      "step": 201
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.6693597996904566e-05,
+      "loss": 0.091,
+      "step": 202
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.665915225011681e-05,
+      "loss": 0.0903,
+      "step": 203
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 1.6624563949670903e-05,
+      "loss": 0.0935,
+      "step": 204
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.6589833836004753e-05,
+      "loss": 0.0932,
+      "step": 205
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.6554962652592078e-05,
+      "loss": 0.0875,
+      "step": 206
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.6519951145926515e-05,
+      "loss": 0.0871,
+      "step": 207
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.6484800065505627e-05,
+      "loss": 0.1,
+      "step": 208
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.6449510163814854e-05,
+      "loss": 0.0986,
+      "step": 209
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.6414082196311402e-05,
+      "loss": 0.0872,
+      "step": 210
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.6378516921408077e-05,
+      "loss": 0.0942,
+      "step": 211
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.6342815100457064e-05,
+      "loss": 0.0948,
+      "step": 212
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.630697749773359e-05,
+      "loss": 0.0916,
+      "step": 213
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.6271004880419606e-05,
+      "loss": 0.095,
+      "step": 214
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.6234898018587336e-05,
+      "loss": 0.0866,
+      "step": 215
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.61986576851828e-05,
+      "loss": 0.0876,
+      "step": 216
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.6162284656009276e-05,
+      "loss": 0.0868,
+      "step": 217
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.6125779709710668e-05,
+      "loss": 0.0978,
+      "step": 218
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.6089143627754863e-05,
+      "loss": 0.0911,
+      "step": 219
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.6052377194417e-05,
+      "loss": 0.0874,
+      "step": 220
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.6015481196762658e-05,
+      "loss": 0.0825,
+      "step": 221
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.5978456424631033e-05,
+      "loss": 0.0928,
+      "step": 222
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.5941303670618018e-05,
+      "loss": 0.0883,
+      "step": 223
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.5904023730059227e-05,
+      "loss": 0.0889,
+      "step": 224
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.5866617401012995e-05,
+      "loss": 0.0997,
+      "step": 225
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.5829085484243264e-05,
+      "loss": 0.0845,
+      "step": 226
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.5791428783202465e-05,
+      "loss": 0.0892,
+      "step": 227
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.57536481040143e-05,
+      "loss": 0.0834,
+      "step": 228
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.5715744255456497e-05,
+      "loss": 0.0832,
+      "step": 229
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5677718048943495e-05,
+      "loss": 0.0956,
+      "step": 230
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5639570298509067e-05,
+      "loss": 0.0949,
+      "step": 231
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.56013018207889e-05,
+      "loss": 0.0834,
+      "step": 232
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5562913435003113e-05,
+      "loss": 0.0838,
+      "step": 233
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5524405962938717e-05,
+      "loss": 0.0905,
+      "step": 234
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.548578022893202e-05,
+      "loss": 0.0887,
+      "step": 235
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5447037059851e-05,
+      "loss": 0.0868,
+      "step": 236
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.5408177285077564e-05,
+      "loss": 0.0899,
+      "step": 237
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.536920173648984e-05,
+      "loss": 0.0889,
+      "step": 238
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.5330111248444332e-05,
+      "loss": 0.0892,
+      "step": 239
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5290906657758085e-05,
+      "loss": 0.1011,
+      "step": 240
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5251588803690753e-05,
+      "loss": 0.0958,
+      "step": 241
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5212158527926635e-05,
+      "loss": 0.0986,
+      "step": 242
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5172616674556673e-05,
+      "loss": 0.0854,
+      "step": 243
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5132964090060358e-05,
+      "loss": 0.0885,
+      "step": 244
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5093201623287631e-05,
+      "loss": 0.0933,
+      "step": 245
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5053330125440701e-05,
+      "loss": 0.1046,
+      "step": 246
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.5013350450055821e-05,
+      "loss": 0.0927,
+      "step": 247
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4973263452985023e-05,
+      "loss": 0.0953,
+      "step": 248
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4933069992377793e-05,
+      "loss": 0.0979,
+      "step": 249
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4892770928662699e-05,
+      "loss": 0.0978,
+      "step": 250
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4852367124528975e-05,
+      "loss": 0.0834,
+      "step": 251
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4811859444908053e-05,
+      "loss": 0.1048,
+      "step": 252
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4771248756955042e-05,
+      "loss": 0.0953,
+      "step": 253
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4730535930030172e-05,
+      "loss": 0.0983,
+      "step": 254
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4689721835680183e-05,
+      "loss": 0.0924,
+      "step": 255
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4648807347619662e-05,
+      "loss": 0.0863,
+      "step": 256
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4607793341712336e-05,
+      "loss": 0.0904,
+      "step": 257
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.4566680695952333e-05,
+      "loss": 0.0728,
+      "step": 258
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.4525470290445392e-05,
+      "loss": 0.0875,
+      "step": 259
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.4484163007389991e-05,
+      "loss": 0.0862,
+      "step": 260
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.4442759731058502e-05,
+      "loss": 0.0798,
+      "step": 261
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.4401261347778235e-05,
+      "loss": 0.0911,
+      "step": 262
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.4359668745912472e-05,
+      "loss": 0.0809,
+      "step": 263
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.4317982815841442e-05,
+      "loss": 0.0939,
+      "step": 264
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.427620444994328e-05,
+      "loss": 0.0809,
+      "step": 265
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.4234334542574906e-05,
+      "loss": 0.0831,
+      "step": 266
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.4192373990052877e-05,
+      "loss": 0.0867,
+      "step": 267
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.415032369063422e-05,
+      "loss": 0.0837,
+      "step": 268
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.410818454449718e-05,
+      "loss": 0.0868,
+      "step": 269
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.4065957453721963e-05,
+      "loss": 0.0901,
+      "step": 270
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.4023643322271425e-05,
+      "loss": 0.0928,
+      "step": 271
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.3981243055971712e-05,
+      "loss": 0.0876,
+      "step": 272
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.3938757562492873e-05,
+      "loss": 0.0864,
+      "step": 273
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.3896187751329438e-05,
+      "loss": 0.0827,
+      "step": 274
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.3853534533780932e-05,
+      "loss": 0.0784,
+      "step": 275
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.381079882293238e-05,
+      "loss": 0.0924,
+      "step": 276
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.3767981533634755e-05,
+      "loss": 0.094,
+      "step": 277
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.3725083582485397e-05,
+      "loss": 0.0956,
+      "step": 278
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.368210588780838e-05,
+      "loss": 0.0956,
+      "step": 279
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.3639049369634878e-05,
+      "loss": 0.0846,
+      "step": 280
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.3595914949683433e-05,
+      "loss": 0.0931,
+      "step": 281
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.3552703551340259e-05,
+      "loss": 0.0972,
+      "step": 282
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.3509416099639456e-05,
+      "loss": 0.0935,
+      "step": 283
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.3466053521243214e-05,
+      "loss": 0.0857,
+      "step": 284
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.3422616744421966e-05,
+      "loss": 0.0928,
+      "step": 285
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.3379106699034536e-05,
+      "loss": 0.09,
+      "step": 286
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.3335524316508208e-05,
+      "loss": 0.0892,
+      "step": 287
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.3291870529818809e-05,
+      "loss": 0.088,
+      "step": 288
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.3248146273470725e-05,
+      "loss": 0.0879,
+      "step": 289
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.3204352483476898e-05,
+      "loss": 0.0826,
+      "step": 290
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.316049009733879e-05,
+      "loss": 0.0882,
+      "step": 291
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.311656005402631e-05,
+      "loss": 0.0829,
+      "step": 292
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.3072563293957725e-05,
+      "loss": 0.0875,
+      "step": 293
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.3028500758979507e-05,
+      "loss": 0.0808,
+      "step": 294
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.2984373392346195e-05,
+      "loss": 0.0892,
+      "step": 295
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.294018213870018e-05,
+      "loss": 0.0827,
+      "step": 296
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.2895927944051503e-05,
+      "loss": 0.0873,
+      "step": 297
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.2851611755757587e-05,
+      "loss": 0.0991,
+      "step": 298
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.280723452250297e-05,
+      "loss": 0.0926,
+      "step": 299
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.2762797194278984e-05,
+      "loss": 0.0939,
+      "step": 300
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.2718300722363431e-05,
+      "loss": 0.0865,
+      "step": 301
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.2673746059300209e-05,
+      "loss": 0.0921,
+      "step": 302
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.2629134158878919e-05,
+      "loss": 0.0896,
+      "step": 303
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.258446597611447e-05,
+      "loss": 0.0846,
+      "step": 304
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.25397424672266e-05,
+      "loss": 0.0918,
+      "step": 305
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.2494964589619424e-05,
+      "loss": 0.0902,
+      "step": 306
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.2450133301860951e-05,
+      "loss": 0.0806,
+      "step": 307
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.2405249563662539e-05,
+      "loss": 0.0831,
+      "step": 308
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.236031433585836e-05,
+      "loss": 0.0902,
+      "step": 309
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.2315328580384841e-05,
+      "loss": 0.0878,
+      "step": 310
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.2270293260260066e-05,
+      "loss": 0.0897,
+      "step": 311
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.2225209339563144e-05,
+      "loss": 0.0905,
+      "step": 312
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.2180077783413601e-05,
+      "loss": 0.0864,
+      "step": 313
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.21348995579507e-05,
+      "loss": 0.0875,
+      "step": 314
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.2089675630312755e-05,
+      "loss": 0.0806,
+      "step": 315
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.2044406968616433e-05,
+      "loss": 0.0833,
+      "step": 316
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1999094541936047e-05,
+      "loss": 0.0848,
+      "step": 317
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1953739320282778e-05,
+      "loss": 0.0838,
+      "step": 318
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1908342274583937e-05,
+      "loss": 0.0935,
+      "step": 319
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1862904376662167e-05,
+      "loss": 0.0831,
+      "step": 320
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.1817426599214637e-05,
+      "loss": 0.0856,
+      "step": 321
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.177190991579223e-05,
+      "loss": 0.0855,
+      "step": 322
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.1726355300778693e-05,
+      "loss": 0.0809,
+      "step": 323
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.1680763729369783e-05,
+      "loss": 0.0893,
+      "step": 324
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.163513617755239e-05,
+      "loss": 0.0894,
+      "step": 325
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.1589473622083642e-05,
+      "loss": 0.0931,
+      "step": 326
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.1543777040469994e-05,
+      "loss": 0.0857,
+      "step": 327
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.1498047410946307e-05,
+      "loss": 0.0854,
+      "step": 328
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.1452285712454905e-05,
+      "loss": 0.0848,
+      "step": 329
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.1406492924624614e-05,
+      "loss": 0.0821,
+      "step": 330
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.1360670027749806e-05,
+      "loss": 0.0811,
+      "step": 331
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.131481800276939e-05,
+      "loss": 0.0857,
+      "step": 332
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.126893783124583e-05,
+      "loss": 0.0806,
+      "step": 333
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.1223030495344127e-05,
+      "loss": 0.0838,
+      "step": 334
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.1177096977810803e-05,
+      "loss": 0.0873,
+      "step": 335
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.1131138261952845e-05,
+      "loss": 0.0899,
+      "step": 336
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.1085155331616664e-05,
+      "loss": 0.0801,
+      "step": 337
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.1039149171167046e-05,
+      "loss": 0.0884,
+      "step": 338
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.0993120765466056e-05,
+      "loss": 0.0895,
+      "step": 339
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.0947071099851972e-05,
+      "loss": 0.0878,
+      "step": 340
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.090100116011819e-05,
+      "loss": 0.0887,
+      "step": 341
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0854911932492114e-05,
+      "loss": 0.081,
+      "step": 342
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0808804403614044e-05,
+      "loss": 0.0843,
+      "step": 343
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0762679560516067e-05,
+      "loss": 0.0887,
+      "step": 344
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0716538390600908e-05,
+      "loss": 0.0902,
+      "step": 345
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0670381881620814e-05,
+      "loss": 0.0718,
+      "step": 346
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0624211021656392e-05,
+      "loss": 0.082,
+      "step": 347
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0578026799095464e-05,
+      "loss": 0.0926,
+      "step": 348
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.0531830202611904e-05,
+      "loss": 0.0852,
+      "step": 349
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.0485622221144485e-05,
+      "loss": 0.0843,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.043940384387569e-05,
+      "loss": 0.0782,
+      "step": 351
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.0393176060210556e-05,
+      "loss": 0.081,
+      "step": 352
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.0346939859755481e-05,
+      "loss": 0.085,
+      "step": 353
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.0300696232297041e-05,
+      "loss": 0.0797,
+      "step": 354
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.0254446167780803e-05,
+      "loss": 0.0838,
+      "step": 355
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.0208190656290138e-05,
+      "loss": 0.0845,
+      "step": 356
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.0161930688025018e-05,
+      "loss": 0.0694,
+      "step": 357
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.0115667253280817e-05,
+      "loss": 0.0822,
+      "step": 358
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.006940134242713e-05,
+      "loss": 0.0697,
+      "step": 359
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.0023133945886545e-05,
+      "loss": 0.0724,
+      "step": 360
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 9.976866054113458e-06,
+      "loss": 0.0765,
+      "step": 361
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 9.930598657572874e-06,
+      "loss": 0.0775,
+      "step": 362
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 9.884332746719186e-06,
+      "loss": 0.079,
+      "step": 363
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 9.838069311974986e-06,
+      "loss": 0.0897,
+      "step": 364
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 9.791809343709866e-06,
+      "loss": 0.0909,
+      "step": 365
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 9.745553832219202e-06,
+      "loss": 0.089,
+      "step": 366
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 9.699303767702964e-06,
+      "loss": 0.0811,
+      "step": 367
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 9.653060140244524e-06,
+      "loss": 0.0792,
+      "step": 368
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 9.606823939789449e-06,
+      "loss": 0.0775,
+      "step": 369
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 9.560596156124314e-06,
+      "loss": 0.0805,
+      "step": 370
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 9.514377778855521e-06,
+      "loss": 0.0765,
+      "step": 371
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 9.468169797388098e-06,
+      "loss": 0.0835,
+      "step": 372
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.421973200904538e-06,
+      "loss": 0.0889,
+      "step": 373
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.375788978343608e-06,
+      "loss": 0.0782,
+      "step": 374
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.329618118379187e-06,
+      "loss": 0.084,
+      "step": 375
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.283461609399094e-06,
+      "loss": 0.0843,
+      "step": 376
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 9.237320439483936e-06,
+      "loss": 0.0841,
+      "step": 377
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 9.19119559638596e-06,
+      "loss": 0.0868,
+      "step": 378
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 9.14508806750789e-06,
+      "loss": 0.0808,
+      "step": 379
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 9.098998839881812e-06,
+      "loss": 0.088,
+      "step": 380
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 9.052928900148031e-06,
+      "loss": 0.0765,
+      "step": 381
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 9.006879234533948e-06,
+      "loss": 0.0744,
+      "step": 382
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.960850828832958e-06,
+      "loss": 0.0791,
+      "step": 383
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.91484466838334e-06,
+      "loss": 0.0766,
+      "step": 384
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.868861738047158e-06,
+      "loss": 0.0861,
+      "step": 385
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.8229030221892e-06,
+      "loss": 0.0679,
+      "step": 386
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.776969504655875e-06,
+      "loss": 0.0827,
+      "step": 387
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.731062168754174e-06,
+      "loss": 0.0824,
+      "step": 388
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.685181997230616e-06,
+      "loss": 0.0769,
+      "step": 389
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.639329972250199e-06,
+      "loss": 0.0799,
+      "step": 390
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.593507075375388e-06,
+      "loss": 0.0752,
+      "step": 391
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.5477142875451e-06,
+      "loss": 0.0861,
+      "step": 392
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.501952589053694e-06,
+      "loss": 0.077,
+      "step": 393
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 8.456222959530008e-06,
+      "loss": 0.08,
+      "step": 394
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 8.41052637791636e-06,
+      "loss": 0.0769,
+      "step": 395
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 8.364863822447612e-06,
+      "loss": 0.0784,
+      "step": 396
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 8.319236270630218e-06,
+      "loss": 0.0769,
+      "step": 397
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 8.273644699221309e-06,
+      "loss": 0.0784,
+      "step": 398
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 8.228090084207773e-06,
+      "loss": 0.0804,
+      "step": 399
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 8.182573400785367e-06,
+      "loss": 0.0788,
+      "step": 400
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.137095623337836e-06,
+      "loss": 0.0736,
+      "step": 401
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.091657725416065e-06,
+      "loss": 0.0788,
+      "step": 402
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.046260679717225e-06,
+      "loss": 0.0816,
+      "step": 403
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 8.000905458063956e-06,
+      "loss": 0.0802,
+      "step": 404
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.95559303138357e-06,
+      "loss": 0.0728,
+      "step": 405
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.91032436968725e-06,
+      "loss": 0.0861,
+      "step": 406
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.865100442049302e-06,
+      "loss": 0.0685,
+      "step": 407
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.8199222165864e-06,
+      "loss": 0.086,
+      "step": 408
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.774790660436857e-06,
+      "loss": 0.0797,
+      "step": 409
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.729706739739939e-06,
+      "loss": 0.0827,
+      "step": 410
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.684671419615164e-06,
+      "loss": 0.0799,
+      "step": 411
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.639685664141644e-06,
+      "loss": 0.0799,
+      "step": 412
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.594750436337467e-06,
+      "loss": 0.0783,
+      "step": 413
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.549866698139048e-06,
+      "loss": 0.0831,
+      "step": 414
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.505035410380574e-06,
+      "loss": 0.0754,
+      "step": 415
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.4602575327734004e-06,
+      "loss": 0.0849,
+      "step": 416
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.415534023885529e-06,
+      "loss": 0.091,
+      "step": 417
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.37086584112108e-06,
+      "loss": 0.0751,
+      "step": 418
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.326253940699795e-06,
+      "loss": 0.0795,
+      "step": 419
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.2816992776365714e-06,
+      "loss": 0.0743,
+      "step": 420
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.23720280572102e-06,
+      "loss": 0.0835,
+      "step": 421
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.192765477497032e-06,
+      "loss": 0.0752,
+      "step": 422
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.148388244242414e-06,
+      "loss": 0.0845,
+      "step": 423
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.1040720559485e-06,
+      "loss": 0.0711,
+      "step": 424
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.05981786129982e-06,
+      "loss": 0.0823,
+      "step": 425
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 7.015626607653807e-06,
+      "loss": 0.0814,
+      "step": 426
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.971499241020495e-06,
+      "loss": 0.0785,
+      "step": 427
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.927436706042276e-06,
+      "loss": 0.0684,
+      "step": 428
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.883439945973692e-06,
+      "loss": 0.0772,
+      "step": 429
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.839509902661215e-06,
+      "loss": 0.0811,
+      "step": 430
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.795647516523107e-06,
+      "loss": 0.0674,
+      "step": 431
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.75185372652928e-06,
+      "loss": 0.0766,
+      "step": 432
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.708129470181197e-06,
+      "loss": 0.0845,
+      "step": 433
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.664475683491797e-06,
+      "loss": 0.0816,
+      "step": 434
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.620893300965465e-06,
+      "loss": 0.0761,
+      "step": 435
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.577383255578034e-06,
+      "loss": 0.0774,
+      "step": 436
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.533946478756789e-06,
+      "loss": 0.0788,
+      "step": 437
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.490583900360543e-06,
+      "loss": 0.0819,
+      "step": 438
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.447296448659744e-06,
+      "loss": 0.0784,
+      "step": 439
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.404085050316568e-06,
+      "loss": 0.0796,
+      "step": 440
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.360950630365126e-06,
+      "loss": 0.0808,
+      "step": 441
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.317894112191621e-06,
+      "loss": 0.081,
+      "step": 442
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 6.274916417514605e-06,
+      "loss": 0.0755,
+      "step": 443
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 6.232018466365247e-06,
+      "loss": 0.0792,
+      "step": 444
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 6.189201177067623e-06,
+      "loss": 0.0845,
+      "step": 445
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 6.146465466219072e-06,
+      "loss": 0.0771,
+      "step": 446
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.103812248670567e-06,
+      "loss": 0.0778,
+      "step": 447
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.061242437507131e-06,
+      "loss": 0.0804,
+      "step": 448
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.018756944028291e-06,
+      "loss": 0.0804,
+      "step": 449
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 5.976356677728578e-06,
+      "loss": 0.0704,
+      "step": 450
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 5.9340425462780405e-06,
+      "loss": 0.0887,
+      "step": 451
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 5.891815455502824e-06,
+      "loss": 0.0749,
+      "step": 452
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 5.849676309365786e-06,
+      "loss": 0.0838,
+      "step": 453
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 5.807626009947127e-06,
+      "loss": 0.0795,
+      "step": 454
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 5.765665457425102e-06,
+      "loss": 0.088,
+      "step": 455
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 5.723795550056721e-06,
+      "loss": 0.082,
+      "step": 456
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 5.682017184158562e-06,
+      "loss": 0.0831,
+      "step": 457
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 5.6403312540875325e-06,
+      "loss": 0.0752,
+      "step": 458
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 5.5987386522217645e-06,
+      "loss": 0.0751,
+      "step": 459
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 5.557240268941497e-06,
+      "loss": 0.0851,
+      "step": 460
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.515836992610011e-06,
+      "loss": 0.0833,
+      "step": 461
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.4745297095546125e-06,
+      "loss": 0.0795,
+      "step": 462
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.433319304047666e-06,
+      "loss": 0.082,
+      "step": 463
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 5.3922066582876685e-06,
+      "loss": 0.0841,
+      "step": 464
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 5.351192652380341e-06,
+      "loss": 0.0721,
+      "step": 465
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 5.310278164319816e-06,
+      "loss": 0.074,
+      "step": 466
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 5.26946406996983e-06,
+      "loss": 0.0753,
+      "step": 467
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.228751243044961e-06,
+      "loss": 0.085,
+      "step": 468
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.18814055509195e-06,
+      "loss": 0.0705,
+      "step": 469
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.1476328754710295e-06,
+      "loss": 0.0852,
+      "step": 470
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.1072290713373056e-06,
+      "loss": 0.0762,
+      "step": 471
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.066930007622209e-06,
+      "loss": 0.0824,
+      "step": 472
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.026736547014981e-06,
+      "loss": 0.0865,
+      "step": 473
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.9866495499441824e-06,
+      "loss": 0.0691,
+      "step": 474
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.946669874559301e-06,
+      "loss": 0.0807,
+      "step": 475
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.9067983767123736e-06,
+      "loss": 0.0795,
+      "step": 476
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.8670359099396466e-06,
+      "loss": 0.0764,
+      "step": 477
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.827383325443331e-06,
+      "loss": 0.0844,
+      "step": 478
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.787841472073366e-06,
+      "loss": 0.08,
+      "step": 479
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.748411196309248e-06,
+      "loss": 0.0783,
+      "step": 480
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.709093342241917e-06,
+      "loss": 0.0733,
+      "step": 481
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.669888751555669e-06,
+      "loss": 0.0679,
+      "step": 482
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.630798263510162e-06,
+      "loss": 0.0769,
+      "step": 483
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.591822714922441e-06,
+      "loss": 0.0744,
+      "step": 484
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.552962940149005e-06,
+      "loss": 0.0823,
+      "step": 485
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.51421977106798e-06,
+      "loss": 0.0767,
+      "step": 486
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.475594037061285e-06,
+      "loss": 0.0781,
+      "step": 487
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.437086564996891e-06,
+      "loss": 0.0767,
+      "step": 488
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.398698179211103e-06,
+      "loss": 0.0842,
+      "step": 489
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.360429701490935e-06,
+      "loss": 0.0799,
+      "step": 490
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.3222819510565085e-06,
+      "loss": 0.0788,
+      "step": 491
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.284255744543505e-06,
+      "loss": 0.076,
+      "step": 492
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.246351895985702e-06,
+      "loss": 0.0823,
+      "step": 493
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.208571216797539e-06,
+      "loss": 0.0784,
+      "step": 494
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.170914515756738e-06,
+      "loss": 0.0705,
+      "step": 495
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.133382598987007e-06,
+      "loss": 0.0838,
+      "step": 496
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.095976269940777e-06,
+      "loss": 0.0758,
+      "step": 497
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.058696329381987e-06,
+      "loss": 0.0662,
+      "step": 498
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.021543575368968e-06,
+      "loss": 0.0799,
+      "step": 499
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 3.984518803237343e-06,
+      "loss": 0.0826,
+      "step": 500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 3.9476228055830015e-06,
+      "loss": 0.0692,
+      "step": 501
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 3.910856372245139e-06,
+      "loss": 0.0684,
+      "step": 502
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 3.874220290289337e-06,
+      "loss": 0.0812,
+      "step": 503
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 3.837715343990727e-06,
+      "loss": 0.0719,
+      "step": 504
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 3.801342314817201e-06,
+      "loss": 0.0806,
+      "step": 505
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.7651019814126656e-06,
+      "loss": 0.0824,
+      "step": 506
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.7289951195803954e-06,
+      "loss": 0.0762,
+      "step": 507
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.6930225022664136e-06,
+      "loss": 0.0794,
+      "step": 508
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3.6571848995429404e-06,
+      "loss": 0.0755,
+      "step": 509
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 3.621483078591923e-06,
+      "loss": 0.0853,
+      "step": 510
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 3.585917803688603e-06,
+      "loss": 0.0807,
+      "step": 511
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 3.5504898361851492e-06,
+      "loss": 0.0778,
+      "step": 512
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.515199934494373e-06,
+      "loss": 0.0788,
+      "step": 513
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.4800488540734857e-06,
+      "loss": 0.0736,
+      "step": 514
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.4450373474079278e-06,
+      "loss": 0.0733,
+      "step": 515
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3.4101661639952533e-06,
+      "loss": 0.0798,
+      "step": 516
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.3754360503290973e-06,
+      "loss": 0.0725,
+      "step": 517
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.3408477498831917e-06,
+      "loss": 0.0804,
+      "step": 518
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.306402003095438e-06,
+      "loss": 0.0854,
+      "step": 519
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.2720995473520766e-06,
+      "loss": 0.0868,
+      "step": 520
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.2379411169718844e-06,
+      "loss": 0.0809,
+      "step": 521
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.2039274431904643e-06,
+      "loss": 0.0712,
+      "step": 522
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.170059254144593e-06,
+      "loss": 0.0645,
+      "step": 523
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.136337274856618e-06,
+      "loss": 0.0734,
+      "step": 524
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.1027622272189572e-06,
+      "loss": 0.0852,
+      "step": 525
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.0693348299786407e-06,
+      "loss": 0.0855,
+      "step": 526
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.0360557987219054e-06,
+      "loss": 0.0869,
+      "step": 527
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.002925845858905e-06,
+      "loss": 0.0795,
+      "step": 528
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.9699456806084427e-06,
+      "loss": 0.0722,
+      "step": 529
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.9371160089827842e-06,
+      "loss": 0.0776,
+      "step": 530
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.9044375337725595e-06,
+      "loss": 0.0808,
+      "step": 531
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.8719109545317102e-06,
+      "loss": 0.0732,
+      "step": 532
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.839536967562504e-06,
+      "loss": 0.0745,
+      "step": 533
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 2.807316265900649e-06,
+      "loss": 0.0833,
+      "step": 534
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 2.7752495393004476e-06,
+      "loss": 0.0783,
+      "step": 535
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 2.743337474220019e-06,
+      "loss": 0.0799,
+      "step": 536
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 2.71158075380663e-06,
+      "loss": 0.0751,
+      "step": 537
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.679980057882049e-06,
+      "loss": 0.0752,
+      "step": 538
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.648536062927999e-06,
+      "loss": 0.0811,
+      "step": 539
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.61724944207168e-06,
+      "loss": 0.0718,
+      "step": 540
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.5861208650713586e-06,
+      "loss": 0.073,
+      "step": 541
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.555150998302026e-06,
+      "loss": 0.0654,
+      "step": 542
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.5243405047411353e-06,
+      "loss": 0.0806,
+      "step": 543
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.493690043954411e-06,
+      "loss": 0.0721,
+      "step": 544
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 2.4632002720817227e-06,
+      "loss": 0.081,
+      "step": 545
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 2.432871841823047e-06,
+      "loss": 0.0814,
+      "step": 546
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 2.4027054024244954e-06,
+      "loss": 0.0707,
+      "step": 547
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.3727015996644043e-06,
+      "loss": 0.0731,
+      "step": 548
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.342861075839523e-06,
+      "loss": 0.0751,
+      "step": 549
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.313184469751265e-06,
+      "loss": 0.0907,
+      "step": 550
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.2836724166920134e-06,
+      "loss": 0.0785,
+      "step": 551
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.2543255484315486e-06,
+      "loss": 0.0796,
+      "step": 552
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.2251444932035094e-06,
+      "loss": 0.0846,
+      "step": 553
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.1961298756919337e-06,
+      "loss": 0.0764,
+      "step": 554
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.16728231701791e-06,
+      "loss": 0.0739,
+      "step": 555
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.1386024347262692e-06,
+      "loss": 0.075,
+      "step": 556
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.11009084277235e-06,
+      "loss": 0.0787,
+      "step": 557
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.081748151508883e-06,
+      "loss": 0.0712,
+      "step": 558
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.0535749676729123e-06,
+      "loss": 0.0774,
+      "step": 559
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.025571894372794e-06,
+      "loss": 0.0796,
+      "step": 560
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.9977395310753087e-06,
+      "loss": 0.0738,
+      "step": 561
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.970078473592817e-06,
+      "loss": 0.0846,
+      "step": 562
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.942589314070494e-06,
+      "loss": 0.0718,
+      "step": 563
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.9152726409736834e-06,
+      "loss": 0.0766,
+      "step": 564
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.8881290390752682e-06,
+      "loss": 0.0784,
+      "step": 565
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.8611590894431653e-06,
+      "loss": 0.0871,
+      "step": 566
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.8343633694278895e-06,
+      "loss": 0.0712,
+      "step": 567
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.8077424526501964e-06,
+      "loss": 0.0808,
+      "step": 568
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.7812969089887867e-06,
+      "loss": 0.0767,
+      "step": 569
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.7550273045681243e-06,
+      "loss": 0.0823,
+      "step": 570
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.728934201746314e-06,
+      "loss": 0.0741,
+      "step": 571
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.7030181591030493e-06,
+      "loss": 0.073,
+      "step": 572
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1.6772797314276712e-06,
+      "loss": 0.0753,
+      "step": 573
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1.6517194697072903e-06,
+      "loss": 0.0809,
+      "step": 574
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1.6263379211149733e-06,
+      "loss": 0.0869,
+      "step": 575
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.6011356289980562e-06,
+      "loss": 0.0772,
+      "step": 576
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.5761131328664946e-06,
+      "loss": 0.0707,
+      "step": 577
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.5512709683813165e-06,
+      "loss": 0.0781,
+      "step": 578
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.526609667343163e-06,
+      "loss": 0.0761,
+      "step": 579
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.5021297576809002e-06,
+      "loss": 0.07,
+      "step": 580
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.4778317634403082e-06,
+      "loss": 0.0773,
+      "step": 581
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.4537162047728804e-06,
+      "loss": 0.0696,
+      "step": 582
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.4297835979246777e-06,
+      "loss": 0.0804,
+      "step": 583
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.4060344552252702e-06,
+      "loss": 0.0639,
+      "step": 584
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.3824692850767928e-06,
+      "loss": 0.0724,
+      "step": 585
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.3590885919430385e-06,
+      "loss": 0.0745,
+      "step": 586
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.3358928763386647e-06,
+      "loss": 0.0746,
+      "step": 587
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.3128826348184886e-06,
+      "loss": 0.0813,
+      "step": 588
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.2900583599668515e-06,
+      "loss": 0.0656,
+      "step": 589
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.2674205403870643e-06,
+      "loss": 0.0716,
+      "step": 590
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.2449696606909656e-06,
+      "loss": 0.0691,
+      "step": 591
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.222706201488536e-06,
+      "loss": 0.0727,
+      "step": 592
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.200630639377609e-06,
+      "loss": 0.0809,
+      "step": 593
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.1787434469336767e-06,
+      "loss": 0.0709,
+      "step": 594
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.1570450926997657e-06,
+      "loss": 0.0728,
+      "step": 595
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.135536041176406e-06,
+      "loss": 0.0765,
+      "step": 596
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.1142167528116965e-06,
+      "loss": 0.0714,
+      "step": 597
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.0930876839914418e-06,
+      "loss": 0.0678,
+      "step": 598
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.072149287029377e-06,
+      "loss": 0.0807,
+      "step": 599
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.0514020101574974e-06,
+      "loss": 0.0745,
+      "step": 600
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.0308462975164547e-06,
+      "loss": 0.0742,
+      "step": 601
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.010482589146048e-06,
+      "loss": 0.081,
+      "step": 602
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 9.903113209758098e-07,
+      "loss": 0.0771,
+      "step": 603
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.703329248156712e-07,
+      "loss": 0.0781,
+      "step": 604
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.505478283467129e-07,
+      "loss": 0.0672,
+      "step": 605
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.309564551120254e-07,
+      "loss": 0.0744,
+      "step": 606
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.115592245076177e-07,
+      "loss": 0.0765,
+      "step": 607
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.923565517734633e-07,
+      "loss": 0.079,
+      "step": 608
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.733488479845997e-07,
+      "loss": 0.0705,
+      "step": 609
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.545365200423216e-07,
+      "loss": 0.0766,
+      "step": 610
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 8.359199706654852e-07,
+      "loss": 0.0625,
+      "step": 611
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 8.174995983818801e-07,
+      "loss": 0.0653,
+      "step": 612
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 7.992757975196974e-07,
+      "loss": 0.0719,
+      "step": 613
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 7.812489581990846e-07,
+      "loss": 0.0766,
+      "step": 614
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.634194663238015e-07,
+      "loss": 0.0826,
+      "step": 615
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.457877035729588e-07,
+      "loss": 0.0797,
+      "step": 616
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.283540473928386e-07,
+      "loss": 0.0673,
+      "step": 617
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.11118870988825e-07,
+      "loss": 0.0831,
+      "step": 618
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 6.940825433174103e-07,
+      "loss": 0.0725,
+      "step": 619
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 6.772454290782926e-07,
+      "loss": 0.0767,
+      "step": 620
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 6.606078887065748e-07,
+      "loss": 0.0766,
+      "step": 621
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.441702783650494e-07,
+      "loss": 0.0652,
+      "step": 622
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.279329499365649e-07,
+      "loss": 0.0707,
+      "step": 623
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.118962510165039e-07,
+      "loss": 0.0751,
+      "step": 624
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.960605249053386e-07,
+      "loss": 0.0747,
+      "step": 625
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.804261106012732e-07,
+      "loss": 0.0688,
+      "step": 626
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.649933427930043e-07,
+      "loss": 0.0811,
+      "step": 627
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.497625518525374e-07,
+      "loss": 0.0755,
+      "step": 628
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.347340638281273e-07,
+      "loss": 0.0761,
+      "step": 629
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.199082004372958e-07,
+      "loss": 0.0843,
+      "step": 630
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.052852790599383e-07,
+      "loss": 0.0751,
+      "step": 631
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.908656127315359e-07,
+      "loss": 0.0658,
+      "step": 632
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.7664951013645875e-07,
+      "loss": 0.08,
+      "step": 633
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.6263727560134086e-07,
+      "loss": 0.0734,
+      "step": 634
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.4882920908858595e-07,
+      "loss": 0.075,
+      "step": 635
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.352256061899329e-07,
+      "loss": 0.0844,
+      "step": 636
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.218267581201296e-07,
+      "loss": 0.075,
+      "step": 637
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.086329517107046e-07,
+      "loss": 0.0811,
+      "step": 638
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.9564446940382087e-07,
+      "loss": 0.0645,
+      "step": 639
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.8286158924623287e-07,
+      "loss": 0.0746,
+      "step": 640
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.702845848833314e-07,
+      "loss": 0.073,
+      "step": 641
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3.579137255532894e-07,
+      "loss": 0.0732,
+      "step": 642
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.457492760812975e-07,
+      "loss": 0.0753,
+      "step": 643
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.3379149687388866e-07,
+      "loss": 0.0854,
+      "step": 644
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.2204064391337277e-07,
+      "loss": 0.0822,
+      "step": 645
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3.1049696875235515e-07,
+      "loss": 0.0791,
+      "step": 646
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 2.9916071850834004e-07,
+      "loss": 0.0717,
+      "step": 647
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 2.8803213585846036e-07,
+      "loss": 0.0735,
+      "step": 648
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 2.7711145903426494e-07,
+      "loss": 0.0862,
+      "step": 649
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.6639892181662744e-07,
+      "loss": 0.0741,
+      "step": 650
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.5589475353073987e-07,
+      "loss": 0.0751,
+      "step": 651
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.4559917904120266e-07,
+      "loss": 0.0689,
+      "step": 652
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.3551241874721353e-07,
+      "loss": 0.0771,
+      "step": 653
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.256346885778482e-07,
+      "loss": 0.0807,
+      "step": 654
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.1596619998743075e-07,
+      "loss": 0.0752,
+      "step": 655
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.0650715995102266e-07,
+      "loss": 0.0706,
+      "step": 656
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.9725777095997655e-07,
+      "loss": 0.0718,
+      "step": 657
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.8821823101760949e-07,
+      "loss": 0.0716,
+      "step": 658
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.7938873363496422e-07,
+      "loss": 0.0733,
+      "step": 659
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.707694678266636e-07,
+      "loss": 0.0739,
+      "step": 660
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.6236061810686488e-07,
+      "loss": 0.0736,
+      "step": 661
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.5416236448531075e-07,
+      "loss": 0.0745,
+      "step": 662
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.4617488246348012e-07,
+      "loss": 0.0764,
+      "step": 663
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.383983430308189e-07,
+      "loss": 0.072,
+      "step": 664
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.30832912661093e-07,
+      "loss": 0.0693,
+      "step": 665
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.2347875330881886e-07,
+      "loss": 0.0622,
+      "step": 666
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.1633602240579522e-07,
+      "loss": 0.0677,
+      "step": 667
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.094048728577346e-07,
+      "loss": 0.0741,
+      "step": 668
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.026854530409882e-07,
+      "loss": 0.0775,
+      "step": 669
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 9.617790679937288e-08,
+      "loss": 0.071,
+      "step": 670
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 8.988237344109251e-08,
+      "loss": 0.0736,
+      "step": 671
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 8.379898773574924e-08,
+      "loss": 0.0682,
+      "step": 672
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 7.792787991146356e-08,
+      "loss": 0.073,
+      "step": 673
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 7.226917565208658e-08,
+      "loss": 0.0671,
+      "step": 674
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 6.682299609450993e-08,
+      "loss": 0.0696,
+      "step": 675
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 6.158945782606674e-08,
+      "loss": 0.0723,
+      "step": 676
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.6568672882043595e-08,
+      "loss": 0.0814,
+      "step": 677
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 5.176074874327919e-08,
+      "loss": 0.069,
+      "step": 678
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 4.716578833386054e-08,
+      "loss": 0.0745,
+      "step": 679
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 4.278389001892369e-08,
+      "loss": 0.0698,
+      "step": 680
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.861514760254648e-08,
+      "loss": 0.0729,
+      "step": 681
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.465965032574015e-08,
+      "loss": 0.076,
+      "step": 682
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.091748286453866e-08,
+      "loss": 0.0838,
+      "step": 683
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 2.7388725328189036e-08,
+      "loss": 0.0723,
+      "step": 684
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 2.407345325743049e-08,
+      "loss": 0.0795,
+      "step": 685
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 2.0971737622883515e-08,
+      "loss": 0.0699,
+      "step": 686
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.8083644823526645e-08,
+      "loss": 0.074,
+      "step": 687
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.5409236685277608e-08,
+      "loss": 0.0708,
+      "step": 688
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.2948570459667687e-08,
+      "loss": 0.0722,
+      "step": 689
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.070169882261496e-08,
+      "loss": 0.0751,
+      "step": 690
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 8.668669873304058e-09,
+      "loss": 0.0698,
+      "step": 691
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.849527133144795e-09,
+      "loss": 0.0782,
+      "step": 692
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.2443095448506674e-09,
+      "loss": 0.0755,
+      "step": 693
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3.853051471601754e-09,
+      "loss": 0.0715,
+      "step": 694
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 2.675782696305307e-09,
+      "loss": 0.072,
+      "step": 695
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.712528420966253e-09,
+      "loss": 0.0851,
+      "step": 696
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 9.633092661376353e-10,
+      "loss": 0.0758,
+      "step": 697
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 4.2814127048873553e-10,
+      "loss": 0.0763,
+      "step": 698
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.070358904564639e-10,
+      "loss": 0.0725,
+      "step": 699
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 0.0676,
+      "step": 700
+    },
+    {
+      "epoch": 2.0,
+      "step": 700,
+      "total_flos": 35619982540800.0,
+      "train_loss": 0.0957284898098026,
+      "train_runtime": 9340.1654,
+      "train_samples_per_second": 8.39,
+      "train_steps_per_second": 0.075
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 700,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 188888,
+  "total_flos": 35619982540800.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a00ff0fc9a0358c43be66a7470ab5e8e2d13bbf2a6fbd2d7ec3ef210b76e1a6
+size 6139