finance teacher fwd distill

Browse files

Files changed (8) hide show

config.json +27 -0
generation_config.json +7 -0
pytorch_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.model +3 -0
tokenizer_config.json +37 -0
trainer_state.json +954 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "JackFram/llama-160m",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "pad_token_id": 1,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.2",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.33.2"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b3d1d7962c46987cfee196da61d57ab716b4a1b4831de17317f1d89959a947f
+size 649705097

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": null,
+  "model_max_length": 256,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,954 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9836867862969005,
+  "eval_steps": 500,
+  "global_step": 152,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.9706,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.9709,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6e-06,
+      "loss": 1.969,
+      "step": 3
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.9386,
+      "step": 4
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1e-05,
+      "loss": 1.9129,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.99885820390154e-06,
+      "loss": 1.8105,
+      "step": 6
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.995433337085492e-06,
+      "loss": 1.8118,
+      "step": 7
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.989726963751683e-06,
+      "loss": 1.7729,
+      "step": 8
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.981741690106035e-06,
+      "loss": 1.7652,
+      "step": 9
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.97148116317027e-06,
+      "loss": 1.7182,
+      "step": 10
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.95895006911623e-06,
+      "loss": 1.7277,
+      "step": 11
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.944154131125643e-06,
+      "loss": 1.6587,
+      "step": 12
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.927100106776213e-06,
+      "loss": 1.6772,
+      "step": 13
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.907795784955327e-06,
+      "loss": 1.6292,
+      "step": 14
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.88624998230272e-06,
+      "loss": 1.6161,
+      "step": 15
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.862472539183757e-06,
+      "loss": 1.6353,
+      "step": 16
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.836474315195148e-06,
+      "loss": 1.6141,
+      "step": 17
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.808267184205182e-06,
+      "loss": 1.6154,
+      "step": 18
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.777864028930705e-06,
+      "loss": 1.568,
+      "step": 19
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.745278735053345e-06,
+      "loss": 1.6019,
+      "step": 20
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.710526184877667e-06,
+      "loss": 1.5974,
+      "step": 21
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.673622250534155e-06,
+      "loss": 1.5645,
+      "step": 22
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.63458378673011e-06,
+      "loss": 1.5472,
+      "step": 23
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.593428623051793e-06,
+      "loss": 1.5662,
+      "step": 24
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.550175555821333e-06,
+      "loss": 1.5278,
+      "step": 25
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.504844339512096e-06,
+      "loss": 1.5819,
+      "step": 26
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.457455677726447e-06,
+      "loss": 1.5355,
+      "step": 27
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.408031213740045e-06,
+      "loss": 1.5449,
+      "step": 28
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.356593520616948e-06,
+      "loss": 1.5327,
+      "step": 29
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.303166090900082e-06,
+      "loss": 1.4996,
+      "step": 30
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.24777332588177e-06,
+      "loss": 1.4838,
+      "step": 31
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.190440524459203e-06,
+      "loss": 1.5343,
+      "step": 32
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.131193871579975e-06,
+      "loss": 1.5159,
+      "step": 33
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.070060426282924e-06,
+      "loss": 1.5343,
+      "step": 34
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.007068109339783e-06,
+      "loss": 1.5472,
+      "step": 35
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.94224569050324e-06,
+      "loss": 1.4968,
+      "step": 36
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.87562277536726e-06,
+      "loss": 1.5261,
+      "step": 37
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.807229791845673e-06,
+      "loss": 1.4568,
+      "step": 38
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 8.737097976275177e-06,
+      "loss": 1.5257,
+      "step": 39
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.665259359149132e-06,
+      "loss": 1.5265,
+      "step": 40
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.591746750488639e-06,
+      "loss": 1.5067,
+      "step": 41
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.516593724857598e-06,
+      "loss": 1.4628,
+      "step": 42
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.439834606028594e-06,
+      "loss": 1.4626,
+      "step": 43
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.361504451306585e-06,
+      "loss": 1.5269,
+      "step": 44
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 8.281639035517591e-06,
+      "loss": 1.4551,
+      "step": 45
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.200274834669675e-06,
+      "loss": 1.4287,
+      "step": 46
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.117449009293668e-06,
+      "loss": 1.4808,
+      "step": 47
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 8.033199387471278e-06,
+      "loss": 1.5128,
+      "step": 48
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 7.9475644475583e-06,
+      "loss": 1.4867,
+      "step": 49
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 7.860583300610849e-06,
+      "loss": 1.4873,
+      "step": 50
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.772295672522615e-06,
+      "loss": 1.4294,
+      "step": 51
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 7.682741885881314e-06,
+      "loss": 1.4629,
+      "step": 52
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 7.591962841552627e-06,
+      "loss": 1.5219,
+      "step": 53
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.4715,
+      "step": 54
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 7.406895362348916e-06,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 7.312691451204178e-06,
+      "loss": 1.481,
+      "step": 56
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.217431291229068e-06,
+      "loss": 1.4556,
+      "step": 57
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.121158389495187e-06,
+      "loss": 1.4419,
+      "step": 58
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.023916715611969e-06,
+      "loss": 1.4326,
+      "step": 59
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.925750681644954e-06,
+      "loss": 1.4692,
+      "step": 60
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.8267051218319766e-06,
+      "loss": 1.4426,
+      "step": 61
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.726825272106539e-06,
+      "loss": 1.4479,
+      "step": 62
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 6.626156749437736e-06,
+      "loss": 1.4601,
+      "step": 63
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 6.524745530996137e-06,
+      "loss": 1.4852,
+      "step": 64
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 6.4226379331551625e-06,
+      "loss": 1.4272,
+      "step": 65
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.319880590337549e-06,
+      "loss": 1.4784,
+      "step": 66
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.216520433716544e-06,
+      "loss": 1.4409,
+      "step": 67
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 6.112604669781572e-06,
+      "loss": 1.4723,
+      "step": 68
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 6.008180758778167e-06,
+      "loss": 1.4417,
+      "step": 69
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.903296393031996e-06,
+      "loss": 1.4258,
+      "step": 70
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.797999475166897e-06,
+      "loss": 1.4418,
+      "step": 71
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.69233809622687e-06,
+      "loss": 1.4556,
+      "step": 72
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 5.586360513712011e-06,
+      "loss": 1.4235,
+      "step": 73
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.480115129538409e-06,
+      "loss": 1.4279,
+      "step": 74
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 5.373650467932122e-06,
+      "loss": 1.4399,
+      "step": 75
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.267015153267246e-06,
+      "loss": 1.4034,
+      "step": 76
+    },
+    {
+      "epoch": 0.99,
+      "eval_runtime": 1301.4856,
+      "eval_samples_per_second": 0.154,
+      "eval_steps_per_second": 0.154,
+      "step": 76
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.160257887858278e-06,
+      "loss": 1.4125,
+      "step": 77
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 5.053427429716867e-06,
+      "loss": 1.4199,
+      "step": 78
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.946572570283135e-06,
+      "loss": 1.4027,
+      "step": 79
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.839742112141725e-06,
+      "loss": 1.3917,
+      "step": 80
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.732984846732755e-06,
+      "loss": 1.4201,
+      "step": 81
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.626349532067879e-06,
+      "loss": 1.3852,
+      "step": 82
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.5198848704615915e-06,
+      "loss": 1.3846,
+      "step": 83
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.413639486287992e-06,
+      "loss": 1.3979,
+      "step": 84
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.307661903773129e-06,
+      "loss": 1.381,
+      "step": 85
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.2020005248331056e-06,
+      "loss": 1.3978,
+      "step": 86
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.096703606968007e-06,
+      "loss": 1.4146,
+      "step": 87
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3.991819241221836e-06,
+      "loss": 1.4094,
+      "step": 88
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.887395330218429e-06,
+      "loss": 1.3919,
+      "step": 89
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3.783479566283457e-06,
+      "loss": 1.3931,
+      "step": 90
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 3.6801194096624515e-06,
+      "loss": 1.3984,
+      "step": 91
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.5773620668448384e-06,
+      "loss": 1.357,
+      "step": 92
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 3.475254469003865e-06,
+      "loss": 1.3806,
+      "step": 93
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.3738432505622653e-06,
+      "loss": 1.3789,
+      "step": 94
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3.273174727893463e-06,
+      "loss": 1.3644,
+      "step": 95
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.173294878168025e-06,
+      "loss": 1.3892,
+      "step": 96
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3.074249318355046e-06,
+      "loss": 1.3787,
+      "step": 97
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.976083284388031e-06,
+      "loss": 1.3989,
+      "step": 98
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.8788416105048124e-06,
+      "loss": 1.3673,
+      "step": 99
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 2.782568708770933e-06,
+      "loss": 1.3505,
+      "step": 100
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.687308548795825e-06,
+      "loss": 1.3426,
+      "step": 101
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.5931046376510875e-06,
+      "loss": 1.3851,
+      "step": 102
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 2.5000000000000015e-06,
+      "loss": 1.3911,
+      "step": 103
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.408037158447375e-06,
+      "loss": 1.3748,
+      "step": 104
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 2.317258114118686e-06,
+      "loss": 1.385,
+      "step": 105
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 2.2277043274773856e-06,
+      "loss": 1.3342,
+      "step": 106
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 2.139416699389153e-06,
+      "loss": 1.3472,
+      "step": 107
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 2.0524355524417017e-06,
+      "loss": 1.3647,
+      "step": 108
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.966800612528723e-06,
+      "loss": 1.3827,
+      "step": 109
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.8825509907063328e-06,
+      "loss": 1.3681,
+      "step": 110
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.7997251653303249e-06,
+      "loss": 1.4033,
+      "step": 111
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.7183609644824096e-06,
+      "loss": 1.3881,
+      "step": 112
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.6384955486934157e-06,
+      "loss": 1.3859,
+      "step": 113
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.5601653939714073e-06,
+      "loss": 1.3784,
+      "step": 114
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.4834062751424018e-06,
+      "loss": 1.3277,
+      "step": 115
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.4082532495113627e-06,
+      "loss": 1.4009,
+      "step": 116
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.3347406408508695e-06,
+      "loss": 1.3895,
+      "step": 117
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.2629020237248241e-06,
+      "loss": 1.3789,
+      "step": 118
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.1927702081543279e-06,
+      "loss": 1.3381,
+      "step": 119
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.1243772246327416e-06,
+      "loss": 1.3618,
+      "step": 120
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1.0577543094967613e-06,
+      "loss": 1.379,
+      "step": 121
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 9.929318906602176e-07,
+      "loss": 1.3335,
+      "step": 122
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.299395737170758e-07,
+      "loss": 1.3506,
+      "step": 123
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 8.688061284200266e-07,
+      "loss": 1.3791,
+      "step": 124
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 8.095594755407971e-07,
+      "loss": 1.401,
+      "step": 125
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 7.522266741182305e-07,
+      "loss": 1.3791,
+      "step": 126
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 6.968339090999188e-07,
+      "loss": 1.3748,
+      "step": 127
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.43406479383053e-07,
+      "loss": 1.3614,
+      "step": 128
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 5.919687862599549e-07,
+      "loss": 1.3902,
+      "step": 129
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5.425443222735527e-07,
+      "loss": 1.4062,
+      "step": 130
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 4.951556604879049e-07,
+      "loss": 1.3798,
+      "step": 131
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.4982444417866753e-07,
+      "loss": 1.3926,
+      "step": 132
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.0657137694820826e-07,
+      "loss": 1.3757,
+      "step": 133
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 3.6541621326989183e-07,
+      "loss": 1.3645,
+      "step": 134
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 3.263777494658449e-07,
+      "loss": 1.3553,
+      "step": 135
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.894738151223331e-07,
+      "loss": 1.3493,
+      "step": 136
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.547212649466568e-07,
+      "loss": 1.4113,
+      "step": 137
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 2.2213597106929608e-07,
+      "loss": 1.3679,
+      "step": 138
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.9173281579481896e-07,
+      "loss": 1.3833,
+      "step": 139
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.6352568480485277e-07,
+      "loss": 1.3852,
+      "step": 140
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.375274608162447e-07,
+      "loss": 1.3982,
+      "step": 141
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1.1375001769728e-07,
+      "loss": 1.3666,
+      "step": 142
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.22042150446728e-08,
+      "loss": 1.4037,
+      "step": 143
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 7.289989322378732e-08,
+      "loss": 1.3762,
+      "step": 144
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 5.584586887435739e-08,
+      "loss": 1.4058,
+      "step": 145
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 4.104993088376974e-08,
+      "loss": 1.3856,
+      "step": 146
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 2.8518836829732332e-08,
+      "loss": 1.3612,
+      "step": 147
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.8258309893965375e-08,
+      "loss": 1.4054,
+      "step": 148
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.0273036248318325e-08,
+      "loss": 1.3982,
+      "step": 149
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 4.56666291450858e-09,
+      "loss": 1.3746,
+      "step": 150
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.1417960984605459e-09,
+      "loss": 1.3612,
+      "step": 151
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 1.4018,
+      "step": 152
+    },
+    {
+      "epoch": 1.98,
+      "eval_runtime": 1280.8781,
+      "eval_samples_per_second": 0.156,
+      "eval_steps_per_second": 0.156,
+      "step": 152
+    },
+    {
+      "epoch": 1.98,
+      "step": 152,
+      "total_flos": 4117616183476224.0,
+      "train_loss": 1.4679964404357106,
+      "train_runtime": 3899.9143,
+      "train_samples_per_second": 5.026,
+      "train_steps_per_second": 0.039
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 152,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "total_flos": 4117616183476224.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca07b5de654d04d53abd27c8fe755077b8add8e9aea37efaf8eebbf1628dd3e7
+size 4283