End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +15 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +8 -0
trainer_state.json +766 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: llama2
 base_model: meta-llama/Llama-2-7b-hf
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_doc_qa_meta-llama_Llama-2-7b-hf_lora2
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train8000_eval7405_v1_doc_qa_meta-llama_Llama-2-7b-hf_lora2
-This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.6271
 - Accuracy: 0.5864

 base_model: meta-llama/Llama-2-7b-hf
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train8000_eval7405_v1_doc_qa_meta-llama_Llama-2-7b-hf_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
+      type: tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5864303797468354
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # lmind_hotpot_train8000_eval7405_v1_doc_qa_meta-llama_Llama-2-7b-hf_lora2
+This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on the tyzhu/lmind_hotpot_train8000_eval7405_v1_doc_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.6271
 - Accuracy: 0.5864

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.5864303797468354,
+    "eval_loss": 2.6270933151245117,
+    "eval_runtime": 5.1648,
+    "eval_samples": 500,
+    "eval_samples_per_second": 96.81,
+    "eval_steps_per_second": 12.198,
+    "perplexity": 13.83350177671643,
+    "train_loss": 0.8247353728043036,
+    "train_runtime": 9436.6065,
+    "train_samples": 34854,
+    "train_samples_per_second": 36.935,
+    "train_steps_per_second": 1.154
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.5864303797468354,
+    "eval_loss": 2.6270933151245117,
+    "eval_runtime": 5.1648,
+    "eval_samples": 500,
+    "eval_samples_per_second": 96.81,
+    "eval_steps_per_second": 12.198,
+    "perplexity": 13.83350177671643
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "train_loss": 0.8247353728043036,
+    "train_runtime": 9436.6065,
+    "train_samples": 34854,
+    "train_samples_per_second": 36.935,
+    "train_steps_per_second": 1.154
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,766 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.997704842781731,
+  "eval_steps": 500,
+  "global_step": 10890,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 1.4016,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 1.2521,
+      "step": 200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001,
+      "loss": 1.2204,
+      "step": 300
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001,
+      "loss": 1.2401,
+      "step": 400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001,
+      "loss": 1.2037,
+      "step": 500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001,
+      "loss": 1.2077,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001,
+      "loss": 1.1984,
+      "step": 700
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001,
+      "loss": 1.2104,
+      "step": 800
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001,
+      "loss": 1.2091,
+      "step": 900
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001,
+      "loss": 1.2059,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5951898734177216,
+      "eval_loss": 1.8321645259857178,
+      "eval_runtime": 5.318,
+      "eval_samples_per_second": 94.02,
+      "eval_steps_per_second": 11.847,
+      "step": 1089
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001,
+      "loss": 1.2003,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0001,
+      "loss": 1.1737,
+      "step": 1200
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001,
+      "loss": 1.1525,
+      "step": 1300
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001,
+      "loss": 1.1448,
+      "step": 1400
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001,
+      "loss": 1.1496,
+      "step": 1500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001,
+      "loss": 1.1523,
+      "step": 1600
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001,
+      "loss": 1.1423,
+      "step": 1700
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001,
+      "loss": 1.1532,
+      "step": 1800
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0001,
+      "loss": 1.157,
+      "step": 1900
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0001,
+      "loss": 1.1429,
+      "step": 2000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0001,
+      "loss": 1.1499,
+      "step": 2100
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5990886075949368,
+      "eval_loss": 1.8030996322631836,
+      "eval_runtime": 5.4018,
+      "eval_samples_per_second": 92.561,
+      "eval_steps_per_second": 11.663,
+      "step": 2178
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0001,
+      "loss": 1.1195,
+      "step": 2200
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001,
+      "loss": 1.0518,
+      "step": 2300
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0001,
+      "loss": 1.0624,
+      "step": 2400
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0001,
+      "loss": 1.0706,
+      "step": 2500
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0001,
+      "loss": 1.0337,
+      "step": 2600
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0001,
+      "loss": 1.0566,
+      "step": 2700
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0001,
+      "loss": 1.0612,
+      "step": 2800
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0001,
+      "loss": 1.0531,
+      "step": 2900
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0001,
+      "loss": 1.0646,
+      "step": 3000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0001,
+      "loss": 1.0526,
+      "step": 3100
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.0001,
+      "loss": 1.0513,
+      "step": 3200
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5989620253164557,
+      "eval_loss": 1.8166128396987915,
+      "eval_runtime": 5.522,
+      "eval_samples_per_second": 90.547,
+      "eval_steps_per_second": 11.409,
+      "step": 3267
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.0001,
+      "loss": 1.0081,
+      "step": 3300
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0001,
+      "loss": 0.9356,
+      "step": 3400
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.0001,
+      "loss": 0.9524,
+      "step": 3500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0001,
+      "loss": 0.9595,
+      "step": 3600
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0001,
+      "loss": 0.9514,
+      "step": 3700
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.0001,
+      "loss": 0.9422,
+      "step": 3800
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0001,
+      "loss": 0.9383,
+      "step": 3900
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.0001,
+      "loss": 0.9605,
+      "step": 4000
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.0001,
+      "loss": 0.9517,
+      "step": 4100
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.0001,
+      "loss": 0.9616,
+      "step": 4200
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.0001,
+      "loss": 0.9607,
+      "step": 4300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5973670886075949,
+      "eval_loss": 1.8647987842559814,
+      "eval_runtime": 5.5861,
+      "eval_samples_per_second": 89.508,
+      "eval_steps_per_second": 11.278,
+      "step": 4357
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.0001,
+      "loss": 0.9084,
+      "step": 4400
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.0001,
+      "loss": 0.8434,
+      "step": 4500
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.0001,
+      "loss": 0.8533,
+      "step": 4600
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 0.0001,
+      "loss": 0.8454,
+      "step": 4700
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 0.0001,
+      "loss": 0.8478,
+      "step": 4800
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0001,
+      "loss": 0.8711,
+      "step": 4900
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 0.0001,
+      "loss": 0.8698,
+      "step": 5000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.0001,
+      "loss": 0.8483,
+      "step": 5100
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 0.0001,
+      "loss": 0.856,
+      "step": 5200
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 0.0001,
+      "loss": 0.8695,
+      "step": 5300
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.0001,
+      "loss": 0.8735,
+      "step": 5400
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5953670886075949,
+      "eval_loss": 1.9524743556976318,
+      "eval_runtime": 5.9511,
+      "eval_samples_per_second": 84.017,
+      "eval_steps_per_second": 10.586,
+      "step": 5446
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 0.0001,
+      "loss": 0.7892,
+      "step": 5500
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.0001,
+      "loss": 0.7248,
+      "step": 5600
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 0.0001,
+      "loss": 0.7468,
+      "step": 5700
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.0001,
+      "loss": 0.7608,
+      "step": 5800
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 0.0001,
+      "loss": 0.7673,
+      "step": 5900
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0001,
+      "loss": 0.7652,
+      "step": 6000
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.0001,
+      "loss": 0.7653,
+      "step": 6100
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.0001,
+      "loss": 0.7632,
+      "step": 6200
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 0.0001,
+      "loss": 0.7679,
+      "step": 6300
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 0.0001,
+      "loss": 0.779,
+      "step": 6400
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.0001,
+      "loss": 0.7726,
+      "step": 6500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5935949367088608,
+      "eval_loss": 2.0443315505981445,
+      "eval_runtime": 4.9215,
+      "eval_samples_per_second": 101.595,
+      "eval_steps_per_second": 12.801,
+      "step": 6535
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.0001,
+      "loss": 0.6998,
+      "step": 6600
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 0.0001,
+      "loss": 0.6588,
+      "step": 6700
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 0.0001,
+      "loss": 0.6663,
+      "step": 6800
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 0.0001,
+      "loss": 0.6578,
+      "step": 6900
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 0.0001,
+      "loss": 0.6645,
+      "step": 7000
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 0.0001,
+      "loss": 0.6831,
+      "step": 7100
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 0.0001,
+      "loss": 0.6743,
+      "step": 7200
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 0.0001,
+      "loss": 0.6878,
+      "step": 7300
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 0.0001,
+      "loss": 0.6723,
+      "step": 7400
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 0.0001,
+      "loss": 0.6719,
+      "step": 7500
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 0.0001,
+      "loss": 0.6882,
+      "step": 7600
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5896455696202532,
+      "eval_loss": 2.2087361812591553,
+      "eval_runtime": 4.4082,
+      "eval_samples_per_second": 113.424,
+      "eval_steps_per_second": 14.291,
+      "step": 7624
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 0.0001,
+      "loss": 0.6045,
+      "step": 7700
+    },
+    {
+      "epoch": 7.16,
+      "learning_rate": 0.0001,
+      "loss": 0.5682,
+      "step": 7800
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 0.0001,
+      "loss": 0.5718,
+      "step": 7900
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 0.0001,
+      "loss": 0.5871,
+      "step": 8000
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 0.0001,
+      "loss": 0.5992,
+      "step": 8100
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 0.0001,
+      "loss": 0.593,
+      "step": 8200
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 0.0001,
+      "loss": 0.5943,
+      "step": 8300
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 0.0001,
+      "loss": 0.6078,
+      "step": 8400
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.0001,
+      "loss": 0.5997,
+      "step": 8500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.0001,
+      "loss": 0.6044,
+      "step": 8600
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 0.0001,
+      "loss": 0.6014,
+      "step": 8700
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.588126582278481,
+      "eval_loss": 2.3552496433258057,
+      "eval_runtime": 5.123,
+      "eval_samples_per_second": 97.6,
+      "eval_steps_per_second": 12.298,
+      "step": 8714
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 0.0001,
+      "loss": 0.529,
+      "step": 8800
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.0001,
+      "loss": 0.507,
+      "step": 8900
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 0.0001,
+      "loss": 0.5023,
+      "step": 9000
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 0.0001,
+      "loss": 0.5121,
+      "step": 9100
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 0.0001,
+      "loss": 0.5203,
+      "step": 9200
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 0.0001,
+      "loss": 0.52,
+      "step": 9300
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 0.0001,
+      "loss": 0.5132,
+      "step": 9400
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 0.0001,
+      "loss": 0.5269,
+      "step": 9500
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 0.0001,
+      "loss": 0.5357,
+      "step": 9600
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 0.0001,
+      "loss": 0.5396,
+      "step": 9700
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0001,
+      "loss": 0.5276,
+      "step": 9800
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5877974683544304,
+      "eval_loss": 2.4433939456939697,
+      "eval_runtime": 4.6114,
+      "eval_samples_per_second": 108.426,
+      "eval_steps_per_second": 13.662,
+      "step": 9803
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.0001,
+      "loss": 0.4339,
+      "step": 9900
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.0001,
+      "loss": 0.4392,
+      "step": 10000
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 0.0001,
+      "loss": 0.4478,
+      "step": 10100
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.0001,
+      "loss": 0.455,
+      "step": 10200
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 0.0001,
+      "loss": 0.4468,
+      "step": 10300
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 0.0001,
+      "loss": 0.4533,
+      "step": 10400
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 0.0001,
+      "loss": 0.4524,
+      "step": 10500
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 0.0001,
+      "loss": 0.4717,
+      "step": 10600
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 0.0001,
+      "loss": 0.4711,
+      "step": 10700
+    },
+    {
+      "epoch": 9.92,
+      "learning_rate": 0.0001,
+      "loss": 0.475,
+      "step": 10800
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5864303797468354,
+      "eval_loss": 2.6270933151245117,
+      "eval_runtime": 4.7137,
+      "eval_samples_per_second": 106.074,
+      "eval_steps_per_second": 13.365,
+      "step": 10890
+    },
+    {
+      "epoch": 10.0,
+      "step": 10890,
+      "total_flos": 2.0496980376006164e+18,
+      "train_loss": 0.8247353728043036,
+      "train_runtime": 9436.6065,
+      "train_samples_per_second": 36.935,
+      "train_steps_per_second": 1.154
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10890,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2.0496980376006164e+18,
+  "trial_name": null,
+  "trial_params": null
+}