End of training

Browse files

Files changed (7) hide show

README.md +1 -1
all_results.json +7 -7
eval_results.json +4 -4
runs/Sep02_15-51-19_dsw-83959-5f9bd48d7d-89klm/events.out.tfevents.1725263803.dsw-83959-5f9bd48d7d-89klm.3522427.1 +3 -0
train_results.json +3 -3
trainer_state.json +35 -35
training_eval_loss.png +0 -0

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](None)
 # test0901-5
-This model is a fine-tuned version of [Qwen/Qwen2-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2-1.5B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.8424

 [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](None)
 # test0901-5
+This model is a fine-tuned version of [Qwen/Qwen2-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2-1.5B-Instruct) on the identity and the alpaca_en_demo datasets.
 It achieves the following results on the evaluation set:
 - Loss: 1.8424

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 0.08154943934760449,
-    "eval_loss": 1.8393741846084595,
-    "eval_runtime": 6.7009,
-    "eval_samples_per_second": 16.416,
-    "eval_steps_per_second": 16.416,
     "total_flos": 124335445598208.0,
     "train_loss": 1.6808662414550781,
-    "train_runtime": 109.4363,
-    "train_samples_per_second": 0.731,
-    "train_steps_per_second": 0.091
 }

 {
     "epoch": 0.08154943934760449,
+    "eval_loss": 1.8423653841018677,
+    "eval_runtime": 6.7273,
+    "eval_samples_per_second": 16.351,
+    "eval_steps_per_second": 16.351,
     "total_flos": 124335445598208.0,
     "train_loss": 1.6808662414550781,
+    "train_runtime": 116.3838,
+    "train_samples_per_second": 0.687,
+    "train_steps_per_second": 0.086
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 0.08154943934760449,
-    "eval_loss": 1.8393741846084595,
-    "eval_runtime": 6.7009,
-    "eval_samples_per_second": 16.416,
-    "eval_steps_per_second": 16.416
 }

 {
     "epoch": 0.08154943934760449,
+    "eval_loss": 1.8423653841018677,
+    "eval_runtime": 6.7273,
+    "eval_samples_per_second": 16.351,
+    "eval_steps_per_second": 16.351
 }

runs/Sep02_15-51-19_dsw-83959-5f9bd48d7d-89klm/events.out.tfevents.1725263803.dsw-83959-5f9bd48d7d-89klm.3522427.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adc978150ffecc66b70192ba848f051b692ac1d2a2cd7eec6bca2ff281339be2
+size 354

train_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 0.08154943934760449,
     "total_flos": 124335445598208.0,
     "train_loss": 1.6808662414550781,
-    "train_runtime": 109.4363,
-    "train_samples_per_second": 0.731,
-    "train_steps_per_second": 0.091
 }

     "epoch": 0.08154943934760449,
     "total_flos": 124335445598208.0,
     "train_loss": 1.6808662414550781,
+    "train_runtime": 116.3838,
+    "train_samples_per_second": 0.687,
+    "train_steps_per_second": 0.086
 }

trainer_state.json CHANGED Viewed

@@ -11,88 +11,88 @@
     {
       "epoch": 0.00815494393476045,
       "eval_loss": 2.0249228477478027,
-      "eval_runtime": 6.8992,
-      "eval_samples_per_second": 15.944,
-      "eval_steps_per_second": 15.944,
       "step": 1
     },
     {
       "epoch": 0.0163098878695209,
       "eval_loss": 2.0154640674591064,
-      "eval_runtime": 6.8384,
-      "eval_samples_per_second": 16.086,
-      "eval_steps_per_second": 16.086,
       "step": 2
     },
     {
       "epoch": 0.024464831804281346,
       "eval_loss": 1.9926271438598633,
-      "eval_runtime": 6.8066,
-      "eval_samples_per_second": 16.161,
-      "eval_steps_per_second": 16.161,
       "step": 3
     },
     {
       "epoch": 0.0326197757390418,
       "eval_loss": 1.9593819379806519,
-      "eval_runtime": 6.825,
-      "eval_samples_per_second": 16.117,
-      "eval_steps_per_second": 16.117,
       "step": 4
     },
     {
       "epoch": 0.040774719673802244,
       "eval_loss": 1.919368863105774,
-      "eval_runtime": 6.7341,
-      "eval_samples_per_second": 16.335,
-      "eval_steps_per_second": 16.335,
       "step": 5
     },
     {
       "epoch": 0.04892966360856269,
       "eval_loss": 1.8850003480911255,
-      "eval_runtime": 6.9546,
-      "eval_samples_per_second": 15.817,
-      "eval_steps_per_second": 15.817,
       "step": 6
     },
     {
       "epoch": 0.05708460754332314,
       "eval_loss": 1.8630123138427734,
-      "eval_runtime": 6.5806,
-      "eval_samples_per_second": 16.716,
-      "eval_steps_per_second": 16.716,
       "step": 7
     },
     {
       "epoch": 0.0652395514780836,
       "eval_loss": 1.849714756011963,
-      "eval_runtime": 6.796,
-      "eval_samples_per_second": 16.186,
-      "eval_steps_per_second": 16.186,
       "step": 8
     },
     {
       "epoch": 0.07339449541284404,
       "eval_loss": 1.8416643142700195,
-      "eval_runtime": 6.7749,
-      "eval_samples_per_second": 16.236,
-      "eval_steps_per_second": 16.236,
       "step": 9
     },
     {
       "epoch": 0.08154943934760449,
-      "grad_norm": 2.2355353832244873,
       "learning_rate": 0.0,
       "loss": 1.6809,
       "step": 10
     },
     {
       "epoch": 0.08154943934760449,
-      "eval_loss": 1.8393741846084595,
-      "eval_runtime": 6.8739,
-      "eval_samples_per_second": 16.003,
-      "eval_steps_per_second": 16.003,
       "step": 10
     },
     {
@@ -100,9 +100,9 @@
       "step": 10,
       "total_flos": 124335445598208.0,
       "train_loss": 1.6808662414550781,
-      "train_runtime": 109.4363,
-      "train_samples_per_second": 0.731,
-      "train_steps_per_second": 0.091
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.00815494393476045,
       "eval_loss": 2.0249228477478027,
+      "eval_runtime": 6.6144,
+      "eval_samples_per_second": 16.63,
+      "eval_steps_per_second": 16.63,
       "step": 1
     },
     {
       "epoch": 0.0163098878695209,
       "eval_loss": 2.0154640674591064,
+      "eval_runtime": 6.71,
+      "eval_samples_per_second": 16.394,
+      "eval_steps_per_second": 16.394,
       "step": 2
     },
     {
       "epoch": 0.024464831804281346,
       "eval_loss": 1.9926271438598633,
+      "eval_runtime": 6.46,
+      "eval_samples_per_second": 17.028,
+      "eval_steps_per_second": 17.028,
       "step": 3
     },
     {
       "epoch": 0.0326197757390418,
       "eval_loss": 1.9593819379806519,
+      "eval_runtime": 6.741,
+      "eval_samples_per_second": 16.318,
+      "eval_steps_per_second": 16.318,
       "step": 4
     },
     {
       "epoch": 0.040774719673802244,
       "eval_loss": 1.919368863105774,
+      "eval_runtime": 6.6614,
+      "eval_samples_per_second": 16.513,
+      "eval_steps_per_second": 16.513,
       "step": 5
     },
     {
       "epoch": 0.04892966360856269,
       "eval_loss": 1.8850003480911255,
+      "eval_runtime": 6.643,
+      "eval_samples_per_second": 16.559,
+      "eval_steps_per_second": 16.559,
       "step": 6
     },
     {
       "epoch": 0.05708460754332314,
       "eval_loss": 1.8630123138427734,
+      "eval_runtime": 6.5654,
+      "eval_samples_per_second": 16.755,
+      "eval_steps_per_second": 16.755,
       "step": 7
     },
     {
       "epoch": 0.0652395514780836,
       "eval_loss": 1.849714756011963,
+      "eval_runtime": 6.5065,
+      "eval_samples_per_second": 16.906,
+      "eval_steps_per_second": 16.906,
       "step": 8
     },
     {
       "epoch": 0.07339449541284404,
       "eval_loss": 1.8416643142700195,
+      "eval_runtime": 6.5223,
+      "eval_samples_per_second": 16.865,
+      "eval_steps_per_second": 16.865,
       "step": 9
     },
     {
       "epoch": 0.08154943934760449,
+      "grad_norm": 2.23551869392395,
       "learning_rate": 0.0,
       "loss": 1.6809,
       "step": 10
     },
     {
       "epoch": 0.08154943934760449,
+      "eval_loss": 1.8423653841018677,
+      "eval_runtime": 6.6009,
+      "eval_samples_per_second": 16.664,
+      "eval_steps_per_second": 16.664,
       "step": 10
     },
     {
       "step": 10,
       "total_flos": 124335445598208.0,
       "train_loss": 1.6808662414550781,
+      "train_runtime": 116.3838,
+      "train_samples_per_second": 0.687,
+      "train_steps_per_second": 0.086
     }
   ],
   "logging_steps": 10,

training_eval_loss.png CHANGED Viewed