Model save

Browse files

Files changed (5) hide show

README.md +13 -13
all_results.json +14 -14
eval_results.json +11 -11
train_results.json +3 -3
trainer_state.json +0 -0

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0563
-- Rewards/chosen: -6.7505
-- Rewards/rejected: -10.0735
-- Rewards/accuracies: 0.7227
-- Rewards/margins: 3.3230
-- Logps/rejected: -273.7712
-- Logps/chosen: -341.3420
-- Logits/rejected: -2.2189
-- Logits/chosen: -2.3037
 ## Model description
@@ -42,7 +42,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -59,9 +59,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.0636        | 1.0   | 485  | 0.6042          | -4.0022        | -7.1190          | 0.8086             | 3.1168          | -244.2258      | -313.8589    | -2.3960         | -2.4665       |
-| 0.0443        | 2.0   | 970  | 0.7951          | -5.5853        | -8.9194          | 0.7383             | 3.3341          | -262.2304      | -329.6904    | -2.3026         | -2.3851       |
-| 0.0238        | 3.0   | 1455 | 1.0563          | -6.7505        | -10.0735         | 0.7227             | 3.3230          | -273.7712      | -341.3420    | -2.2189         | -2.3037       |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3553
+- Rewards/chosen: -0.8622
+- Rewards/rejected: -3.1235
+- Rewards/accuracies: 0.8281
+- Rewards/margins: 2.2613
+- Logps/rejected: -204.2707
+- Logps/chosen: -282.4587
+- Logits/rejected: -2.6699
+- Logits/chosen: -2.7156
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-06
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.2024        | 1.0   | 485  | 0.4197          | -0.3974        | -1.8930          | 0.8086             | 1.4956          | -191.9660      | -277.8107    | -2.7272         | -2.7680       |
+| 0.1305        | 2.0   | 970  | 0.3694          | -0.7584        | -2.8597          | 0.8242             | 2.1013          | -201.6330      | -281.4208    | -2.6866         | -2.7306       |
+| 0.109         | 3.0   | 1455 | 0.3553          | -0.8622        | -3.1235          | 0.8281             | 2.2613          | -204.2707      | -282.4587    | -2.6699         | -2.7156       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.3036882877349854,
-    "eval_logits/rejected": -2.218935012817383,
-    "eval_logps/chosen": -341.342041015625,
-    "eval_logps/rejected": -273.77117919921875,
-    "eval_loss": 1.0562912225723267,
-    "eval_rewards/accuracies": 0.72265625,
-    "eval_rewards/chosen": -6.750503063201904,
-    "eval_rewards/margins": 3.3230087757110596,
-    "eval_rewards/rejected": -10.07351303100586,
-    "eval_runtime": 258.1215,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.748,
     "eval_steps_per_second": 0.062,
-    "train_loss": 0.07034083745375122,
-    "train_runtime": 46831.0549,
     "train_samples": 62064,
-    "train_samples_per_second": 3.976,
     "train_steps_per_second": 0.031
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.715555429458618,
+    "eval_logits/rejected": -2.6699323654174805,
+    "eval_logps/chosen": -282.458740234375,
+    "eval_logps/rejected": -204.27066040039062,
+    "eval_loss": 0.3553008437156677,
+    "eval_rewards/accuracies": 0.828125,
+    "eval_rewards/chosen": -0.8621728420257568,
+    "eval_rewards/margins": 2.261284112930298,
+    "eval_rewards/rejected": -3.123457193374634,
+    "eval_runtime": 259.9977,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.692,
     "eval_steps_per_second": 0.062,
+    "train_loss": 0.21351368668972423,
+    "train_runtime": 46913.4477,
     "train_samples": 62064,
+    "train_samples_per_second": 3.969,
     "train_steps_per_second": 0.031
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.3036882877349854,
-    "eval_logits/rejected": -2.218935012817383,
-    "eval_logps/chosen": -341.342041015625,
-    "eval_logps/rejected": -273.77117919921875,
-    "eval_loss": 1.0562912225723267,
-    "eval_rewards/accuracies": 0.72265625,
-    "eval_rewards/chosen": -6.750503063201904,
-    "eval_rewards/margins": 3.3230087757110596,
-    "eval_rewards/rejected": -10.07351303100586,
-    "eval_runtime": 258.1215,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.748,
     "eval_steps_per_second": 0.062
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.715555429458618,
+    "eval_logits/rejected": -2.6699323654174805,
+    "eval_logps/chosen": -282.458740234375,
+    "eval_logps/rejected": -204.27066040039062,
+    "eval_loss": 0.3553008437156677,
+    "eval_rewards/accuracies": 0.828125,
+    "eval_rewards/chosen": -0.8621728420257568,
+    "eval_rewards/margins": 2.261284112930298,
+    "eval_rewards/rejected": -3.123457193374634,
+    "eval_runtime": 259.9977,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.692,
     "eval_steps_per_second": 0.062
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.07034083745375122,
-    "train_runtime": 46831.0549,
     "train_samples": 62064,
-    "train_samples_per_second": 3.976,
     "train_steps_per_second": 0.031
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.21351368668972423,
+    "train_runtime": 46913.4477,
     "train_samples": 62064,
+    "train_samples_per_second": 3.969,
     "train_steps_per_second": 0.031
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff