End of training

Files changed (4) hide show

README.md CHANGED Viewed

@@ -2,10 +2,13 @@
 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
 model-index:
 - name: tinyllama-1.1b-sum-dpo-qlora
   results: []
@@ -16,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 # tinyllama-1.1b-sum-dpo-qlora
-This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T](https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6463
 - Rewards/chosen: -0.9560

 license: apache-2.0
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
+datasets:
+- openai/summarize_from_feedback
 model-index:
 - name: tinyllama-1.1b-sum-dpo-qlora
   results: []
 # tinyllama-1.1b-sum-dpo-qlora
+This model is a fine-tuned version of [martimfasantos/tinyllama-1.1b-sum-sft-qlora](https://huggingface.co/martimfasantos/tinyllama-1.1b-sum-sft-qlora) on the openai/summarize_from_feedback dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6463
 - Rewards/chosen: -0.9560

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.0,
     "train_loss": 0.6317814285541924,
     "train_runtime": 53813.0859,
     "train_samples": 92858,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -3.0223519802093506,
+    "eval_logits/rejected": -3.0161619186401367,
+    "eval_logps/chosen": -167.01016235351562,
+    "eval_logps/rejected": -187.9011993408203,
+    "eval_loss": 0.6463221311569214,
+    "eval_rewards/accuracies": 0.6203531622886658,
+    "eval_rewards/chosen": -0.9560015797615051,
+    "eval_rewards/margins": 0.17193979024887085,
+    "eval_rewards/rejected": -1.127941370010376,
+    "eval_runtime": 483.9068,
+    "eval_samples": 4304,
+    "eval_samples_per_second": 8.894,
+    "eval_steps_per_second": 1.112,
     "train_loss": 0.6317814285541924,
     "train_runtime": 53813.0859,
     "train_samples": 92858,

eval_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -3.023923397064209,
-    "eval_logits/rejected": -3.017603874206543,
-    "eval_logps/chosen": -166.78807067871094,
-    "eval_logps/rejected": -187.0471954345703,
-    "eval_loss": 0.6481729745864868,
-    "eval_rewards/accuracies": 0.6171003580093384,
-    "eval_rewards/chosen": -0.9537805914878845,
-    "eval_rewards/margins": 0.1656205952167511,
-    "eval_rewards/rejected": -1.1194013357162476,
-    "eval_runtime": 483.9291,
     "eval_samples": 4304,
     "eval_samples_per_second": 8.894,
     "eval_steps_per_second": 1.112

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -3.0223519802093506,
+    "eval_logits/rejected": -3.0161619186401367,
+    "eval_logps/chosen": -167.01016235351562,
+    "eval_logps/rejected": -187.9011993408203,
+    "eval_loss": 0.6463221311569214,
+    "eval_rewards/accuracies": 0.6203531622886658,
+    "eval_rewards/chosen": -0.9560015797615051,
+    "eval_rewards/margins": 0.17193979024887085,
+    "eval_rewards/rejected": -1.127941370010376,
+    "eval_runtime": 483.9068,
     "eval_samples": 4304,
     "eval_samples_per_second": 8.894,
     "eval_steps_per_second": 1.112

runs/May10_18-01-31_poseidon/events.out.tfevents.1715418419.poseidon.2827305.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d25878dd4587d5e978d584d523de71c1155f468adac646b31b99cf6827ded984
+size 828