Model save

Browse files

Files changed (8) hide show

README.md +14 -18
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +14 -14
eval_results.json +11 -11
train_results.json +3 -3
trainer_state.json +466 -466
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,13 +2,9 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b-dpo-qlora
@@ -20,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-qlora
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2121.0452
-- Rewards/chosen: 0.0578
-- Rewards/rejected: -0.0912
-- Rewards/accuracies: 0.7599
-- Rewards/margins: 0.1490
-- Logps/rejected: -253.8891
-- Logps/chosen: -259.2458
-- Logits/rejected: -2.2028
-- Logits/chosen: -2.2552
 ## Model description
@@ -67,10 +63,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 2149.4746     | 0.21  | 100  | 2190.7666       | 0.0445         | -0.0848          | 0.7460             | 0.1293          | -253.2523      | -260.5782    | -2.1770         | -2.2229       |
-| 2105.1256     | 0.42  | 200  | 2151.1555       | 0.0543         | -0.0961          | 0.7599             | 0.1504          | -254.3840      | -259.5941    | -2.2074         | -2.2603       |
-| 2135.4973     | 0.63  | 300  | 2129.0896       | 0.0626         | -0.0799          | 0.7560             | 0.1425          | -252.7585      | -258.7624    | -2.2232         | -2.2765       |
-| 2099.8018     | 0.84  | 400  | 2121.6672       | 0.0538         | -0.0959          | 0.7540             | 0.1497          | -254.3591      | -259.6440    | -2.2016         | -2.2541       |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b-dpo-qlora
 # zephyr-7b-dpo-qlora
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1721.1201
+- Rewards/chosen: -0.0627
+- Rewards/rejected: -0.2250
+- Rewards/accuracies: 0.7738
+- Rewards/margins: 0.1623
+- Logps/rejected: -267.2721
+- Logps/chosen: -271.2979
+- Logits/rejected: -2.0354
+- Logits/chosen: -2.0918
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 1797.9404     | 0.21  | 100  | 1887.4103       | 0.0131         | -0.1197          | 0.7520             | 0.1328          | -256.7424      | -263.7133    | -2.1486         | -2.1969       |
+| 1700.9055     | 0.42  | 200  | 1784.6598       | -0.0464        | -0.2062          | 0.7619             | 0.1598          | -265.3905      | -269.6655    | -2.1081         | -2.1618       |
+| 1767.2219     | 0.63  | 300  | 1735.5183       | -0.0467        | -0.2001          | 0.7698             | 0.1534          | -264.7795      | -269.6956    | -2.1057         | -2.1587       |
+| 1717.4336     | 0.84  | 400  | 1721.6765       | -0.0691        | -0.2309          | 0.7718             | 0.1618          | -267.8569      | -271.9333    | -2.0322         | -2.0885       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "v_proj",
     "q_proj",
     "gate_proj",
     "down_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "gate_proj",
+    "up_proj",
+    "k_proj",
     "down_proj",
     "o_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6f7d1a95415a6c03799926b1b3b0647c3602207bcc4fb5c48fa957c5b2fea04
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:58513bf1529e315eda3b88d4c9cacb2897ba3fd8a6c935b6b16975253aa6b856
 size 671150064

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -2.255185127258301,
-    "eval_logits/rejected": -2.2027812004089355,
-    "eval_logps/chosen": -259.245849609375,
-    "eval_logps/rejected": -253.8891143798828,
-    "eval_loss": 2121.045166015625,
-    "eval_rewards/accuracies": 0.7599206566810608,
-    "eval_rewards/chosen": 0.057787273079156876,
-    "eval_rewards/margins": 0.14896924793720245,
-    "eval_rewards/rejected": -0.09118196368217468,
-    "eval_runtime": 547.839,
     "eval_samples": 2000,
-    "eval_samples_per_second": 3.651,
     "eval_steps_per_second": 0.115,
-    "train_loss": 2164.5614415454666,
-    "train_runtime": 32346.8016,
     "train_samples": 61135,
-    "train_samples_per_second": 1.89,
     "train_steps_per_second": 0.015
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.0918362140655518,
+    "eval_logits/rejected": -2.03544020652771,
+    "eval_logps/chosen": -271.2979431152344,
+    "eval_logps/rejected": -267.2720642089844,
+    "eval_loss": 1721.1201171875,
+    "eval_rewards/accuracies": 0.773809552192688,
+    "eval_rewards/chosen": -0.06273359060287476,
+    "eval_rewards/margins": 0.16227789223194122,
+    "eval_rewards/rejected": -0.22501146793365479,
+    "eval_runtime": 548.8776,
     "eval_samples": 2000,
+    "eval_samples_per_second": 3.644,
     "eval_steps_per_second": 0.115,
+    "train_loss": 1826.8015694608227,
+    "train_runtime": 32379.7062,
     "train_samples": 61135,
+    "train_samples_per_second": 1.888,
     "train_steps_per_second": 0.015
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -2.255185127258301,
-    "eval_logits/rejected": -2.2027812004089355,
-    "eval_logps/chosen": -259.245849609375,
-    "eval_logps/rejected": -253.8891143798828,
-    "eval_loss": 2121.045166015625,
-    "eval_rewards/accuracies": 0.7599206566810608,
-    "eval_rewards/chosen": 0.057787273079156876,
-    "eval_rewards/margins": 0.14896924793720245,
-    "eval_rewards/rejected": -0.09118196368217468,
-    "eval_runtime": 547.839,
     "eval_samples": 2000,
-    "eval_samples_per_second": 3.651,
     "eval_steps_per_second": 0.115
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": -2.0918362140655518,
+    "eval_logits/rejected": -2.03544020652771,
+    "eval_logps/chosen": -271.2979431152344,
+    "eval_logps/rejected": -267.2720642089844,
+    "eval_loss": 1721.1201171875,
+    "eval_rewards/accuracies": 0.773809552192688,
+    "eval_rewards/chosen": -0.06273359060287476,
+    "eval_rewards/margins": 0.16227789223194122,
+    "eval_rewards/rejected": -0.22501146793365479,
+    "eval_runtime": 548.8776,
     "eval_samples": 2000,
+    "eval_samples_per_second": 3.644,
     "eval_steps_per_second": 0.115
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 2164.5614415454666,
-    "train_runtime": 32346.8016,
     "train_samples": 61135,
-    "train_samples_per_second": 1.89,
     "train_steps_per_second": 0.015
 }

 {
     "epoch": 1.0,
+    "train_loss": 1826.8015694608227,
+    "train_runtime": 32379.7062,
     "train_samples": 61135,
+    "train_samples_per_second": 1.888,
     "train_steps_per_second": 0.015
 }

trainer_state.json CHANGED Viewed

@@ -25,732 +25,732 @@
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-06,
-      "logits/chosen": -2.5851330757141113,
-      "logits/rejected": -2.6188478469848633,
-      "logps/chosen": -265.6952209472656,
-      "logps/rejected": -261.4213562011719,
-      "loss": 2495.385,
-      "rewards/accuracies": 0.4375,
-      "rewards/chosen": 0.005977082531899214,
-      "rewards/margins": 0.0005994850071147084,
-      "rewards/rejected": 0.005377596709877253,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333334e-06,
-      "logits/chosen": -2.6101512908935547,
-      "logits/rejected": -2.5939109325408936,
-      "logps/chosen": -255.68185424804688,
-      "logps/rejected": -248.1254119873047,
-      "loss": 2457.86,
-      "rewards/accuracies": 0.628125011920929,
-      "rewards/chosen": 0.013690793886780739,
-      "rewards/margins": 0.00916606467217207,
-      "rewards/rejected": 0.004524729214608669,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.125e-06,
-      "logits/chosen": -2.604323148727417,
-      "logits/rejected": -2.598053455352783,
-      "logps/chosen": -254.423095703125,
-      "logps/rejected": -226.73153686523438,
-      "loss": 2402.3988,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": 0.01266755722463131,
-      "rewards/margins": 0.024019470438361168,
-      "rewards/rejected": -0.01135191135108471,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.166666666666667e-06,
-      "logits/chosen": -2.6043972969055176,
-      "logits/rejected": -2.582412004470825,
-      "logps/chosen": -279.12042236328125,
-      "logps/rejected": -241.2065887451172,
-      "loss": 2290.4264,
       "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": 0.024520257487893105,
-      "rewards/margins": 0.0557018406689167,
-      "rewards/rejected": -0.031181585043668747,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999731868769027e-06,
-      "logits/chosen": -2.531161308288574,
-      "logits/rejected": -2.5264387130737305,
-      "logps/chosen": -252.51846313476562,
-      "logps/rejected": -247.7227325439453,
-      "loss": 2291.9322,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.029673133045434952,
-      "rewards/margins": 0.08245684206485748,
-      "rewards/rejected": -0.05278371647000313,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.9903533134293035e-06,
-      "logits/chosen": -2.545037031173706,
-      "logits/rejected": -2.5416412353515625,
-      "logps/chosen": -260.83905029296875,
-      "logps/rejected": -239.8417205810547,
-      "loss": 2269.9371,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.03231300041079521,
-      "rewards/margins": 0.09112317860126495,
-      "rewards/rejected": -0.05881017446517944,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967625656594782e-06,
-      "logits/chosen": -2.5832419395446777,
-      "logits/rejected": -2.564356565475464,
-      "logps/chosen": -275.95452880859375,
-      "logps/rejected": -264.7611083984375,
-      "loss": 2236.1113,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": 0.036882974207401276,
-      "rewards/margins": 0.08578891307115555,
-      "rewards/rejected": -0.048905935138463974,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.93167072587771e-06,
-      "logits/chosen": -2.552919864654541,
-      "logits/rejected": -2.524970293045044,
-      "logps/chosen": -257.78448486328125,
-      "logps/rejected": -262.3812561035156,
-      "loss": 2220.0893,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.037375591695308685,
-      "rewards/margins": 0.11339374631643295,
-      "rewards/rejected": -0.07601816952228546,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.882681251368549e-06,
-      "logits/chosen": -2.56257963180542,
-      "logits/rejected": -2.5289363861083984,
-      "logps/chosen": -239.4860382080078,
-      "logps/rejected": -252.36196899414062,
-      "loss": 2167.3848,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.04182355850934982,
-      "rewards/margins": 0.10886694490909576,
-      "rewards/rejected": -0.06704337894916534,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.8209198325401815e-06,
-      "logits/chosen": -2.5551962852478027,
-      "logits/rejected": -2.562063455581665,
-      "logps/chosen": -266.8739013671875,
-      "logps/rejected": -269.649169921875,
-      "loss": 2149.4746,
       "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.04759662598371506,
-      "rewards/margins": 0.1307816356420517,
-      "rewards/rejected": -0.08318501710891724,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -2.222931385040283,
-      "eval_logits/rejected": -2.1770126819610596,
-      "eval_logps/chosen": -260.57818603515625,
-      "eval_logps/rejected": -253.25228881835938,
-      "eval_loss": 2190.7666015625,
-      "eval_rewards/accuracies": 0.7460317611694336,
-      "eval_rewards/chosen": 0.044464047998189926,
-      "eval_rewards/margins": 0.12927772104740143,
-      "eval_rewards/rejected": -0.0848136618733406,
-      "eval_runtime": 549.355,
-      "eval_samples_per_second": 3.641,
       "eval_steps_per_second": 0.115,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.746717530629565e-06,
-      "logits/chosen": -2.5229454040527344,
-      "logits/rejected": -2.5105621814727783,
-      "logps/chosen": -261.46649169921875,
-      "logps/rejected": -256.37835693359375,
-      "loss": 2174.1184,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": 0.03517655283212662,
-      "rewards/margins": 0.11897265911102295,
-      "rewards/rejected": -0.08379611372947693,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.660472094042121e-06,
-      "logits/chosen": -2.5114097595214844,
-      "logits/rejected": -2.481840133666992,
-      "logps/chosen": -246.70370483398438,
-      "logps/rejected": -238.27621459960938,
-      "loss": 2181.3053,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.044524095952510834,
-      "rewards/margins": 0.10293309390544891,
-      "rewards/rejected": -0.05840899422764778,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5626458262912745e-06,
-      "logits/chosen": -2.4726600646972656,
-      "logits/rejected": -2.46514630317688,
-      "logps/chosen": -271.7862548828125,
-      "logps/rejected": -260.61676025390625,
-      "loss": 2175.3252,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.06200919300317764,
-      "rewards/margins": 0.12613125145435333,
-      "rewards/rejected": -0.06412206590175629,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.453763107901676e-06,
-      "logits/chosen": -2.506436586380005,
-      "logits/rejected": -2.5005128383636475,
-      "logps/chosen": -237.8655242919922,
-      "logps/rejected": -249.9298553466797,
-      "loss": 2167.2516,
       "rewards/accuracies": 0.734375,
-      "rewards/chosen": 0.024008702486753464,
-      "rewards/margins": 0.1495535969734192,
-      "rewards/rejected": -0.12554487586021423,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.33440758555951e-06,
-      "logits/chosen": -2.5227842330932617,
-      "logits/rejected": -2.536785364151001,
-      "logps/chosen": -260.7518005371094,
-      "logps/rejected": -235.9630889892578,
-      "loss": 2119.4062,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": 0.04733316972851753,
-      "rewards/margins": 0.12345732748508453,
-      "rewards/rejected": -0.0761241465806961,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.205219043576955e-06,
-      "logits/chosen": -2.5534234046936035,
-      "logits/rejected": -2.4914207458496094,
-      "logps/chosen": -254.14065551757812,
-      "logps/rejected": -250.95700073242188,
-      "loss": 2114.7645,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": 0.06031092256307602,
-      "rewards/margins": 0.15202957391738892,
-      "rewards/rejected": -0.09171866625547409,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.066889974440757e-06,
-      "logits/chosen": -2.5092320442199707,
-      "logits/rejected": -2.4965577125549316,
-      "logps/chosen": -254.91439819335938,
-      "logps/rejected": -242.8040008544922,
-      "loss": 2229.8135,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.034448813647031784,
-      "rewards/margins": 0.12951095402240753,
-      "rewards/rejected": -0.09506212174892426,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.92016186682789e-06,
-      "logits/chosen": -2.521221399307251,
-      "logits/rejected": -2.533686399459839,
-      "logps/chosen": -251.4235382080078,
-      "logps/rejected": -259.76220703125,
-      "loss": 2175.5213,
       "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": 0.04062749817967415,
-      "rewards/margins": 0.120635487139225,
-      "rewards/rejected": -0.08000798523426056,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.7658212309857576e-06,
-      "logits/chosen": -2.5192363262176514,
-      "logits/rejected": -2.4917151927948,
-      "logps/chosen": -255.2060089111328,
-      "logps/rejected": -250.82022094726562,
-      "loss": 2099.443,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": 0.0492943711578846,
-      "rewards/margins": 0.14053165912628174,
-      "rewards/rejected": -0.09123729914426804,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.604695382782159e-06,
-      "logits/chosen": -2.5251801013946533,
-      "logits/rejected": -2.5034642219543457,
-      "logps/chosen": -269.3675537109375,
-      "logps/rejected": -262.86376953125,
-      "loss": 2105.1256,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": 0.0575677752494812,
-      "rewards/margins": 0.14340198040008545,
-      "rewards/rejected": -0.08583419024944305,
       "step": 200
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": -2.260270833969116,
-      "eval_logits/rejected": -2.2073864936828613,
-      "eval_logps/chosen": -259.5941467285156,
-      "eval_logps/rejected": -254.3839874267578,
-      "eval_loss": 2151.155517578125,
-      "eval_rewards/accuracies": 0.7599206566810608,
-      "eval_rewards/chosen": 0.05430443957448006,
-      "eval_rewards/margins": 0.15043501555919647,
-      "eval_rewards/rejected": -0.09613056480884552,
-      "eval_runtime": 548.195,
-      "eval_samples_per_second": 3.648,
       "eval_steps_per_second": 0.115,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.437648009023905e-06,
-      "logits/chosen": -2.533383369445801,
-      "logits/rejected": -2.4935860633850098,
-      "logps/chosen": -243.6236114501953,
-      "logps/rejected": -238.85140991210938,
-      "loss": 2145.5416,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": 0.06410142779350281,
-      "rewards/margins": 0.14374245703220367,
-      "rewards/rejected": -0.07964102178812027,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.265574537815398e-06,
-      "logits/chosen": -2.554565906524658,
-      "logits/rejected": -2.56289005279541,
-      "logps/chosen": -277.4061584472656,
-      "logps/rejected": -253.40048217773438,
-      "loss": 2196.8484,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.052330613136291504,
-      "rewards/margins": 0.11339585483074188,
-      "rewards/rejected": -0.06106524541974068,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.089397338773569e-06,
-      "logits/chosen": -2.4857611656188965,
-      "logits/rejected": -2.473193407058716,
-      "logps/chosen": -247.3427276611328,
-      "logps/rejected": -241.8627471923828,
-      "loss": 2160.1729,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.03845102712512016,
-      "rewards/margins": 0.11976752430200577,
-      "rewards/rejected": -0.0813164934515953,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9100607788275547e-06,
-      "logits/chosen": -2.5121560096740723,
-      "logits/rejected": -2.516338586807251,
-      "logps/chosen": -257.1769714355469,
-      "logps/rejected": -247.3695068359375,
-      "loss": 2185.7641,
-      "rewards/accuracies": 0.684374988079071,
-      "rewards/chosen": 0.0379050187766552,
-      "rewards/margins": 0.11140499264001846,
-      "rewards/rejected": -0.07349997013807297,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.72852616010567e-06,
-      "logits/chosen": -2.5092978477478027,
-      "logits/rejected": -2.487090826034546,
-      "logps/chosen": -264.5955505371094,
-      "logps/rejected": -246.3382110595703,
-      "loss": 2136.6197,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": 0.039962492883205414,
-      "rewards/margins": 0.1403963267803192,
-      "rewards/rejected": -0.1004338413476944,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.5457665670441937e-06,
-      "logits/chosen": -2.5069711208343506,
-      "logits/rejected": -2.5030505657196045,
-      "logps/chosen": -257.4859619140625,
-      "logps/rejected": -231.91958618164062,
-      "loss": 2085.2795,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.05723271518945694,
-      "rewards/margins": 0.15024301409721375,
-      "rewards/rejected": -0.0930103212594986,
       "step": 260
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.3627616503391813e-06,
-      "logits/chosen": -2.525665760040283,
-      "logits/rejected": -2.5043163299560547,
-      "logps/chosen": -280.7471618652344,
-      "logps/rejected": -267.36712646484375,
-      "loss": 2089.859,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.05569761246442795,
-      "rewards/margins": 0.179846853017807,
-      "rewards/rejected": -0.12414924055337906,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.1804923757009885e-06,
-      "logits/chosen": -2.500837564468384,
-      "logits/rejected": -2.501950740814209,
-      "logps/chosen": -270.04193115234375,
-      "logps/rejected": -248.61978149414062,
-      "loss": 2111.6906,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.05320361256599426,
-      "rewards/margins": 0.1410333216190338,
-      "rewards/rejected": -0.08782971650362015,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 1.9999357655598894e-06,
-      "logits/chosen": -2.5122292041778564,
-      "logits/rejected": -2.50368070602417,
-      "logps/chosen": -258.72686767578125,
-      "logps/rejected": -256.91387939453125,
-      "loss": 2137.0592,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.053160279989242554,
-      "rewards/margins": 0.15454119443893433,
-      "rewards/rejected": -0.10138092190027237,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8220596619089576e-06,
-      "logits/chosen": -2.471623659133911,
-      "logits/rejected": -2.4690403938293457,
-      "logps/chosen": -246.51766967773438,
-      "logps/rejected": -251.79257202148438,
-      "loss": 2135.4973,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": 0.0453377440571785,
-      "rewards/margins": 0.12641170620918274,
-      "rewards/rejected": -0.08107397705316544,
       "step": 300
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": -2.2764506340026855,
-      "eval_logits/rejected": -2.2231767177581787,
-      "eval_logps/chosen": -258.7624206542969,
-      "eval_logps/rejected": -252.75852966308594,
-      "eval_loss": 2129.089599609375,
-      "eval_rewards/accuracies": 0.7559523582458496,
-      "eval_rewards/chosen": 0.06262180209159851,
-      "eval_rewards/margins": 0.14249789714813232,
-      "eval_rewards/rejected": -0.07987607270479202,
-      "eval_runtime": 547.9938,
-      "eval_samples_per_second": 3.65,
       "eval_steps_per_second": 0.115,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.647817538357072e-06,
-      "logits/chosen": -2.5041086673736572,
-      "logits/rejected": -2.495436191558838,
-      "logps/chosen": -264.5109558105469,
-      "logps/rejected": -248.3275604248047,
-      "loss": 2107.123,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": 0.05480458214879036,
-      "rewards/margins": 0.13964474201202393,
-      "rewards/rejected": -0.08484016358852386,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.4781433892011132e-06,
-      "logits/chosen": -2.53191876411438,
-      "logits/rejected": -2.4989166259765625,
-      "logps/chosen": -242.36599731445312,
-      "logps/rejected": -243.78067016601562,
-      "loss": 2076.0621,
-      "rewards/accuracies": 0.7718750238418579,
-      "rewards/chosen": 0.05456935614347458,
-      "rewards/margins": 0.14978976547718048,
-      "rewards/rejected": -0.0952204093337059,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.3139467229135999e-06,
-      "logits/chosen": -2.4768006801605225,
-      "logits/rejected": -2.4569873809814453,
-      "logps/chosen": -263.0523681640625,
-      "logps/rejected": -250.5469207763672,
-      "loss": 2112.1141,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": 0.044828929007053375,
-      "rewards/margins": 0.13050048053264618,
-      "rewards/rejected": -0.0856715738773346,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1561076868822756e-06,
-      "logits/chosen": -2.5158028602600098,
-      "logits/rejected": -2.5096983909606934,
-      "logps/chosen": -275.6848449707031,
-      "logps/rejected": -246.7259979248047,
-      "loss": 2151.2445,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": 0.052164845168590546,
-      "rewards/margins": 0.15314052999019623,
-      "rewards/rejected": -0.10097566992044449,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0054723495346484e-06,
-      "logits/chosen": -2.518799304962158,
-      "logits/rejected": -2.4620516300201416,
-      "logps/chosen": -249.27401733398438,
-      "logps/rejected": -218.7183074951172,
-      "loss": 2093.9803,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": 0.0662151575088501,
-      "rewards/margins": 0.14556364715099335,
-      "rewards/rejected": -0.07934850454330444,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.628481651367876e-07,
-      "logits/chosen": -2.5340943336486816,
-      "logits/rejected": -2.5006654262542725,
-      "logps/chosen": -260.32464599609375,
-      "logps/rejected": -237.3218536376953,
-      "loss": 2094.1246,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": 0.05396001785993576,
-      "rewards/margins": 0.15317106246948242,
-      "rewards/rejected": -0.09921105206012726,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.289996455765749e-07,
-      "logits/chosen": -2.529265880584717,
-      "logits/rejected": -2.515712261199951,
-      "logps/chosen": -266.943115234375,
-      "logps/rejected": -246.0579376220703,
-      "loss": 2115.357,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": 0.052078358829021454,
-      "rewards/margins": 0.1462351232767105,
-      "rewards/rejected": -0.09415675699710846,
       "step": 370
     },
     {
       "epoch": 0.8,
       "learning_rate": 6.046442623320145e-07,
-      "logits/chosen": -2.4891440868377686,
-      "logits/rejected": -2.499753952026367,
-      "logps/chosen": -253.51632690429688,
-      "logps/rejected": -245.4505615234375,
-      "loss": 2082.182,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": 0.051686953753232956,
-      "rewards/margins": 0.1390691101551056,
-      "rewards/rejected": -0.08738215267658234,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.904486005914027e-07,
-      "logits/chosen": -2.532160997390747,
-      "logits/rejected": -2.5001654624938965,
-      "logps/chosen": -280.9754333496094,
-      "logps/rejected": -279.0588684082031,
-      "loss": 2114.3043,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": 0.0547635443508625,
-      "rewards/margins": 0.14076778292655945,
-      "rewards/rejected": -0.08600424975156784,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.8702478614051353e-07,
-      "logits/chosen": -2.4791765213012695,
-      "logits/rejected": -2.4799935817718506,
-      "logps/chosen": -246.14102172851562,
-      "logps/rejected": -251.533447265625,
-      "loss": 2099.8018,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": 0.0392024889588356,
-      "rewards/margins": 0.13221651315689087,
-      "rewards/rejected": -0.09301402419805527,
       "step": 400
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -2.254145860671997,
-      "eval_logits/rejected": -2.2016360759735107,
-      "eval_logps/chosen": -259.64398193359375,
-      "eval_logps/rejected": -254.3590850830078,
-      "eval_loss": 2121.667236328125,
-      "eval_rewards/accuracies": 0.7539682388305664,
-      "eval_rewards/chosen": 0.05380600318312645,
-      "eval_rewards/margins": 0.14968746900558472,
-      "eval_rewards/rejected": -0.09588146954774857,
-      "eval_runtime": 547.9727,
-      "eval_samples_per_second": 3.65,
       "eval_steps_per_second": 0.115,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 2.9492720416985004e-07,
-      "logits/chosen": -2.4832329750061035,
-      "logits/rejected": -2.463463306427002,
-      "logps/chosen": -284.7741394042969,
-      "logps/rejected": -252.4269561767578,
-      "loss": 2145.448,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.05263269692659378,
-      "rewards/margins": 0.15021036565303802,
-      "rewards/rejected": -0.09757767617702484,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.1464952759020857e-07,
-      "logits/chosen": -2.4804348945617676,
-      "logits/rejected": -2.457764148712158,
-      "logps/chosen": -254.78604125976562,
-      "logps/rejected": -278.61346435546875,
-      "loss": 2123.6629,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": 0.033899884670972824,
-      "rewards/margins": 0.11116783320903778,
-      "rewards/rejected": -0.07726795971393585,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.4662207078575685e-07,
-      "logits/chosen": -2.4848549365997314,
-      "logits/rejected": -2.485640048980713,
-      "logps/chosen": -268.3457336425781,
-      "logps/rejected": -268.5885925292969,
-      "loss": 2144.4309,
-      "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": 0.03841588646173477,
-      "rewards/margins": 0.13024446368217468,
-      "rewards/rejected": -0.09182857722043991,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.120948298936422e-08,
-      "logits/chosen": -2.457054615020752,
-      "logits/rejected": -2.4329726696014404,
-      "logps/chosen": -231.9584197998047,
-      "logps/rejected": -234.6277313232422,
-      "loss": 2118.3984,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.038600482046604156,
-      "rewards/margins": 0.13669805228710175,
-      "rewards/rejected": -0.09809757024049759,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 4.870879364444109e-08,
-      "logits/chosen": -2.5156655311584473,
-      "logits/rejected": -2.563300848007202,
-      "logps/chosen": -263.9936218261719,
-      "logps/rejected": -265.6227722167969,
-      "loss": 2123.5402,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.04902677983045578,
-      "rewards/margins": 0.1260160207748413,
-      "rewards/rejected": -0.07698923349380493,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 1.93478202307823e-08,
-      "logits/chosen": -2.470996379852295,
-      "logits/rejected": -2.4720451831817627,
-      "logps/chosen": -258.21734619140625,
-      "logps/rejected": -262.04925537109375,
-      "loss": 2078.5094,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": 0.04391016811132431,
-      "rewards/margins": 0.14817874133586884,
-      "rewards/rejected": -0.10426857322454453,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 3.283947088983663e-09,
-      "logits/chosen": -2.513140916824341,
-      "logits/rejected": -2.535651206970215,
-      "logps/chosen": -249.6727752685547,
-      "logps/rejected": -248.2782745361328,
-      "loss": 2093.2779,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.04741714522242546,
-      "rewards/margins": 0.143958181142807,
-      "rewards/rejected": -0.09654103964567184,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 477,
       "total_flos": 0.0,
-      "train_loss": 2164.5614415454666,
-      "train_runtime": 32346.8016,
-      "train_samples_per_second": 1.89,
       "train_steps_per_second": 0.015
     }
   ],

     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.585383176803589,
+      "logits/rejected": -2.6190898418426514,
+      "logps/chosen": -265.6199035644531,
+      "logps/rejected": -261.3590393066406,
+      "loss": 2489.4685,
+      "rewards/accuracies": 0.4548611044883728,
+      "rewards/chosen": 0.006730278953909874,
+      "rewards/margins": 0.0007296364055946469,
+      "rewards/rejected": 0.006000642664730549,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.616151809692383,
+      "logits/rejected": -2.599904775619507,
+      "logps/chosen": -253.3858184814453,
+      "logps/rejected": -245.82345581054688,
+      "loss": 2411.3754,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.036651305854320526,
+      "rewards/margins": 0.009106594137847424,
+      "rewards/rejected": 0.02754470705986023,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.125e-06,
+      "logits/chosen": -2.617845058441162,
+      "logits/rejected": -2.6118521690368652,
+      "logps/chosen": -250.7469482421875,
+      "logps/rejected": -223.05172729492188,
+      "loss": 2306.1311,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": 0.04942930489778519,
+      "rewards/margins": 0.023983022198081017,
+      "rewards/rejected": 0.02544628083705902,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.6323208808898926,
+      "logits/rejected": -2.608524799346924,
+      "logps/chosen": -276.45947265625,
+      "logps/rejected": -238.35391235351562,
+      "loss": 2100.6182,
       "rewards/accuracies": 0.6968749761581421,
+      "rewards/chosen": 0.05112973973155022,
+      "rewards/margins": 0.05378426983952522,
+      "rewards/rejected": -0.002654529409483075,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999731868769027e-06,
+      "logits/chosen": -2.552873373031616,
+      "logits/rejected": -2.5477213859558105,
+      "logps/chosen": -253.2111358642578,
+      "logps/rejected": -248.1074676513672,
+      "loss": 2103.8223,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": 0.022746428847312927,
+      "rewards/margins": 0.07937721163034439,
+      "rewards/rejected": -0.05663077160716057,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.9903533134293035e-06,
+      "logits/chosen": -2.556926727294922,
+      "logits/rejected": -2.551504611968994,
+      "logps/chosen": -261.6982116699219,
+      "logps/rejected": -240.27059936523438,
+      "loss": 2054.3434,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": 0.023721303790807724,
+      "rewards/margins": 0.08682042360305786,
+      "rewards/rejected": -0.06309913098812103,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967625656594782e-06,
+      "logits/chosen": -2.5740597248077393,
+      "logits/rejected": -2.553145408630371,
+      "logps/chosen": -278.0965270996094,
+      "logps/rejected": -267.19586181640625,
+      "loss": 1971.1375,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.015462947078049183,
+      "rewards/margins": 0.08871600031852722,
+      "rewards/rejected": -0.07325305044651031,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.93167072587771e-06,
+      "logits/chosen": -2.5298993587493896,
+      "logits/rejected": -2.5009925365448,
+      "logps/chosen": -258.5903015136719,
+      "logps/rejected": -263.52850341796875,
+      "loss": 1933.0076,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": 0.029317494481801987,
+      "rewards/margins": 0.11680855602025986,
+      "rewards/rejected": -0.08749105781316757,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.882681251368549e-06,
+      "logits/chosen": -2.5273003578186035,
+      "logits/rejected": -2.493241548538208,
+      "logps/chosen": -247.47506713867188,
+      "logps/rejected": -260.76678466796875,
+      "loss": 1845.5582,
+      "rewards/accuracies": 0.7281249761581421,
+      "rewards/chosen": -0.03806694597005844,
+      "rewards/margins": 0.11302463710308075,
+      "rewards/rejected": -0.15109160542488098,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.8209198325401815e-06,
+      "logits/chosen": -2.5287628173828125,
+      "logits/rejected": -2.5358829498291016,
+      "logps/chosen": -272.0884704589844,
+      "logps/rejected": -275.2580871582031,
+      "loss": 1797.9404,
       "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.0045492262579500675,
+      "rewards/margins": 0.13472509384155273,
+      "rewards/rejected": -0.13927432894706726,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": -2.196876287460327,
+      "eval_logits/rejected": -2.1486356258392334,
+      "eval_logps/chosen": -263.71331787109375,
+      "eval_logps/rejected": -256.7424011230469,
+      "eval_loss": 1887.4102783203125,
+      "eval_rewards/accuracies": 0.7519841194152832,
+      "eval_rewards/chosen": 0.013112416490912437,
+      "eval_rewards/margins": 0.13282696902751923,
+      "eval_rewards/rejected": -0.11971456557512283,
+      "eval_runtime": 549.9966,
+      "eval_samples_per_second": 3.636,
       "eval_steps_per_second": 0.115,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.746717530629565e-06,
+      "logits/chosen": -2.480510711669922,
+      "logits/rejected": -2.4668211936950684,
+      "logps/chosen": -267.04180908203125,
+      "logps/rejected": -262.5838317871094,
+      "loss": 1870.9051,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.020576762035489082,
+      "rewards/margins": 0.125274196267128,
+      "rewards/rejected": -0.14585095643997192,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.660472094042121e-06,
+      "logits/chosen": -2.44077205657959,
+      "logits/rejected": -2.4053845405578613,
+      "logps/chosen": -256.12939453125,
+      "logps/rejected": -248.28060913085938,
+      "loss": 1855.318,
+      "rewards/accuracies": 0.684374988079071,
+      "rewards/chosen": -0.049732744693756104,
+      "rewards/margins": 0.10872016102075577,
+      "rewards/rejected": -0.15845291316509247,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5626458262912745e-06,
+      "logits/chosen": -2.395805597305298,
+      "logits/rejected": -2.383305311203003,
+      "logps/chosen": -280.74053955078125,
+      "logps/rejected": -270.37860107421875,
+      "loss": 1811.4148,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.027533594518899918,
+      "rewards/margins": 0.1342071145772934,
+      "rewards/rejected": -0.1617407202720642,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.453763107901676e-06,
+      "logits/chosen": -2.4485344886779785,
+      "logits/rejected": -2.43884015083313,
+      "logps/chosen": -243.1454315185547,
+      "logps/rejected": -255.15432739257812,
+      "loss": 1803.225,
       "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.028790492564439774,
+      "rewards/margins": 0.1489991694688797,
+      "rewards/rejected": -0.17778967320919037,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.33440758555951e-06,
+      "logits/chosen": -2.459658622741699,
+      "logits/rejected": -2.483065605163574,
+      "logps/chosen": -267.7740478515625,
+      "logps/rejected": -243.34609985351562,
+      "loss": 1781.1752,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.02288922667503357,
+      "rewards/margins": 0.12706486880779266,
+      "rewards/rejected": -0.14995409548282623,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.205219043576955e-06,
+      "logits/chosen": -2.483583688735962,
+      "logits/rejected": -2.4244942665100098,
+      "logps/chosen": -260.3743896484375,
+      "logps/rejected": -258.7478332519531,
+      "loss": 1754.5766,
+      "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -0.0020265295170247555,
+      "rewards/margins": 0.16760031878948212,
+      "rewards/rejected": -0.169626846909523,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.066889974440757e-06,
+      "logits/chosen": -2.4374189376831055,
+      "logits/rejected": -2.428433656692505,
+      "logps/chosen": -264.5699768066406,
+      "logps/rejected": -252.79421997070312,
+      "loss": 1953.8818,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.06210694834589958,
+      "rewards/margins": 0.13285748660564423,
+      "rewards/rejected": -0.1949644386768341,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.92016186682789e-06,
+      "logits/chosen": -2.467085361480713,
+      "logits/rejected": -2.487204074859619,
+      "logps/chosen": -262.995361328125,
+      "logps/rejected": -271.94183349609375,
+      "loss": 1848.9945,
       "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.07509048283100128,
+      "rewards/margins": 0.12671387195587158,
+      "rewards/rejected": -0.20180435478687286,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.7658212309857576e-06,
+      "logits/chosen": -2.450601816177368,
+      "logits/rejected": -2.4304168224334717,
+      "logps/chosen": -269.1886901855469,
+      "logps/rejected": -265.7490539550781,
+      "loss": 1698.6666,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.09053254127502441,
+      "rewards/margins": 0.14999321103096008,
+      "rewards/rejected": -0.2405257225036621,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.604695382782159e-06,
+      "logits/chosen": -2.447007179260254,
+      "logits/rejected": -2.419039726257324,
+      "logps/chosen": -282.8253479003906,
+      "logps/rejected": -278.14508056640625,
+      "loss": 1700.9055,
+      "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -0.07701022177934647,
+      "rewards/margins": 0.16163742542266846,
+      "rewards/rejected": -0.23864765465259552,
       "step": 200
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": -2.161839485168457,
+      "eval_logits/rejected": -2.1081268787384033,
+      "eval_logps/chosen": -269.66546630859375,
+      "eval_logps/rejected": -265.3905029296875,
+      "eval_loss": 1784.6597900390625,
+      "eval_rewards/accuracies": 0.761904776096344,
+      "eval_rewards/chosen": -0.0464087538421154,
+      "eval_rewards/margins": 0.15978708863258362,
+      "eval_rewards/rejected": -0.2061958611011505,
+      "eval_runtime": 549.0189,
+      "eval_samples_per_second": 3.643,
       "eval_steps_per_second": 0.115,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.437648009023905e-06,
+      "logits/chosen": -2.458688259124756,
+      "logits/rejected": -2.4217796325683594,
+      "logps/chosen": -252.5647430419922,
+      "logps/rejected": -248.326416015625,
+      "loss": 1806.0594,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.02530970238149166,
+      "rewards/margins": 0.14908090233802795,
+      "rewards/rejected": -0.17439061403274536,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.265574537815398e-06,
+      "logits/chosen": -2.4742610454559326,
+      "logits/rejected": -2.4789376258850098,
+      "logps/chosen": -286.0444030761719,
+      "logps/rejected": -261.9767150878906,
+      "loss": 1855.6273,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.03405206650495529,
+      "rewards/margins": 0.11277566105127335,
+      "rewards/rejected": -0.14682772755622864,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.089397338773569e-06,
+      "logits/chosen": -2.38773775100708,
+      "logits/rejected": -2.3718185424804688,
+      "logps/chosen": -257.7181701660156,
+      "logps/rejected": -253.3428955078125,
+      "loss": 1797.9486,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.06530335545539856,
+      "rewards/margins": 0.1308148354291916,
+      "rewards/rejected": -0.19611820578575134,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9100607788275547e-06,
+      "logits/chosen": -2.4125852584838867,
+      "logits/rejected": -2.414628267288208,
+      "logps/chosen": -265.2156066894531,
+      "logps/rejected": -257.0289001464844,
+      "loss": 1850.0729,
+      "rewards/accuracies": 0.690625011920929,
+      "rewards/chosen": -0.04248107224702835,
+      "rewards/margins": 0.12761279940605164,
+      "rewards/rejected": -0.17009387910366058,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.72852616010567e-06,
+      "logits/chosen": -2.4339253902435303,
+      "logits/rejected": -2.4054951667785645,
+      "logps/chosen": -271.8371276855469,
+      "logps/rejected": -255.33438110351562,
+      "loss": 1766.1885,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.0324532687664032,
+      "rewards/margins": 0.1579422652721405,
+      "rewards/rejected": -0.1903955340385437,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.5457665670441937e-06,
+      "logits/chosen": -2.4216437339782715,
+      "logits/rejected": -2.4156367778778076,
+      "logps/chosen": -266.7996520996094,
+      "logps/rejected": -243.180419921875,
+      "loss": 1710.8809,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.035904210060834885,
+      "rewards/margins": 0.16971439123153687,
+      "rewards/rejected": -0.20561861991882324,
       "step": 260
     },
     {
       "epoch": 0.57,
       "learning_rate": 2.3627616503391813e-06,
+      "logits/chosen": -2.4438915252685547,
+      "logits/rejected": -2.416748285293579,
+      "logps/chosen": -290.58453369140625,
+      "logps/rejected": -277.0739440917969,
+      "loss": 1714.5062,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.042676471173763275,
+      "rewards/margins": 0.17854078114032745,
+      "rewards/rejected": -0.22121724486351013,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.1804923757009885e-06,
+      "logits/chosen": -2.414602756500244,
+      "logits/rejected": -2.4200820922851562,
+      "logps/chosen": -282.95147705078125,
+      "logps/rejected": -261.1886291503906,
+      "loss": 1764.4607,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.07589195668697357,
+      "rewards/margins": 0.13762618601322174,
+      "rewards/rejected": -0.2135181427001953,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 1.9999357655598894e-06,
+      "logits/chosen": -2.430169105529785,
+      "logits/rejected": -2.4057881832122803,
+      "logps/chosen": -265.06805419921875,
+      "logps/rejected": -263.2739562988281,
+      "loss": 1786.2846,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.010251840576529503,
+      "rewards/margins": 0.15472975373268127,
+      "rewards/rejected": -0.16498157382011414,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8220596619089576e-06,
+      "logits/chosen": -2.392138957977295,
+      "logits/rejected": -2.3823294639587402,
+      "logps/chosen": -255.75393676757812,
+      "logps/rejected": -261.84271240234375,
+      "loss": 1767.2219,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.04702477902173996,
+      "rewards/margins": 0.13455010950565338,
+      "rewards/rejected": -0.18157489597797394,
       "step": 300
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": -2.158698797225952,
+      "eval_logits/rejected": -2.1057095527648926,
+      "eval_logps/chosen": -269.6955871582031,
+      "eval_logps/rejected": -264.77947998046875,
+      "eval_loss": 1735.518310546875,
+      "eval_rewards/accuracies": 0.7698412537574768,
+      "eval_rewards/chosen": -0.04671022295951843,
+      "eval_rewards/margins": 0.15337513387203217,
+      "eval_rewards/rejected": -0.2000853717327118,
+      "eval_runtime": 548.7136,
+      "eval_samples_per_second": 3.645,
       "eval_steps_per_second": 0.115,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.647817538357072e-06,
+      "logits/chosen": -2.4140188694000244,
+      "logits/rejected": -2.4031002521514893,
+      "logps/chosen": -274.3767395019531,
+      "logps/rejected": -259.40155029296875,
+      "loss": 1673.9693,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.04385297745466232,
+      "rewards/margins": 0.1517268717288971,
+      "rewards/rejected": -0.19557985663414001,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.4781433892011132e-06,
+      "logits/chosen": -2.416640520095825,
+      "logits/rejected": -2.370535135269165,
+      "logps/chosen": -252.216064453125,
+      "logps/rejected": -255.1393280029297,
+      "loss": 1673.8594,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -0.043931327760219574,
+      "rewards/margins": 0.16487570106983185,
+      "rewards/rejected": -0.20880703628063202,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.3139467229135999e-06,
+      "logits/chosen": -2.362358570098877,
+      "logits/rejected": -2.3449196815490723,
+      "logps/chosen": -270.876220703125,
+      "logps/rejected": -259.251953125,
+      "loss": 1731.3877,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.03340950980782509,
+      "rewards/margins": 0.13931182026863098,
+      "rewards/rejected": -0.17272132635116577,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1561076868822756e-06,
+      "logits/chosen": -2.3923397064208984,
+      "logits/rejected": -2.384582281112671,
+      "logps/chosen": -284.8360290527344,
+      "logps/rejected": -257.0713806152344,
+      "loss": 1778.2957,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.039347052574157715,
+      "rewards/margins": 0.1650826632976532,
+      "rewards/rejected": -0.20442970097064972,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0054723495346484e-06,
+      "logits/chosen": -2.3869528770446777,
+      "logits/rejected": -2.3370375633239746,
+      "logps/chosen": -259.75189208984375,
+      "logps/rejected": -231.13577270507812,
+      "loss": 1665.3461,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.03856384754180908,
+      "rewards/margins": 0.1649591028690338,
+      "rewards/rejected": -0.2035229504108429,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.628481651367876e-07,
+      "logits/chosen": -2.4105262756347656,
+      "logits/rejected": -2.352128744125366,
+      "logps/chosen": -269.03790283203125,
+      "logps/rejected": -247.90872192382812,
+      "loss": 1665.3982,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.03317265957593918,
+      "rewards/margins": 0.1719072014093399,
+      "rewards/rejected": -0.20507986843585968,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.289996455765749e-07,
+      "logits/chosen": -2.4054064750671387,
+      "logits/rejected": -2.38871431350708,
+      "logps/chosen": -279.2740173339844,
+      "logps/rejected": -259.63690185546875,
+      "loss": 1704.7645,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.07123039662837982,
+      "rewards/margins": 0.15871620178222656,
+      "rewards/rejected": -0.22994661331176758,
       "step": 370
     },
     {
       "epoch": 0.8,
       "learning_rate": 6.046442623320145e-07,
+      "logits/chosen": -2.3605639934539795,
+      "logits/rejected": -2.368460178375244,
+      "logps/chosen": -267.2261657714844,
+      "logps/rejected": -260.45550537109375,
+      "loss": 1647.7326,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.0854114517569542,
+      "rewards/margins": 0.15202030539512634,
+      "rewards/rejected": -0.23743176460266113,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.904486005914027e-07,
+      "logits/chosen": -2.4076011180877686,
+      "logits/rejected": -2.3770554065704346,
+      "logps/chosen": -292.8500061035156,
+      "logps/rejected": -292.0636291503906,
+      "loss": 1739.5414,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.06398223340511322,
+      "rewards/margins": 0.15206970274448395,
+      "rewards/rejected": -0.21605193614959717,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.8702478614051353e-07,
+      "logits/chosen": -2.3384757041931152,
+      "logits/rejected": -2.3366100788116455,
+      "logps/chosen": -259.2252502441406,
+      "logps/rejected": -265.5692138671875,
+      "loss": 1717.4336,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.09164019674062729,
+      "rewards/margins": 0.14173154532909393,
+      "rewards/rejected": -0.23337173461914062,
       "step": 400
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": -2.088451385498047,
+      "eval_logits/rejected": -2.032222032546997,
+      "eval_logps/chosen": -271.9333190917969,
+      "eval_logps/rejected": -267.85687255859375,
+      "eval_loss": 1721.676513671875,
+      "eval_rewards/accuracies": 0.77182537317276,
+      "eval_rewards/chosen": -0.06908722221851349,
+      "eval_rewards/margins": 0.1617719829082489,
+      "eval_rewards/rejected": -0.23085922002792358,
+      "eval_runtime": 548.423,
+      "eval_samples_per_second": 3.647,
       "eval_steps_per_second": 0.115,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 2.9492720416985004e-07,
+      "logits/chosen": -2.3725836277008057,
+      "logits/rejected": -2.3304688930511475,
+      "logps/chosen": -296.72991943359375,
+      "logps/rejected": -266.0842590332031,
+      "loss": 1755.1898,
+      "rewards/accuracies": 0.7406250238418579,
+      "rewards/chosen": -0.0669253021478653,
+      "rewards/margins": 0.16722533106803894,
+      "rewards/rejected": -0.23415064811706543,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.1464952759020857e-07,
+      "logits/chosen": -2.3592472076416016,
+      "logits/rejected": -2.331540107727051,
+      "logps/chosen": -266.99005126953125,
+      "logps/rejected": -292.03680419921875,
+      "loss": 1730.9672,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.08814045041799545,
+      "rewards/margins": 0.12336041778326035,
+      "rewards/rejected": -0.2115008533000946,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.4662207078575685e-07,
+      "logits/chosen": -2.366381883621216,
+      "logits/rejected": -2.35951566696167,
+      "logps/chosen": -280.3116149902344,
+      "logps/rejected": -281.93939208984375,
+      "loss": 1760.3617,
+      "rewards/accuracies": 0.7281249761581421,
+      "rewards/chosen": -0.08124328404664993,
+      "rewards/margins": 0.14409320056438446,
+      "rewards/rejected": -0.2253364771604538,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.120948298936422e-08,
+      "logits/chosen": -2.3266444206237793,
+      "logits/rejected": -2.2898497581481934,
+      "logps/chosen": -243.9964141845703,
+      "logps/rejected": -248.1795196533203,
+      "loss": 1711.7143,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.08177933841943741,
+      "rewards/margins": 0.15183614194393158,
+      "rewards/rejected": -0.23361548781394958,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 4.870879364444109e-08,
+      "logits/chosen": -2.3814821243286133,
+      "logits/rejected": -2.4406635761260986,
+      "logps/chosen": -275.4070129394531,
+      "logps/rejected": -278.91082763671875,
+      "loss": 1743.9877,
+      "rewards/accuracies": 0.7406250238418579,
+      "rewards/chosen": -0.06510698050260544,
+      "rewards/margins": 0.14476314187049866,
+      "rewards/rejected": -0.2098701000213623,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 1.93478202307823e-08,
+      "logits/chosen": -2.34289288520813,
+      "logits/rejected": -2.346625804901123,
+      "logps/chosen": -270.3787841796875,
+      "logps/rejected": -275.61651611328125,
+      "loss": 1676.5176,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.07770398259162903,
+      "rewards/margins": 0.16223737597465515,
+      "rewards/rejected": -0.23994135856628418,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 3.283947088983663e-09,
+      "logits/chosen": -2.3888649940490723,
+      "logits/rejected": -2.4120144844055176,
+      "logps/chosen": -261.28997802734375,
+      "logps/rejected": -261.67755126953125,
+      "loss": 1663.4154,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.0687546655535698,
+      "rewards/margins": 0.16177912056446075,
+      "rewards/rejected": -0.23053380846977234,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 477,
       "total_flos": 0.0,
+      "train_loss": 1826.8015694608227,
+      "train_runtime": 32379.7062,
+      "train_samples_per_second": 1.888,
       "train_steps_per_second": 0.015
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ae9269821a7a76bfccee733cea8c3af1d1b7b751ef31fb40915f4d080f4944
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9de8831bf203a26c117251200a242a486dd5bc4f1aae373c17a996f39be3288
 size 4920