{
  "best_metric": 0.6602855324745178,
  "best_model_checkpoint": "./Zephyr/14-03-24-Weni-WeniGPT-2.4.1-Zephyr-7B-3-epochs-LLM_Base_2.0.3_DPO_WeniGPT DPO training-2_max_steps-267_batch_32_2024-03-14_ppid_9/checkpoint-200",
  "epoch": 2.2346368715083798,
  "eval_steps": 100,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.22,
      "grad_norm": 2.263607978820801,
      "learning_rate": 3.518518518518519e-05,
      "logits/chosen": -2.214717149734497,
      "logits/rejected": -2.2155280113220215,
      "logps/chosen": -5.710334777832031,
      "logps/rejected": -9.765484809875488,
      "loss": 0.6883,
      "rewards/accuracies": 0.04062499850988388,
      "rewards/chosen": 0.009401815943419933,
      "rewards/margins": 0.012448241002857685,
      "rewards/rejected": -0.0030464245937764645,
      "step": 20
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.008143444545567036,
      "learning_rate": 4.75e-05,
      "logits/chosen": -2.2037911415100098,
      "logits/rejected": -2.2049593925476074,
      "logps/chosen": -4.532853126525879,
      "logps/rejected": -9.577239036560059,
      "loss": 0.6685,
      "rewards/accuracies": 0.05000000074505806,
      "rewards/chosen": 0.05643541365861893,
      "rewards/margins": 0.14316150546073914,
      "rewards/rejected": -0.0867261067032814,
      "step": 40
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.03508400544524193,
      "learning_rate": 4.3333333333333334e-05,
      "logits/chosen": -2.1209869384765625,
      "logits/rejected": -2.1222269535064697,
      "logps/chosen": -8.109282493591309,
      "logps/rejected": -18.921493530273438,
      "loss": 0.648,
      "rewards/accuracies": 0.06875000149011612,
      "rewards/chosen": -0.08420856297016144,
      "rewards/margins": 0.552670955657959,
      "rewards/rejected": -0.636879563331604,
      "step": 60
    },
    {
      "epoch": 0.89,
      "grad_norm": 9.134880656347377e-07,
      "learning_rate": 3.9166666666666665e-05,
      "logits/chosen": -2.05387020111084,
      "logits/rejected": -2.0554463863372803,
      "logps/chosen": -10.270573616027832,
      "logps/rejected": -23.5235595703125,
      "loss": 0.6617,
      "rewards/accuracies": 0.0703125,
      "rewards/chosen": -0.29610732197761536,
      "rewards/margins": 0.937633216381073,
      "rewards/rejected": -1.2337405681610107,
      "step": 80
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.011362694203853607,
      "learning_rate": 3.5e-05,
      "logits/chosen": -2.0597641468048096,
      "logits/rejected": -2.061570167541504,
      "logps/chosen": -8.65438175201416,
      "logps/rejected": -23.752864837646484,
      "loss": 0.645,
      "rewards/accuracies": 0.0703125,
      "rewards/chosen": -0.09740939736366272,
      "rewards/margins": 1.0688247680664062,
      "rewards/rejected": -1.1662342548370361,
      "step": 100
    },
    {
      "epoch": 1.12,
      "eval_logits/chosen": -2.0584123134613037,
      "eval_logits/rejected": -2.058645725250244,
      "eval_logps/chosen": -5.4038591384887695,
      "eval_logps/rejected": -15.805567741394043,
      "eval_loss": 0.6628985404968262,
      "eval_rewards/accuracies": 0.046875,
      "eval_rewards/chosen": -0.038359977304935455,
      "eval_rewards/margins": 0.7473276853561401,
      "eval_rewards/rejected": -0.7856876254081726,
      "eval_runtime": 184.5849,
      "eval_samples_per_second": 1.723,
      "eval_steps_per_second": 0.217,
      "step": 100
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.0013161306269466877,
      "learning_rate": 3.0833333333333335e-05,
      "logits/chosen": -2.0432400703430176,
      "logits/rejected": -2.044841766357422,
      "logps/chosen": -6.820550441741943,
      "logps/rejected": -21.021259307861328,
      "loss": 0.6477,
      "rewards/accuracies": 0.06562499701976776,
      "rewards/chosen": -0.02809135988354683,
      "rewards/margins": 1.0132167339324951,
      "rewards/rejected": -1.0413081645965576,
      "step": 120
    },
    {
      "epoch": 1.56,
      "grad_norm": 8.640726264275145e-06,
      "learning_rate": 2.6666666666666667e-05,
      "logits/chosen": -2.054994821548462,
      "logits/rejected": -2.0564422607421875,
      "logps/chosen": -5.1008477210998535,
      "logps/rejected": -13.319849014282227,
      "loss": 0.6628,
      "rewards/accuracies": 0.04374999925494194,
      "rewards/chosen": -0.057785846292972565,
      "rewards/margins": 0.5807012319564819,
      "rewards/rejected": -0.6384871006011963,
      "step": 140
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.0,
      "learning_rate": 2.25e-05,
      "logits/chosen": -2.040984869003296,
      "logits/rejected": -2.042287826538086,
      "logps/chosen": -7.02631139755249,
      "logps/rejected": -23.568788528442383,
      "loss": 0.6466,
      "rewards/accuracies": 0.06718750298023224,
      "rewards/chosen": -0.03699848800897598,
      "rewards/margins": 1.1374967098236084,
      "rewards/rejected": -1.1744953393936157,
      "step": 160
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.00016398979641962796,
      "learning_rate": 1.8333333333333333e-05,
      "logits/chosen": -2.0391345024108887,
      "logits/rejected": -2.0405616760253906,
      "logps/chosen": -6.764143943786621,
      "logps/rejected": -21.696426391601562,
      "loss": 0.6527,
      "rewards/accuracies": 0.05833333730697632,
      "rewards/chosen": -0.05727072432637215,
      "rewards/margins": 1.0412245988845825,
      "rewards/rejected": -1.098495364189148,
      "step": 180
    },
    {
      "epoch": 2.23,
      "grad_norm": 7.534373480666545e-07,
      "learning_rate": 1.4166666666666668e-05,
      "logits/chosen": -2.037209987640381,
      "logits/rejected": -2.038935899734497,
      "logps/chosen": -6.84408712387085,
      "logps/rejected": -22.35368537902832,
      "loss": 0.6487,
      "rewards/accuracies": 0.06406249850988388,
      "rewards/chosen": -0.04177577421069145,
      "rewards/margins": 1.066990852355957,
      "rewards/rejected": -1.1087664365768433,
      "step": 200
    },
    {
      "epoch": 2.23,
      "eval_logits/chosen": -2.042232036590576,
      "eval_logits/rejected": -2.0424394607543945,
      "eval_logps/chosen": -5.8821868896484375,
      "eval_logps/rejected": -15.964799880981445,
      "eval_loss": 0.6602855324745178,
      "eval_rewards/accuracies": 0.05000000074505806,
      "eval_rewards/chosen": -0.08619274199008942,
      "eval_rewards/margins": 0.7154179811477661,
      "eval_rewards/rejected": -0.8016107678413391,
      "eval_runtime": 184.5752,
      "eval_samples_per_second": 1.723,
      "eval_steps_per_second": 0.217,
      "step": 200
    }
  ],
  "logging_steps": 20,
  "max_steps": 267,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}