{ "best_metric": null, "best_model_checkpoint": null, "epoch": 45.714285714285715, "global_step": 200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 2.29, "learning_rate": 0.019933333333333334, "loss": 1.6174, "step": 10 }, { "epoch": 4.57, "learning_rate": 0.019866666666666668, "loss": 0.3005, "step": 20 }, { "epoch": 6.86, "learning_rate": 0.0198, "loss": 0.0988, "step": 30 }, { "epoch": 9.14, "learning_rate": 0.019733333333333335, "loss": 0.0462, "step": 40 }, { "epoch": 11.43, "learning_rate": 0.019666666666666666, "loss": 0.0193, "step": 50 }, { "epoch": 13.71, "learning_rate": 0.0196, "loss": 0.0096, "step": 60 }, { "epoch": 16.0, "learning_rate": 0.019533333333333333, "loss": 0.0052, "step": 70 }, { "epoch": 18.29, "learning_rate": 0.019466666666666667, "loss": 0.0037, "step": 80 }, { "epoch": 20.57, "learning_rate": 0.0194, "loss": 0.0028, "step": 90 }, { "epoch": 22.86, "learning_rate": 0.019333333333333334, "loss": 0.0019, "step": 100 }, { "epoch": 25.14, "learning_rate": 0.019266666666666668, "loss": 0.0029, "step": 110 }, { "epoch": 27.43, "learning_rate": 0.0192, "loss": 0.002, "step": 120 }, { "epoch": 29.71, "learning_rate": 0.019133333333333332, "loss": 0.0016, "step": 130 }, { "epoch": 32.0, "learning_rate": 0.01906666666666667, "loss": 0.002, "step": 140 }, { "epoch": 34.29, "learning_rate": 0.019, "loss": 0.0008, "step": 150 }, { "epoch": 36.57, "learning_rate": 0.018933333333333333, "loss": 0.0008, "step": 160 }, { "epoch": 38.86, "learning_rate": 0.018866666666666667, "loss": 0.0007, "step": 170 }, { "epoch": 41.14, "learning_rate": 0.0188, "loss": 0.0006, "step": 180 }, { "epoch": 43.43, "learning_rate": 0.018733333333333334, "loss": 0.0005, "step": 190 }, { "epoch": 45.71, "learning_rate": 0.018666666666666668, "loss": 0.0005, "step": 200 } ], "max_steps": 3000, "num_train_epochs": 750, "total_flos": 1.05080467488768e+16, "trial_name": null, "trial_params": null }