tinyllama-1.1b-chat-v1.0-ui-coding-dpo / trainer_state.json

Model save

f8e3a1b verified 3 months ago

6.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9947089947089947,
	"eval_steps": 1000,
	"global_step": 94,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.010582010582010581,
	"grad_norm": 3.9034635996758364,
	"learning_rate": 5e-08,
	"logits/chosen": -2.8740313053131104,
	"logits/rejected": -2.909637928009033,
	"logps/chosen": -495.3936462402344,
	"logps/rejected": -468.7409973144531,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.10582010582010581,
	"grad_norm": 3.740412497210408,
	"learning_rate": 5e-07,
	"logits/chosen": -2.8803439140319824,
	"logits/rejected": -2.933382987976074,
	"logps/chosen": -489.9436340332031,
	"logps/rejected": -471.76068115234375,
	"loss": 0.6926,
	"rewards/accuracies": 0.4765625,
	"rewards/chosen": 0.0005175346159376204,
	"rewards/margins": 0.001013587461784482,
	"rewards/rejected": -0.0004960527876392007,
	"step": 10
	},
	{
	"epoch": 0.21164021164021163,
	"grad_norm": 4.0026509714343526,
	"learning_rate": 4.82718437161051e-07,
	"logits/chosen": -2.9089906215667725,
	"logits/rejected": -2.9724087715148926,
	"logps/chosen": -490.58831787109375,
	"logps/rejected": -484.2608947753906,
	"loss": 0.677,
	"rewards/accuracies": 0.8101562261581421,
	"rewards/chosen": 0.017761804163455963,
	"rewards/margins": 0.033221058547496796,
	"rewards/rejected": -0.015459256246685982,
	"step": 20
	},
	{
	"epoch": 0.31746031746031744,
	"grad_norm": 5.045224654085605,
	"learning_rate": 4.332629679574565e-07,
	"logits/chosen": -2.9424614906311035,
	"logits/rejected": -2.994748830795288,
	"logps/chosen": -486.4335021972656,
	"logps/rejected": -484.3814392089844,
	"loss": 0.623,
	"rewards/accuracies": 0.8492187261581421,
	"rewards/chosen": 0.045325733721256256,
	"rewards/margins": 0.14735476672649384,
	"rewards/rejected": -0.10202904045581818,
	"step": 30
	},
	{
	"epoch": 0.42328042328042326,
	"grad_norm": 3.94438220021588,
	"learning_rate": 3.584709347793895e-07,
	"logits/chosen": -2.92952036857605,
	"logits/rejected": -3.001981019973755,
	"logps/chosen": -487.70849609375,
	"logps/rejected": -510.1280212402344,
	"loss": 0.5749,
	"rewards/accuracies": 0.85546875,
	"rewards/chosen": 0.017966564744710922,
	"rewards/margins": 0.2901422381401062,
	"rewards/rejected": -0.2721756398677826,
	"step": 40
	},
	{
	"epoch": 0.5291005291005291,
	"grad_norm": 3.0093221435481667,
	"learning_rate": 2.6868252339660607e-07,
	"logits/chosen": -2.92526912689209,
	"logits/rejected": -2.995861768722534,
	"logps/chosen": -514.0173950195312,
	"logps/rejected": -578.7903442382812,
	"loss": 0.4668,
	"rewards/accuracies": 0.8609374761581421,
	"rewards/chosen": -0.239375501871109,
	"rewards/margins": 0.7664871215820312,
	"rewards/rejected": -1.0058627128601074,
	"step": 50
	},
	{
	"epoch": 0.6349206349206349,
	"grad_norm": 3.4147008885194587,
	"learning_rate": 1.763112063972739e-07,
	"logits/chosen": -2.9192681312561035,
	"logits/rejected": -2.9830739498138428,
	"logps/chosen": -526.348876953125,
	"logps/rejected": -614.0721435546875,
	"loss": 0.421,
	"rewards/accuracies": 0.858593761920929,
	"rewards/chosen": -0.4103693962097168,
	"rewards/margins": 0.9783406257629395,
	"rewards/rejected": -1.3887102603912354,
	"step": 60
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 3.0922082498626846,
	"learning_rate": 9.412754953531663e-08,
	"logits/chosen": -2.918205976486206,
	"logits/rejected": -2.970673084259033,
	"logps/chosen": -554.398681640625,
	"logps/rejected": -667.9301147460938,
	"loss": 0.4035,
	"rewards/accuracies": 0.8492187261581421,
	"rewards/chosen": -0.6199524998664856,
	"rewards/margins": 1.1833505630493164,
	"rewards/rejected": -1.8033031225204468,
	"step": 70
	},
	{
	"epoch": 0.8465608465608465,
	"grad_norm": 3.5694688653613595,
	"learning_rate": 3.349364905389032e-08,
	"logits/chosen": -2.8878700733184814,
	"logits/rejected": -2.932638645172119,
	"logps/chosen": -557.0501708984375,
	"logps/rejected": -678.7019653320312,
	"loss": 0.3889,
	"rewards/accuracies": 0.8578125238418579,
	"rewards/chosen": -0.7133009433746338,
	"rewards/margins": 1.2904046773910522,
	"rewards/rejected": -2.0037055015563965,
	"step": 80
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 3.149374311366939,
	"learning_rate": 2.7922934437178692e-09,
	"logits/chosen": -2.89034366607666,
	"logits/rejected": -2.936624765396118,
	"logps/chosen": -562.55322265625,
	"logps/rejected": -680.3013305664062,
	"loss": 0.3864,
	"rewards/accuracies": 0.836718738079071,
	"rewards/chosen": -0.7662609815597534,
	"rewards/margins": 1.2681959867477417,
	"rewards/rejected": -2.034456968307495,
	"step": 90
	},
	{
	"epoch": 0.9947089947089947,
	"step": 94,
	"total_flos": 0.0,
	"train_loss": 0.5087684798747936,
	"train_runtime": 2521.2346,
	"train_samples_per_second": 38.335,
	"train_steps_per_second": 0.037
	}
	],
	"logging_steps": 10,
	"max_steps": 94,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}