llama-3.1-8b-instruct-armorm-iter1 / trainer_state.json

Upload folder using huggingface_hub

0f9feac verified 2 months ago

13.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.996510067114094,
	"eval_steps": 400,
	"global_step": 116,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008590604026845637,
	"grad_norm": 86.01569524610598,
	"learning_rate": 4.166666666666666e-08,
	"logits/chosen": -2.431039571762085,
	"logits/rejected": -2.618009090423584,
	"logps/chosen": -1197.8489990234375,
	"logps/rejected": -7907.7099609375,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.042953020134228186,
	"grad_norm": 81.41508200934528,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -2.8407392501831055,
	"logits/rejected": -3.0651891231536865,
	"logps/chosen": -1897.8328857421875,
	"logps/rejected": -9360.8955078125,
	"loss": 0.692,
	"rewards/accuracies": 0.5078125,
	"rewards/chosen": -0.00021657101751770824,
	"rewards/margins": 0.003072525840252638,
	"rewards/rejected": -0.003289096988737583,
	"step": 5
	},
	{
	"epoch": 0.08590604026845637,
	"grad_norm": 77.79677990779399,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -2.6457934379577637,
	"logits/rejected": -2.990572690963745,
	"logps/chosen": -1608.490478515625,
	"logps/rejected": -9246.4970703125,
	"loss": 0.6499,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -0.021037336438894272,
	"rewards/margins": 0.08746902644634247,
	"rewards/rejected": -0.10850635915994644,
	"step": 10
	},
	{
	"epoch": 0.12885906040268458,
	"grad_norm": 34.39608246130055,
	"learning_rate": 4.989741394042727e-07,
	"logits/chosen": -2.5478570461273193,
	"logits/rejected": -2.9816832542419434,
	"logps/chosen": -1612.6597900390625,
	"logps/rejected": -9213.7060546875,
	"loss": 0.4677,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": -0.11297205835580826,
	"rewards/margins": 0.6206797361373901,
	"rewards/rejected": -0.7336517572402954,
	"step": 15
	},
	{
	"epoch": 0.17181208053691274,
	"grad_norm": 5.898677172155064,
	"learning_rate": 4.92735454356513e-07,
	"logits/chosen": -2.497690200805664,
	"logits/rejected": -3.0749311447143555,
	"logps/chosen": -1422.3905029296875,
	"logps/rejected": -9622.453125,
	"loss": 0.2772,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -0.46565741300582886,
	"rewards/margins": 2.972280979156494,
	"rewards/rejected": -3.437938690185547,
	"step": 20
	},
	{
	"epoch": 0.21476510067114093,
	"grad_norm": 4.142364189438871,
	"learning_rate": 4.809698831278217e-07,
	"logits/chosen": -2.579451322555542,
	"logits/rejected": -3.227189540863037,
	"logps/chosen": -1883.857421875,
	"logps/rejected": -10082.71875,
	"loss": 0.255,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.9519465565681458,
	"rewards/margins": 5.0396575927734375,
	"rewards/rejected": -5.991604328155518,
	"step": 25
	},
	{
	"epoch": 0.25771812080536916,
	"grad_norm": 7.398342740617321,
	"learning_rate": 4.639453180753619e-07,
	"logits/chosen": -2.527676820755005,
	"logits/rejected": -3.185889959335327,
	"logps/chosen": -2057.02001953125,
	"logps/rejected": -9853.166015625,
	"loss": 0.2471,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -1.8792552947998047,
	"rewards/margins": 8.077213287353516,
	"rewards/rejected": -9.956467628479004,
	"step": 30
	},
	{
	"epoch": 0.3006711409395973,
	"grad_norm": 12.059892215323622,
	"learning_rate": 4.420493945100701e-07,
	"logits/chosen": -2.484814167022705,
	"logits/rejected": -3.121709108352661,
	"logps/chosen": -2086.67919921875,
	"logps/rejected": -9674.890625,
	"loss": 0.274,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -2.0851800441741943,
	"rewards/margins": 7.848902225494385,
	"rewards/rejected": -9.934083938598633,
	"step": 35
	},
	{
	"epoch": 0.3436241610738255,
	"grad_norm": 28.99159189374227,
	"learning_rate": 4.157806645601988e-07,
	"logits/chosen": -2.427899122238159,
	"logits/rejected": -2.911158800125122,
	"logps/chosen": -1157.116455078125,
	"logps/rejected": -10012.34765625,
	"loss": 0.1935,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -1.1424468755722046,
	"rewards/margins": 10.81905460357666,
	"rewards/rejected": -11.961501121520996,
	"step": 40
	},
	{
	"epoch": 0.3865771812080537,
	"grad_norm": 27.796451654387887,
	"learning_rate": 3.857372455503697e-07,
	"logits/chosen": -2.5545668601989746,
	"logits/rejected": -2.8794655799865723,
	"logps/chosen": -1950.16796875,
	"logps/rejected": -10788.267578125,
	"loss": 0.1834,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -2.45682954788208,
	"rewards/margins": 11.35061264038086,
	"rewards/rejected": -13.807443618774414,
	"step": 45
	},
	{
	"epoch": 0.42953020134228187,
	"grad_norm": 26.159018172068677,
	"learning_rate": 3.5260320136318924e-07,
	"logits/chosen": -2.4899744987487793,
	"logits/rejected": -2.9161746501922607,
	"logps/chosen": -1632.9305419921875,
	"logps/rejected": -10670.7177734375,
	"loss": 0.1654,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -2.4171953201293945,
	"rewards/margins": 11.587867736816406,
	"rewards/rejected": -14.0050630569458,
	"step": 50
	},
	{
	"epoch": 0.47248322147651006,
	"grad_norm": 27.198586027054176,
	"learning_rate": 3.171329668685942e-07,
	"logits/chosen": -2.460887908935547,
	"logits/rejected": -2.9514319896698,
	"logps/chosen": -1985.7174072265625,
	"logps/rejected": -10099.3125,
	"loss": 0.1791,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -2.890523672103882,
	"rewards/margins": 9.628759384155273,
	"rewards/rejected": -12.519282341003418,
	"step": 55
	},
	{
	"epoch": 0.5154362416107383,
	"grad_norm": 39.49613447619216,
	"learning_rate": 2.801341700638307e-07,
	"logits/chosen": -2.5868403911590576,
	"logits/rejected": -3.0467333793640137,
	"logps/chosen": -1847.5205078125,
	"logps/rejected": -10758.123046875,
	"loss": 0.1843,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": -2.3636813163757324,
	"rewards/margins": 10.008157730102539,
	"rewards/rejected": -12.37183952331543,
	"step": 60
	},
	{
	"epoch": 0.5583892617449664,
	"grad_norm": 12.8001844827942,
	"learning_rate": 2.424492430497778e-07,
	"logits/chosen": -2.506343126296997,
	"logits/rejected": -2.965503215789795,
	"logps/chosen": -2238.29443359375,
	"logps/rejected": -10792.2021484375,
	"loss": 0.2211,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -2.6938767433166504,
	"rewards/margins": 9.952713012695312,
	"rewards/rejected": -12.646589279174805,
	"step": 65
	},
	{
	"epoch": 0.6013422818791946,
	"grad_norm": 15.245673155295346,
	"learning_rate": 2.0493624054652355e-07,
	"logits/chosen": -2.58244252204895,
	"logits/rejected": -2.951399326324463,
	"logps/chosen": -2069.97998046875,
	"logps/rejected": -10962.5087890625,
	"loss": 0.246,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -2.3197269439697266,
	"rewards/margins": 10.182031631469727,
	"rewards/rejected": -12.50175952911377,
	"step": 70
	},
	{
	"epoch": 0.6442953020134228,
	"grad_norm": 24.590124308811014,
	"learning_rate": 1.6844930269478273e-07,
	"logits/chosen": -2.5273938179016113,
	"logits/rejected": -2.789759397506714,
	"logps/chosen": -2302.49169921875,
	"logps/rejected": -10204.7763671875,
	"loss": 0.2857,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -2.474081039428711,
	"rewards/margins": 8.876008987426758,
	"rewards/rejected": -11.350090980529785,
	"step": 75
	},
	{
	"epoch": 0.687248322147651,
	"grad_norm": 5.243275488519254,
	"learning_rate": 1.3381920698905784e-07,
	"logits/chosen": -2.599067211151123,
	"logits/rejected": -2.9476146697998047,
	"logps/chosen": -2229.91162109375,
	"logps/rejected": -10514.13671875,
	"loss": 0.1797,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -2.218345880508423,
	"rewards/margins": 8.61392593383789,
	"rewards/rejected": -10.832271575927734,
	"step": 80
	},
	{
	"epoch": 0.7302013422818792,
	"grad_norm": 8.334219171923868,
	"learning_rate": 1.0183445215899584e-07,
	"logits/chosen": -2.6111998558044434,
	"logits/rejected": -2.9625191688537598,
	"logps/chosen": -1786.7320556640625,
	"logps/rejected": -10765.2060546875,
	"loss": 0.1725,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": -1.8339601755142212,
	"rewards/margins": 8.938019752502441,
	"rewards/rejected": -10.771979331970215,
	"step": 85
	},
	{
	"epoch": 0.7731543624161074,
	"grad_norm": 14.219523417845217,
	"learning_rate": 7.322330470336313e-08,
	"logits/chosen": -2.2908596992492676,
	"logits/rejected": -2.7106270790100098,
	"logps/chosen": -1873.132568359375,
	"logps/rejected": -9457.634765625,
	"loss": 0.1766,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -1.8528430461883545,
	"rewards/margins": 7.991453647613525,
	"rewards/rejected": -9.844297409057617,
	"step": 90
	},
	{
	"epoch": 0.8161073825503355,
	"grad_norm": 15.487241466447763,
	"learning_rate": 4.863721686226349e-08,
	"logits/chosen": -2.6290388107299805,
	"logits/rejected": -2.9791619777679443,
	"logps/chosen": -1920.321044921875,
	"logps/rejected": -10810.255859375,
	"loss": 0.203,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -2.1639926433563232,
	"rewards/margins": 9.248581886291504,
	"rewards/rejected": -11.412572860717773,
	"step": 95
	},
	{
	"epoch": 0.8590604026845637,
	"grad_norm": 10.617279968480949,
	"learning_rate": 2.863599358669755e-08,
	"logits/chosen": -2.513326644897461,
	"logits/rejected": -2.773226499557495,
	"logps/chosen": -2062.977294921875,
	"logps/rejected": -10156.541015625,
	"loss": 0.158,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -2.4399707317352295,
	"rewards/margins": 8.490180969238281,
	"rewards/rejected": -10.930150985717773,
	"step": 100
	},
	{
	"epoch": 0.9020134228187919,
	"grad_norm": 15.766621732547646,
	"learning_rate": 1.3675046241339916e-08,
	"logits/chosen": -2.458155870437622,
	"logits/rejected": -2.8766350746154785,
	"logps/chosen": -1824.9993896484375,
	"logps/rejected": -10561.1455078125,
	"loss": 0.2026,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -2.1738946437835693,
	"rewards/margins": 8.930900573730469,
	"rewards/rejected": -11.104796409606934,
	"step": 105
	},
	{
	"epoch": 0.9449664429530201,
	"grad_norm": 5.046777954270063,
	"learning_rate": 4.0950232632141205e-09,
	"logits/chosen": -2.5404601097106934,
	"logits/rejected": -2.9703125953674316,
	"logps/chosen": -1576.762939453125,
	"logps/rejected": -11024.712890625,
	"loss": 0.2015,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -1.8676944971084595,
	"rewards/margins": 9.766222953796387,
	"rewards/rejected": -11.633917808532715,
	"step": 110
	},
	{
	"epoch": 0.9879194630872483,
	"grad_norm": 13.782488804833061,
	"learning_rate": 1.1405387761664887e-10,
	"logits/chosen": -2.4785690307617188,
	"logits/rejected": -2.7061634063720703,
	"logps/chosen": -2462.81689453125,
	"logps/rejected": -9758.763671875,
	"loss": 0.2002,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -3.0159003734588623,
	"rewards/margins": 7.688973426818848,
	"rewards/rejected": -10.704873085021973,
	"step": 115
	},
	{
	"epoch": 0.996510067114094,
	"step": 116,
	"total_flos": 0.0,
	"train_loss": 0.2600768296497649,
	"train_runtime": 7822.1359,
	"train_samples_per_second": 1.904,
	"train_steps_per_second": 0.015
	}
	],
	"logging_steps": 5,
	"max_steps": 116,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}