colerobertson commited on Mar 3

Commit

19d8036

•

1 Parent(s): eaab99b

Training in progress, epoch 5

Browse files

Files changed (39) hide show

model.safetensors +1 -1
run-0/checkpoint-120/config.json +80 -0
run-0/checkpoint-120/model.safetensors +3 -0
run-0/checkpoint-120/optimizer.pt +3 -0
run-0/checkpoint-120/preprocessor_config.json +9 -0
run-0/checkpoint-120/rng_state.pth +3 -0
run-0/checkpoint-120/scheduler.pt +3 -0
run-0/checkpoint-120/trainer_state.json +237 -0
run-0/checkpoint-120/training_args.bin +3 -0
run-0/checkpoint-24/config.json +80 -0
run-0/checkpoint-24/model.safetensors +3 -0
run-0/checkpoint-24/optimizer.pt +3 -0
run-0/checkpoint-24/preprocessor_config.json +9 -0
run-0/checkpoint-24/rng_state.pth +3 -0
run-0/checkpoint-24/scheduler.pt +3 -0
run-0/checkpoint-24/trainer_state.json +61 -0
run-0/checkpoint-24/training_args.bin +3 -0
run-0/checkpoint-48/model.safetensors +1 -1
run-0/checkpoint-48/optimizer.pt +1 -1
run-0/checkpoint-48/rng_state.pth +1 -1
run-0/checkpoint-48/scheduler.pt +1 -1
run-0/checkpoint-48/trainer_state.json +56 -65
run-0/checkpoint-48/training_args.bin +1 -1
run-0/checkpoint-72/config.json +80 -0
run-0/checkpoint-72/model.safetensors +3 -0
run-0/checkpoint-72/optimizer.pt +3 -0
run-0/checkpoint-72/preprocessor_config.json +9 -0
run-0/checkpoint-72/rng_state.pth +3 -0
run-0/checkpoint-72/scheduler.pt +3 -0
run-0/checkpoint-72/trainer_state.json +149 -0
run-0/checkpoint-72/training_args.bin +3 -0
run-0/checkpoint-96/model.safetensors +1 -1
run-0/checkpoint-96/optimizer.pt +1 -1
run-0/checkpoint-96/rng_state.pth +1 -1
run-0/checkpoint-96/scheduler.pt +1 -1
run-0/checkpoint-96/trainer_state.json +111 -129
run-0/checkpoint-96/training_args.bin +1 -1
runs/Mar03_18-24-09_ca56ea9bc35e/events.out.tfevents.1709497668.ca56ea9bc35e.3883.24 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c21673226edbab6b566ba6d5fd266227f96e9587c2c6a57041fb29591701883f
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:4970a2abd2c86347378245a23a90bcb1c03225871c0732deda4b110c1402b05e
 size 94763496

run-0/checkpoint-120/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-120/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4970a2abd2c86347378245a23a90bcb1c03225871c0732deda4b110c1402b05e
+size 94763496

run-0/checkpoint-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be897b050782e3854dad80b8194d6dc55b64e92a9f6a8de27ffb6bc2f519f358
+size 189552570

run-0/checkpoint-120/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea9b93979db9d187112d0877ca456edd569c23f080722f2fbbe337c28c1a6935
+size 14244

run-0/checkpoint-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0473f5ebc64129e90069538909f48d93066ac572290ce5451bdd20c91af3d131
+size 1064

run-0/checkpoint-120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,237 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-24",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 120,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.6479910612106323,
+      "learning_rate": 3.3535706116592527e-06,
+      "loss": 0.699,
+      "step": 5
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.6159653663635254,
+      "learning_rate": 6.707141223318505e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5607424974441528,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.6812,
+      "step": 15
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.401130199432373,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6633,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680633544921875,
+      "eval_runtime": 1.3853,
+      "eval_samples_per_second": 46.201,
+      "eval_steps_per_second": 5.775,
+      "step": 24
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.9690802693367004,
+      "learning_rate": 1.602261514459421e-05,
+      "loss": 0.6644,
+      "step": 25
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8331551551818848,
+      "learning_rate": 1.564999618774318e-05,
+      "loss": 0.6073,
+      "step": 30
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.799914002418518,
+      "learning_rate": 1.527737723089215e-05,
+      "loss": 0.5805,
+      "step": 35
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 0.515367865562439,
+      "learning_rate": 1.4904758274041123e-05,
+      "loss": 0.6465,
+      "step": 40
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.6179113388061523,
+      "learning_rate": 1.4532139317190096e-05,
+      "loss": 0.6147,
+      "step": 45
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.701690673828125,
+      "eval_runtime": 1.4198,
+      "eval_samples_per_second": 45.078,
+      "eval_steps_per_second": 5.635,
+      "step": 48
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.5513622760772705,
+      "learning_rate": 1.4159520360339068e-05,
+      "loss": 0.6301,
+      "step": 50
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.5830497741699219,
+      "learning_rate": 1.3786901403488039e-05,
+      "loss": 0.5836,
+      "step": 55
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.6891571879386902,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6309,
+      "step": 60
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.3063991069793701,
+      "learning_rate": 1.3041663489785983e-05,
+      "loss": 0.6199,
+      "step": 65
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.164373517036438,
+      "learning_rate": 1.2669044532934955e-05,
+      "loss": 0.4871,
+      "step": 70
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7076148986816406,
+      "eval_runtime": 1.4157,
+      "eval_samples_per_second": 45.206,
+      "eval_steps_per_second": 5.651,
+      "step": 72
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.5683964490890503,
+      "learning_rate": 1.2296425576083926e-05,
+      "loss": 0.5943,
+      "step": 75
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.5915613770484924,
+      "learning_rate": 1.1923806619232898e-05,
+      "loss": 0.6051,
+      "step": 80
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.4184000492095947,
+      "learning_rate": 1.155118766238187e-05,
+      "loss": 0.487,
+      "step": 85
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.1929051876068115,
+      "learning_rate": 1.1178568705530843e-05,
+      "loss": 0.6096,
+      "step": 90
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.1995503902435303,
+      "learning_rate": 1.0805949748679813e-05,
+      "loss": 0.5922,
+      "step": 95
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7007102966308594,
+      "eval_runtime": 1.4297,
+      "eval_samples_per_second": 44.764,
+      "eval_steps_per_second": 5.596,
+      "step": 96
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.9711471796035767,
+      "learning_rate": 1.0433330791828785e-05,
+      "loss": 0.5077,
+      "step": 100
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.008340358734131,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.5911,
+      "step": 105
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.9180999398231506,
+      "learning_rate": 9.68809287812673e-06,
+      "loss": 0.5369,
+      "step": 110
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.1544266939163208,
+      "learning_rate": 9.315473921275702e-06,
+      "loss": 0.5334,
+      "step": 115
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.4023351669311523,
+      "learning_rate": 8.942854964424674e-06,
+      "loss": 0.5347,
+      "step": 120
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6761245727539062,
+      "eval_runtime": 1.3752,
+      "eval_samples_per_second": 46.538,
+      "eval_steps_per_second": 5.817,
+      "step": 120
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 4193401989215328.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6097138935964413e-05,
+    "per_device_train_batch_size": 8
+  }
+}

run-0/checkpoint-120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
+size 4920

run-0/checkpoint-24/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-24/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:203ce75c172df60c43147ad639437bfae06a12fde458f545bcfa9566f71c66e2
+size 94763496

run-0/checkpoint-24/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44afb79906c8bbc5f625669f0a8610ac3248791cfe01df7397ef34f934faf328
+size 189552570

run-0/checkpoint-24/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-24/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5fd464cfdc34ccc4a78e84a563ff84847a7f2ca68f8d1be703c5be378ce9c86
+size 14244

run-0/checkpoint-24/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10b20289c4976533c8450c5bc9f8a90aa07e8c63cc39a142065bd92dfdbe4da6
+size 1064

run-0/checkpoint-24/trainer_state.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-24",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 24,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.6479910612106323,
+      "learning_rate": 3.3535706116592527e-06,
+      "loss": 0.699,
+      "step": 5
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.6159653663635254,
+      "learning_rate": 6.707141223318505e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5607424974441528,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.6812,
+      "step": 15
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.401130199432373,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6633,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680633544921875,
+      "eval_runtime": 1.3853,
+      "eval_samples_per_second": 46.201,
+      "eval_steps_per_second": 5.775,
+      "step": 24
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 670768569859200.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6097138935964413e-05,
+    "per_device_train_batch_size": 8
+  }
+}

run-0/checkpoint-24/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
+size 4920

run-0/checkpoint-48/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57423a91e6c057a636223c342a1b20d353153082c46be8db94355dcf9a5a8ffe
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:23842749f34d7cb29a9ff9626a7713537ce548c200d8713e828ad0cad4a9c15d
 size 94763496

run-0/checkpoint-48/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72149d39a6e8251f868d0756d8f90b67d2989af4c30ffd230bcbb36dd736bd5b
 size 189552570

 version https://git-lfs.github.com/spec/v1
+oid sha256:11c2cb808887601222fb9cf33c2d409d468ab8f8b241ccc1a2909d3ce6a5d95a
 size 189552570

run-0/checkpoint-48/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6057f3e71568989f3d2442d841f7f161902200ee453a6d60795ac4142ad66214
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ea0f2253490889e9b5dbea96976236c3c1f025b5a24179f4bcaa44eec621be7
 size 14244

run-0/checkpoint-48/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aad290205a8004232c0f396145527b973f24efe72219a18fc11c5367642bb72
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d11d359047a2e15674e19d2520244262d0d6bc2ec5ccc284a4928c5b79947d31
 size 1064

run-0/checkpoint-48/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": 0.7326732673267327,
-  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-16",
-  "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 48,
   "is_hyper_param_search": true,
@@ -9,106 +9,97 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.31,
-      "grad_norm": 0.8255003094673157,
-      "learning_rate": 1.0604552517079013e-05,
-      "loss": 0.6964,
       "step": 5
     },
     {
-      "epoch": 0.62,
-      "grad_norm": 0.6656044125556946,
-      "learning_rate": 2.1209105034158027e-05,
-      "loss": 0.6791,
       "step": 10
     },
     {
-      "epoch": 0.94,
-      "grad_norm": 0.6010500192642212,
-      "learning_rate": 3.181365755123704e-05,
-      "loss": 0.6408,
       "step": 15
     },
     {
-      "epoch": 1.0,
-      "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.68890380859375,
-      "eval_runtime": 1.415,
-      "eval_samples_per_second": 45.23,
-      "eval_steps_per_second": 5.654,
-      "step": 16
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 1.3279176950454712,
-      "learning_rate": 3.299194116424582e-05,
-      "loss": 0.6072,
-      "step": 20
     },
     {
-      "epoch": 1.56,
-      "grad_norm": 0.4112571179866791,
-      "learning_rate": 3.181365755123704e-05,
-      "loss": 0.598,
       "step": 25
     },
     {
-      "epoch": 1.88,
-      "grad_norm": 0.5132727026939392,
-      "learning_rate": 3.0635373938228256e-05,
-      "loss": 0.6135,
       "step": 30
     },
     {
-      "epoch": 2.0,
-      "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.7214889526367188,
-      "eval_runtime": 1.4006,
-      "eval_samples_per_second": 45.693,
-      "eval_steps_per_second": 5.712,
-      "step": 32
-    },
-    {
-      "epoch": 2.19,
-      "grad_norm": 0.758405327796936,
-      "learning_rate": 2.945709032521948e-05,
-      "loss": 0.5972,
       "step": 35
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 0.5937344431877136,
-      "learning_rate": 2.82788067122107e-05,
-      "loss": 0.6351,
       "step": 40
     },
     {
-      "epoch": 2.81,
-      "grad_norm": 1.0145654678344727,
-      "learning_rate": 2.7100523099201923e-05,
-      "loss": 0.5693,
       "step": 45
     },
     {
-      "epoch": 3.0,
       "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.698272705078125,
-      "eval_runtime": 1.441,
-      "eval_samples_per_second": 44.413,
-      "eval_steps_per_second": 5.552,
       "step": 48
     }
   ],
   "logging_steps": 5,
-  "max_steps": 160,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2550470417237664.0,
-  "train_batch_size": 12,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 3.393456805465284e-05,
-    "per_device_train_batch_size": 12
   }
 }

 {
   "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-24",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 48,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.21,
+      "grad_norm": 1.6479910612106323,
+      "learning_rate": 3.3535706116592527e-06,
+      "loss": 0.699,
       "step": 5
     },
     {
+      "epoch": 0.42,
+      "grad_norm": 0.6159653663635254,
+      "learning_rate": 6.707141223318505e-06,
+      "loss": 0.6932,
       "step": 10
     },
     {
+      "epoch": 0.62,
+      "grad_norm": 0.5607424974441528,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.6812,
       "step": 15
     },
     {
+      "epoch": 0.83,
+      "grad_norm": 1.401130199432373,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6633,
+      "step": 20
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680633544921875,
+      "eval_runtime": 1.3853,
+      "eval_samples_per_second": 46.201,
+      "eval_steps_per_second": 5.775,
+      "step": 24
     },
     {
+      "epoch": 1.04,
+      "grad_norm": 0.9690802693367004,
+      "learning_rate": 1.602261514459421e-05,
+      "loss": 0.6644,
       "step": 25
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 1.8331551551818848,
+      "learning_rate": 1.564999618774318e-05,
+      "loss": 0.6073,
       "step": 30
     },
     {
+      "epoch": 1.46,
+      "grad_norm": 1.799914002418518,
+      "learning_rate": 1.527737723089215e-05,
+      "loss": 0.5805,
       "step": 35
     },
     {
+      "epoch": 1.67,
+      "grad_norm": 0.515367865562439,
+      "learning_rate": 1.4904758274041123e-05,
+      "loss": 0.6465,
       "step": 40
     },
     {
+      "epoch": 1.88,
+      "grad_norm": 0.6179113388061523,
+      "learning_rate": 1.4532139317190096e-05,
+      "loss": 0.6147,
       "step": 45
     },
     {
+      "epoch": 2.0,
       "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.701690673828125,
+      "eval_runtime": 1.4198,
+      "eval_samples_per_second": 45.078,
+      "eval_steps_per_second": 5.635,
       "step": 48
     }
   ],
   "logging_steps": 5,
+  "max_steps": 240,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1570339835242944.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.6097138935964413e-05,
+    "per_device_train_batch_size": 8
   }
 }

run-0/checkpoint-48/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd5321a5a7bef447760ea7aec1bfb74d17f861ccab265be792f91de172e9f7cf
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
 size 4920

run-0/checkpoint-72/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-0/checkpoint-72/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb76baaa3e10292859eaaf54e1cd3dc5d0de162ba6ed9527301bfad27076b38d
+size 94763496

run-0/checkpoint-72/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06dd70ed020e580a47e998558c2ff850d8c86016146dbbbed371cb5740d031f2
+size 189552570

run-0/checkpoint-72/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-0/checkpoint-72/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ee3b4c1fd10f5b7dc9cd3892663bc52a1bc7290b86a11225b56750a1f3c0adf
+size 14244

run-0/checkpoint-72/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fffad6961893713483db1dcfd6ef80135279126147c8de8415994f26331d94f
+size 1064

run-0/checkpoint-72/trainer_state.json ADDED Viewed

	@@ -0,0 +1,149 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-24",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 72,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.6479910612106323,
+      "learning_rate": 3.3535706116592527e-06,
+      "loss": 0.699,
+      "step": 5
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.6159653663635254,
+      "learning_rate": 6.707141223318505e-06,
+      "loss": 0.6932,
+      "step": 10
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5607424974441528,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.6812,
+      "step": 15
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.401130199432373,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6633,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680633544921875,
+      "eval_runtime": 1.3853,
+      "eval_samples_per_second": 46.201,
+      "eval_steps_per_second": 5.775,
+      "step": 24
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.9690802693367004,
+      "learning_rate": 1.602261514459421e-05,
+      "loss": 0.6644,
+      "step": 25
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.8331551551818848,
+      "learning_rate": 1.564999618774318e-05,
+      "loss": 0.6073,
+      "step": 30
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 1.799914002418518,
+      "learning_rate": 1.527737723089215e-05,
+      "loss": 0.5805,
+      "step": 35
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 0.515367865562439,
+      "learning_rate": 1.4904758274041123e-05,
+      "loss": 0.6465,
+      "step": 40
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.6179113388061523,
+      "learning_rate": 1.4532139317190096e-05,
+      "loss": 0.6147,
+      "step": 45
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.701690673828125,
+      "eval_runtime": 1.4198,
+      "eval_samples_per_second": 45.078,
+      "eval_steps_per_second": 5.635,
+      "step": 48
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.5513622760772705,
+      "learning_rate": 1.4159520360339068e-05,
+      "loss": 0.6301,
+      "step": 50
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.5830497741699219,
+      "learning_rate": 1.3786901403488039e-05,
+      "loss": 0.5836,
+      "step": 55
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.6891571879386902,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6309,
+      "step": 60
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.3063991069793701,
+      "learning_rate": 1.3041663489785983e-05,
+      "loss": 0.6199,
+      "step": 65
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.164373517036438,
+      "learning_rate": 1.2669044532934955e-05,
+      "loss": 0.4871,
+      "step": 70
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7076148986816406,
+      "eval_runtime": 1.4157,
+      "eval_samples_per_second": 45.206,
+      "eval_steps_per_second": 5.651,
+      "step": 72
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2449725503657472.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.6097138935964413e-05,
+    "per_device_train_batch_size": 8
+  }
+}

run-0/checkpoint-72/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
+size 4920

run-0/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c21673226edbab6b566ba6d5fd266227f96e9587c2c6a57041fb29591701883f
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c9139d8224355fe0e842d9efa7c44348ac0e82ff31134a167f9a33f4be03b4
 size 94763496

run-0/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0440869fc4ac86bfd89b2be1533510bdfe1633d0e38772e6f61612bc84de7093
 size 189552570

 version https://git-lfs.github.com/spec/v1
+oid sha256:39d20d5d04c35d2b8653ce48db98b8aceb259e1d3129842531fe037342fd8eb3
 size 189552570

run-0/checkpoint-96/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53f396ce65ed9535364efa4f874662b8f07e93a8b1799db89be140bf009657c2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b456b0645d03f4fc8a479113b5caa8bb02734d9c9788d3ded452d4ca10da7ef
 size 14244

run-0/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94f957e39f2386f162d3c9e4397d136c0360104bc6ecac4ee610978ad2919d5f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b19b453bb5c60fec371fb0b599c4ea5138bc56060c0f92f5031e6bd36210973
 size 1064

run-0/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.7500000000000001,
-  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-80",
-  "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
@@ -9,203 +9,185 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.31,
-      "grad_norm": 0.8255003094673157,
-      "learning_rate": 1.0604552517079013e-05,
-      "loss": 0.6964,
       "step": 5
     },
     {
-      "epoch": 0.62,
-      "grad_norm": 0.6656044125556946,
-      "learning_rate": 2.1209105034158027e-05,
-      "loss": 0.6791,
       "step": 10
     },
     {
-      "epoch": 0.94,
-      "grad_norm": 0.6010500192642212,
-      "learning_rate": 3.181365755123704e-05,
-      "loss": 0.6408,
       "step": 15
     },
     {
-      "epoch": 1.0,
-      "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.68890380859375,
-      "eval_runtime": 1.415,
-      "eval_samples_per_second": 45.23,
-      "eval_steps_per_second": 5.654,
-      "step": 16
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 1.3279176950454712,
-      "learning_rate": 3.299194116424582e-05,
-      "loss": 0.6072,
-      "step": 20
     },
     {
-      "epoch": 1.56,
-      "grad_norm": 0.4112571179866791,
-      "learning_rate": 3.181365755123704e-05,
-      "loss": 0.598,
       "step": 25
     },
     {
-      "epoch": 1.88,
-      "grad_norm": 0.5132727026939392,
-      "learning_rate": 3.0635373938228256e-05,
-      "loss": 0.6135,
       "step": 30
     },
     {
-      "epoch": 2.0,
-      "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.7214889526367188,
-      "eval_runtime": 1.4006,
-      "eval_samples_per_second": 45.693,
-      "eval_steps_per_second": 5.712,
-      "step": 32
-    },
-    {
-      "epoch": 2.19,
-      "grad_norm": 0.758405327796936,
-      "learning_rate": 2.945709032521948e-05,
-      "loss": 0.5972,
       "step": 35
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 0.5937344431877136,
-      "learning_rate": 2.82788067122107e-05,
-      "loss": 0.6351,
       "step": 40
     },
     {
-      "epoch": 2.81,
-      "grad_norm": 1.0145654678344727,
-      "learning_rate": 2.7100523099201923e-05,
-      "loss": 0.5693,
       "step": 45
     },
     {
-      "epoch": 3.0,
       "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.698272705078125,
-      "eval_runtime": 1.441,
-      "eval_samples_per_second": 44.413,
-      "eval_steps_per_second": 5.552,
       "step": 48
     },
     {
-      "epoch": 3.12,
-      "grad_norm": 0.6083056330680847,
-      "learning_rate": 2.592223948619314e-05,
-      "loss": 0.5451,
       "step": 50
     },
     {
-      "epoch": 3.44,
-      "grad_norm": 1.0291730165481567,
-      "learning_rate": 2.474395587318436e-05,
-      "loss": 0.5484,
       "step": 55
     },
     {
-      "epoch": 3.75,
-      "grad_norm": 0.8883129954338074,
-      "learning_rate": 2.3565672260175582e-05,
-      "loss": 0.5352,
       "step": 60
     },
     {
-      "epoch": 4.0,
-      "eval_f1": 0.7326732673267327,
-      "eval_loss": 0.6671600341796875,
-      "eval_runtime": 1.5278,
-      "eval_samples_per_second": 41.89,
-      "eval_steps_per_second": 5.236,
-      "step": 64
-    },
-    {
-      "epoch": 4.06,
-      "grad_norm": 1.3549830913543701,
-      "learning_rate": 2.2387388647166805e-05,
-      "loss": 0.5651,
       "step": 65
     },
     {
-      "epoch": 4.38,
-      "grad_norm": 1.6241841316223145,
-      "learning_rate": 2.1209105034158027e-05,
-      "loss": 0.4816,
       "step": 70
     },
     {
-      "epoch": 4.69,
-      "grad_norm": 1.7844226360321045,
-      "learning_rate": 2.0030821421149246e-05,
-      "loss": 0.4744,
-      "step": 75
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 4.98038387298584,
-      "learning_rate": 1.8852537808140468e-05,
-      "loss": 0.4257,
-      "step": 80
     },
     {
-      "epoch": 5.0,
-      "eval_f1": 0.7500000000000001,
-      "eval_loss": 0.6424350738525391,
-      "eval_runtime": 1.3892,
-      "eval_samples_per_second": 46.069,
-      "eval_steps_per_second": 5.759,
       "step": 80
     },
     {
-      "epoch": 5.31,
-      "grad_norm": 2.9809491634368896,
-      "learning_rate": 1.767425419513169e-05,
-      "loss": 0.3976,
       "step": 85
     },
     {
-      "epoch": 5.62,
-      "grad_norm": 3.5094501972198486,
-      "learning_rate": 1.649597058212291e-05,
-      "loss": 0.3957,
       "step": 90
     },
     {
-      "epoch": 5.94,
-      "grad_norm": 3.999945878982544,
-      "learning_rate": 1.5317686969114128e-05,
-      "loss": 0.3643,
       "step": 95
     },
     {
-      "epoch": 6.0,
-      "eval_f1": 0.7415730337078652,
-      "eval_loss": 0.6471805572509766,
-      "eval_runtime": 1.3839,
-      "eval_samples_per_second": 46.247,
-      "eval_steps_per_second": 5.781,
       "step": 96
     }
   ],
   "logging_steps": 5,
-  "max_steps": 160,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5365994483367216.0,
-  "train_batch_size": 12,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 3.393456805465284e-05,
-    "per_device_train_batch_size": 12
   }
 }

 {
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-0/checkpoint-24",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.21,
+      "grad_norm": 1.6479910612106323,
+      "learning_rate": 3.3535706116592527e-06,
+      "loss": 0.699,
       "step": 5
     },
     {
+      "epoch": 0.42,
+      "grad_norm": 0.6159653663635254,
+      "learning_rate": 6.707141223318505e-06,
+      "loss": 0.6932,
       "step": 10
     },
     {
+      "epoch": 0.62,
+      "grad_norm": 0.5607424974441528,
+      "learning_rate": 1.0060711834977758e-05,
+      "loss": 0.6812,
       "step": 15
     },
     {
+      "epoch": 0.83,
+      "grad_norm": 1.401130199432373,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6633,
+      "step": 20
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680633544921875,
+      "eval_runtime": 1.3853,
+      "eval_samples_per_second": 46.201,
+      "eval_steps_per_second": 5.775,
+      "step": 24
     },
     {
+      "epoch": 1.04,
+      "grad_norm": 0.9690802693367004,
+      "learning_rate": 1.602261514459421e-05,
+      "loss": 0.6644,
       "step": 25
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 1.8331551551818848,
+      "learning_rate": 1.564999618774318e-05,
+      "loss": 0.6073,
       "step": 30
     },
     {
+      "epoch": 1.46,
+      "grad_norm": 1.799914002418518,
+      "learning_rate": 1.527737723089215e-05,
+      "loss": 0.5805,
       "step": 35
     },
     {
+      "epoch": 1.67,
+      "grad_norm": 0.515367865562439,
+      "learning_rate": 1.4904758274041123e-05,
+      "loss": 0.6465,
       "step": 40
     },
     {
+      "epoch": 1.88,
+      "grad_norm": 0.6179113388061523,
+      "learning_rate": 1.4532139317190096e-05,
+      "loss": 0.6147,
       "step": 45
     },
     {
+      "epoch": 2.0,
       "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.701690673828125,
+      "eval_runtime": 1.4198,
+      "eval_samples_per_second": 45.078,
+      "eval_steps_per_second": 5.635,
       "step": 48
     },
     {
+      "epoch": 2.08,
+      "grad_norm": 0.5513622760772705,
+      "learning_rate": 1.4159520360339068e-05,
+      "loss": 0.6301,
       "step": 50
     },
     {
+      "epoch": 2.29,
+      "grad_norm": 0.5830497741699219,
+      "learning_rate": 1.3786901403488039e-05,
+      "loss": 0.5836,
       "step": 55
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 0.6891571879386902,
+      "learning_rate": 1.341428244663701e-05,
+      "loss": 0.6309,
       "step": 60
     },
     {
+      "epoch": 2.71,
+      "grad_norm": 1.3063991069793701,
+      "learning_rate": 1.3041663489785983e-05,
+      "loss": 0.6199,
       "step": 65
     },
     {
+      "epoch": 2.92,
+      "grad_norm": 1.164373517036438,
+      "learning_rate": 1.2669044532934955e-05,
+      "loss": 0.4871,
       "step": 70
     },
     {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7076148986816406,
+      "eval_runtime": 1.4157,
+      "eval_samples_per_second": 45.206,
+      "eval_steps_per_second": 5.651,
+      "step": 72
     },
     {
+      "epoch": 3.12,
+      "grad_norm": 0.5683964490890503,
+      "learning_rate": 1.2296425576083926e-05,
+      "loss": 0.5943,
+      "step": 75
     },
     {
+      "epoch": 3.33,
+      "grad_norm": 0.5915613770484924,
+      "learning_rate": 1.1923806619232898e-05,
+      "loss": 0.6051,
       "step": 80
     },
     {
+      "epoch": 3.54,
+      "grad_norm": 1.4184000492095947,
+      "learning_rate": 1.155118766238187e-05,
+      "loss": 0.487,
       "step": 85
     },
     {
+      "epoch": 3.75,
+      "grad_norm": 1.1929051876068115,
+      "learning_rate": 1.1178568705530843e-05,
+      "loss": 0.6096,
       "step": 90
     },
     {
+      "epoch": 3.96,
+      "grad_norm": 1.1995503902435303,
+      "learning_rate": 1.0805949748679813e-05,
+      "loss": 0.5922,
       "step": 95
     },
     {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7007102966308594,
+      "eval_runtime": 1.4297,
+      "eval_samples_per_second": 44.764,
+      "eval_steps_per_second": 5.596,
       "step": 96
     }
   ],
   "logging_steps": 5,
+  "max_steps": 240,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3314382463332576.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.6097138935964413e-05,
+    "per_device_train_batch_size": 8
   }
 }

run-0/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd5321a5a7bef447760ea7aec1bfb74d17f861ccab265be792f91de172e9f7cf
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
 size 4920

runs/Mar03_18-24-09_ca56ea9bc35e/events.out.tfevents.1709497668.ca56ea9bc35e.3883.24 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d02008ca9bff9e2d2736a788c7e63fb995b1dd9a85b32013ef07005a79b7bef
+size 12043

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd5321a5a7bef447760ea7aec1bfb74d17f861ccab265be792f91de172e9f7cf
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:69b0aae1b6cc94401448b152c38be14ffcd8839b1499a5701f300de8efdf55e0
 size 4920