colerobertson commited on Mar 3

Commit

bac01b2

•

1 Parent(s): 02160f9

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-4/checkpoint-144/config.json +80 -0
run-4/checkpoint-144/model.safetensors +3 -0
run-4/checkpoint-144/optimizer.pt +3 -0
run-4/checkpoint-144/preprocessor_config.json +9 -0
run-4/checkpoint-144/rng_state.pth +3 -0
run-4/checkpoint-144/scheduler.pt +3 -0
run-4/checkpoint-144/trainer_state.json +247 -0
run-4/checkpoint-144/training_args.bin +3 -0
run-4/checkpoint-192/config.json +80 -0
run-4/checkpoint-192/model.safetensors +3 -0
run-4/checkpoint-192/optimizer.pt +3 -0
run-4/checkpoint-192/preprocessor_config.json +9 -0
run-4/checkpoint-192/rng_state.pth +3 -0
run-4/checkpoint-192/scheduler.pt +3 -0
run-4/checkpoint-192/trainer_state.json +326 -0
run-4/checkpoint-192/training_args.bin +3 -0
run-4/checkpoint-240/config.json +80 -0
run-4/checkpoint-240/model.safetensors +3 -0
run-4/checkpoint-240/optimizer.pt +3 -0
run-4/checkpoint-240/preprocessor_config.json +9 -0
run-4/checkpoint-240/rng_state.pth +3 -0
run-4/checkpoint-240/scheduler.pt +3 -0
run-4/checkpoint-240/trainer_state.json +405 -0
run-4/checkpoint-240/training_args.bin +3 -0
run-4/checkpoint-288/config.json +80 -0
run-4/checkpoint-288/model.safetensors +3 -0
run-4/checkpoint-288/optimizer.pt +3 -0
run-4/checkpoint-288/preprocessor_config.json +9 -0
run-4/checkpoint-288/rng_state.pth +3 -0
run-4/checkpoint-288/scheduler.pt +3 -0
run-4/checkpoint-288/trainer_state.json +477 -0
run-4/checkpoint-288/training_args.bin +3 -0
run-4/checkpoint-336/config.json +80 -0
run-4/checkpoint-336/model.safetensors +3 -0
run-4/checkpoint-336/optimizer.pt +3 -0
run-4/checkpoint-336/preprocessor_config.json +9 -0
run-4/checkpoint-336/rng_state.pth +3 -0
run-4/checkpoint-336/scheduler.pt +3 -0
run-4/checkpoint-336/trainer_state.json +556 -0
run-4/checkpoint-336/training_args.bin +3 -0
run-4/checkpoint-384/config.json +80 -0
run-4/checkpoint-384/model.safetensors +3 -0
run-4/checkpoint-384/optimizer.pt +3 -0
run-4/checkpoint-384/preprocessor_config.json +9 -0
run-4/checkpoint-384/rng_state.pth +3 -0
run-4/checkpoint-384/scheduler.pt +3 -0
run-4/checkpoint-384/trainer_state.json +628 -0
run-4/checkpoint-384/training_args.bin +3 -0
run-4/checkpoint-432/config.json +80 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:018f138040ad7aa88bf94f4b8deb9d4f75616181b7d07008cdde50dd03503a11
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1ed6ffdb684cc537f47f54766448db627495bfcb076b58f5bd92f9f75833010
 size 94763496

run-4/checkpoint-144/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-144/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84be90551bec8e32bb108dda4349a49a0a709d76c0e31826f05686036125618e
+size 94763496

run-4/checkpoint-144/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8185b0c73404b8fffa8583fd719233443888c59c9660c9da10c6e75c9be8a36e
+size 189552570

run-4/checkpoint-144/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-144/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87b8bdd7b4355fd23f0b8256efb0158e4240e11263e992a13d50944c37692500
+size 14244

run-4/checkpoint-144/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab5c28f22d5574a7076ae76732817bd92c67e71ad78a2880a292f813c3e7a8d1
+size 1064

run-4/checkpoint-144/trainer_state.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 144,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2121874430755872.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-144/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-192/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-192/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04a662be668d43e34b3ede26defff9905cfe78fa0158e7f3bca9b7849a684f21
+size 94763496

run-4/checkpoint-192/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:989d42785f68e982f9cc1de749a83d539a71c120933d2aae451e2785a66e335b
+size 189552570

run-4/checkpoint-192/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-192/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5aef020ca2df517540ac9ff4e195e1c41a7b85939e93195d118078f119bc949
+size 14244

run-4/checkpoint-192/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2463c4896d69602722ffa95084240326443a5f0698cb239a50fde88c55bcd421
+size 1064

run-4/checkpoint-192/trainer_state.json ADDED Viewed

	@@ -0,0 +1,326 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 192,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.7627719640731812,
+      "learning_rate": 1.6900516773644127e-06,
+      "loss": 0.6557,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.9291415214538574,
+      "learning_rate": 1.6648270254634511e-06,
+      "loss": 0.6219,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.9248765707015991,
+      "learning_rate": 1.6396023735624898e-06,
+      "loss": 0.6325,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.9842573404312134,
+      "learning_rate": 1.6143777216615284e-06,
+      "loss": 0.6521,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.8689214587211609,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.5929,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.0012000799179077,
+      "learning_rate": 1.5639284178596057e-06,
+      "loss": 0.584,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 0.7438368797302246,
+      "learning_rate": 1.5387037659586443e-06,
+      "loss": 0.6813,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.8603870868682861,
+      "learning_rate": 1.513479114057683e-06,
+      "loss": 0.6099,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.9918416738510132,
+      "learning_rate": 1.4882544621567216e-06,
+      "loss": 0.6192,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.9146322011947632,
+      "learning_rate": 1.4630298102557603e-06,
+      "loss": 0.6472,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6818161010742188,
+      "eval_runtime": 1.3841,
+      "eval_samples_per_second": 46.239,
+      "eval_steps_per_second": 5.78,
+      "step": 192
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2891755054954176.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-192/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-240/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:336f5153e14e700e4c4e5e048754a4434d79bdee3267bc3a53cbb003b875ea7e
+size 94763496

run-4/checkpoint-240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22b1916abc98dec4fd4f1436e9d8dd462ba5c4401dddd0941a36031f3bc679ff
+size 189552570

run-4/checkpoint-240/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8eb071c49709b6f4047e7f48105f0dd51daaf73e0a11fd742255aa4c3526f42
+size 14244

run-4/checkpoint-240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2e35d3649cf053f4cc488647dacb8d6e20774271115c5998276bc7752ca7e23
+size 1064

run-4/checkpoint-240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,405 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 240,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.7627719640731812,
+      "learning_rate": 1.6900516773644127e-06,
+      "loss": 0.6557,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.9291415214538574,
+      "learning_rate": 1.6648270254634511e-06,
+      "loss": 0.6219,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.9248765707015991,
+      "learning_rate": 1.6396023735624898e-06,
+      "loss": 0.6325,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.9842573404312134,
+      "learning_rate": 1.6143777216615284e-06,
+      "loss": 0.6521,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.8689214587211609,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.5929,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.0012000799179077,
+      "learning_rate": 1.5639284178596057e-06,
+      "loss": 0.584,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 0.7438368797302246,
+      "learning_rate": 1.5387037659586443e-06,
+      "loss": 0.6813,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.8603870868682861,
+      "learning_rate": 1.513479114057683e-06,
+      "loss": 0.6099,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.9918416738510132,
+      "learning_rate": 1.4882544621567216e-06,
+      "loss": 0.6192,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.9146322011947632,
+      "learning_rate": 1.4630298102557603e-06,
+      "loss": 0.6472,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6818161010742188,
+      "eval_runtime": 1.3841,
+      "eval_samples_per_second": 46.239,
+      "eval_steps_per_second": 5.78,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 0.9502781629562378,
+      "learning_rate": 1.437805158354799e-06,
+      "loss": 0.6447,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.8570067286491394,
+      "learning_rate": 1.4125805064538375e-06,
+      "loss": 0.5306,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.8097484111785889,
+      "learning_rate": 1.3873558545528762e-06,
+      "loss": 0.6202,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.0106472969055176,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6705,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.090775489807129,
+      "learning_rate": 1.3369065507509533e-06,
+      "loss": 0.6297,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.8988145589828491,
+      "learning_rate": 1.311681898849992e-06,
+      "loss": 0.5896,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 0.9149978756904602,
+      "learning_rate": 1.2864572469490305e-06,
+      "loss": 0.6156,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.9398412704467773,
+      "learning_rate": 1.2612325950480692e-06,
+      "loss": 0.6305,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.9217966794967651,
+      "learning_rate": 1.2360079431471078e-06,
+      "loss": 0.5943,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.9083653688430786,
+      "learning_rate": 1.2107832912461465e-06,
+      "loss": 0.6386,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6846389770507812,
+      "eval_runtime": 1.4094,
+      "eval_samples_per_second": 45.409,
+      "eval_steps_per_second": 5.676,
+      "step": 240
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3654362860415712.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-288/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-288/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be27592b57346e1ba7fb5ac856d5e685d4d7d316009088a8a4a6b512cb22d9a4
+size 94763496

run-4/checkpoint-288/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c627abefd26f649e146eb3f7adc646b23cae944e9576351a11327cb5a485e7d
+size 189552570

run-4/checkpoint-288/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-288/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9903236b654011babeaee26ea70e1c6278fa670549b900c6df1d64732428a642
+size 14244

run-4/checkpoint-288/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2163f47f6ce948a3a821c2032fa9ddfd17ee0992318acd25664f5287b23dd105
+size 1064

run-4/checkpoint-288/trainer_state.json ADDED Viewed

	@@ -0,0 +1,477 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 288,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.7627719640731812,
+      "learning_rate": 1.6900516773644127e-06,
+      "loss": 0.6557,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.9291415214538574,
+      "learning_rate": 1.6648270254634511e-06,
+      "loss": 0.6219,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.9248765707015991,
+      "learning_rate": 1.6396023735624898e-06,
+      "loss": 0.6325,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.9842573404312134,
+      "learning_rate": 1.6143777216615284e-06,
+      "loss": 0.6521,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.8689214587211609,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.5929,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.0012000799179077,
+      "learning_rate": 1.5639284178596057e-06,
+      "loss": 0.584,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 0.7438368797302246,
+      "learning_rate": 1.5387037659586443e-06,
+      "loss": 0.6813,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.8603870868682861,
+      "learning_rate": 1.513479114057683e-06,
+      "loss": 0.6099,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.9918416738510132,
+      "learning_rate": 1.4882544621567216e-06,
+      "loss": 0.6192,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.9146322011947632,
+      "learning_rate": 1.4630298102557603e-06,
+      "loss": 0.6472,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6818161010742188,
+      "eval_runtime": 1.3841,
+      "eval_samples_per_second": 46.239,
+      "eval_steps_per_second": 5.78,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 0.9502781629562378,
+      "learning_rate": 1.437805158354799e-06,
+      "loss": 0.6447,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.8570067286491394,
+      "learning_rate": 1.4125805064538375e-06,
+      "loss": 0.5306,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.8097484111785889,
+      "learning_rate": 1.3873558545528762e-06,
+      "loss": 0.6202,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.0106472969055176,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6705,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.090775489807129,
+      "learning_rate": 1.3369065507509533e-06,
+      "loss": 0.6297,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.8988145589828491,
+      "learning_rate": 1.311681898849992e-06,
+      "loss": 0.5896,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 0.9149978756904602,
+      "learning_rate": 1.2864572469490305e-06,
+      "loss": 0.6156,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.9398412704467773,
+      "learning_rate": 1.2612325950480692e-06,
+      "loss": 0.6305,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.9217966794967651,
+      "learning_rate": 1.2360079431471078e-06,
+      "loss": 0.5943,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.9083653688430786,
+      "learning_rate": 1.2107832912461465e-06,
+      "loss": 0.6386,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6846389770507812,
+      "eval_runtime": 1.4094,
+      "eval_samples_per_second": 45.409,
+      "eval_steps_per_second": 5.676,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.9323675036430359,
+      "learning_rate": 1.1855586393451851e-06,
+      "loss": 0.5779,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 0.7549787163734436,
+      "learning_rate": 1.1603339874442238e-06,
+      "loss": 0.5948,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 0.8535837531089783,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6928,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": 1.2038137912750244,
+      "learning_rate": 1.109884683642301e-06,
+      "loss": 0.5887,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 0.9501279592514038,
+      "learning_rate": 1.0846600317413395e-06,
+      "loss": 0.5776,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 0.7421719431877136,
+      "learning_rate": 1.0594353798403781e-06,
+      "loss": 0.6734,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 0.8555863499641418,
+      "learning_rate": 1.0342107279394168e-06,
+      "loss": 0.6399,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 0.8841156363487244,
+      "learning_rate": 1.0089860760384554e-06,
+      "loss": 0.6173,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 0.8565478324890137,
+      "learning_rate": 9.83761424137494e-07,
+      "loss": 0.5537,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864242553710938,
+      "eval_runtime": 1.3622,
+      "eval_samples_per_second": 46.983,
+      "eval_steps_per_second": 5.873,
+      "step": 288
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 4356539523260784.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-288/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-336/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-336/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3425a160cf28659111e87b6ab601bd4f64cd88b8baa924505a0ed42513beb151
+size 94763496

run-4/checkpoint-336/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a80e51af62d25c253503b816ec7b98c85cc9ba062954c975249337e8ce646afe
+size 189552570

run-4/checkpoint-336/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-336/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d12884ae20f0c926a355fda8650edc055a398d4c7c42545ccdb7d60bd202452
+size 14244

run-4/checkpoint-336/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0d819fb0c1d431c458fec913aa5469b8a7ed1313a0add2ae71b76c0b9a0a219
+size 1064

run-4/checkpoint-336/trainer_state.json ADDED Viewed

	@@ -0,0 +1,556 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 336,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.7627719640731812,
+      "learning_rate": 1.6900516773644127e-06,
+      "loss": 0.6557,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.9291415214538574,
+      "learning_rate": 1.6648270254634511e-06,
+      "loss": 0.6219,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.9248765707015991,
+      "learning_rate": 1.6396023735624898e-06,
+      "loss": 0.6325,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.9842573404312134,
+      "learning_rate": 1.6143777216615284e-06,
+      "loss": 0.6521,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.8689214587211609,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.5929,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.0012000799179077,
+      "learning_rate": 1.5639284178596057e-06,
+      "loss": 0.584,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 0.7438368797302246,
+      "learning_rate": 1.5387037659586443e-06,
+      "loss": 0.6813,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.8603870868682861,
+      "learning_rate": 1.513479114057683e-06,
+      "loss": 0.6099,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.9918416738510132,
+      "learning_rate": 1.4882544621567216e-06,
+      "loss": 0.6192,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.9146322011947632,
+      "learning_rate": 1.4630298102557603e-06,
+      "loss": 0.6472,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6818161010742188,
+      "eval_runtime": 1.3841,
+      "eval_samples_per_second": 46.239,
+      "eval_steps_per_second": 5.78,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 0.9502781629562378,
+      "learning_rate": 1.437805158354799e-06,
+      "loss": 0.6447,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.8570067286491394,
+      "learning_rate": 1.4125805064538375e-06,
+      "loss": 0.5306,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.8097484111785889,
+      "learning_rate": 1.3873558545528762e-06,
+      "loss": 0.6202,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.0106472969055176,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6705,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.090775489807129,
+      "learning_rate": 1.3369065507509533e-06,
+      "loss": 0.6297,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.8988145589828491,
+      "learning_rate": 1.311681898849992e-06,
+      "loss": 0.5896,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 0.9149978756904602,
+      "learning_rate": 1.2864572469490305e-06,
+      "loss": 0.6156,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.9398412704467773,
+      "learning_rate": 1.2612325950480692e-06,
+      "loss": 0.6305,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.9217966794967651,
+      "learning_rate": 1.2360079431471078e-06,
+      "loss": 0.5943,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.9083653688430786,
+      "learning_rate": 1.2107832912461465e-06,
+      "loss": 0.6386,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6846389770507812,
+      "eval_runtime": 1.4094,
+      "eval_samples_per_second": 45.409,
+      "eval_steps_per_second": 5.676,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.9323675036430359,
+      "learning_rate": 1.1855586393451851e-06,
+      "loss": 0.5779,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 0.7549787163734436,
+      "learning_rate": 1.1603339874442238e-06,
+      "loss": 0.5948,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 0.8535837531089783,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6928,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": 1.2038137912750244,
+      "learning_rate": 1.109884683642301e-06,
+      "loss": 0.5887,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 0.9501279592514038,
+      "learning_rate": 1.0846600317413395e-06,
+      "loss": 0.5776,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 0.7421719431877136,
+      "learning_rate": 1.0594353798403781e-06,
+      "loss": 0.6734,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 0.8555863499641418,
+      "learning_rate": 1.0342107279394168e-06,
+      "loss": 0.6399,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 0.8841156363487244,
+      "learning_rate": 1.0089860760384554e-06,
+      "loss": 0.6173,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 0.8565478324890137,
+      "learning_rate": 9.83761424137494e-07,
+      "loss": 0.5537,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864242553710938,
+      "eval_runtime": 1.3622,
+      "eval_samples_per_second": 46.983,
+      "eval_steps_per_second": 5.873,
+      "step": 288
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 0.8750139474868774,
+      "learning_rate": 9.585367722365327e-07,
+      "loss": 0.5531,
+      "step": 290
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 1.0445302724838257,
+      "learning_rate": 9.333121203355712e-07,
+      "loss": 0.638,
+      "step": 295
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.7958914637565613,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.547,
+      "step": 300
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 0.9992254376411438,
+      "learning_rate": 8.828628165336485e-07,
+      "loss": 0.6425,
+      "step": 305
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 0.8400682806968689,
+      "learning_rate": 8.576381646326871e-07,
+      "loss": 0.6955,
+      "step": 310
+    },
+    {
+      "epoch": 6.56,
+      "grad_norm": 0.742438793182373,
+      "learning_rate": 8.324135127317256e-07,
+      "loss": 0.6473,
+      "step": 315
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.6693254113197327,
+      "learning_rate": 8.071888608307642e-07,
+      "loss": 0.603,
+      "step": 320
+    },
+    {
+      "epoch": 6.77,
+      "grad_norm": 1.0816401243209839,
+      "learning_rate": 7.819642089298028e-07,
+      "loss": 0.6053,
+      "step": 325
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 0.7275277376174927,
+      "learning_rate": 7.567395570288415e-07,
+      "loss": 0.612,
+      "step": 330
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 0.7834873795509338,
+      "learning_rate": 7.315149051278801e-07,
+      "loss": 0.55,
+      "step": 335
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6889228820800781,
+      "eval_runtime": 1.3769,
+      "eval_samples_per_second": 46.483,
+      "eval_steps_per_second": 5.81,
+      "step": 336
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5116387614670704.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-336/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-384/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-4/checkpoint-384/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f03572b2dcb34be269d7a8392a1db64aa78ab3c991d84591fe98b5b2f300eea6
+size 94763496

run-4/checkpoint-384/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:370faca0c4d8022d7391f5e21d5c7cf5baa3cc1575da59ece8f1da8e073be1d6
+size 189552570

run-4/checkpoint-384/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-4/checkpoint-384/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5326b9611b4fb9dc5dc0b29580e7e48abf50913e44071592799c052bebfbacd7
+size 14244

run-4/checkpoint-384/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53cf1db083d766e2eeb0b68e04895788e327c7d113d516f642c4fc0792596377
+size 1064

run-4/checkpoint-384/trainer_state.json ADDED Viewed

	@@ -0,0 +1,628 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-4/checkpoint-96",
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 384,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2733114957809448,
+      "learning_rate": 2.2702186710865246e-07,
+      "loss": 0.7025,
+      "step": 5
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.243804931640625,
+      "learning_rate": 4.5404373421730493e-07,
+      "loss": 0.6974,
+      "step": 10
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7711552381515503,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.696,
+      "step": 15
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1453403234481812,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.6989,
+      "step": 20
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2729355096817017,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6968,
+      "step": 25
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1592165231704712,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6959,
+      "step": 30
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.1798148155212402,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.6952,
+      "step": 35
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.1216671466827393,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6886,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.3416370153427124,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6864,
+      "step": 45
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.72,
+      "eval_loss": 0.688262939453125,
+      "eval_runtime": 1.3468,
+      "eval_samples_per_second": 47.521,
+      "eval_steps_per_second": 5.94,
+      "step": 48
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.1856281757354736,
+      "learning_rate": 2.169320063482679e-06,
+      "loss": 0.6917,
+      "step": 50
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 1.4077153205871582,
+      "learning_rate": 2.1440954115817176e-06,
+      "loss": 0.6884,
+      "step": 55
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.1792664527893066,
+      "learning_rate": 2.1188707596807562e-06,
+      "loss": 0.6668,
+      "step": 60
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 1.0386197566986084,
+      "learning_rate": 2.093646107779795e-06,
+      "loss": 0.6694,
+      "step": 65
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.0565919876098633,
+      "learning_rate": 2.0684214558788335e-06,
+      "loss": 0.6561,
+      "step": 70
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 1.2978509664535522,
+      "learning_rate": 2.043196803977872e-06,
+      "loss": 0.6789,
+      "step": 75
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.058328628540039,
+      "learning_rate": 2.0179721520769108e-06,
+      "loss": 0.6633,
+      "step": 80
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 0.6023226976394653,
+      "learning_rate": 1.9927475001759494e-06,
+      "loss": 0.6655,
+      "step": 85
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5510762929916382,
+      "learning_rate": 1.967522848274988e-06,
+      "loss": 0.6622,
+      "step": 90
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.098602533340454,
+      "learning_rate": 1.9422981963740267e-06,
+      "loss": 0.6633,
+      "step": 95
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6816024780273438,
+      "eval_runtime": 1.3765,
+      "eval_samples_per_second": 46.493,
+      "eval_steps_per_second": 5.812,
+      "step": 96
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.9589098691940308,
+      "learning_rate": 1.9170735444730654e-06,
+      "loss": 0.659,
+      "step": 100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.070695161819458,
+      "learning_rate": 1.8918488925721038e-06,
+      "loss": 0.6313,
+      "step": 105
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.9913639426231384,
+      "learning_rate": 1.8666242406711424e-06,
+      "loss": 0.6652,
+      "step": 110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.0632878541946411,
+      "learning_rate": 1.841399588770181e-06,
+      "loss": 0.673,
+      "step": 115
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.1036579608917236,
+      "learning_rate": 1.8161749368692197e-06,
+      "loss": 0.6451,
+      "step": 120
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 1.08384108543396,
+      "learning_rate": 1.7909502849682583e-06,
+      "loss": 0.6322,
+      "step": 125
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.9407000541687012,
+      "learning_rate": 1.765725633067297e-06,
+      "loss": 0.6755,
+      "step": 130
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.9016568660736084,
+      "learning_rate": 1.7405009811663356e-06,
+      "loss": 0.5985,
+      "step": 135
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 1.1134448051452637,
+      "learning_rate": 1.7152763292653743e-06,
+      "loss": 0.603,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6800689697265625,
+      "eval_runtime": 1.3861,
+      "eval_samples_per_second": 46.173,
+      "eval_steps_per_second": 5.772,
+      "step": 144
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.7627719640731812,
+      "learning_rate": 1.6900516773644127e-06,
+      "loss": 0.6557,
+      "step": 145
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.9291415214538574,
+      "learning_rate": 1.6648270254634511e-06,
+      "loss": 0.6219,
+      "step": 150
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.9248765707015991,
+      "learning_rate": 1.6396023735624898e-06,
+      "loss": 0.6325,
+      "step": 155
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.9842573404312134,
+      "learning_rate": 1.6143777216615284e-06,
+      "loss": 0.6521,
+      "step": 160
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.8689214587211609,
+      "learning_rate": 1.589153069760567e-06,
+      "loss": 0.5929,
+      "step": 165
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.0012000799179077,
+      "learning_rate": 1.5639284178596057e-06,
+      "loss": 0.584,
+      "step": 170
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 0.7438368797302246,
+      "learning_rate": 1.5387037659586443e-06,
+      "loss": 0.6813,
+      "step": 175
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.8603870868682861,
+      "learning_rate": 1.513479114057683e-06,
+      "loss": 0.6099,
+      "step": 180
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.9918416738510132,
+      "learning_rate": 1.4882544621567216e-06,
+      "loss": 0.6192,
+      "step": 185
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.9146322011947632,
+      "learning_rate": 1.4630298102557603e-06,
+      "loss": 0.6472,
+      "step": 190
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6818161010742188,
+      "eval_runtime": 1.3841,
+      "eval_samples_per_second": 46.239,
+      "eval_steps_per_second": 5.78,
+      "step": 192
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 0.9502781629562378,
+      "learning_rate": 1.437805158354799e-06,
+      "loss": 0.6447,
+      "step": 195
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.8570067286491394,
+      "learning_rate": 1.4125805064538375e-06,
+      "loss": 0.5306,
+      "step": 200
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.8097484111785889,
+      "learning_rate": 1.3873558545528762e-06,
+      "loss": 0.6202,
+      "step": 205
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.0106472969055176,
+      "learning_rate": 1.3621312026519146e-06,
+      "loss": 0.6705,
+      "step": 210
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.090775489807129,
+      "learning_rate": 1.3369065507509533e-06,
+      "loss": 0.6297,
+      "step": 215
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.8988145589828491,
+      "learning_rate": 1.311681898849992e-06,
+      "loss": 0.5896,
+      "step": 220
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 0.9149978756904602,
+      "learning_rate": 1.2864572469490305e-06,
+      "loss": 0.6156,
+      "step": 225
+    },
+    {
+      "epoch": 4.79,
+      "grad_norm": 1.9398412704467773,
+      "learning_rate": 1.2612325950480692e-06,
+      "loss": 0.6305,
+      "step": 230
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.9217966794967651,
+      "learning_rate": 1.2360079431471078e-06,
+      "loss": 0.5943,
+      "step": 235
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.9083653688430786,
+      "learning_rate": 1.2107832912461465e-06,
+      "loss": 0.6386,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6846389770507812,
+      "eval_runtime": 1.4094,
+      "eval_samples_per_second": 45.409,
+      "eval_steps_per_second": 5.676,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.9323675036430359,
+      "learning_rate": 1.1855586393451851e-06,
+      "loss": 0.5779,
+      "step": 245
+    },
+    {
+      "epoch": 5.21,
+      "grad_norm": 0.7549787163734436,
+      "learning_rate": 1.1603339874442238e-06,
+      "loss": 0.5948,
+      "step": 250
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 0.8535837531089783,
+      "learning_rate": 1.1351093355432624e-06,
+      "loss": 0.6928,
+      "step": 255
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": 1.2038137912750244,
+      "learning_rate": 1.109884683642301e-06,
+      "loss": 0.5887,
+      "step": 260
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 0.9501279592514038,
+      "learning_rate": 1.0846600317413395e-06,
+      "loss": 0.5776,
+      "step": 265
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 0.7421719431877136,
+      "learning_rate": 1.0594353798403781e-06,
+      "loss": 0.6734,
+      "step": 270
+    },
+    {
+      "epoch": 5.73,
+      "grad_norm": 0.8555863499641418,
+      "learning_rate": 1.0342107279394168e-06,
+      "loss": 0.6399,
+      "step": 275
+    },
+    {
+      "epoch": 5.83,
+      "grad_norm": 0.8841156363487244,
+      "learning_rate": 1.0089860760384554e-06,
+      "loss": 0.6173,
+      "step": 280
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 0.8565478324890137,
+      "learning_rate": 9.83761424137494e-07,
+      "loss": 0.5537,
+      "step": 285
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864242553710938,
+      "eval_runtime": 1.3622,
+      "eval_samples_per_second": 46.983,
+      "eval_steps_per_second": 5.873,
+      "step": 288
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 0.8750139474868774,
+      "learning_rate": 9.585367722365327e-07,
+      "loss": 0.5531,
+      "step": 290
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 1.0445302724838257,
+      "learning_rate": 9.333121203355712e-07,
+      "loss": 0.638,
+      "step": 295
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.7958914637565613,
+      "learning_rate": 9.080874684346099e-07,
+      "loss": 0.547,
+      "step": 300
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 0.9992254376411438,
+      "learning_rate": 8.828628165336485e-07,
+      "loss": 0.6425,
+      "step": 305
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 0.8400682806968689,
+      "learning_rate": 8.576381646326871e-07,
+      "loss": 0.6955,
+      "step": 310
+    },
+    {
+      "epoch": 6.56,
+      "grad_norm": 0.742438793182373,
+      "learning_rate": 8.324135127317256e-07,
+      "loss": 0.6473,
+      "step": 315
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.6693254113197327,
+      "learning_rate": 8.071888608307642e-07,
+      "loss": 0.603,
+      "step": 320
+    },
+    {
+      "epoch": 6.77,
+      "grad_norm": 1.0816401243209839,
+      "learning_rate": 7.819642089298028e-07,
+      "loss": 0.6053,
+      "step": 325
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 0.7275277376174927,
+      "learning_rate": 7.567395570288415e-07,
+      "loss": 0.612,
+      "step": 330
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 0.7834873795509338,
+      "learning_rate": 7.315149051278801e-07,
+      "loss": 0.55,
+      "step": 335
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6889228820800781,
+      "eval_runtime": 1.3769,
+      "eval_samples_per_second": 46.483,
+      "eval_steps_per_second": 5.81,
+      "step": 336
+    },
+    {
+      "epoch": 7.08,
+      "grad_norm": 1.24147367477417,
+      "learning_rate": 7.062902532269188e-07,
+      "loss": 0.508,
+      "step": 340
+    },
+    {
+      "epoch": 7.19,
+      "grad_norm": 1.8932181596755981,
+      "learning_rate": 6.810656013259573e-07,
+      "loss": 0.6358,
+      "step": 345
+    },
+    {
+      "epoch": 7.29,
+      "grad_norm": 1.861436128616333,
+      "learning_rate": 6.55840949424996e-07,
+      "loss": 0.5741,
+      "step": 350
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.8429200053215027,
+      "learning_rate": 6.306162975240346e-07,
+      "loss": 0.5717,
+      "step": 355
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 1.8665741682052612,
+      "learning_rate": 6.053916456230732e-07,
+      "loss": 0.6992,
+      "step": 360
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.312748908996582,
+      "learning_rate": 5.801669937221119e-07,
+      "loss": 0.6151,
+      "step": 365
+    },
+    {
+      "epoch": 7.71,
+      "grad_norm": 1.1628329753875732,
+      "learning_rate": 5.549423418211505e-07,
+      "loss": 0.5354,
+      "step": 370
+    },
+    {
+      "epoch": 7.81,
+      "grad_norm": 1.8674992322921753,
+      "learning_rate": 5.297176899201891e-07,
+      "loss": 0.6411,
+      "step": 375
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 0.7112137675285339,
+      "learning_rate": 5.044930380192277e-07,
+      "loss": 0.6063,
+      "step": 380
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6909217834472656,
+      "eval_runtime": 1.3913,
+      "eval_samples_per_second": 45.999,
+      "eval_steps_per_second": 5.75,
+      "step": 384
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5808783041309760.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.1794099242430636e-06,
+    "per_device_train_batch_size": 4
+  }
+}

run-4/checkpoint-384/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eadd8415a707c8e4de7440233358b89448cac114a2ada36aef1d9186553c0c3
+size 4920

run-4/checkpoint-432/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}