colerobertson commited on Mar 3

Commit

4dc7c40

•

1 Parent(s): 7430914

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-10/checkpoint-16/config.json +80 -0
run-10/checkpoint-16/model.safetensors +3 -0
run-10/checkpoint-16/optimizer.pt +3 -0
run-10/checkpoint-16/preprocessor_config.json +9 -0
run-10/checkpoint-16/rng_state.pth +3 -0
run-10/checkpoint-16/scheduler.pt +3 -0
run-10/checkpoint-16/trainer_state.json +54 -0
run-10/checkpoint-16/training_args.bin +3 -0
run-10/checkpoint-32/config.json +80 -0
run-10/checkpoint-32/model.safetensors +3 -0
run-10/checkpoint-32/optimizer.pt +3 -0
run-10/checkpoint-32/preprocessor_config.json +9 -0
run-10/checkpoint-32/rng_state.pth +3 -0
run-10/checkpoint-32/scheduler.pt +3 -0
run-10/checkpoint-32/trainer_state.json +84 -0
run-10/checkpoint-32/training_args.bin +3 -0
run-10/checkpoint-48/config.json +80 -0
run-10/checkpoint-48/model.safetensors +3 -0
run-10/checkpoint-48/optimizer.pt +3 -0
run-10/checkpoint-48/preprocessor_config.json +9 -0
run-10/checkpoint-48/rng_state.pth +3 -0
run-10/checkpoint-48/scheduler.pt +3 -0
run-10/checkpoint-48/trainer_state.json +114 -0
run-10/checkpoint-48/training_args.bin +3 -0
run-10/checkpoint-64/config.json +80 -0
run-10/checkpoint-64/model.safetensors +3 -0
run-10/checkpoint-64/optimizer.pt +3 -0
run-10/checkpoint-64/preprocessor_config.json +9 -0
run-10/checkpoint-64/rng_state.pth +3 -0
run-10/checkpoint-64/scheduler.pt +3 -0
run-10/checkpoint-64/trainer_state.json +144 -0
run-10/checkpoint-64/training_args.bin +3 -0
run-10/checkpoint-80/config.json +80 -0
run-10/checkpoint-80/model.safetensors +3 -0
run-10/checkpoint-80/optimizer.pt +3 -0
run-10/checkpoint-80/preprocessor_config.json +9 -0
run-10/checkpoint-80/rng_state.pth +3 -0
run-10/checkpoint-80/scheduler.pt +3 -0
run-10/checkpoint-80/trainer_state.json +181 -0
run-10/checkpoint-80/training_args.bin +3 -0
run-10/checkpoint-96/config.json +80 -0
run-10/checkpoint-96/model.safetensors +3 -0
run-10/checkpoint-96/optimizer.pt +3 -0
run-10/checkpoint-96/preprocessor_config.json +9 -0
run-10/checkpoint-96/rng_state.pth +3 -0
run-10/checkpoint-96/scheduler.pt +3 -0
run-10/checkpoint-96/trainer_state.json +211 -0
run-10/checkpoint-96/training_args.bin +3 -0
run-11/checkpoint-144/config.json +80 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd38943271d452fb41e0cc1c9ac715cd036eaf1fd6859055f6d2b6c6d5d0ccb
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0ba6fbcbb9cb83150dc1524c9934db5438ee17d96fb72054875ac1e12dab680
 size 94763496

run-10/checkpoint-16/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-16/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09e0e1ed09ab4236c54bad86ac83bba0721a3c45be23d5ad5a4636f2cf20fd03
+size 94763496

run-10/checkpoint-16/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c18bc5bb40fa3da2d7b3c237eeba0c375395a207aa64bc8f2838dea14110129
+size 189552570

run-10/checkpoint-16/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-16/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10f9b0d9dbbdb79c182bae9eaf551291f2d8c3d49777e82f95f3cb8e351f2f17
+size 14244

run-10/checkpoint-16/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e9b6b2b845d24d24d86b7c13870d7343a78a4085a1b0978b583b73d3fe1ca4f
+size 1064

run-10/checkpoint-16/trainer_state.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-16",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 16,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 1203912462770640.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-16/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-10/checkpoint-32/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-32/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12376f39eb35250b59bb0f0376276c24b351b2a610bcf9fb5950ff754c74bc34
+size 94763496

run-10/checkpoint-32/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11f9e27ee8577972086ddbeafb6521ca90aa22213daaff0734c4a8bc5632d7b3
+size 189552570

run-10/checkpoint-32/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-32/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:754d53121980eacb00801af5e57714a1cb2c0271b33c592667ed8ec1e79458ee
+size 14244

run-10/checkpoint-32/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:baedbef244c8d55355c67e7327e12990762aab1a7f2992d792fbb61c790562df
+size 1064

run-10/checkpoint-32/trainer_state.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-16",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 32,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2026809453964233,
+      "learning_rate": 6.8698396906689e-05,
+      "loss": 0.6035,
+      "step": 20
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.6029912233352661,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.5965,
+      "step": 25
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5203647613525391,
+      "learning_rate": 6.379136855621121e-05,
+      "loss": 0.6076,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6890983581542969,
+      "eval_runtime": 1.371,
+      "eval_samples_per_second": 46.68,
+      "eval_steps_per_second": 5.835,
+      "step": 32
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2082692062957104.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-32/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-10/checkpoint-48/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-48/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d8c951518fa6a0dfac25d6764e32df79ec5ab273a64772d0e6cd71f13f588f
+size 94763496

run-10/checkpoint-48/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4932c57b40291139f6e5dfb1b0904bac1231c4a1d478e31c8d8f2fdce122142d
+size 189552570

run-10/checkpoint-48/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-48/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6057f3e71568989f3d2442d841f7f161902200ee453a6d60795ac4142ad66214
+size 14244

run-10/checkpoint-48/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b868aa2a261996895bb2841a3902ab7ce1afc8713bba40c7d045d170c940efbe
+size 1064

run-10/checkpoint-48/trainer_state.json ADDED Viewed

	@@ -0,0 +1,114 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-16",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 48,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2026809453964233,
+      "learning_rate": 6.8698396906689e-05,
+      "loss": 0.6035,
+      "step": 20
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.6029912233352661,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.5965,
+      "step": 25
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5203647613525391,
+      "learning_rate": 6.379136855621121e-05,
+      "loss": 0.6076,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6890983581542969,
+      "eval_runtime": 1.371,
+      "eval_samples_per_second": 46.68,
+      "eval_steps_per_second": 5.835,
+      "step": 32
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.1778842210769653,
+      "learning_rate": 6.133785438097233e-05,
+      "loss": 0.5949,
+      "step": 35
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.1317474842071533,
+      "learning_rate": 5.888434020573343e-05,
+      "loss": 0.6002,
+      "step": 40
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 1.060381293296814,
+      "learning_rate": 5.643082603049454e-05,
+      "loss": 0.5339,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7039279937744141,
+      "eval_runtime": 1.3552,
+      "eval_samples_per_second": 47.224,
+      "eval_steps_per_second": 5.903,
+      "step": 48
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2941889291680896.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-48/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-10/checkpoint-64/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-64/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1581f951841b6771954fb4086e2134ba1e1b915ae9fe4ee6203cd39ff01c7df3
+size 94763496

run-10/checkpoint-64/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c91c98f0a35df12aa517f1166c8b7d9fd35d18a9e7d9a39b81487e4c6827fcf3
+size 189552570

run-10/checkpoint-64/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-64/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f99cb24be430ce14b1c70379f28ee448a7f503908f1c4823ffcd9cfae3f7f0aa
+size 14244

run-10/checkpoint-64/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f229c4468d27be61716660c3591bfe04cdd650b021c9cad1f8fda6801caf8435
+size 1064

run-10/checkpoint-64/trainer_state.json ADDED Viewed

	@@ -0,0 +1,144 @@

+{
+  "best_metric": 0.7474747474747475,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-64",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 64,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2026809453964233,
+      "learning_rate": 6.8698396906689e-05,
+      "loss": 0.6035,
+      "step": 20
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.6029912233352661,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.5965,
+      "step": 25
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5203647613525391,
+      "learning_rate": 6.379136855621121e-05,
+      "loss": 0.6076,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6890983581542969,
+      "eval_runtime": 1.371,
+      "eval_samples_per_second": 46.68,
+      "eval_steps_per_second": 5.835,
+      "step": 32
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.1778842210769653,
+      "learning_rate": 6.133785438097233e-05,
+      "loss": 0.5949,
+      "step": 35
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.1317474842071533,
+      "learning_rate": 5.888434020573343e-05,
+      "loss": 0.6002,
+      "step": 40
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 1.060381293296814,
+      "learning_rate": 5.643082603049454e-05,
+      "loss": 0.5339,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7039279937744141,
+      "eval_runtime": 1.3552,
+      "eval_samples_per_second": 47.224,
+      "eval_steps_per_second": 5.903,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 1.5415284633636475,
+      "learning_rate": 5.397731185525564e-05,
+      "loss": 0.4807,
+      "step": 50
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 5.591915607452393,
+      "learning_rate": 5.2014500515064535e-05,
+      "loss": 0.4641,
+      "step": 55
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 7.002699375152588,
+      "learning_rate": 5.005168917487342e-05,
+      "loss": 0.4142,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7474747474747475,
+      "eval_loss": 0.8193864822387695,
+      "eval_runtime": 1.3515,
+      "eval_samples_per_second": 47.355,
+      "eval_steps_per_second": 5.919,
+      "step": 64
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3761891076086928.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-64/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-10/checkpoint-80/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-80/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec5ee3bf50cedb48f0dee3150eaf553deda3fdad31b0d813045a6edc378914d
+size 94763496

run-10/checkpoint-80/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f55d5bf90826e6d69aad5c9424f0408a84e3ef1d758da633844a2ff47ef9554d
+size 189552570

run-10/checkpoint-80/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-80/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c493c99bdb0fe1a782ab86260b28274c099aa481353b3ca24854228ef501405
+size 14244

run-10/checkpoint-80/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d785017e8466f929d98f2cf97bb63497f2ba34fd42559c091da6e149a7393901
+size 1064

run-10/checkpoint-80/trainer_state.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.7474747474747475,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-64",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 80,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2026809453964233,
+      "learning_rate": 6.8698396906689e-05,
+      "loss": 0.6035,
+      "step": 20
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.6029912233352661,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.5965,
+      "step": 25
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5203647613525391,
+      "learning_rate": 6.379136855621121e-05,
+      "loss": 0.6076,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6890983581542969,
+      "eval_runtime": 1.371,
+      "eval_samples_per_second": 46.68,
+      "eval_steps_per_second": 5.835,
+      "step": 32
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.1778842210769653,
+      "learning_rate": 6.133785438097233e-05,
+      "loss": 0.5949,
+      "step": 35
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.1317474842071533,
+      "learning_rate": 5.888434020573343e-05,
+      "loss": 0.6002,
+      "step": 40
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 1.060381293296814,
+      "learning_rate": 5.643082603049454e-05,
+      "loss": 0.5339,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7039279937744141,
+      "eval_runtime": 1.3552,
+      "eval_samples_per_second": 47.224,
+      "eval_steps_per_second": 5.903,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 1.5415284633636475,
+      "learning_rate": 5.397731185525564e-05,
+      "loss": 0.4807,
+      "step": 50
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 5.591915607452393,
+      "learning_rate": 5.2014500515064535e-05,
+      "loss": 0.4641,
+      "step": 55
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 7.002699375152588,
+      "learning_rate": 5.005168917487342e-05,
+      "loss": 0.4142,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7474747474747475,
+      "eval_loss": 0.8193864822387695,
+      "eval_runtime": 1.3515,
+      "eval_samples_per_second": 47.355,
+      "eval_steps_per_second": 5.919,
+      "step": 64
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 5.908353328704834,
+      "learning_rate": 4.759817499963453e-05,
+      "loss": 0.4754,
+      "step": 65
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 6.322163105010986,
+      "learning_rate": 4.5144660824395625e-05,
+      "loss": 0.316,
+      "step": 70
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 8.423164367675781,
+      "learning_rate": 4.2691146649156735e-05,
+      "loss": 0.3177,
+      "step": 75
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 18.0563907623291,
+      "learning_rate": 4.0237632473917844e-05,
+      "loss": 0.2076,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7142857142857143,
+      "eval_loss": 0.738029956817627,
+      "eval_runtime": 1.3684,
+      "eval_samples_per_second": 46.769,
+      "eval_steps_per_second": 5.846,
+      "step": 80
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 4921636174601328.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-80/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-10/checkpoint-96/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-10/checkpoint-96/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6074092ec3e0c3719e90aca48cee3ebf8dfbfd42c3148a6817615f32433dd788
+size 94763496

run-10/checkpoint-96/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:997aff2af133caa28979c3ace21fe9c1ea09a8d793ba895997264c93050ca7ea
+size 189552570

run-10/checkpoint-96/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-10/checkpoint-96/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53f396ce65ed9535364efa4f874662b8f07e93a8b1799db89be140bf009657c2
+size 14244

run-10/checkpoint-96/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1abc4621edce8d381e622ce3c0621a0d70c692d20523191a971e408b800ebad
+size 1064

run-10/checkpoint-96/trainer_state.json ADDED Viewed

	@@ -0,0 +1,211 @@

+{
+  "best_metric": 0.7474747474747475,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-10/checkpoint-64",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 96,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.7738416194915771,
+      "learning_rate": 2.2081627577150035e-05,
+      "loss": 0.6945,
+      "step": 5
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.5010543465614319,
+      "learning_rate": 4.416325515430007e-05,
+      "loss": 0.659,
+      "step": 10
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.2033077478408813,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.615,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7318763732910156,
+      "eval_runtime": 1.3731,
+      "eval_samples_per_second": 46.611,
+      "eval_steps_per_second": 5.826,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2026809453964233,
+      "learning_rate": 6.8698396906689e-05,
+      "loss": 0.6035,
+      "step": 20
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.6029912233352661,
+      "learning_rate": 6.624488273145011e-05,
+      "loss": 0.5965,
+      "step": 25
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5203647613525391,
+      "learning_rate": 6.379136855621121e-05,
+      "loss": 0.6076,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6890983581542969,
+      "eval_runtime": 1.371,
+      "eval_samples_per_second": 46.68,
+      "eval_steps_per_second": 5.835,
+      "step": 32
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 1.1778842210769653,
+      "learning_rate": 6.133785438097233e-05,
+      "loss": 0.5949,
+      "step": 35
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.1317474842071533,
+      "learning_rate": 5.888434020573343e-05,
+      "loss": 0.6002,
+      "step": 40
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 1.060381293296814,
+      "learning_rate": 5.643082603049454e-05,
+      "loss": 0.5339,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7039279937744141,
+      "eval_runtime": 1.3552,
+      "eval_samples_per_second": 47.224,
+      "eval_steps_per_second": 5.903,
+      "step": 48
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 1.5415284633636475,
+      "learning_rate": 5.397731185525564e-05,
+      "loss": 0.4807,
+      "step": 50
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 5.591915607452393,
+      "learning_rate": 5.2014500515064535e-05,
+      "loss": 0.4641,
+      "step": 55
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 7.002699375152588,
+      "learning_rate": 5.005168917487342e-05,
+      "loss": 0.4142,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7474747474747475,
+      "eval_loss": 0.8193864822387695,
+      "eval_runtime": 1.3515,
+      "eval_samples_per_second": 47.355,
+      "eval_steps_per_second": 5.919,
+      "step": 64
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 5.908353328704834,
+      "learning_rate": 4.759817499963453e-05,
+      "loss": 0.4754,
+      "step": 65
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 6.322163105010986,
+      "learning_rate": 4.5144660824395625e-05,
+      "loss": 0.316,
+      "step": 70
+    },
+    {
+      "epoch": 4.69,
+      "grad_norm": 8.423164367675781,
+      "learning_rate": 4.2691146649156735e-05,
+      "loss": 0.3177,
+      "step": 75
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 18.0563907623291,
+      "learning_rate": 4.0237632473917844e-05,
+      "loss": 0.2076,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7142857142857143,
+      "eval_loss": 0.738029956817627,
+      "eval_runtime": 1.3684,
+      "eval_samples_per_second": 46.769,
+      "eval_steps_per_second": 5.846,
+      "step": 80
+    },
+    {
+      "epoch": 5.31,
+      "grad_norm": 18.247249603271484,
+      "learning_rate": 3.778411829867895e-05,
+      "loss": 0.2001,
+      "step": 85
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 8.62263298034668,
+      "learning_rate": 3.582130695848783e-05,
+      "loss": 0.236,
+      "step": 90
+    },
+    {
+      "epoch": 5.94,
+      "grad_norm": 31.015357971191406,
+      "learning_rate": 3.336779278324894e-05,
+      "loss": 0.2392,
+      "step": 95
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.6857142857142857,
+      "eval_loss": 0.8250775337219238,
+      "eval_runtime": 1.351,
+      "eval_samples_per_second": 47.372,
+      "eval_steps_per_second": 5.922,
+      "step": 96
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5757413357810448.0,
+  "train_batch_size": 12,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.066120824688011e-05,
+    "per_device_train_batch_size": 12
+  }
+}

run-10/checkpoint-96/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb898505a247b10cd68e31d96a6b50b269be05c44e3b90be28396b49a7bcd1a
+size 4920

run-11/checkpoint-144/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}