colerobertson commited on Mar 3

Commit

02160f9

•

1 Parent(s): a7fc36e

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-3/checkpoint-16/config.json +80 -0
run-3/checkpoint-16/model.safetensors +3 -0
run-3/checkpoint-16/optimizer.pt +3 -0
run-3/checkpoint-16/preprocessor_config.json +9 -0
run-3/checkpoint-16/rng_state.pth +3 -0
run-3/checkpoint-16/scheduler.pt +3 -0
run-3/checkpoint-16/trainer_state.json +63 -0
run-3/checkpoint-16/training_args.bin +3 -0
run-3/checkpoint-24/config.json +80 -0
run-3/checkpoint-24/model.safetensors +3 -0
run-3/checkpoint-24/optimizer.pt +3 -0
run-3/checkpoint-24/preprocessor_config.json +9 -0
run-3/checkpoint-24/rng_state.pth +3 -0
run-3/checkpoint-24/scheduler.pt +3 -0
run-3/checkpoint-24/trainer_state.json +79 -0
run-3/checkpoint-24/training_args.bin +3 -0
run-3/checkpoint-32/config.json +80 -0
run-3/checkpoint-32/model.safetensors +3 -0
run-3/checkpoint-32/optimizer.pt +3 -0
run-3/checkpoint-32/preprocessor_config.json +9 -0
run-3/checkpoint-32/rng_state.pth +3 -0
run-3/checkpoint-32/scheduler.pt +3 -0
run-3/checkpoint-32/trainer_state.json +102 -0
run-3/checkpoint-32/training_args.bin +3 -0
run-3/checkpoint-40/config.json +80 -0
run-3/checkpoint-40/model.safetensors +3 -0
run-3/checkpoint-40/optimizer.pt +3 -0
run-3/checkpoint-40/preprocessor_config.json +9 -0
run-3/checkpoint-40/rng_state.pth +3 -0
run-3/checkpoint-40/scheduler.pt +3 -0
run-3/checkpoint-40/trainer_state.json +125 -0
run-3/checkpoint-40/training_args.bin +3 -0
run-3/checkpoint-48/config.json +80 -0
run-3/checkpoint-48/model.safetensors +3 -0
run-3/checkpoint-48/optimizer.pt +3 -0
run-3/checkpoint-48/preprocessor_config.json +9 -0
run-3/checkpoint-48/rng_state.pth +3 -0
run-3/checkpoint-48/scheduler.pt +3 -0
run-3/checkpoint-48/trainer_state.json +141 -0
run-3/checkpoint-48/training_args.bin +3 -0
run-3/checkpoint-56/config.json +80 -0
run-3/checkpoint-56/model.safetensors +3 -0
run-3/checkpoint-56/optimizer.pt +3 -0
run-3/checkpoint-56/preprocessor_config.json +9 -0
run-3/checkpoint-56/rng_state.pth +3 -0
run-3/checkpoint-56/scheduler.pt +3 -0
run-3/checkpoint-56/trainer_state.json +164 -0
run-3/checkpoint-56/training_args.bin +3 -0
run-3/checkpoint-64/config.json +80 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:149f6b51cfaa089494700030336b7742cbe5c97fa8c55460d1626a4326b4e9e1
 size 94763496

 version https://git-lfs.github.com/spec/v1
+oid sha256:018f138040ad7aa88bf94f4b8deb9d4f75616181b7d07008cdde50dd03503a11
 size 94763496

run-3/checkpoint-16/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-16/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a760d27f41290ed80c1206e2480b47d92c8ce2c6ee1f3cd329e186b834a2b29
+size 94763496

run-3/checkpoint-16/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04b4c7382179a64f9ac6f6bc7805a19064505d76480c4aa8b8391170753af6e7
+size 189552570

run-3/checkpoint-16/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-16/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0b4c067c009eda80e8baa1203d26c442448a0cbb4afc20c352a7b4f4c31ecfc
+size 14244

run-3/checkpoint-16/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:829126bb0c61bd2bc81a49adbe8fe99f684971512e37328fc21f35f04bc8cdd9
+size 1064

run-3/checkpoint-16/trainer_state.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 16,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 1863816719524704.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-16/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-24/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-24/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3f932857479e62a819449b36f4c42e6e648d1fd17c406c7ee35d9c0b7ea261e
+size 94763496

run-3/checkpoint-24/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:461c0fa31756b908c1ff77514b04efa451eae1a56488331e4a4c40726af10ca0
+size 189552570

run-3/checkpoint-24/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-24/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24d6a900c72e3e0f300fb2a89dab7159acab172bc37646dd605cc8c78374f6f9
+size 14244

run-3/checkpoint-24/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ccd2ea597a4bea6c5e4d0cece4bbe69ed79e233292bc9053077d461aeb0ba5f
+size 1064

run-3/checkpoint-24/trainer_state.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 24,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5775301456451416,
+      "learning_rate": 9.517484815207495e-06,
+      "loss": 0.6436,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6852684020996094,
+      "eval_runtime": 1.3445,
+      "eval_samples_per_second": 47.601,
+      "eval_steps_per_second": 5.95,
+      "step": 24
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2484680744556000.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-24/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-32/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-32/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1454cf89a31d874feb53d9bb87ed0b567c597730d05be3faabbbb19277c03e8
+size 94763496

run-3/checkpoint-32/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e61a24407aa0c80c01a56c0188477f4d5473511e288cab61dfd72dd7238455c9
+size 189552570

run-3/checkpoint-32/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-32/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:556c72cd347c734d7fdec24637de2c2dcd065c09bcdd940199a24e0091d021c0
+size 14244

run-3/checkpoint-32/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45ca9d40a3c2366bc01ceed0fa797d480ee4f2519ead3847177cdf537dc0ac31
+size 1064

run-3/checkpoint-32/trainer_state.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 32,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5775301456451416,
+      "learning_rate": 9.517484815207495e-06,
+      "loss": 0.6436,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6852684020996094,
+      "eval_runtime": 1.3445,
+      "eval_samples_per_second": 47.601,
+      "eval_steps_per_second": 5.95,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.4549338221549988,
+      "learning_rate": 8.72436108060687e-06,
+      "loss": 0.6098,
+      "step": 25
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.3741567134857178,
+      "learning_rate": 7.931237346006246e-06,
+      "loss": 0.609,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6952018737792969,
+      "eval_runtime": 1.3401,
+      "eval_samples_per_second": 47.757,
+      "eval_steps_per_second": 5.97,
+      "step": 32
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3687742096503552.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-32/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-40/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-40/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb44356d7dd99d76e08bc8fec067d778a70ce340e950085f1f0d5532bcf71429
+size 94763496

run-3/checkpoint-40/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64d97fad5e3a7a342896071e42b90538b01c4168983183ecb488766c8d1179a3
+size 189552570

run-3/checkpoint-40/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-40/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f04394838d097ad37a86e783ddc6557596b7da068eb72e2798acacf43f38924
+size 14244

run-3/checkpoint-40/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:857294f0798588b687c4fd66b6e7d0f73c0b0a67baea1b5225ec246eeb80a3ae
+size 1064

run-3/checkpoint-40/trainer_state.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 40,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5775301456451416,
+      "learning_rate": 9.517484815207495e-06,
+      "loss": 0.6436,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6852684020996094,
+      "eval_runtime": 1.3445,
+      "eval_samples_per_second": 47.601,
+      "eval_steps_per_second": 5.95,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.4549338221549988,
+      "learning_rate": 8.72436108060687e-06,
+      "loss": 0.6098,
+      "step": 25
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.3741567134857178,
+      "learning_rate": 7.931237346006246e-06,
+      "loss": 0.609,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6952018737792969,
+      "eval_runtime": 1.3401,
+      "eval_samples_per_second": 47.757,
+      "eval_steps_per_second": 5.97,
+      "step": 32
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 0.38969138264656067,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6091,
+      "step": 35
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.2588692009449005,
+      "learning_rate": 6.344989876804997e-06,
+      "loss": 0.6043,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7042198181152344,
+      "eval_runtime": 1.3815,
+      "eval_samples_per_second": 46.326,
+      "eval_steps_per_second": 5.791,
+      "step": 40
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5002699790009952.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-40/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-48/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-48/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3046efc5b477cb286b3e11b8ed1a45a21f1c828411af810695ffc44c6f2d00d9
+size 94763496

run-3/checkpoint-48/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4a85c054ab80630a8ef4559aef6814034b41e2b2616bd905706d9550320a94d
+size 189552570

run-3/checkpoint-48/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-48/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8eb236be6c806fe9309f674bf7e81272faf7f91242ad8752235487116506f5f
+size 14244

run-3/checkpoint-48/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a43d0fcfc93299b44b2601f4ab406c95df97c50f9a36eb16ee234f5d3816f4a
+size 1064

run-3/checkpoint-48/trainer_state.json ADDED Viewed

	@@ -0,0 +1,141 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 48,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5775301456451416,
+      "learning_rate": 9.517484815207495e-06,
+      "loss": 0.6436,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6852684020996094,
+      "eval_runtime": 1.3445,
+      "eval_samples_per_second": 47.601,
+      "eval_steps_per_second": 5.95,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.4549338221549988,
+      "learning_rate": 8.72436108060687e-06,
+      "loss": 0.6098,
+      "step": 25
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.3741567134857178,
+      "learning_rate": 7.931237346006246e-06,
+      "loss": 0.609,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6952018737792969,
+      "eval_runtime": 1.3401,
+      "eval_samples_per_second": 47.757,
+      "eval_steps_per_second": 5.97,
+      "step": 32
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 0.38969138264656067,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6091,
+      "step": 35
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.2588692009449005,
+      "learning_rate": 6.344989876804997e-06,
+      "loss": 0.6043,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7042198181152344,
+      "eval_runtime": 1.3815,
+      "eval_samples_per_second": 46.326,
+      "eval_steps_per_second": 5.791,
+      "step": 40
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 0.6705239415168762,
+      "learning_rate": 5.551866142204372e-06,
+      "loss": 0.6093,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7079658508300781,
+      "eval_runtime": 1.3745,
+      "eval_samples_per_second": 46.561,
+      "eval_steps_per_second": 5.82,
+      "step": 48
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5627200224409632.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-48/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-56/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

run-3/checkpoint-56/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d657c8a9a8d89910fa51b01473cddb30252c72c09d1387d54314134d8223e50e
+size 94763496

run-3/checkpoint-56/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59bed33f570bc4270a85ddd2ac7b86c353888ada5b8f8b946fb1763cc460d2e2
+size 189552570

run-3/checkpoint-56/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

run-3/checkpoint-56/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30f64c34451dd549a3dd22bd33aa2eb5ae76a449e28e339f69de985a5a36616a
+size 14244

run-3/checkpoint-56/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02589177af8711d6e7d186b2047b3051489461944bff68810fb8fe0a88b20fcc
+size 1064

run-3/checkpoint-56/trainer_state.json ADDED Viewed

	@@ -0,0 +1,164 @@

+{
+  "best_metric": 0.7326732673267327,
+  "best_model_checkpoint": "distilhubert-finetuned-not-a-word2/run-3/checkpoint-8",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 56,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.94398033618927,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6981,
+      "step": 5
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6864166259765625,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 48.305,
+      "eval_steps_per_second": 6.038,
+      "step": 8
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.5316386222839355,
+      "learning_rate": 1.1103732284408743e-05,
+      "loss": 0.683,
+      "step": 10
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.5028849840164185,
+      "learning_rate": 1.031060854980812e-05,
+      "loss": 0.6564,
+      "step": 15
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.680694580078125,
+      "eval_runtime": 1.3565,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.897,
+      "step": 16
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5775301456451416,
+      "learning_rate": 9.517484815207495e-06,
+      "loss": 0.6436,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6852684020996094,
+      "eval_runtime": 1.3445,
+      "eval_samples_per_second": 47.601,
+      "eval_steps_per_second": 5.95,
+      "step": 24
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.4549338221549988,
+      "learning_rate": 8.72436108060687e-06,
+      "loss": 0.6098,
+      "step": 25
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.3741567134857178,
+      "learning_rate": 7.931237346006246e-06,
+      "loss": 0.609,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.6952018737792969,
+      "eval_runtime": 1.3401,
+      "eval_samples_per_second": 47.757,
+      "eval_steps_per_second": 5.97,
+      "step": 32
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 0.38969138264656067,
+      "learning_rate": 7.138113611405621e-06,
+      "loss": 0.6091,
+      "step": 35
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.2588692009449005,
+      "learning_rate": 6.344989876804997e-06,
+      "loss": 0.6043,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7042198181152344,
+      "eval_runtime": 1.3815,
+      "eval_samples_per_second": 46.326,
+      "eval_steps_per_second": 5.791,
+      "step": 40
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 0.6705239415168762,
+      "learning_rate": 5.551866142204372e-06,
+      "loss": 0.6093,
+      "step": 45
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7079658508300781,
+      "eval_runtime": 1.3745,
+      "eval_samples_per_second": 46.561,
+      "eval_steps_per_second": 5.82,
+      "step": 48
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.4161934554576874,
+      "learning_rate": 4.758742407603747e-06,
+      "loss": 0.5737,
+      "step": 50
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 0.3530200719833374,
+      "learning_rate": 3.965618673003123e-06,
+      "loss": 0.6355,
+      "step": 55
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.7326732673267327,
+      "eval_loss": 0.7088470458984375,
+      "eval_runtime": 1.3736,
+      "eval_samples_per_second": 46.592,
+      "eval_steps_per_second": 5.824,
+      "step": 56
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 80,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 6905111571067392.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.1420981778248994e-05,
+    "per_device_train_batch_size": 24
+  }
+}

run-3/checkpoint-56/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7020efd76104988408508d9c7e8a6e74af8904f5fd05940d43639ce4c80cf2
+size 4920

run-3/checkpoint-64/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NOT_WORD",
+    "1": "WORD"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "NOT_WORD": "0",
+    "WORD": "1"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}