v3.5

Browse files

Files changed (9) hide show

README.md +24 -11
all_results.json +10 -10
config.json +31 -12
eval_results.json +6 -6
preprocessor_config.json +10 -10
pytorch_model.bin +2 -2
train_results.json +5 -5
trainer_state.json +512 -11
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -23,47 +23,60 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8571428571428571
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
 # Cowboy Hat emoji 🤠 (Western)
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5372
-- Accuracy: 0.8571
 ## Model description
 When you want to know if an art is 🤠 or not 🤠.
 ## Intended uses & limitations
 filter gelbooru data on 🤠 or not 🤠
 ## Training and evaluation data
-Selected 72 images of 🤠 and not 🤠.
 ## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 3.0
 ### Training results
-Works OK. Needs more finetuning.
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7777777777777778
 ---
 # Cowboy Hat emoji 🤠 (Western)
+This model is a fine-tuned version of [facebook/convnextv2-large-22k-384](https://huggingface.co/facebook/convnextv2-large-22k-384) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4250
+- Accuracy: 0.7778
 ## Model description
 When you want to know if an art is 🤠 or not 🤠.
+- Current iteration: v3.5 (Continuous Image Integration)
+## Wait, why?
+gelbooru contains a lot of images, however not all of them are in the same region as south eas asia. As such, to filter out such images we have created a classifier that in theory learns the differences between western (USA/Europe/etc.) and not western (Japan/China/SEA).
+The definition of "Not Western" is limited to the the asian region (Japan, Korea, China, Taiwan, Thailand and the surroundign region). The author believes that the art is similar enough with the same "style" which he personally prefers over western art.
 ## Intended uses & limitations
 filter gelbooru data on 🤠 or not 🤠
 ## Training and evaluation data
+Selected 358 images of 🤠 and not 🤠.
 ## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 802565
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5.0
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.7384        | 1.0   | 152  | 0.4268          | 0.7963   |
+| 0.2888        | 2.0   | 304  | 0.4250          | 0.7778   |
+| 0.2953        | 3.0   | 456  | 0.4250          | 0.7778   |
+| 0.4914        | 4.0   | 608  | 0.4250          | 0.7778   |
+| 0.4099        | 5.0   | 760  | 0.4250          | 0.7778   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.8571428571428571,
-    "eval_loss": 0.537242591381073,
-    "eval_runtime": 1.4402,
-    "eval_samples_per_second": 14.582,
-    "eval_steps_per_second": 2.083,
-    "train_loss": 0.5724380493164063,
-    "train_runtime": 25.85,
-    "train_samples_per_second": 13.81,
-    "train_steps_per_second": 1.741
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7777777777777778,
+    "eval_loss": 0.4249849319458008,
+    "eval_runtime": 5.6527,
+    "eval_samples_per_second": 9.553,
+    "eval_steps_per_second": 1.238,
+    "train_loss": 0.39741649894337905,
+    "train_runtime": 401.1562,
+    "train_samples_per_second": 3.789,
+    "train_steps_per_second": 1.895
 }

config.json CHANGED Viewed

@@ -1,33 +1,52 @@
 {
-  "_name_or_path": "google/vit-base-patch16-224-in21k",
   "architectures": [
-    "ViTForImageClassification"
   ],
-  "attention_probs_dropout_prob": 0.0,
-  "encoder_stride": 16,
   "finetuning_task": "image-classification",
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.0,
-  "hidden_size": 768,
   "id2label": {
     "0": "not_western",
     "1": "western"
   },
   "image_size": 224,
   "initializer_range": 0.02,
-  "intermediate_size": 3072,
   "label2id": {
     "not_western": "0",
     "western": "1"
   },
   "layer_norm_eps": 1e-12,
-  "model_type": "vit",
-  "num_attention_heads": 12,
   "num_channels": 3,
-  "num_hidden_layers": 12,
-  "patch_size": 16,
   "problem_type": "single_label_classification",
-  "qkv_bias": true,
   "torch_dtype": "float32",
   "transformers_version": "4.30.0.dev0"
 }

 {
+  "_name_or_path": "facebook/convnextv2-large-22k-384",
   "architectures": [
+    "ConvNextV2ForImageClassification"
   ],
+  "depths": [
+    3,
+    3,
+    27,
+    3
+  ],
+  "drop_path_rate": 0.0,
   "finetuning_task": "image-classification",
   "hidden_act": "gelu",
+  "hidden_sizes": [
+    192,
+    384,
+    768,
+    1536
+  ],
   "id2label": {
     "0": "not_western",
     "1": "western"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "label2id": {
     "not_western": "0",
     "western": "1"
   },
   "layer_norm_eps": 1e-12,
+  "model_type": "convnextv2",
   "num_channels": 3,
+  "num_stages": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
   "problem_type": "single_label_classification",
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
   "torch_dtype": "float32",
   "transformers_version": "4.30.0.dev0"
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "eval_accuracy": 0.8571428571428571,
-    "eval_loss": 0.537242591381073,
-    "eval_runtime": 1.4402,
-    "eval_samples_per_second": 14.582,
-    "eval_steps_per_second": 2.083
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7777777777777778,
+    "eval_loss": 0.4249849319458008,
+    "eval_runtime": 5.6527,
+    "eval_samples_per_second": 9.553,
+    "eval_steps_per_second": 1.238
 }

preprocessor_config.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,
   "image_mean": [
-    0.5,
-    0.5,
-    0.5
   ],
-  "image_processor_type": "ViTImageProcessor",
   "image_std": [
-    0.5,
-    0.5,
-    0.5
   ],
-  "resample": 2,
   "rescale_factor": 0.00392156862745098,
   "size": {
-    "height": 224,
-    "width": 224
   }
 }

 {
+  "crop_pct": 0.875,
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,
   "image_mean": [
+    0.485,
+    0.456,
+    0.406
   ],
+  "image_processor_type": "ConvNextImageProcessor",
   "image_std": [
+    0.229,
+    0.224,
+    0.225
   ],
+  "resample": 3,
   "rescale_factor": 0.00392156862745098,
   "size": {
+    "shortest_edge": 384
   }
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f820f1f2576997b6a31a625789757927367756647cb988e7a143be3eb6411c5f
-size 343268717

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba82cf2e625f4ef8e2d6128e772638a78a40848602ee5ed01861967aa0bc0a7
+size 785824061

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 3.0,
-    "train_loss": 0.5724380493164063,
-    "train_runtime": 25.85,
-    "train_samples_per_second": 13.81,
-    "train_steps_per_second": 1.741
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.39741649894337905,
+    "train_runtime": 401.1562,
+    "train_samples_per_second": 3.789,
+    "train_steps_per_second": 1.895
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,526 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "global_step": 45,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.0,
-      "step": 45,
-      "total_flos": 2.7664640292409344e+16,
-      "train_loss": 0.5724380493164063,
-      "train_runtime": 25.85,
-      "train_samples_per_second": 13.81,
-      "train_steps_per_second": 1.741
     }
   ],
-  "max_steps": 45,
-  "num_train_epochs": 3,
-  "total_flos": 2.7664640292409344e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 760,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.8842105263157898e-05,
+      "loss": 0.8301,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.7789473684210527e-05,
+      "loss": 0.7976,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.673684210526316e-05,
+      "loss": 0.5757,
+      "step": 30
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.568421052631579e-05,
+      "loss": 0.4569,
+      "step": 40
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.4631578947368424e-05,
+      "loss": 0.7308,
+      "step": 50
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.3578947368421055e-05,
+      "loss": 0.6149,
+      "step": 60
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.2526315789473684e-05,
+      "loss": 0.666,
+      "step": 70
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.1473684210526317e-05,
+      "loss": 0.6656,
+      "step": 80
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.0421052631578948e-05,
+      "loss": 0.5629,
+      "step": 90
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 9.36842105263158e-06,
+      "loss": 0.8803,
+      "step": 100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.315789473684212e-06,
+      "loss": 0.4404,
+      "step": 110
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.263157894736843e-06,
+      "loss": 0.3989,
+      "step": 120
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.2105263157894745e-06,
+      "loss": 0.5877,
+      "step": 130
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 5.157894736842106e-06,
+      "loss": 0.5024,
+      "step": 140
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.105263157894737e-06,
+      "loss": 0.7384,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7962962962962963,
+      "eval_loss": 0.42684096097946167,
+      "eval_runtime": 5.5879,
+      "eval_samples_per_second": 9.664,
+      "eval_steps_per_second": 1.253,
+      "step": 152
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.052631578947369e-06,
+      "loss": 0.4284,
+      "step": 160
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.1814,
+      "step": 170
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 9.473684210526317e-07,
+      "loss": 0.2693,
+      "step": 180
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0,
+      "loss": 0.3471,
+      "step": 190
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0,
+      "loss": 0.3491,
+      "step": 200
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0,
+      "loss": 0.2447,
+      "step": 210
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0,
+      "loss": 0.4893,
+      "step": 220
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0,
+      "loss": 0.2365,
+      "step": 230
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0,
+      "loss": 0.2919,
+      "step": 240
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0,
+      "loss": 0.4932,
+      "step": 250
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0,
+      "loss": 0.2127,
+      "step": 260
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0,
+      "loss": 0.2355,
+      "step": 270
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0,
+      "loss": 0.4058,
+      "step": 280
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0,
+      "loss": 0.4578,
+      "step": 290
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0,
+      "loss": 0.2888,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.4249849319458008,
+      "eval_runtime": 5.3688,
+      "eval_samples_per_second": 10.058,
+      "eval_steps_per_second": 1.304,
+      "step": 304
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0,
+      "loss": 0.5527,
+      "step": 310
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0,
+      "loss": 0.4907,
+      "step": 320
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0,
+      "loss": 0.6212,
+      "step": 330
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0,
+      "loss": 0.3302,
+      "step": 340
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0,
+      "loss": 0.4032,
+      "step": 350
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0,
+      "loss": 0.2037,
+      "step": 360
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0,
+      "loss": 0.2949,
+      "step": 370
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0,
+      "loss": 0.3068,
+      "step": 380
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0,
+      "loss": 0.2455,
+      "step": 390
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0,
+      "loss": 0.2118,
+      "step": 400
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0,
+      "loss": 0.5577,
+      "step": 410
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0,
+      "loss": 0.3432,
+      "step": 420
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0,
+      "loss": 0.2259,
+      "step": 430
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0,
+      "loss": 0.2736,
+      "step": 440
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0,
+      "loss": 0.2953,
+      "step": 450
+    },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.4249849319458008,
+      "eval_runtime": 5.4342,
+      "eval_samples_per_second": 9.937,
+      "eval_steps_per_second": 1.288,
+      "step": 456
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.0,
+      "loss": 0.2847,
+      "step": 460
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 0.0,
+      "loss": 0.2117,
+      "step": 470
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.0,
+      "loss": 0.2116,
+      "step": 480
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0,
+      "loss": 0.3803,
+      "step": 490
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.0,
+      "loss": 0.3206,
+      "step": 500
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.0,
+      "loss": 0.4362,
+      "step": 510
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 0.0,
+      "loss": 0.4031,
+      "step": 520
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.0,
+      "loss": 0.2682,
+      "step": 530
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 0.0,
+      "loss": 0.292,
+      "step": 540
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.0,
+      "loss": 0.3007,
+      "step": 550
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 0.0,
+      "loss": 0.5192,
+      "step": 560
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0,
+      "loss": 0.3809,
+      "step": 570
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 0.0,
+      "loss": 0.3756,
+      "step": 580
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.0,
+      "loss": 0.3174,
+      "step": 590
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.0,
+      "loss": 0.4914,
+      "step": 600
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.4249849319458008,
+      "eval_runtime": 5.3734,
+      "eval_samples_per_second": 10.05,
+      "eval_steps_per_second": 1.303,
+      "step": 608
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.0,
+      "loss": 0.2904,
+      "step": 610
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.0,
+      "loss": 0.433,
+      "step": 620
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.0,
+      "loss": 0.1684,
+      "step": 630
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 0.0,
+      "loss": 0.2903,
+      "step": 640
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 0.0,
+      "loss": 0.3659,
+      "step": 650
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 0.0,
+      "loss": 0.2125,
+      "step": 660
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 0.0,
+      "loss": 0.3639,
+      "step": 670
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 0.0,
+      "loss": 0.4092,
+      "step": 680
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 0.0,
+      "loss": 0.3467,
+      "step": 690
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 0.0,
+      "loss": 0.3013,
+      "step": 700
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 0.0,
+      "loss": 0.2546,
+      "step": 710
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 0.0,
+      "loss": 0.3741,
+      "step": 720
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.0,
+      "loss": 0.394,
+      "step": 730
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 0.0,
+      "loss": 0.2283,
+      "step": 740
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 0.0,
+      "loss": 0.4307,
+      "step": 750
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 0.4099,
+      "step": 760
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.4249849319458008,
+      "eval_runtime": 5.8483,
+      "eval_samples_per_second": 9.233,
+      "eval_steps_per_second": 1.197,
+      "step": 760
+    },
+    {
+      "epoch": 5.0,
+      "step": 760,
+      "total_flos": 7.945332390564987e+17,
+      "train_loss": 0.39741649894337905,
+      "train_runtime": 401.1562,
+      "train_samples_per_second": 3.789,
+      "train_steps_per_second": 1.895
     }
   ],
+  "max_steps": 760,
+  "num_train_epochs": 5,
+  "total_flos": 7.945332390564987e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17eb5b0411fa90a36e2a5ef3742fb9c9089bfe617f2b308d17876d66bfad9ba6
-size 3899

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd3da6756d0e2aff4054a6a80b1de56d02c3602827fa3ba6063bd32a09111ae0
+size 3835