tanganke
/

clip-vit-base-patch32_oxford-iiit-pet

Feature Extraction

clip_vision_model

Inference Endpoints

Model card Files Files and versions Community

tanganke commited on Apr 29

Commit

681e51e

•

1 Parent(s): 39f6ee5

Upload folder using huggingface_hub

Files changed (3) hide show

README.md +44 -0
config.json +23 -0
model.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,44 @@

+---
+base_model:
+- openai/clip-vit-base-patch32
+datasets:
+- timm/oxford-iiit-pet
+metrics:
+- accuracy
+---
+# Model Card
+## Model Details
+- Architecture: ViT-Base with patch size 32
+- Training Data: oxford-iiit-pet dataset
+## Training Details
+  Adam Optimizer with a constant learning rate 1e-5 for 4000 steps training (batch_size=32).
+  Only the vision encoder is fine-tuned.
+## Evaluation Results
+- pre-trained: 0.8317149877548218
+- fine-tuned: 0.9084667563438416
+## Usage
+load vision model
+```python
+from transformers import CLIPVisionModel
+vision_model = CLIPVisionModel.from_pretrained('tanganke/clip-vit-base-patch32_oxford-iiit-pet')
+```
+substitute the vision encoder of clip
+```python
+from transformers import CLIPModel
+clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
+clip_model.vision_model.load_state_dict(vision_model.vision_model.state_dict())
+```

config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "_name_or_path": "results/temp/",
+  "architectures": [
+    "CLIPVisionModel"
+  ],
+  "attention_dropout": 0.0,
+  "dropout": 0.0,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 768,
+  "image_size": 224,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "model_type": "clip_vision_model",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 32,
+  "projection_dim": 512,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37119d9b7fe99b0c8c21bd38be893f1a7fae1b35bd696805a80c2fa6c9aee7d0
+size 349847824