upload v1-3-0 diffusers weights (#1)

Files changed (10) hide show

model_index.json CHANGED Viewed

@@ -2,17 +2,17 @@
   "_class_name": "StableDiffusionPipeline",
   "_diffusers_version": "0.10.2",
   "feature_extractor": [
-    "transformers",
-    "CLIPImageProcessor"
   ],
-  "requires_safety_checker": true,
   "safety_checker": [
-    "stable_diffusion",
-    "StableDiffusionSafetyChecker"
   ],
   "scheduler": [
     "diffusers",
-    "PNDMScheduler"
   ],
   "text_encoder": [
     "transformers",

   "_class_name": "StableDiffusionPipeline",
   "_diffusers_version": "0.10.2",
   "feature_extractor": [
+    null,
+    null
   ],
+  "requires_safety_checker": null,
   "safety_checker": [
+    null,
+    null
   ],
   "scheduler": [
     "diffusers",
+    "DDIMScheduler"
   ],
   "text_encoder": [
     "transformers",

scheduler/scheduler_config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_class_name": "PNDMScheduler",
   "_diffusers_version": "0.10.2",
   "beta_end": 0.012,
   "beta_schedule": "scaled_linear",

 {
+  "_class_name": "DDIMScheduler",
   "_diffusers_version": "0.10.2",
   "beta_end": 0.012,
   "beta_schedule": "scaled_linear",

text_encoder/config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "openai/clip-vit-large-patch14",
   "architectures": [
     "CLIPTextModel"
   ],
@@ -7,18 +6,18 @@
   "bos_token_id": 0,
   "dropout": 0.0,
   "eos_token_id": 2,
-  "hidden_act": "quick_gelu",
-  "hidden_size": 768,
   "initializer_factor": 1.0,
   "initializer_range": 0.02,
-  "intermediate_size": 3072,
   "layer_norm_eps": 1e-05,
   "max_position_embeddings": 77,
   "model_type": "clip_text_model",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
   "pad_token_id": 1,
-  "projection_dim": 768,
   "torch_dtype": "float32",
   "transformers_version": "4.25.1",
   "vocab_size": 49408

 {
   "architectures": [
     "CLIPTextModel"
   ],
   "bos_token_id": 0,
   "dropout": 0.0,
   "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_size": 1024,
   "initializer_factor": 1.0,
   "initializer_range": 0.02,
+  "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
   "max_position_embeddings": 77,
   "model_type": "clip_text_model",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 23,
   "pad_token_id": 1,
+  "projection_dim": 512,
   "torch_dtype": "float32",
   "transformers_version": "4.25.1",
   "vocab_size": 49408

text_encoder/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aad0e7cec126b7ee2a36e52fef25ffc4a8c41ff0b2c7a1cd07f5e693680edab5
-size 492307041

 version https://git-lfs.github.com/spec/v1
+oid sha256:e150a734015803fc60b495d0657b89c17e1d9fb193236d2db476556097b89139
+size 1361671895

tokenizer/special_tokens_map.json CHANGED Viewed

@@ -13,7 +13,7 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "!",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

tokenizer/tokenizer_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   },
   "errors": "replace",
   "model_max_length": 77,
-  "name_or_path": "openai/clip-vit-large-patch14",
   "pad_token": "<|endoftext|>",
   "special_tokens_map_file": "./special_tokens_map.json",
   "tokenizer_class": "CLIPTokenizer",

   },
   "errors": "replace",
   "model_max_length": 77,
+  "name_or_path": "D:\\Documents\\Python\\diffusers\\waifu-diffusion",
   "pad_token": "<|endoftext|>",
   "special_tokens_map_file": "./special_tokens_map.json",
   "tokenizer_class": "CLIPTokenizer",

unet/config.json CHANGED Viewed

@@ -2,7 +2,12 @@
   "_class_name": "UNet2DConditionModel",
   "_diffusers_version": "0.10.2",
   "act_fn": "silu",
-  "attention_head_dim": 8,
   "block_out_channels": [
     320,
     640,
@@ -10,7 +15,7 @@
     1280
   ],
   "center_input_sample": false,
-  "cross_attention_dim": 768,
   "down_block_types": [
     "CrossAttnDownBlock2D",
     "CrossAttnDownBlock2D",
@@ -29,7 +34,7 @@
   "num_class_embeds": null,
   "only_cross_attention": false,
   "out_channels": 4,
-  "sample_size": 64,
   "up_block_types": [
     "UpBlock2D",
     "CrossAttnUpBlock2D",

   "_class_name": "UNet2DConditionModel",
   "_diffusers_version": "0.10.2",
   "act_fn": "silu",
+  "attention_head_dim": [
+    5,
+    10,
+    20,
+    20
+  ],
   "block_out_channels": [
     320,
     640,
     1280
   ],
   "center_input_sample": false,
+  "cross_attention_dim": 1024,
   "down_block_types": [
     "CrossAttnDownBlock2D",
     "CrossAttnDownBlock2D",
   "num_class_embeds": null,
   "only_cross_attention": false,
   "out_channels": 4,
+  "sample_size": 32,
   "up_block_types": [
     "UpBlock2D",
     "CrossAttnUpBlock2D",

unet/diffusion_pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0f4d4531f47a3b095c35b1869badc7e9c3d2d4531106fe22c5c8644089094eb
-size 3438366373

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ee56a201b46af5e9178be6f4de76c546b0d4cf56e77267714175bde7f25d591
+size 3463913765

vae/config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "layers_per_block": 2,
   "norm_num_groups": 32,
   "out_channels": 3,
-  "sample_size": 512,
   "up_block_types": [
     "UpDecoderBlock2D",
     "UpDecoderBlock2D",

   "layers_per_block": 2,
   "norm_num_groups": 32,
   "out_channels": 3,
+  "sample_size": 256,
   "up_block_types": [
     "UpDecoderBlock2D",
     "UpDecoderBlock2D",

vae/diffusion_pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6723bacd3c60b11a2b4e6007338a54c6964c210116c3ccecb3bfc80e218afc8f
-size 334711857

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7ba0d96a27ca3a8621b034de4637211707a744265b1fec8b3c7718c42182340
+size 334707217