[Celeba-256] Upload first model

Files changed (8) hide show

generated_image.png ADDED Viewed

model_index.json ADDED Viewed

+{
+  "_class_name": "LatentDiffusionUncondPipeline",
+  "_diffusers_version": "0.0.4",
+  "scheduler": [
+    "diffusers",
+    "DDIMScheduler"
+  ],
+  "unet": [
+    "diffusers",
+    "UNetUnconditionalModel"
+  ],
+  "vqvae": [
+    "diffusers",
+    "VQModel"
+  ]
+}

run.py ADDED Viewed

+#!/usr/bin/env python3
+from diffusers import UNetUnconditionalModel, DDIMScheduler, VQModel
+import torch
+import PIL.Image
+import numpy as np
+import tqdm
+# load all models
+unet = UNetUnconditionalModel.from_pretrained("./", subfolder="unet")
+vqvae = VQModel.from_pretrained("./", subfolder="vqvae")
+scheduler = DDIMScheduler.from_config("./", subfolder="scheduler")
+# set to cuda
+torch_device = "cuda" if torch.cuda.is_available() else "cpu"
+unet.to(torch_device)
+vqvae.to(torch_device)
+# generate gaussian noise to be decoded
+generator = torch.manual_seed(0)
+noise = torch.randn(
+    (1, unet.in_channels, unet.image_size, unet.image_size),
+    generator=generator,
+).to(torch_device)
+# set inference steps for DDIM
+scheduler.set_timesteps(num_inference_steps=50)
+image = noise
+for t in tqdm.tqdm(scheduler.timesteps):
+    # predict noise residual of previous image
+    with torch.no_grad():
+        residual = unet(image, t)["sample"]
+    # compute previous image x_t according to DDIM formula
+    prev_image = scheduler.step(residual, t, image, eta=0.0)["prev_sample"]
+    # x_t-1 -> x_t
+    image = prev_image
+# decode image with vae
+with torch.no_grad():
+    image = vqvae.decode(image)
+# process image
+image_processed = image.cpu().permute(0, 2, 3, 1)
+image_processed = (image_processed + 1.0) * 127.5
+image_processed = image_processed.numpy().astype(np.uint8)
+image_pil = PIL.Image.fromarray(image_processed[0])
+image_pil.save("generated_image.png")

scheduler/scheduler_config.json ADDED Viewed

+{
+  "_class_name": "DDIMScheduler",
+  "_diffusers_version": "0.0.4",
+  "beta_end": 0.0195,
+  "beta_schedule": "scaled_linear",
+  "beta_start": 0.0015,
+  "clip_sample": false,
+  "timestep_values": null,
+  "timesteps": 1000,
+  "trained_betas": null
+}

unet/config.json ADDED Viewed

+{
+  "_class_name": "UNetUnconditionalModel",
+  "_diffusers_version": "0.0.4",
+  "attention_resolutions": [
+    8,
+    4,
+    2
+  ],
+  "down_blocks": ["UNetResDownBlock2D", "UNetResAttnDownBlock2D", "UNetResAttnDownBlock2D", "UNetResAttnDownBlock2D"],
+  "up_blocks": ["UNetResAttnUpBlock2D", "UNetResAttnUpBlock2D", "UNetResAttnUpBlock2D", "UNetResUpBlock2D"],
+  "down_block_input_channels": [224, 224, 448, 672],
+  "down_block_output_channels": [224, 448, 672, 896],
+  "context_dim": null,
+  "conv_resample": true,
+  "dims": 2,
+  "dropout": 0,
+  "image_size": 64,
+  "in_channels": 3,
+  "legacy": true,
+  "n_embed": null,
+  "num_classes": null,
+  "num_head_channels": 32,
+  "num_heads": -1,
+  "num_heads_upsample": -1,
+  "num_res_blocks": 2,
+  "out_channels": 3,
+  "resblock_updown": false,
+  "transformer_depth": 1,
+  "use_checkpoint": false,
+  "use_fp16": false,
+  "use_new_attention_order": false,
+  "use_scale_shift_norm": false,
+  "use_spatial_transformer": false,
+  "ldm": true
+}

unet/diffusion_model.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b655ee0d741c2de23be13d7031c8365b7c17f61b5921a42d1173e1e20d48067
+size 1096382177

vqvae/config.json ADDED Viewed

+{
+  "_class_name": "VQModel",
+  "_diffusers_version": "0.0.4",
+  "attn_resolutions": [],
+  "ch": 128,
+  "ch_mult": [
+    1,
+    2,
+    4
+  ],
+  "double_z": false,
+  "dropout": 0.0,
+  "embed_dim": 3,
+  "give_pre_end": false,
+  "in_channels": 3,
+  "n_embed": 8192,
+  "num_res_blocks": 2,
+  "out_ch": 3,
+  "remap": null,
+  "resamp_with_conv": true,
+  "resolution": 256,
+  "sane_index_shape": false,
+  "z_channels": 3
+}

vqvae/diffusion_model.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e383b55bf3faeffafffb49286ae11c41611557c6c2b0dfbf09a0d3ea94590ae8
+size 221364711