Text-guided depth-to-image ์์ฑ
[[open-in-colab]]
[StableDiffusionDepth2ImgPipeline
]์ ์ฌ์ฉํ๋ฉด ํ
์คํธ ํ๋กฌํํธ์ ์ด๊ธฐ ์ด๋ฏธ์ง๋ฅผ ์ ๋ฌํ์ฌ ์ ์ด๋ฏธ์ง์ ์์ฑ์ ์กฐ์ ํ ์ ์์ต๋๋ค. ๋ํ ์ด๋ฏธ์ง ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด depth_map
์ ์ ๋ฌํ ์๋ ์์ต๋๋ค. depth_map
์ด ์ ๊ณต๋์ง ์์ผ๋ฉด ํ์ดํ๋ผ์ธ์ ํตํฉ๋ depth-estimation model์ ํตํด ์๋์ผ๋ก ๊น์ด๋ฅผ ์์ธกํฉ๋๋ค.
๋จผ์ [StableDiffusionDepth2ImgPipeline
]์ ์ธ์คํด์ค๋ฅผ ์์ฑํฉ๋๋ค:
import torch
import requests
from PIL import Image
from diffusers import StableDiffusionDepth2ImgPipeline
pipe = StableDiffusionDepth2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-2-depth",
torch_dtype=torch.float16,
).to("cuda")
์ด์ ํ๋กฌํํธ๋ฅผ ํ์ดํ๋ผ์ธ์ ์ ๋ฌํฉ๋๋ค. ํน์ ๋จ์ด๊ฐ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ์ด๋ ํ๋๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด negative_prompt
๋ฅผ ์ ๋ฌํ ์๋ ์์ต๋๋ค:
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
init_image = Image.open(requests.get(url, stream=True).raw)
prompt = "two tigers"
n_prompt = "bad, deformed, ugly, bad anatomy"
image = pipe(prompt=prompt, image=init_image, negative_prompt=n_prompt, strength=0.7).images[0]
image
Input | Output |
---|---|
์๋์ Spaces๋ฅผ ๊ฐ์ง๊ณ ๋๋ฉฐ depth map์ด ์๋ ์ด๋ฏธ์ง์ ์๋ ์ด๋ฏธ์ง์ ์ฐจ์ด๊ฐ ์๋์ง ํ์ธํด ๋ณด์ธ์!