cantuncok commited on
Commit
52abee0
1 Parent(s): ee194fc

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +19 -11
app.py CHANGED
@@ -1,6 +1,6 @@
1
  import gradio as gr
2
- from transformers import AutoProcessor, AutoModelForCausalLM
3
- import os # os modülünü içe aktarıyoruz
4
  import torch
5
 
6
  # Hugging Face tokeninizi çevresel değişkenden alın
@@ -10,25 +10,33 @@ if not hf_token:
10
 
11
  # Model ve işlemciyi yükleyin
12
  model_name = "meta-llama/Llama-3.2-90B-Vision-Instruct"
13
- processor = AutoProcessor.from_pretrained(model_name)
14
- model = AutoModelForCausalLM.from_pretrained(model_name)
 
 
 
 
 
15
 
16
  def predict(image, text):
17
- # Girdileri işleyin
18
- inputs = processor(images=image, text=text, return_tensors="pt")
19
  # Modelden yanıt alın
20
- outputs = model.generate(**inputs)
21
  # Çıktıyı çözümleyin
22
- response = processor.decode(outputs[0], skip_special_tokens=True)
23
  return response
24
 
25
  # Gradio arayüzünü tanımlayın
26
  interface = gr.Interface(
27
  fn=predict,
28
- inputs=["image", "text"],
29
- outputs="text",
 
 
 
30
  title="Llama 3.2 90B Vision Instruct Demo",
31
  description="Bir görüntü ve metin girdisi alarak yanıt üreten model."
32
  )
33
 
34
- interface.launch()
 
1
  import gradio as gr
2
+ from transformers import AutoProcessor, AutoModelForVisionText2Text
3
+ import os
4
  import torch
5
 
6
  # Hugging Face tokeninizi çevresel değişkenden alın
 
10
 
11
  # Model ve işlemciyi yükleyin
12
  model_name = "meta-llama/Llama-3.2-90B-Vision-Instruct"
13
+ processor = AutoProcessor.from_pretrained(model_name, use_auth_token=hf_token)
14
+ model = AutoModelForVisionText2Text.from_pretrained(
15
+ model_name,
16
+ use_auth_token=hf_token,
17
+ device_map="auto",
18
+ torch_dtype=torch.float16
19
+ )
20
 
21
  def predict(image, text):
22
+ # Girdileri işleyin ve cihazı ayarlayın
23
+ inputs = processor(images=image, text=text, return_tensors="pt").to(model.device)
24
  # Modelden yanıt alın
25
+ outputs = model.generate(**inputs, max_new_tokens=100)
26
  # Çıktıyı çözümleyin
27
+ response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
28
  return response
29
 
30
  # Gradio arayüzünü tanımlayın
31
  interface = gr.Interface(
32
  fn=predict,
33
+ inputs=[
34
+ gr.Image(type="pil", label="Görüntü Girdisi"),
35
+ gr.Textbox(label="Metin Girdisi")
36
+ ],
37
+ outputs=gr.Textbox(label="Çıktı"),
38
  title="Llama 3.2 90B Vision Instruct Demo",
39
  description="Bir görüntü ve metin girdisi alarak yanıt üreten model."
40
  )
41
 
42
+ interface.launch()