visheratin
/

MC-LLaVA-3b

Inference Endpoints

Model card Files Files and versions Community

visheratin commited on Dec 31, 2023

Commit

304a0a4

•

1 Parent(s): cde656c

Update model files

Files changed (1) hide show

processing_llava.py +7 -2

processing_llava.py CHANGED Viewed

@@ -30,6 +30,7 @@ from transformers.tokenization_utils_base import (
 from transformers.utils import TensorType
 import torch
 from open_clip.transform import PreprocessCfg, image_transform_v2
 class OpenCLIPImageProcessor:
@@ -67,6 +68,7 @@ class LlavaProcessor:
             TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]
         ] = None,
         images: ImageInput = None,
         padding: Union[bool, str, PaddingStrategy] = False,
         truncation: Union[bool, str, TruncationStrategy] = None,
         max_length=None,
@@ -76,8 +78,11 @@ class LlavaProcessor:
             pixel_values = self.image_processor(images, return_tensors=return_tensors)[
                 "pixel_values"
             ]
         else:
-            pixel_values = None
         text_inputs = self.tokenizer(
             text,
             return_tensors=return_tensors,
@@ -86,7 +91,7 @@ class LlavaProcessor:
             max_length=max_length,
         )
-        return BatchFeature(data={**text_inputs, "pixel_values": pixel_values})
     def batch_decode(self, *args, **kwargs):
         return self.tokenizer.batch_decode(*args, **kwargs)

 from transformers.utils import TensorType
 import torch
 from open_clip.transform import PreprocessCfg, image_transform_v2
+from modeling_llava import LlavaForConditionalGeneration
 class OpenCLIPImageProcessor:
             TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]
         ] = None,
         images: ImageInput = None,
+        model: LlavaForConditionalGeneration = None,
         padding: Union[bool, str, PaddingStrategy] = False,
         truncation: Union[bool, str, TruncationStrategy] = None,
         max_length=None,
             pixel_values = self.image_processor(images, return_tensors=return_tensors)[
                 "pixel_values"
             ]
+            pixel_values = pixel_values.to(model.device)
+            image_outputs = model.vision_model(pixel_values)
+            image_features = model.multi_modal_projector(image_outputs)
         else:
+            image_features = None
         text_inputs = self.tokenizer(
             text,
             return_tensors=return_tensors,
             max_length=max_length,
         )
+        return BatchFeature(data={**text_inputs, "image_features": image_features})
     def batch_decode(self, *args, **kwargs):
         return self.tokenizer.batch_decode(*args, **kwargs)