Spaces:

alinasdkey
/

alina-unslothPret

Paused

alinasdkey commited on Jun 16

Commit

7382fb8

verified ·

1 Parent(s): 38932cd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,35 +33,41 @@ FastVisionModel.for_inference(model)
 #Inference function
 def describe_image(image, instruction):
     try:
-        # Step 1: Prepare multimodal prompt
         messages = [
             {
                 "role": "user",
                 "content": [
                     {"type": "image"},
-                    {"type": "text", "text": instruction.strip() if instruction else "Describe this image"}
                 ]
             }
         ]
-        prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-        # Step 2: Tokenize prompt
-        input_ids = processor.tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
-        # Step 3: Process image to get pixel values
-        image_inputs = processor(images=image, return_tensors="pt").to(model.device)
-        # Step 4: Generate output using correct arguments
         outputs = model.generate(
             input_ids=input_ids,
-            pixel_values=image_inputs["pixel_values"],
             max_new_tokens=256,
             do_sample=False,
             temperature=0.2,
-            top_p=0.95,
         )
-        # Step 5: Decode the output
         return processor.tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
     except Exception as e:

 #Inference function
 def describe_image(image, instruction):
     try:
+        # Step 1: Prepare prompt
+        prompt = instruction.strip() if instruction else "Describe this image."
         messages = [
             {
                 "role": "user",
                 "content": [
                     {"type": "image"},
+                    {"type": "text", "text": prompt}
                 ]
             }
         ]
+        prompt_text = processor.apply_chat_template(messages, add_generation_prompt=True)
+        # Step 2: Tokenize the prompt text
+        input_ids = processor.tokenizer(prompt_text, return_tensors="pt").input_ids.to(model.device)
+        # Step 3: Process image to get pixel values + aspect ratio IDs
+        image_inputs = processor(image, return_tensors="pt").to(model.device)
+        pixel_values = image_inputs["pixel_values"]
+        aspect_ratio_ids = image_inputs["aspect_ratio_ids"]
+        # Step 4: Generate
         outputs = model.generate(
             input_ids=input_ids,
+            pixel_values=pixel_values,
+            aspect_ratio_ids=aspect_ratio_ids,
             max_new_tokens=256,
             do_sample=False,
             temperature=0.2,
+            top_p=0.95
         )
+        # Step 5: Decode
         return processor.tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
     except Exception as e: