Spaces:

mansari722
/

smoldolcemahdi

Sleeping

mansari722 commited on Mar 20

Commit

a6f2409

verified ·

1 Parent(s): 551e50f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,24 +3,35 @@ from transformers import AutoProcessor, AutoModelForVision2Seq
 from PIL import Image
 import torch
-# Load model & processor
 model_name = "ds4sd/SmolDocling-256M-preview"
 processor = AutoProcessor.from_pretrained(model_name)
 model = AutoModelForVision2Seq.from_pretrained(model_name, torch_dtype=torch.bfloat16).to("cuda" if torch.cuda.is_available() else "cpu")
 def process_image(image):
-    inputs = processor(images=image, return_tensors="pt").to(model.device)
-    output = model.generate(**inputs, max_new_tokens=1024)
     result = processor.batch_decode(output, skip_special_tokens=True)[0]
     return result
-# Create Gradio interface
 iface = gr.Interface(
     fn=process_image,
-    inputs=gr.Image(type="pil"),  # ✅ FIXED
     outputs="text",
     title="SmolDocling Document Processing",
     description="Upload a document image to extract text."
 )
-iface.launch(share=True)

 from PIL import Image
 import torch
+# Load Model & Processor
 model_name = "ds4sd/SmolDocling-256M-preview"
 processor = AutoProcessor.from_pretrained(model_name)
 model = AutoModelForVision2Seq.from_pretrained(model_name, torch_dtype=torch.bfloat16).to("cuda" if torch.cuda.is_available() else "cpu")
 def process_image(image):
+    if image is None:
+        return "Error: No image provided."
+    # Convert image to RGB format to ensure compatibility
+    image = image.convert("RGB")
+    # Process the image
+    inputs = processor(images=[image], return_tensors="pt").to(model.device)
+    # Generate output (remove unnecessary kwargs)
+    output = model.generate(**inputs)
+    # Decode output text
     result = processor.batch_decode(output, skip_special_tokens=True)[0]
     return result
+# Create Gradio Interface
 iface = gr.Interface(
     fn=process_image,
+    inputs=gr.Image(type="pil"),  # Fixed input format
     outputs="text",
     title="SmolDocling Document Processing",
     description="Upload a document image to extract text."
 )
+iface.launch(server_name="0.0.0.0", server_port=7860)