Spaces:

Selfit
/

ImageEditPro

Running on CPU Upgrade

App Files Files Community

selfitcamera commited on 9 days ago

Commit

4c55d00

1 Parent(s): 61f70d4

init

Browse files

Files changed (23) hide show

__lib__/i18n/ar.pyc +0 -0
__lib__/i18n/da.pyc +0 -0
__lib__/i18n/de.pyc +0 -0
__lib__/i18n/en.pyc +0 -0
__lib__/i18n/es.pyc +0 -0
__lib__/i18n/fi.pyc +0 -0
__lib__/i18n/fr.pyc +0 -0
__lib__/i18n/he.pyc +0 -0
__lib__/i18n/hi.pyc +0 -0
__lib__/i18n/id.pyc +0 -0
__lib__/i18n/it.pyc +0 -0
__lib__/i18n/ja.pyc +0 -0
__lib__/i18n/nl.pyc +0 -0
__lib__/i18n/no.pyc +0 -0
__lib__/i18n/pt.pyc +0 -0
__lib__/i18n/ru.pyc +0 -0
__lib__/i18n/sv.pyc +0 -0
__lib__/i18n/tr.pyc +0 -0
__lib__/i18n/uk.pyc +0 -0
__lib__/i18n/vi.pyc +0 -0
__lib__/i18n/zh.pyc +0 -0
__lib__/pipeline.pyc +0 -0
pipeline.py +206 -9

__lib__/i18n/ar.pyc CHANGED Viewed

Binary files a/__lib__/i18n/ar.pyc and b/__lib__/i18n/ar.pyc differ

__lib__/i18n/da.pyc CHANGED Viewed

Binary files a/__lib__/i18n/da.pyc and b/__lib__/i18n/da.pyc differ

__lib__/i18n/de.pyc CHANGED Viewed

Binary files a/__lib__/i18n/de.pyc and b/__lib__/i18n/de.pyc differ

__lib__/i18n/en.pyc CHANGED Viewed

Binary files a/__lib__/i18n/en.pyc and b/__lib__/i18n/en.pyc differ

__lib__/i18n/es.pyc CHANGED Viewed

Binary files a/__lib__/i18n/es.pyc and b/__lib__/i18n/es.pyc differ

__lib__/i18n/fi.pyc CHANGED Viewed

Binary files a/__lib__/i18n/fi.pyc and b/__lib__/i18n/fi.pyc differ

__lib__/i18n/fr.pyc CHANGED Viewed

Binary files a/__lib__/i18n/fr.pyc and b/__lib__/i18n/fr.pyc differ

__lib__/i18n/he.pyc CHANGED Viewed

Binary files a/__lib__/i18n/he.pyc and b/__lib__/i18n/he.pyc differ

__lib__/i18n/hi.pyc CHANGED Viewed

Binary files a/__lib__/i18n/hi.pyc and b/__lib__/i18n/hi.pyc differ

__lib__/i18n/id.pyc CHANGED Viewed

Binary files a/__lib__/i18n/id.pyc and b/__lib__/i18n/id.pyc differ

__lib__/i18n/it.pyc CHANGED Viewed

Binary files a/__lib__/i18n/it.pyc and b/__lib__/i18n/it.pyc differ

__lib__/i18n/ja.pyc CHANGED Viewed

Binary files a/__lib__/i18n/ja.pyc and b/__lib__/i18n/ja.pyc differ

__lib__/i18n/nl.pyc CHANGED Viewed

Binary files a/__lib__/i18n/nl.pyc and b/__lib__/i18n/nl.pyc differ

__lib__/i18n/no.pyc CHANGED Viewed

Binary files a/__lib__/i18n/no.pyc and b/__lib__/i18n/no.pyc differ

__lib__/i18n/pt.pyc CHANGED Viewed

Binary files a/__lib__/i18n/pt.pyc and b/__lib__/i18n/pt.pyc differ

__lib__/i18n/ru.pyc CHANGED Viewed

Binary files a/__lib__/i18n/ru.pyc and b/__lib__/i18n/ru.pyc differ

__lib__/i18n/sv.pyc CHANGED Viewed

Binary files a/__lib__/i18n/sv.pyc and b/__lib__/i18n/sv.pyc differ

__lib__/i18n/tr.pyc CHANGED Viewed

Binary files a/__lib__/i18n/tr.pyc and b/__lib__/i18n/tr.pyc differ

__lib__/i18n/uk.pyc CHANGED Viewed

Binary files a/__lib__/i18n/uk.pyc and b/__lib__/i18n/uk.pyc differ

__lib__/i18n/vi.pyc CHANGED Viewed

Binary files a/__lib__/i18n/vi.pyc and b/__lib__/i18n/vi.pyc differ

__lib__/i18n/zh.pyc CHANGED Viewed

Binary files a/__lib__/i18n/zh.pyc and b/__lib__/i18n/zh.pyc differ

__lib__/pipeline.pyc CHANGED Viewed

Binary files a/__lib__/pipeline.pyc and b/__lib__/pipeline.pyc differ

pipeline.py CHANGED Viewed

@@ -1,12 +1,15 @@
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from typing import Optional, Tuple, Union, List, Dict, Any
 from dataclasses import dataclass
 import numpy as np
 from PIL import Image
 import torchvision.transforms as T
 from torchvision.transforms.functional import to_tensor, normalize
 from transformers import PretrainedConfig, PreTrainedModel, CLIPTextModel, CLIPTokenizer
 from transformers.modeling_outputs import BaseModelOutputWithPooling
@@ -15,6 +18,20 @@ from diffusers.configuration_utils import ConfigMixin, register_to_config
 from diffusers.models.modeling_utils import ModelMixin
 from diffusers.utils import BaseOutput
 # -----------------------------------------------------------------------------
 # 1. Advanced Configuration (8B Scale)
 # -----------------------------------------------------------------------------
@@ -50,6 +67,11 @@ class OmniMMDitV2Config(PretrainedConfig):
         visual_embed_dim: int = 1024,     # e.g., SigLIP or CLIP Vision
         text_embed_dim: int = 4096,       # T5-XXL or similar
         use_temporal_attention: bool = True, # For Video generation
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -72,6 +94,10 @@ class OmniMMDitV2Config(PretrainedConfig):
         self.visual_embed_dim = visual_embed_dim
         self.text_embed_dim = text_embed_dim
         self.use_temporal_attention = use_temporal_attention
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,
@@ -567,6 +593,19 @@ class OmniMMDitV2(ModelMixin, PreTrainedModel):
         super().__init__(config)
         self.config = config
         # Input Latent Projection (Patchify)
         self.x_embedder = nn.Linear(config.in_channels * config.patch_size * config.patch_size, config.hidden_size, bias=True)
@@ -595,6 +634,30 @@ class OmniMMDitV2(ModelMixin, PreTrainedModel):
         )
         self.initialize_weights()
     def initialize_weights(self):
         def _basic_init(module):
@@ -719,6 +782,83 @@ class OmniMMDitV2Pipeline(DiffusionPipeline):
             vae=vae,
             scaling_factor=0.18215,
         )
     @torch.no_grad()
     def __call__(
@@ -737,6 +877,55 @@ class OmniMMDitV2Pipeline(DiffusionPipeline):
         latents: Optional[torch.Tensor] = None,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
         **kwargs,
     ):
         # Validate and set default dimensions
@@ -800,25 +989,33 @@ class OmniMMDitV2Pipeline(DiffusionPipeline):
         latents = torch.randn(shape, generator=generator, device=self.device, dtype=text_embeddings.dtype)
         latents = latents * self.scheduler.init_noise_sigma
-        # Denoising loop
         with self.progress_bar(total=num_inference_steps) as progress_bar:
             for i, t in enumerate(timesteps):
                 latent_model_input = torch.cat([latents] * 2) if guidance_scale > 1.0 else latents
                 latent_model_input = self.scheduler.scale_model_input(latent_model_input, t)
-                noise_pred = self.model(
-                    hidden_states=latent_model_input,
-                    timestep=t,
-                    encoder_hidden_states=torch.cat([text_embeddings] * 2),
-                    visual_conditions=visual_embeddings_list * 2 if visual_embeddings_list else None,
-                    video_frames=num_frames
-                ).sample
                 # Apply classifier-free guidance
                 if guidance_scale > 1.0:
                     noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
                     noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
                 latents = self.scheduler.step(noise_pred, t, latents, eta=eta).prev_sample
                 progress_bar.update()
         # Decode latents with proper post-processing

 import torch
 import torch.nn as nn
 import torch.nn.functional as F
+from typing import Optional, Tuple, Union, List, Dict, Any, Callable
 from dataclasses import dataclass
 import numpy as np
 from PIL import Image
 import torchvision.transforms as T
 from torchvision.transforms.functional import to_tensor, normalize
+import warnings
+from contextlib import contextmanager
+from functools import wraps
 from transformers import PretrainedConfig, PreTrainedModel, CLIPTextModel, CLIPTokenizer
 from transformers.modeling_outputs import BaseModelOutputWithPooling
 from diffusers.models.modeling_utils import ModelMixin
 from diffusers.utils import BaseOutput
+# Optimization imports
+try:
+    import transformer_engine.pytorch as te
+    from transformer_engine.common import recipe
+    HAS_TRANSFORMER_ENGINE = True
+except ImportError:
+    HAS_TRANSFORMER_ENGINE = False
+try:
+    from torch._dynamo import config as dynamo_config
+    HAS_TORCH_COMPILE = hasattr(torch, 'compile')
+except ImportError:
+    HAS_TORCH_COMPILE = False
 # -----------------------------------------------------------------------------
 # 1. Advanced Configuration (8B Scale)
 # -----------------------------------------------------------------------------
         visual_embed_dim: int = 1024,     # e.g., SigLIP or CLIP Vision
         text_embed_dim: int = 4096,       # T5-XXL or similar
         use_temporal_attention: bool = True, # For Video generation
+        # Optimization Configs
+        use_fp8_quantization: bool = False,
+        use_compilation: bool = False,
+        compile_mode: str = "reduce-overhead",
+        use_flash_attention: bool = True,
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.visual_embed_dim = visual_embed_dim
         self.text_embed_dim = text_embed_dim
         self.use_temporal_attention = use_temporal_attention
+        self.use_fp8_quantization = use_fp8_quantization
+        self.use_compilation = use_compilation
+        self.compile_mode = compile_mode
+        self.use_flash_attention = use_flash_attention
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,
         super().__init__(config)
         self.config = config
+        # Initialize optimizer for advanced features
+        self.optimizer = ModelOptimizer(
+            fp8_config=FP8Config(enabled=config.use_fp8_quantization),
+            compilation_config=CompilationConfig(
+                enabled=config.use_compilation,
+                mode=config.compile_mode,
+            ),
+            mixed_precision_config=MixedPrecisionConfig(
+                enabled=True,
+                dtype="bfloat16",
+            ),
+        )
         # Input Latent Projection (Patchify)
         self.x_embedder = nn.Linear(config.in_channels * config.patch_size * config.patch_size, config.hidden_size, bias=True)
         )
         self.initialize_weights()
+        # Apply optimizations if enabled
+        if config.use_fp8_quantization or config.use_compilation:
+            self._apply_optimizations()
+    def _apply_optimizations(self):
+        """Apply FP8 quantization and compilation optimizations"""
+        # Quantize transformer blocks
+        if self.config.use_fp8_quantization:
+            for i, block in enumerate(self.blocks):
+                self.blocks[i] = self.optimizer.optimize_model(
+                    block,
+                    apply_compilation=False,
+                    apply_quantization=True,
+                    apply_mixed_precision=True,
+                )
+        # Compile forward method
+        if self.config.use_compilation and HAS_TORCH_COMPILE:
+            self.forward = torch.compile(
+                self.forward,
+                mode=self.config.compile_mode,
+                dynamic=True,
+            )
     def initialize_weights(self):
         def _basic_init(module):
             vae=vae,
             scaling_factor=0.18215,
         )
+        # Initialize model optimizer
+        self.model_optimizer = ModelOptimizer(
+            fp8_config=FP8Config(enabled=False),  # Can be enabled via enable_fp8()
+            compilation_config=CompilationConfig(enabled=False),  # Can be enabled via compile()
+            mixed_precision_config=MixedPrecisionConfig(enabled=True, dtype="bfloat16"),
+        )
+        self._is_compiled = False
+        self._is_fp8_enabled = False
+    def enable_fp8_quantization(self):
+        """Enable FP8 quantization for faster inference"""
+        if not HAS_TRANSFORMER_ENGINE:
+            warnings.warn("Transformer Engine not available. Install with: pip install transformer-engine")
+            return self
+        self.model_optimizer.fp8_config.enabled = True
+        self.model = self.model_optimizer.optimize_model(
+            self.model,
+            apply_compilation=False,
+            apply_quantization=True,
+            apply_mixed_precision=False,
+        )
+        self._is_fp8_enabled = True
+        return self
+    def compile_model(
+        self,
+        mode: str = "reduce-overhead",
+        fullgraph: bool = False,
+        dynamic: bool = True,
+    ):
+        """
+        Compile model using torch.compile for faster inference.
+        Args:
+            mode: Compilation mode - "default", "reduce-overhead", "max-autotune"
+            fullgraph: Whether to compile the entire model as one graph
+            dynamic: Whether to enable dynamic shapes
+        """
+        if not HAS_TORCH_COMPILE:
+            warnings.warn("torch.compile not available. Upgrade to PyTorch 2.0+")
+            return self
+        self.model_optimizer.compilation_config = CompilationConfig(
+            enabled=True,
+            mode=mode,
+            fullgraph=fullgraph,
+            dynamic=dynamic,
+        )
+        self.model = self.model_optimizer._compile_model(self.model)
+        self._is_compiled = True
+        return self
+    def enable_optimizations(
+        self,
+        enable_fp8: bool = False,
+        enable_compilation: bool = False,
+        compilation_mode: str = "reduce-overhead",
+    ):
+        """
+        Enable all optimizations at once.
+        Args:
+            enable_fp8: Enable FP8 quantization
+            enable_compilation: Enable torch.compile
+            compilation_mode: Compilation mode for torch.compile
+        """
+        if enable_fp8:
+            self.enable_fp8_quantization()
+        if enable_compilation:
+            self.compile_model(mode=compilation_mode)
+        return self
     @torch.no_grad()
     def __call__(
         latents: Optional[torch.Tensor] = None,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
+        callback: Optional[Callable[[int, int, torch.Tensor], None]] = None,
+        callback_steps: int = 1,
+        use_optimized_inference: bool = True,
+        **kwargs,
+    ):
+        # Use optimized inference context
+        with optimized_inference_mode(
+            enable_cudnn_benchmark=use_optimized_inference,
+            enable_tf32=use_optimized_inference,
+            enable_flash_sdp=use_optimized_inference,
+        ):
+            return self._forward_impl(
+                prompt=prompt,
+                input_images=input_images,
+                height=height,
+                width=width,
+                num_frames=num_frames,
+                num_inference_steps=num_inference_steps,
+                guidance_scale=guidance_scale,
+                image_guidance_scale=image_guidance_scale,
+                negative_prompt=negative_prompt,
+                eta=eta,
+                generator=generator,
+                latents=latents,
+                output_type=output_type,
+                return_dict=return_dict,
+                callback=callback,
+                callback_steps=callback_steps,
+                **kwargs,
+            )
+    def _forward_impl(
+        self,
+        prompt: Union[str, List[str]] = None,
+        input_images: Optional[List[Union[torch.Tensor, Any]]] = None,
+        height: Optional[int] = 1024,
+        width: Optional[int] = 1024,
+        num_frames: Optional[int] = 1,
+        num_inference_steps: int = 50,
+        guidance_scale: float = 7.5,
+        image_guidance_scale: float = 1.5,
+        negative_prompt: Optional[Union[str, List[str]]] = None,
+        eta: float = 0.0,
+        generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
+        latents: Optional[torch.Tensor] = None,
+        output_type: Optional[str] = "pil",
+        return_dict: bool = True,
+        callback: Optional[Callable[[int, int, torch.Tensor], None]] = None,
+        callback_steps: int = 1,
         **kwargs,
     ):
         # Validate and set default dimensions
         latents = torch.randn(shape, generator=generator, device=self.device, dtype=text_embeddings.dtype)
         latents = latents * self.scheduler.init_noise_sigma
+        # Denoising loop with optimizations
         with self.progress_bar(total=num_inference_steps) as progress_bar:
             for i, t in enumerate(timesteps):
                 latent_model_input = torch.cat([latents] * 2) if guidance_scale > 1.0 else latents
                 latent_model_input = self.scheduler.scale_model_input(latent_model_input, t)
+                # Use mixed precision autocast
+                with self.model_optimizer.autocast_context():
+                    noise_pred = self.model(
+                        hidden_states=latent_model_input,
+                        timestep=t,
+                        encoder_hidden_states=torch.cat([text_embeddings] * 2),
+                        visual_conditions=visual_embeddings_list * 2 if visual_embeddings_list else None,
+                        video_frames=num_frames
+                    ).sample
                 # Apply classifier-free guidance
                 if guidance_scale > 1.0:
                     noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
                     noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
                 latents = self.scheduler.step(noise_pred, t, latents, eta=eta).prev_sample
+                # Call callback if provided
+                if callback is not None and i % callback_steps == 0:
+                    callback(i, t, latents)
                 progress_bar.update()
         # Decode latents with proper post-processing