Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2503.11651

VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

Paper • 2507.13347 • Published Jul 17 • 64
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Paper • 2503.10437 • Published Mar 13 • 33
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

Paper • 2503.09642 • Published Mar 12 • 19
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34
1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Paper • 2503.16422 • Published Mar 20 • 14

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Paper • 2511.08521 • Published 25 days ago • 37
Black-Box On-Policy Distillation of Large Language Models

Paper • 2511.10643 • Published 23 days ago • 46
Depth Anything 3: Recovering the Visual Space from Any Views

Paper • 2511.10647 • Published 23 days ago • 92
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Paper • 2506.17450 • Published Jun 20 • 64

LinFusion: 1 GPU, 1 Minute, 16K Image

Paper • 2409.02097 • Published Sep 3, 2024 • 34
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Paper • 2409.11406 • Published Sep 17, 2024 • 27
Diffusion Models Are Real-Time Game Engines

Paper • 2408.14837 • Published Aug 27, 2024 • 126
Segment Anything with Multiple Modalities

Paper • 2408.09085 • Published Aug 17, 2024 • 22

VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Paper • 2511.08521 • Published 25 days ago • 37
Black-Box On-Policy Distillation of Large Language Models

Paper • 2511.10643 • Published 23 days ago • 46
Depth Anything 3: Recovering the Visual Space from Any Views

Paper • 2511.10647 • Published 23 days ago • 92
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

π^3: Scalable Permutation-Equivariant Visual Geometry Learning

Paper • 2507.13347 • Published Jul 17 • 64
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34

VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Paper • 2506.17450 • Published Jun 20 • 64

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Paper • 2503.10437 • Published Mar 13 • 33
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

Paper • 2503.09642 • Published Mar 12 • 19
VGGT: Visual Geometry Grounded Transformer

Paper • 2503.11651 • Published Mar 14 • 34
1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Paper • 2503.16422 • Published Mar 20 • 14

LinFusion: 1 GPU, 1 Minute, 16K Image

Paper • 2409.02097 • Published Sep 3, 2024 • 34
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Paper • 2409.11406 • Published Sep 17, 2024 • 27
Diffusion Models Are Real-Time Game Engines

Paper • 2408.14837 • Published Aug 27, 2024 • 126
Segment Anything with Multiple Modalities

Paper • 2408.09085 • Published Aug 17, 2024 • 22

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs