Z-Image
Motor de generación de imágenes ligero

Z-Image es una herramienta ligera de generación de imágenes con una eficiente arquitectura de inferencia de 8 pasos. Ofrece generación de imágenes IA rápida y de alta calidad en GPUs de consumo mientras reduce significativamente los costos computacionales.

Prompt 0/500

Dimensions

Galería de Ejemplos

Saxofonista de Jazz Cinematográfico

Una fotografía altamente cinematográfica con grano de película. En un bar de jazz vintage oscuro y lleno de humo, un saxofonista anciano toca apasionadamente. Un foco de escenario amarillo cálido ilumina su rostro desde el costado, proyectando una larga sombra detrás de él. El fondo muestra miembros borrosos de la audiencia sosteniendo bebidas y letreros de neón parpadeantes. Textura de película Kodak Portra 400.

Documental Callejero Tokio Noche Lluviosa

Un plano medio de estilo documental, tomado en el concurrido cruce de Shibuya en Tokio. Noche lluviosa, suelo mojado reflejando vallas publicitarias de neón coloridas. Una joven sosteniendo un paraguas transparente mira hacia la cámara en la multitud, sus ojos perdidos. A su alrededor hay peatones apurados y taxis. ISO alto, con ruido.

El Artesano Relojero

Una fotografía sincera de un artesano relojero anciano en su banco de trabajo desordenado. Lleva gafas de aumento y trabaja cuidadosamente en pequeños engranajes con pinzas. La habitación está llena de herramientas antiguas, piezas de relojes y luz cálida y desordenada de una lámpara de escritorio. Cada detalle de polvo y textura metálica es nítido.

Retrato Hanfu Dinastía Tang

Un retrato de medio cuerpo de una dama en magnífico Hanfu de la dinastía Tang. Lleva una túnica roja de mangas anchas bordada en oro, con exquisitos patrones de peonías y fénix, con un fuerte brillo de seda. Tiene un moño alto y lleva horquillas doradas. El fondo es un jardín clásico borroso con flores de manzano en flor. Luz natural suave.

Textura de Alta Moda

Una fotografía editorial de alta moda de una modelo usando un atuendo vanguardista hecho completamente de materiales reciclados y plástico tejido. El enfoque está en las texturas y capas complejas de la prenda. Ella está de pie en un entorno de concreto brutalista. La iluminación arquitectónica marcada enfatiza las formas geométricas de la ropa.

Ilustración Studio Ghibli

Una ilustración digital serena al estilo de Studio Ghibli. Una cabaña acogedora y desordenada construida en las raíces de un árbol antiguo gigante. El humo se eleva suavemente de la chimenea. Colinas verdes onduladas y nubes esponjosas en un cielo azul pastel. Textura de acuarela, paleta de colores cálidos, atmósfera acogedora.

Póster de Película Vintage "El Sabor del Recuerdo"

Un póster de película inglesa ficticia para "The Taste of Memory". Ambientada en una cocina rústica de estilo del siglo XIX. El tema principal son las siluetas de un hombre y una mujer cruzándose en una calle lluviosa borrosa, en tonos azul-verde ricos. El título está en caligrafía blanca manuscrita dispuesta verticalmente en el lado derecho. Texto pequeño en la parte inferior "A FILM BY WONG KAR-WAI". Textura de papel viejo y pliegues.

Portada de Revista Nature

Un diseño de portada de revista vertical. El tema principal es una fotografía macro de una mariposa Morpho azul vibrante descansando en una hoja verde cubierta de rocío. El título "BIODIVERSIDAD" está en la parte superior en una fuente sans-serif blanca grande y en negrita. Debajo, los subtítulos leen "El Mundo Oculto de los Insectos" y "Fotografía por A. Smith". La composición general es limpia e impactante.

Diseño de Póster de Silla Minimalista

Un póster promocional de producto de estilo minimalista. En el centro hay una silla de madera de diseño colocada sola junto a una piscina infinita blanca pura. El fondo es un cielo azul minimalista y horizonte. En la parte superior en fuente negra delgada está el nombre de la marca "NORDIC LIVING", y en la parte inferior el eslogan "Less is More". Iluminación limpia, composición con espacio en blanco.

No solo rápido, es Totalmente Evolucionado

Llenando el vacío entre modelos ligeros y masivos, Z-Image-Turbo encuentra el equilibrio perfecto entre velocidad, calidad y usabilidad.

Soporte Bilingüe Nativo

Impulsado por Qwen 3.4B LLM. No más caracteres chinos ilegibles. La caligrafía, la señalización y la tipografía compleja se renderizan con precisión.

Flujo Único S3-DiT

Innovación arquitectónica radical. Los tokens de texto e imagen se procesan de manera consistente, similar a GPT-4, utilizando cada parámetro tanto para generación como para comprensión.

Licencia Apache 2.0

Verdadera libertad de código abierto. A diferencia de las restricciones comerciales de Flux.1, eres libre de usarlo comercialmente, modificarlo e integrarlo. Ideal para startups.

6B Parámetros Equilibrio Dorado

8 Steps Inferencia Decoupled-DMD

Qwen 3.4B Codificador de Texto Bilingüe Nativo

12GB Req VRAM Sin Cuantización Necesaria

Tecnología Principal

S3-DiT: Rompiendo Barreras Modales

Los modelos tradicionales usan arquitectura de "doble flujo". Z-Image-Turbo adopta Transformer de Difusión de Flujo Único Escalable (S3-DiT).

Flujo de Entrada Unificado: Tokens de texto y latentes de imagen se concatenan directamente.
Interacción Total de Parámetros: Cada capa Transformer realiza un cálculo profundo de atención texto-imagen.
Decoupled-DMD: El algoritmo central que comprime la inferencia a solo 8 pasos.
Mejora CFG: Señales de guía optimizadas independientemente para imágenes nítidas sin valores CFG altos.

Architecture_v1.0

Text Token

Img Latent

Unified Transformer Block Self-Attention (All-to-All)

High-Fidelity Output (8 Steps)

¿Por qué elegir Z-Image-Turbo?

Proporcionamos la solución óptima equilibrando rendimiento, costo y ecosistema.

Métrica	Z-Image-Turbo	Flux.1 (Dev)	SDXL Base
Parámetros	6B (Equilibrado)	12B (Masivo)	2.6B
Req VRAM	12GB (Nativo BF16)	24GB+ (o Quant)	8GB
Pasos	8 Pasos (Destilado)	20-50 Pasos	20-50 Pasos
Codificador Texto	Qwen 3.4B (Bilingüe)	T5 + CLIP	OpenCLIP
Tipografía	⭐️⭐️⭐️⭐️⭐️ Perfecto	⭐️⭐️ Pobre	⭐️ Ilegible
Licencia	Apache 2.0	No Comercial	OpenRAIL++
Costo/Img	~$0.0029	Alto	Bajo

Una bendición para hardware de consumo

Gracias a la escala de 6B parámetros y la destilación de 8 pasos, Z-Image-Turbo logra generación en 2-3s en RTX 3090/4090. Para H800 empresariales, la respuesta sub-segundo es realidad.

Nvidia H800 (Enterprise) < 1 s

RTX 4090 (Consumer High-End) ~ 2.5 s

Flux.1 Dev (RTX 4090) ~ 10 s+

Inicio Rápido

# Carga rápida con Diffusers

from diffusers import DiffusionPipeline

import torch

# Cargar modelo Turbo 8 pasos

pipe = DiffusionPipeline.from_pretrained(

"Tongyi-MAI/Z-Image-Turbo",

torch_dtype=torch.bfloat16

).to("cuda")

# Generar imagen

image = pipe(

prompt="Detective cyberpunk, noche lluviosa, luces de neón, cartel chino que dice "Laboratorio Tongyi"",

num_inference_steps=8,

guidance_scale=1.0 # Modelos destilados no necesitan alto CFG

).images[0]

Preguntas Frecuentes

Preguntas sobre despliegue, uso y licencias.

¿Requisitos de GPU?

Para precisión nativa (BF16), se recomienda 16GB VRAM (RTX 4080/3090). Con cuantización GGUF/NF4, tarjetas de 8GB VRAM (RTX 3060) funcionan fluidamente con pérdida de calidad mínima.

¿Puedo usarlo comercialmente?

Sí. Z-Image-Turbo usa la licencia permisiva Apache 2.0. Puedes usarlo libremente para productos comerciales sin tarifas.

¿Cómo escribir prompts chinos?

Como chatear naturalmente. Gracias a Qwen 3.4B, puedes usar oraciones complejas. Para renderizar texto, pon el texto específico entre comillas.

¿Soporte para ComfyUI / WebUI?

Sí. ComfyUI tiene soporte desde el día 0. El soporte para Automatic1111 WebUI está en la rama dev y llegará pronto.

¿Ventaja sobre Flux.1?

Z-Image-Turbo resuelve eficiencia y usabilidad. Mientras Flux es genial para calidad extrema, Z-Image ofrece 3x velocidad, mitad de uso VRAM y soporte chino superior.