Domina el Arte del Entrenamiento LoRA
Z-Image Turbo

La guía definitiva basada en Ostris AI Toolkit. Inyecta personajes, estilos y objetos personalizados en este modelo ultrarrápido de Alibaba Cloud sin sacrificar la velocidad de inferencia de 8 pasos.

Velocidad Extrema

Genera imágenes de alta calidad en solo 8 pasos (NFEs), logrando latencia sub-segundo muy superior al SDXL tradicional.

Estilo Fotorrealista

Destaca en iluminación y texturas realistas, especialmente adecuado para fotografía de retrato y entrenamiento LoRA cinematográfico.

Entrenamiento Eficiente

Utiliza adaptadores de des-destilación especializados para evitar que el entrenamiento destruya la ventaja de velocidad del modelo.

Requisitos Previos

Asegúrate de que tu hardware y entorno cumplan con los siguientes requisitos antes de comenzar.

Hardware

  • Recomendado: 24GB+ VRAM (RTX 3090/4090) para mejor velocidad.
  • Mínimo: 12GB VRAM (RTX 3060). Requiere float8 y optimización de memoria.

Entorno

  • Nube (Recomendado): RunPod usando plantilla "Ostris AI Toolkit", despliegue en un clic.
  • Local: Clona ostris/ai-toolkit e instala dependencias.
Probar Entrenamiento Cloud Fal.ai →

6 Pasos Proceso Rápido

1

Preparar Dataset

Esto determina la calidad. Prepara 10-30 imágenes de alta calidad.

  • Resolución: 1024x1024 (Punto ideal). Usa 768x768 para poca VRAM.
  • Diversidad: Asegura diferentes ángulos, iluminación y fondos para evitar sobreajuste.
  • Subtítulos: Crea archivos .txt con el mismo nombre. Ej: img01.png -> img01.txt con contenido "[trigger], descripción..."
2

Iniciar AI Toolkit

Usamos la interfaz Gradio de Ostris AI Toolkit para configuración visual.

# Comando local
python run.py --ui

Usuarios de RunPod solo clic en "Connect to HTTP Port" después del despliegue.

3

Configuración Crítica

Crea un nuevo Job en la UI. Sigue estrictamente estos ajustes para preservar la velocidad Turbo.

SectionSetting
MODELRuta: Tongyi-MAI/Z-Image-Turbo (Debe usar preset con adaptador de entrenamiento)
TRAININGTasa de Aprendizaje: 0.0001 (Demasiado alto arruina la imagen)
TRAININGPasos: 2000 - 3000 / Tamaño de lote 1
TRAININGOptimizador: AdamW8Bit
TARGETRango: 8 - 16 (16 para personajes complejos)
ADVANCEDAvanzado: Habilitar Differential Output Preservation
4

Monitoreo y Selección

Observa las vistas previas generadas en la pestaña Samples. Los primeros pasos muestran el efecto del modelo base, los conceptos emergen gradualmente. Elige el último archivo .safetensors antes del sobreajuste.

5

Inferencia y Uso

El LoRA generado se puede usar directamente en ComfyUI o Diffusers. Recuerda tu palabra clave.

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

Guía Salvador 12GB VRAM

  • • Limitar resolución: Máx 768x768 o usar bucketing.
  • • Caché: Debe habilitar caché de Latents y Text Embeddings.
  • • Optimizador: Cambiar a Adafactor.
  • • Tasa de Aprendizaje: Ajustar a 0.0003.
  • • Pasos: Reducir a 1200-2000 pasos.

Problemas Comunes

¿Imágenes Borrosas / Velocidad Lenta?

Adaptador incorrecto o tasa de aprendizaje muy alta probablemente destruyó la destilación. Usa LR por defecto (0.0001) y asegura que el adaptador de des-destilación esté habilitado.

¿Fuga de Concepto?

¿Los fondos se vuelven parte de tu personaje? Intenta habilitar DOP y bajar el peso de LoRA a 0.6-0.8 durante la inferencia.

¿Falta de Detalle Facial?

Los modelos Turbo a veces suavizan demasiado la piel. Añade "highly detailed skin texture, raw photo" a los prompts o añade primeros planos faciales al entrenamiento.

Z
Z-Image-Turbo

Comprometidos con la construcción del paradigma de IA generativa eficiente de próxima generación basado en el modelado de secuencias unificado.