Domina el Arte del Entrenamiento LoRA
Z-Image Turbo

La guía definitiva basada en Ostris AI Toolkit. Inyecta personajes, estilos y objetos personalizados en este modelo ultrarrápido de Alibaba Cloud sin sacrificar la velocidad de inferencia de 8 pasos.

Velocidad Extrema

Genera imágenes de alta calidad en solo 8 pasos (NFEs), logrando latencia sub-segundo muy superior al SDXL tradicional.

Estilo Fotorrealista

Destaca en iluminación y texturas realistas, especialmente adecuado para fotografía de retrato y entrenamiento LoRA cinematográfico.

Entrenamiento Eficiente

Utiliza adaptadores de des-destilación especializados para evitar que el entrenamiento destruya la ventaja de velocidad del modelo.

Requisitos Previos

Asegúrate de que tu hardware y entorno cumplan con los siguientes requisitos antes de comenzar.

Hardware

Recomendado: 24GB+ VRAM (RTX 3090/4090) para mejor velocidad.
Mínimo: 12GB VRAM (RTX 3060). Requiere float8 y optimización de memoria.

Entorno

Nube (Recomendado): RunPod usando plantilla "Ostris AI Toolkit", despliegue en un clic.
Local: Clona ostris/ai-toolkit e instala dependencias.

Probar Entrenamiento Cloud Fal.ai →

6 Pasos Proceso Rápido

Preparar Dataset

Esto determina la calidad. Prepara 10-30 imágenes de alta calidad.

Resolución: 1024x1024 (Punto ideal). Usa 768x768 para poca VRAM.
Diversidad: Asegura diferentes ángulos, iluminación y fondos para evitar sobreajuste.
Subtítulos: Crea archivos .txt con el mismo nombre. Ej: img01.png -> img01.txt con contenido "[trigger], descripción..."

Iniciar AI Toolkit

Usamos la interfaz Gradio de Ostris AI Toolkit para configuración visual.

# Comando local
python run.py --ui

Usuarios de RunPod solo clic en "Connect to HTTP Port" después del despliegue.

Configuración Crítica

Crea un nuevo Job en la UI. Sigue estrictamente estos ajustes para preservar la velocidad Turbo.

Section	Setting
MODEL	Ruta: Tongyi-MAI/Z-Image-Turbo (Debe usar preset con adaptador de entrenamiento)
TRAINING	Tasa de Aprendizaje: 0.0001 (Demasiado alto arruina la imagen)
TRAINING	Pasos: 2000 - 3000 / Tamaño de lote 1
TRAINING	Optimizador: AdamW8Bit
TARGET	Rango: 8 - 16 (16 para personajes complejos)
ADVANCED	Avanzado: Habilitar Differential Output Preservation

Monitoreo y Selección

Observa las vistas previas generadas en la pestaña Samples. Los primeros pasos muestran el efecto del modelo base, los conceptos emergen gradualmente. Elige el último archivo .safetensors antes del sobreajuste.

Inferencia y Uso

El LoRA generado se puede usar directamente en ComfyUI o Diffusers. Recuerda tu palabra clave.

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

Guía Salvador 12GB VRAM

• Limitar resolución: Máx 768x768 o usar bucketing.
• Caché: Debe habilitar caché de Latents y Text Embeddings.
• Optimizador: Cambiar a Adafactor.
• Tasa de Aprendizaje: Ajustar a 0.0003.
• Pasos: Reducir a 1200-2000 pasos.

Problemas Comunes

¿Imágenes Borrosas / Velocidad Lenta?

Adaptador incorrecto o tasa de aprendizaje muy alta probablemente destruyó la destilación. Usa LR por defecto (0.0001) y asegura que el adaptador de des-destilación esté habilitado.

¿Fuga de Concepto?

¿Los fondos se vuelven parte de tu personaje? Intenta habilitar DOP y bajar el peso de LoRA a 0.6-0.8 durante la inferencia.

¿Falta de Detalle Facial?

Los modelos Turbo a veces suavizan demasiado la piel. Añade "highly detailed skin texture, raw photo" a los prompts o añade primeros planos faciales al entrenamiento.

Domina el Arte del Entrenamiento LoRAZ-Image Turbo