Domine a Arte do Treinamento LoRA
Z-Image Turbo

O guia definitivo baseado no Ostris AI Toolkit. Injete personagens, estilos e objetos personalizados neste modelo ultrarrápido da Alibaba Cloud sem sacrificar a velocidade de inferência de 8 etapas.

Velocidade Extrema

Gere imagens de alta qualidade em apenas 8 etapas (NFEs), atingindo latência sub-segundo muito além do SDXL tradicional.

Estilo Fotorrealista

Excelente em iluminação e texturas realistas, especialmente adequado para fotografia de retrato e treinamento LoRA cinematográfico.

Treinamento Eficiente

Usa adaptadores de des-destilação especializados para evitar que o treinamento destrua a vantagem de velocidade do modelo.

Pré-requisitos

Certifique-se de que seu hardware e ambiente atendam aos seguintes requisitos antes de começar.

Hardware

  • Recomendado: 24GB+ VRAM (RTX 3090/4090) para melhor velocidade.
  • Mínimo: 12GB VRAM (RTX 3060). Requer float8 e otimização de memória.

Ambiente

  • Nuvem (Recomendado): RunPod usando modelo "Ostris AI Toolkit", deploy em um clique.
  • Local: Clone ostris/ai-toolkit e instale dependências.
Experimentar Treinamento Cloud Fal.ai →

6 Passos Processo Rápido

1

Preparar Dataset

Isso determina a qualidade. Prepare 10-30 imagens de alta qualidade.

  • Resolução: 1024x1024 (Ponto ideal). Use 768x768 para pouca VRAM.
  • Diversidade: Garanta diferentes ângulos, iluminação e fundos para evitar overfitting.
  • Legendas: Crie arquivos .txt com o mesmo nome. Ex: img01.png -> img01.txt contendo "[trigger], descrição..."
2

Iniciar AI Toolkit

Usamos a interface Gradio do Ostris AI Toolkit para configuração visual.

# Comando local
python run.py --ui

Usuários do RunPod apenas clicam em "Connect to HTTP Port" após o deploy.

3

Configuração Crítica

Crie um novo Job na UI. Siga estritamente essas configurações para preservar a velocidade Turbo.

SectionSetting
MODELCaminho: Tongyi-MAI/Z-Image-Turbo (Deve usar preset com adaptador de treinamento)
TRAININGTaxa de Aprendizado: 0.0001 (Muito alto arruína a imagem)
TRAININGEtapas: 2000 - 3000 / Tamanho do lote 1
TRAININGOtimizador: AdamW8Bit
TARGETRank: 8 - 16 (16 para personagens complexos)
ADVANCEDAvançado: Habilitar Differential Output Preservation
4

Monitoramento e Seleção

Observe as prévias geradas na aba Samples. As primeiras etapas mostram o efeito do modelo base, conceitos emergem gradualmente. Escolha o último arquivo .safetensors antes do overfitting.

5

Inferência e Uso

O LoRA gerado pode ser usado diretamente no ComfyUI ou Diffusers. Lembre-se da sua palavra-chave.

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

Guia Salvador 12GB VRAM

  • • Limitar resolução: Max 768x768 ou usar bucketing.
  • • Cache: Deve habilitar cache de Latents e Text Embeddings.
  • • Otimizador: Mudar para Adafactor.
  • • Taxa de Aprendizado: Ajustar para 0.0003.
  • • Etapas: Reduzir para 1200-2000 etapas.

Problemas Comuns

Imagens Desfocadas / Velocidade Lenta?

Adaptador errado ou taxa de aprendizado muito alta provavelmente destruiu a destilação. Use LR padrão (0.0001) e garanta que o adaptador de des-destilação esteja habilitado.

Vazamento de Conceito?

Fundos se tornando parte do seu personagem? Tente habilitar DOP e baixar o peso do LoRA para 0.6-0.8 durante a inferência.

Falta de Detalhe Facial?

Modelos Turbo às vezes suavizam demais a pele. Adicione "highly detailed skin texture, raw photo" aos prompts ou adicione close-ups faciais ao treinamento.

Z
Z-Image-Turbo

Comprometidos em construir o paradigma de IA generativa eficiente de próxima geração baseado em modelagem de sequência unificada.