Domine a Arte do Treinamento LoRA
Z-Image Turbo
O guia definitivo baseado no Ostris AI Toolkit. Injete personagens, estilos e objetos personalizados neste modelo ultrarrápido da Alibaba Cloud sem sacrificar a velocidade de inferência de 8 etapas.
Velocidade Extrema
Gere imagens de alta qualidade em apenas 8 etapas (NFEs), atingindo latência sub-segundo muito além do SDXL tradicional.
Estilo Fotorrealista
Excelente em iluminação e texturas realistas, especialmente adequado para fotografia de retrato e treinamento LoRA cinematográfico.
Treinamento Eficiente
Usa adaptadores de des-destilação especializados para evitar que o treinamento destrua a vantagem de velocidade do modelo.
Pré-requisitos
Certifique-se de que seu hardware e ambiente atendam aos seguintes requisitos antes de começar.
Hardware
- Recomendado: 24GB+ VRAM (RTX 3090/4090) para melhor velocidade.
- Mínimo: 12GB VRAM (RTX 3060). Requer float8 e otimização de memória.
Ambiente
- Nuvem (Recomendado): RunPod usando modelo "Ostris AI Toolkit", deploy em um clique.
- Local: Clone ostris/ai-toolkit e instale dependências.
6 Passos Processo Rápido
Preparar Dataset
Isso determina a qualidade. Prepare 10-30 imagens de alta qualidade.
- Resolução: 1024x1024 (Ponto ideal). Use 768x768 para pouca VRAM.
- Diversidade: Garanta diferentes ângulos, iluminação e fundos para evitar overfitting.
- Legendas: Crie arquivos .txt com o mesmo nome. Ex: img01.png -> img01.txt contendo "[trigger], descrição..."
Iniciar AI Toolkit
Usamos a interface Gradio do Ostris AI Toolkit para configuração visual.
python run.py --ui
Usuários do RunPod apenas clicam em "Connect to HTTP Port" após o deploy.
Configuração Crítica
Crie um novo Job na UI. Siga estritamente essas configurações para preservar a velocidade Turbo.
| Section | Setting |
|---|---|
| MODEL | Caminho: Tongyi-MAI/Z-Image-Turbo (Deve usar preset com adaptador de treinamento) |
| TRAINING | Taxa de Aprendizado: 0.0001 (Muito alto arruína a imagem) |
| TRAINING | Etapas: 2000 - 3000 / Tamanho do lote 1 |
| TRAINING | Otimizador: AdamW8Bit |
| TARGET | Rank: 8 - 16 (16 para personagens complexos) |
| ADVANCED | Avançado: Habilitar Differential Output Preservation |
Monitoramento e Seleção
Observe as prévias geradas na aba Samples. As primeiras etapas mostram o efeito do modelo base, conceitos emergem gradualmente. Escolha o último arquivo .safetensors antes do overfitting.
Inferência e Uso
O LoRA gerado pode ser usado diretamente no ComfyUI ou Diffusers. Lembre-se da sua palavra-chave.
import torch
from diffusers import AutoPipelineForText2Image
# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16
).to("cuda")
# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")
# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")Guia Salvador 12GB VRAM
- • Limitar resolução: Max 768x768 ou usar bucketing.
- • Cache: Deve habilitar cache de Latents e Text Embeddings.
- • Otimizador: Mudar para Adafactor.
- • Taxa de Aprendizado: Ajustar para 0.0003.
- • Etapas: Reduzir para 1200-2000 etapas.
Problemas Comuns
Imagens Desfocadas / Velocidade Lenta?
Adaptador errado ou taxa de aprendizado muito alta provavelmente destruiu a destilação. Use LR padrão (0.0001) e garanta que o adaptador de des-destilação esteja habilitado.
Vazamento de Conceito?
Fundos se tornando parte do seu personagem? Tente habilitar DOP e baixar o peso do LoRA para 0.6-0.8 durante a inferência.
Falta de Detalhe Facial?
Modelos Turbo às vezes suavizam demais a pele. Adicione "highly detailed skin texture, raw photo" aos prompts ou adicione close-ups faciais ao treinamento.