Maîtrisez l'Art de l'Entraînement LoRA Z-Image Turbo
Le guide définitif basé sur Ostris AI Toolkit. Injectez des personnages, styles et objets personnalisés dans ce modèle ultra-rapide d'Alibaba Cloud sans sacrifier la vitesse d'inférence en 8 étapes.
Vitesse Extrême
Générez des images de haute qualité en seulement 8 étapes (NFEs), atteignant une latence inférieure à la seconde, bien au-delà du SDXL traditionnel.
Style Photoréaliste
Excellente représentation de l'éclairage et des textures réalistes, particulièrement adapté à la photographie de portrait et à l'entraînement LoRA cinématographique.
Entraînement Efficace
Utilise des adaptateurs de dé-distillation spécialisés pour empêcher l'entraînement de détruire l'avantage de vitesse du modèle.
Prérequis
Assurez-vous que votre matériel et votre environnement répondent aux exigences suivantes avant de commencer.
Matériel
- Recommandé : 24GB+ VRAM (RTX 3090/4090) pour une vitesse optimale.
- Minimum : 12GB VRAM (RTX 3060). Nécessite float8 et optimisation mémoire.
Environnement
- Cloud (Recommandé) : RunPod avec le modèle "Ostris AI Toolkit", déploiement en un clic.
- Local : Clonez ostris/ai-toolkit et installez les dépendances.
6 Étapes Processus Rapide
Préparer le Dataset
Ceci détermine la qualité. Préparez 10-30 images de haute qualité.
- Résolution : 1024x1024 (Idéal). Utilisez 768x768 pour une VRAM faible.
- Diversité : Assurez différents angles, éclairages et arrière-plans pour éviter le surajustement.
- Légendes : Créez des fichiers .txt du même nom. Ex : img01.png -> img01.txt contenant "[trigger], description..."
Lancer AI Toolkit
Nous utilisons l'interface Gradio d'Ostris AI Toolkit pour la configuration visuelle.
python run.py --ui
Les utilisateurs RunPod cliquent simplement sur "Connect to HTTP Port" après déploiement.
Configuration Critique
Créez un nouveau Job dans l'UI. Suivez strictement ces paramètres pour préserver la vitesse Turbo.
| Section | Setting |
|---|---|
| MODEL | Chemin : Tongyi-MAI/Z-Image-Turbo (Doit utiliser le preset avec adaptateur d'entraînement) |
| TRAINING | Taux d'apprentissage : 0.0001 (Trop élevé ruine l'image) |
| TRAINING | Étapes : 2000 - 3000 / Taille de lot 1 |
| TRAINING | Optimiseur : AdamW8Bit |
| TARGET | Rang : 8 - 16 (16 pour personnages complexes) |
| ADVANCED | Avancé : Activer Differential Output Preservation |
Surveillance & Sélection
Observez les aperçus générés dans l'onglet Samples. Les premières étapes montrent l'effet du modèle de base, les concepts émergent progressivement. Choisissez le dernier fichier .safetensors avant le surajustement.
Inférence & Utilisation
Le LoRA généré peut être utilisé directement dans ComfyUI ou Diffusers. N'oubliez pas votre mot déclencheur.
import torch
from diffusers import AutoPipelineForText2Image
# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16
).to("cuda")
# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")
# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")Guide Sauveur 12GB VRAM
- • Limiter résolution : Max 768x768 ou utiliser le bucketing.
- • Cache : Doit activer le cache des Latents et Text Embeddings.
- • Optimiseur : Passer à Adafactor.
- • Taux d'apprentissage : Ajuster à 0.0003.
- • Étapes : Réduire à 1200-2000 étapes.
Problèmes Courants
Images Floues / Vitesse Lente ?
Mauvais adaptateur ou taux d'apprentissage trop élevé a probablement détruit la distillation. Utilisez LR par défaut (0.0001) et assurez-vous que l'adaptateur de dé-distillation est activé.
Fuite de Concept ?
Les arrière-plans deviennent partie de votre personnage ? Essayez d'activer DOP et de baisser le poids LoRA à 0.6-0.8 lors de l'inférence.
Manque de Détail Visage ?
Les modèles Turbo lissent parfois trop la peau. Ajoutez "highly detailed skin texture, raw photo" aux prompts ou ajoutez des gros plans faciaux aux données d'entraînement.