Maîtrisez l'Art de l'Entraînement LoRA Z-Image Turbo

Le guide définitif basé sur Ostris AI Toolkit. Injectez des personnages, styles et objets personnalisés dans ce modèle ultra-rapide d'Alibaba Cloud sans sacrifier la vitesse d'inférence en 8 étapes.

Vitesse Extrême

Générez des images de haute qualité en seulement 8 étapes (NFEs), atteignant une latence inférieure à la seconde, bien au-delà du SDXL traditionnel.

Style Photoréaliste

Excellente représentation de l'éclairage et des textures réalistes, particulièrement adapté à la photographie de portrait et à l'entraînement LoRA cinématographique.

Entraînement Efficace

Utilise des adaptateurs de dé-distillation spécialisés pour empêcher l'entraînement de détruire l'avantage de vitesse du modèle.

Prérequis

Assurez-vous que votre matériel et votre environnement répondent aux exigences suivantes avant de commencer.

Matériel

Recommandé : 24GB+ VRAM (RTX 3090/4090) pour une vitesse optimale.
Minimum : 12GB VRAM (RTX 3060). Nécessite float8 et optimisation mémoire.

Environnement

Cloud (Recommandé) : RunPod avec le modèle "Ostris AI Toolkit", déploiement en un clic.
Local : Clonez ostris/ai-toolkit et installez les dépendances.

Essayer l'entraînement Cloud Fal.ai →

6 Étapes Processus Rapide

Préparer le Dataset

Ceci détermine la qualité. Préparez 10-30 images de haute qualité.

Résolution : 1024x1024 (Idéal). Utilisez 768x768 pour une VRAM faible.
Diversité : Assurez différents angles, éclairages et arrière-plans pour éviter le surajustement.
Légendes : Créez des fichiers .txt du même nom. Ex : img01.png -> img01.txt contenant "[trigger], description..."

Lancer AI Toolkit

Nous utilisons l'interface Gradio d'Ostris AI Toolkit pour la configuration visuelle.

# Commande locale
python run.py --ui

Les utilisateurs RunPod cliquent simplement sur "Connect to HTTP Port" après déploiement.

Configuration Critique

Créez un nouveau Job dans l'UI. Suivez strictement ces paramètres pour préserver la vitesse Turbo.

Section	Setting
MODEL	Chemin : Tongyi-MAI/Z-Image-Turbo (Doit utiliser le preset avec adaptateur d'entraînement)
TRAINING	Taux d'apprentissage : 0.0001 (Trop élevé ruine l'image)
TRAINING	Étapes : 2000 - 3000 / Taille de lot 1
TRAINING	Optimiseur : AdamW8Bit
TARGET	Rang : 8 - 16 (16 pour personnages complexes)
ADVANCED	Avancé : Activer Differential Output Preservation

Surveillance & Sélection

Observez les aperçus générés dans l'onglet Samples. Les premières étapes montrent l'effet du modèle de base, les concepts émergent progressivement. Choisissez le dernier fichier .safetensors avant le surajustement.

Inférence & Utilisation

Le LoRA généré peut être utilisé directement dans ComfyUI ou Diffusers. N'oubliez pas votre mot déclencheur.

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

Guide Sauveur 12GB VRAM

• Limiter résolution : Max 768x768 ou utiliser le bucketing.
• Cache : Doit activer le cache des Latents et Text Embeddings.
• Optimiseur : Passer à Adafactor.
• Taux d'apprentissage : Ajuster à 0.0003.
• Étapes : Réduire à 1200-2000 étapes.

Problèmes Courants

Images Floues / Vitesse Lente ?

Mauvais adaptateur ou taux d'apprentissage trop élevé a probablement détruit la distillation. Utilisez LR par défaut (0.0001) et assurez-vous que l'adaptateur de dé-distillation est activé.

Fuite de Concept ?

Les arrière-plans deviennent partie de votre personnage ? Essayez d'activer DOP et de baisser le poids LoRA à 0.6-0.8 lors de l'inférence.

Manque de Détail Visage ?

Les modèles Turbo lissent parfois trop la peau. Ajoutez "highly detailed skin texture, raw photo" aux prompts ou ajoutez des gros plans faciaux aux données d'entraînement.