Maîtrisez l'Art de l'Entraînement LoRA Z-Image Turbo

Le guide définitif basé sur Ostris AI Toolkit. Injectez des personnages, styles et objets personnalisés dans ce modèle ultra-rapide d'Alibaba Cloud sans sacrifier la vitesse d'inférence en 8 étapes.

Vitesse Extrême

Générez des images de haute qualité en seulement 8 étapes (NFEs), atteignant une latence inférieure à la seconde, bien au-delà du SDXL traditionnel.

Style Photoréaliste

Excellente représentation de l'éclairage et des textures réalistes, particulièrement adapté à la photographie de portrait et à l'entraînement LoRA cinématographique.

Entraînement Efficace

Utilise des adaptateurs de dé-distillation spécialisés pour empêcher l'entraînement de détruire l'avantage de vitesse du modèle.

Prérequis

Assurez-vous que votre matériel et votre environnement répondent aux exigences suivantes avant de commencer.

Matériel

  • Recommandé : 24GB+ VRAM (RTX 3090/4090) pour une vitesse optimale.
  • Minimum : 12GB VRAM (RTX 3060). Nécessite float8 et optimisation mémoire.

Environnement

  • Cloud (Recommandé) : RunPod avec le modèle "Ostris AI Toolkit", déploiement en un clic.
  • Local : Clonez ostris/ai-toolkit et installez les dépendances.
Essayer l'entraînement Cloud Fal.ai →

6 Étapes Processus Rapide

1

Préparer le Dataset

Ceci détermine la qualité. Préparez 10-30 images de haute qualité.

  • Résolution : 1024x1024 (Idéal). Utilisez 768x768 pour une VRAM faible.
  • Diversité : Assurez différents angles, éclairages et arrière-plans pour éviter le surajustement.
  • Légendes : Créez des fichiers .txt du même nom. Ex : img01.png -> img01.txt contenant "[trigger], description..."
2

Lancer AI Toolkit

Nous utilisons l'interface Gradio d'Ostris AI Toolkit pour la configuration visuelle.

# Commande locale
python run.py --ui

Les utilisateurs RunPod cliquent simplement sur "Connect to HTTP Port" après déploiement.

3

Configuration Critique

Créez un nouveau Job dans l'UI. Suivez strictement ces paramètres pour préserver la vitesse Turbo.

SectionSetting
MODELChemin : Tongyi-MAI/Z-Image-Turbo (Doit utiliser le preset avec adaptateur d'entraînement)
TRAININGTaux d'apprentissage : 0.0001 (Trop élevé ruine l'image)
TRAININGÉtapes : 2000 - 3000 / Taille de lot 1
TRAININGOptimiseur : AdamW8Bit
TARGETRang : 8 - 16 (16 pour personnages complexes)
ADVANCEDAvancé : Activer Differential Output Preservation
4

Surveillance & Sélection

Observez les aperçus générés dans l'onglet Samples. Les premières étapes montrent l'effet du modèle de base, les concepts émergent progressivement. Choisissez le dernier fichier .safetensors avant le surajustement.

5

Inférence & Utilisation

Le LoRA généré peut être utilisé directement dans ComfyUI ou Diffusers. N'oubliez pas votre mot déclencheur.

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

Guide Sauveur 12GB VRAM

  • • Limiter résolution : Max 768x768 ou utiliser le bucketing.
  • • Cache : Doit activer le cache des Latents et Text Embeddings.
  • • Optimiseur : Passer à Adafactor.
  • • Taux d'apprentissage : Ajuster à 0.0003.
  • • Étapes : Réduire à 1200-2000 étapes.

Problèmes Courants

Images Floues / Vitesse Lente ?

Mauvais adaptateur ou taux d'apprentissage trop élevé a probablement détruit la distillation. Utilisez LR par défaut (0.0001) et assurez-vous que l'adaptateur de dé-distillation est activé.

Fuite de Concept ?

Les arrière-plans deviennent partie de votre personnage ? Essayez d'activer DOP et de baisser le poids LoRA à 0.6-0.8 lors de l'inférence.

Manque de Détail Visage ?

Les modèles Turbo lissent parfois trop la peau. Ajoutez "highly detailed skin texture, raw photo" aux prompts ou ajoutez des gros plans faciaux aux données d'entraînement.

Z
Z-Image-Turbo

Engagé dans la construction du paradigme de l'IA générative efficace de nouvelle génération basé sur la modélisation de séquences unifiée.