Meistern Sie die Kunst des Z-Image Turbo
LoRA-Trainings

Der definitive Leitfaden basierend auf dem Ostris AI Toolkit. Integrieren Sie eigene Charaktere, Stile und Objekte in dieses ultraschnelle Modell von Alibaba Cloud, ohne die 8-Schritt-Inferenzgeschwindigkeit zu opfern.

Extreme Geschwindigkeit

Generieren Sie hochwertige Bilder in nur 8 Schritten (NFEs) und erreichen Sie Latenzzeiten im Subsekundenbereich, weit jenseits von traditionellem SDXL.

Fotorealistischer Stil

Hervorragend in realistischer Licht- und Texturdarstellung, besonders geeignet für Porträtfotografie und filmisches LoRA-Training.

Effizientes Training

Verwendet spezielle De-Distillations-Adapter, um zu verhindern, dass das Training den Geschwindigkeitsvorteil des Modells zerstört.

Voraussetzungen

Stellen Sie sicher, dass Ihre Hardware und Umgebung die folgenden Anforderungen erfüllen, bevor Sie beginnen.

Hardware

  • Empfohlen: 24GB+ VRAM (RTX 3090/4090) für beste Geschwindigkeit.
  • Minimum: 12GB VRAM (RTX 3060). Erfordert float8 und Speicheroptimierung.

Umgebung

  • Cloud (Empfohlen): RunPod mit "Ostris AI Toolkit"-Vorlage, One-Click-Deploy.
  • Lokal: Klonen Sie ostris/ai-toolkit und installieren Sie Abhängigkeiten.
Fal.ai Cloud-Training ausprobieren →

6-Schritte Trainingsprozess

1

Datensatz vorbereiten

Dies bestimmt die Qualität. Bereiten Sie 10-30 hochwertige Bilder vor.

  • Auflösung: 1024x1024 (Ideal). Nutzen Sie 768x768 für wenig VRAM.
  • Vielfalt: Sorgen Sie für verschiedene Winkel, Beleuchtungen und Hintergründe, um Overfitting zu vermeiden.
  • Beschriftungen: Erstellen Sie .txt-Dateien mit demselben Namen. Z.B. img01.png -> img01.txt mit Inhalt "[trigger], Beschreibung..."
2

AI Toolkit starten

Wir verwenden die Gradio-Oberfläche des Ostris AI Toolkits zur visuellen Konfiguration.

# Lokaler Ausführungsbefehl
python run.py --ui

RunPod-Nutzer klicken nach der Bereitstellung einfach auf "Connect to HTTP Port".

3

Kritische Konfiguration

Erstellen Sie einen neuen Job in der UI. Befolgen Sie diese Einstellungen strikt, um die Turbo-Geschwindigkeit zu erhalten.

SectionSetting
MODELPfad: Tongyi-MAI/Z-Image-Turbo (Muss Preset mit Training-Adapter wählen)
TRAININGLernrate: 0.0001 (Zu hoch ruiniert das Bild)
TRAININGSchritte: 2000 - 3000 / Batch-Größe 1
TRAININGOptimierer: AdamW8Bit
TARGETRang: 8 - 16 (16 für komplexe Charaktere)
ADVANCEDErweitert: Differential Output Preservation aktivieren
4

Überwachung & Auswahl

Beobachten Sie die generierten Vorschauen im Tab "Samples". Frühe Schritte zeigen den Basismodell-Effekt, Konzepte tauchen nach und nach auf. Wählen Sie die letzte .safetensors-Datei vor dem Overfitting.

5

Inferenz & Nutzung

Das generierte LoRA kann direkt in ComfyUI oder Diffusers verwendet werden. Vergessen Sie Ihr Trigger-Wort nicht.

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM Rettungs-Guide

  • • Auflösung begrenzen: Max 768x768 oder Bucketing verwenden.
  • • Cache: Latents und Text Embeddings Caching muss aktiviert sein.
  • • Optimierer: Wechseln zu Adafactor.
  • • Lernrate: Anpassen auf 0.0003.
  • • Schritte: Reduzieren auf 1200-2000 Schritte.

Häufige Probleme

Unscharfe Bilder / Langsame Geschwindigkeit?

Falscher Adapter oder zu hohe Lernrate zerstören wahrscheinlich den Destillationseffekt. Verwenden Sie Standard-LR (0.0001) und stellen Sie sicher, dass der De-Distillations-Adapter aktiviert ist.

Konzept-Leckage?

Hintergründe werden Teil Ihres Charakters? Versuchen Sie, DOP zu aktivieren und das LoRA-Gewicht bei der Inferenz auf 0.6-0.8 zu senken.

Fehlende Gesichtsdetails?

Turbo-Modelle glätten die Haut manchmal zu stark. Fügen Sie "highly detailed skin texture, raw photo" zu Prompts hinzu oder ergänzen Sie Nahaufnahmen im Training.

Z
Z-Image-Turbo

Verpflichtet, das Paradigma der effizienten generativen KI der nächsten Generation auf der Grundlage einer einheitlichen Sequenzmodellierung aufzubauen.