Meistern Sie die Kunst des Z-Image Turbo
LoRA-Trainings

Der definitive Leitfaden basierend auf dem Ostris AI Toolkit. Integrieren Sie eigene Charaktere, Stile und Objekte in dieses ultraschnelle Modell von Alibaba Cloud, ohne die 8-Schritt-Inferenzgeschwindigkeit zu opfern.

Extreme Geschwindigkeit

Generieren Sie hochwertige Bilder in nur 8 Schritten (NFEs) und erreichen Sie Latenzzeiten im Subsekundenbereich, weit jenseits von traditionellem SDXL.

Fotorealistischer Stil

Hervorragend in realistischer Licht- und Texturdarstellung, besonders geeignet für Porträtfotografie und filmisches LoRA-Training.

Effizientes Training

Verwendet spezielle De-Distillations-Adapter, um zu verhindern, dass das Training den Geschwindigkeitsvorteil des Modells zerstört.

Voraussetzungen

Stellen Sie sicher, dass Ihre Hardware und Umgebung die folgenden Anforderungen erfüllen, bevor Sie beginnen.

Hardware

Empfohlen: 24GB+ VRAM (RTX 3090/4090) für beste Geschwindigkeit.
Minimum: 12GB VRAM (RTX 3060). Erfordert float8 und Speicheroptimierung.

Umgebung

Cloud (Empfohlen): RunPod mit "Ostris AI Toolkit"-Vorlage, One-Click-Deploy.
Lokal: Klonen Sie ostris/ai-toolkit und installieren Sie Abhängigkeiten.

Fal.ai Cloud-Training ausprobieren →

6-Schritte Trainingsprozess

Datensatz vorbereiten

Dies bestimmt die Qualität. Bereiten Sie 10-30 hochwertige Bilder vor.

Auflösung: 1024x1024 (Ideal). Nutzen Sie 768x768 für wenig VRAM.
Vielfalt: Sorgen Sie für verschiedene Winkel, Beleuchtungen und Hintergründe, um Overfitting zu vermeiden.
Beschriftungen: Erstellen Sie .txt-Dateien mit demselben Namen. Z.B. img01.png -> img01.txt mit Inhalt "[trigger], Beschreibung..."

AI Toolkit starten

Wir verwenden die Gradio-Oberfläche des Ostris AI Toolkits zur visuellen Konfiguration.

# Lokaler Ausführungsbefehl
python run.py --ui

RunPod-Nutzer klicken nach der Bereitstellung einfach auf "Connect to HTTP Port".

Kritische Konfiguration

Erstellen Sie einen neuen Job in der UI. Befolgen Sie diese Einstellungen strikt, um die Turbo-Geschwindigkeit zu erhalten.

Section	Setting
MODEL	Pfad: Tongyi-MAI/Z-Image-Turbo (Muss Preset mit Training-Adapter wählen)
TRAINING	Lernrate: 0.0001 (Zu hoch ruiniert das Bild)
TRAINING	Schritte: 2000 - 3000 / Batch-Größe 1
TRAINING	Optimierer: AdamW8Bit
TARGET	Rang: 8 - 16 (16 für komplexe Charaktere)
ADVANCED	Erweitert: Differential Output Preservation aktivieren

Überwachung & Auswahl

Beobachten Sie die generierten Vorschauen im Tab "Samples". Frühe Schritte zeigen den Basismodell-Effekt, Konzepte tauchen nach und nach auf. Wählen Sie die letzte .safetensors-Datei vor dem Overfitting.

Inferenz & Nutzung

Das generierte LoRA kann direkt in ComfyUI oder Diffusers verwendet werden. Vergessen Sie Ihr Trigger-Wort nicht.

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM Rettungs-Guide

• Auflösung begrenzen: Max 768x768 oder Bucketing verwenden.
• Cache: Latents und Text Embeddings Caching muss aktiviert sein.
• Optimierer: Wechseln zu Adafactor.
• Lernrate: Anpassen auf 0.0003.
• Schritte: Reduzieren auf 1200-2000 Schritte.

Häufige Probleme

Unscharfe Bilder / Langsame Geschwindigkeit?

Falscher Adapter oder zu hohe Lernrate zerstören wahrscheinlich den Destillationseffekt. Verwenden Sie Standard-LR (0.0001) und stellen Sie sicher, dass der De-Distillations-Adapter aktiviert ist.

Konzept-Leckage?

Hintergründe werden Teil Ihres Charakters? Versuchen Sie, DOP zu aktivieren und das LoRA-Gewicht bei der Inferenz auf 0.6-0.8 zu senken.

Fehlende Gesichtsdetails?

Turbo-Modelle glätten die Haut manchmal zu stark. Fügen Sie "highly detailed skin texture, raw photo" zu Prompts hinzu oder ergänzen Sie Nahaufnahmen im Training.

Meistern Sie die Kunst des Z-Image TurboLoRA-Trainings