Meistern Sie die Kunst des Z-Image Turbo
LoRA-Trainings
Der definitive Leitfaden basierend auf dem Ostris AI Toolkit. Integrieren Sie eigene Charaktere, Stile und Objekte in dieses ultraschnelle Modell von Alibaba Cloud, ohne die 8-Schritt-Inferenzgeschwindigkeit zu opfern.
Extreme Geschwindigkeit
Generieren Sie hochwertige Bilder in nur 8 Schritten (NFEs) und erreichen Sie Latenzzeiten im Subsekundenbereich, weit jenseits von traditionellem SDXL.
Fotorealistischer Stil
Hervorragend in realistischer Licht- und Texturdarstellung, besonders geeignet für Porträtfotografie und filmisches LoRA-Training.
Effizientes Training
Verwendet spezielle De-Distillations-Adapter, um zu verhindern, dass das Training den Geschwindigkeitsvorteil des Modells zerstört.
Voraussetzungen
Stellen Sie sicher, dass Ihre Hardware und Umgebung die folgenden Anforderungen erfüllen, bevor Sie beginnen.
Hardware
- Empfohlen: 24GB+ VRAM (RTX 3090/4090) für beste Geschwindigkeit.
- Minimum: 12GB VRAM (RTX 3060). Erfordert float8 und Speicheroptimierung.
Umgebung
- Cloud (Empfohlen): RunPod mit "Ostris AI Toolkit"-Vorlage, One-Click-Deploy.
- Lokal: Klonen Sie ostris/ai-toolkit und installieren Sie Abhängigkeiten.
6-Schritte Trainingsprozess
Datensatz vorbereiten
Dies bestimmt die Qualität. Bereiten Sie 10-30 hochwertige Bilder vor.
- Auflösung: 1024x1024 (Ideal). Nutzen Sie 768x768 für wenig VRAM.
- Vielfalt: Sorgen Sie für verschiedene Winkel, Beleuchtungen und Hintergründe, um Overfitting zu vermeiden.
- Beschriftungen: Erstellen Sie .txt-Dateien mit demselben Namen. Z.B. img01.png -> img01.txt mit Inhalt "[trigger], Beschreibung..."
AI Toolkit starten
Wir verwenden die Gradio-Oberfläche des Ostris AI Toolkits zur visuellen Konfiguration.
python run.py --ui
RunPod-Nutzer klicken nach der Bereitstellung einfach auf "Connect to HTTP Port".
Kritische Konfiguration
Erstellen Sie einen neuen Job in der UI. Befolgen Sie diese Einstellungen strikt, um die Turbo-Geschwindigkeit zu erhalten.
| Section | Setting |
|---|---|
| MODEL | Pfad: Tongyi-MAI/Z-Image-Turbo (Muss Preset mit Training-Adapter wählen) |
| TRAINING | Lernrate: 0.0001 (Zu hoch ruiniert das Bild) |
| TRAINING | Schritte: 2000 - 3000 / Batch-Größe 1 |
| TRAINING | Optimierer: AdamW8Bit |
| TARGET | Rang: 8 - 16 (16 für komplexe Charaktere) |
| ADVANCED | Erweitert: Differential Output Preservation aktivieren |
Überwachung & Auswahl
Beobachten Sie die generierten Vorschauen im Tab "Samples". Frühe Schritte zeigen den Basismodell-Effekt, Konzepte tauchen nach und nach auf. Wählen Sie die letzte .safetensors-Datei vor dem Overfitting.
Inferenz & Nutzung
Das generierte LoRA kann direkt in ComfyUI oder Diffusers verwendet werden. Vergessen Sie Ihr Trigger-Wort nicht.
import torch
from diffusers import AutoPipelineForText2Image
# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16
).to("cuda")
# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")
# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")12GB VRAM Rettungs-Guide
- • Auflösung begrenzen: Max 768x768 oder Bucketing verwenden.
- • Cache: Latents und Text Embeddings Caching muss aktiviert sein.
- • Optimierer: Wechseln zu Adafactor.
- • Lernrate: Anpassen auf 0.0003.
- • Schritte: Reduzieren auf 1200-2000 Schritte.
Häufige Probleme
Unscharfe Bilder / Langsame Geschwindigkeit?
Falscher Adapter oder zu hohe Lernrate zerstören wahrscheinlich den Destillationseffekt. Verwenden Sie Standard-LR (0.0001) und stellen Sie sicher, dass der De-Distillations-Adapter aktiviert ist.
Konzept-Leckage?
Hintergründe werden Teil Ihres Charakters? Versuchen Sie, DOP zu aktivieren und das LoRA-Gewicht bei der Inferenz auf 0.6-0.8 zu senken.
Fehlende Gesichtsdetails?
Turbo-Modelle glätten die Haut manchmal zu stark. Fügen Sie "highly detailed skin texture, raw photo" zu Prompts hinzu oder ergänzen Sie Nahaufnahmen im Training.