Z-Image
Leichtgewichtige Bildgenerierungs-Engine

Z-Image ist ein leichtgewichtiges Bildgenerierungstool mit effizienter 8-Schritt-Inferenzarchitektur. Es liefert schnelle, hochwertige KI-Bildgenerierung auf Consumer-GPUs und reduziert die Rechenkosten erheblich.

0/500

Dimensions

Beispiel-Galerie

Filmischer Jazz-Saxophonist

Filmischer Jazz-Saxophonist

Ein hochkinematisches Filmkorn-Foto. In einer verrauchten, schwach beleuchteten Vintage-Jazzbar spielt ein älterer Saxophonist leidenschaftlich. Ein warmes gelbes Bühnenlicht trifft sein Gesicht von der Seite und wirft einen langen Schatten hinter ihm. Der Hintergrund zeigt verschwommene Zuschauer mit Getränken und flackernde Neonschilder. Kodak Portra 400 Filmtextur.

Tokio Regennacht Straßendokumentation

Tokio Regennacht Straßendokumentation

Eine dokumentarische Halbtotale, aufgenommen am belebten Shibuya-Kreuzung in Tokio. Regennacht, nasser Boden reflektiert bunte Neon-Werbetafeln. Eine junge Frau mit transparentem Regenschirm schaut in der Menge zur Kamera zurück, ihre Augen verloren. Um sie herum eilige Fußgänger und Taxis. Hohe ISO, mit Rauschen.

Der Kunsthandwerker Uhrmacher

Der Kunsthandwerker Uhrmacher

Eine ungezwungene Fotografie eines älteren Kunsthandwerkers Uhrmacher an seiner vollgestopften Werkbank. Er trägt eine Vergrößerungsbrille und arbeitet vorsichtig mit einer Pinzette an winzigen Zahnrädern. Der Raum ist gefüllt mit antiken Werkzeugen, Uhrenteilen und warmem, unordentlichem Licht einer Schreibtischlampe. Jedes Detail von Staub und Metalltextur ist scharf.

Tang-Dynastie Hanfu-Porträt

Tang-Dynastie Hanfu-Porträt

Ein Halbporträt einer Dame in prächtiger Tang-Dynastie Hanfu. Sie trägt eine rote, weitärmelige Robe mit Goldstickerei mit exquisiten Pfingstrosen- und Phönix-Mustern und starkem Seidenglanz. Sie hat einen hohen Dutt und trägt goldene Haarnadeln. Der Hintergrund ist ein verschwommener klassischer Garten mit blühenden Apfelblüten. Weiches natürliches Licht.

High-Fashion-Textur

High-Fashion-Textur

Ein High-Fashion-Redaktionsfoto eines Models in einem avantgardistischen Outfit, das vollständig aus recycelten Materialien und gewebtem Kunststoff besteht. Der Fokus liegt auf den komplexen Texturen und Schichten des Kleidungsstücks. Sie steht in einer brutalistischen Betonumgebung. Strenge, architektonische Beleuchtung betont die geometrischen Formen der Kleidung.

Studio Ghibli Illustration

Studio Ghibli Illustration

Eine ruhige digitale Illustration im Stil von Studio Ghibli. Ein gemütliches, vollgestopftes Häuschen, das in die Wurzeln eines riesigen alten Baumes gebaut wurde. Rauch steigt sanft aus dem Schornstein. Sanfte grüne Hügel und flauschige Wolken in einem pastellblauen Himmel. Aquarelltextur, warme Farbpalette, einladende Atmosphäre.

Vintage-Filmplakat "Der Geschmack der Erinnerung"

Vintage-Filmplakat "Der Geschmack der Erinnerung"

Ein fiktives englisches Filmplakat für "The Taste of Memory". In einer rustikalen Küche im Stil des 19. Jahrhunderts. Das Hauptmotiv sind Silhouetten eines Mannes und einer Frau, die sich in einer verschwommenen regnerischen Straße begegnen, in satten blaugrünen Tönen. Der Titel ist in weißer handgeschriebener Kalligraphie vertikal auf der rechten Seite angeordnet. Unten kleiner Text "A FILM BY WONG KAR-WAI". Textur von altem Papier und Falten.

Natur-Magazin-Cover

Natur-Magazin-Cover

Ein vertikales Magazin-Cover-Design. Das Hauptmotiv ist ein Makrofoto eines lebendigen blauen Morpho-Schmetterlings, der auf einem taubedeckten grünen Blatt ruht. Der Titel "BIODIVERSITÄT" steht oben in großer, fetter, weißer serifenloser Schrift. Darunter lesen Untertitel "Die verborgene Welt der Insekten" und "Fotografie von A. Smith". Die Gesamtkomposition ist klar und eindrucksvoll.

Minimalistisches Stuhl-Poster-Design

Minimalistisches Stuhl-Poster-Design

Ein minimalistisches Produkt-Werbeplakat. In der Mitte steht ein Designer-Holzstuhl allein an einem reinweißen Infinity-Pool. Der Hintergrund ist ein minimalistischer blauer Himmel und Horizont. Oben in dünner schwarzer Schrift steht der Markenname "NORDIC LIVING", unten der Slogan "Less is More". Sauberes Licht, Komposition mit Weißraum.

Nicht nur schnell, es ist Vollständig Entwickelt

Z-Image-Turbo füllt die Lücke zwischen leichten und massiven Modellen und findet die perfekte Balance zwischen Geschwindigkeit, Qualität und Benutzerfreundlichkeit.

Native zweisprachige Unterstützung

Angetrieben von Qwen 3.4B LLM. Keine verstümmelten chinesischen Schriftzeichen mehr. Kalligraphie, Beschilderung und komplexe Typografie werden präzise gerendert.

S3-DiT Single Stream

Radikale architektonische Innovation. Text- und Bild-Token werden konsistent verarbeitet, ähnlich wie bei GPT-4, wobei jeder Parameter sowohl für die Generierung als auch für das Verständnis genutzt wird.

Apache 2.0 Lizenz

Echte Open-Source-Freiheit. Im Gegensatz zu den kommerziellen Einschränkungen von Flux.1 können Sie es frei kommerziell nutzen, modifizieren und integrieren. Ideal für Startups.

6B Parameter Goldene Balance
8 Steps Inferenz Decoupled-DMD
Qwen 3.4B Text-Encoder Nativ Zweisprachig
12GB VRAM-Bedarf Keine Quantisierung nötig
Kerntechnologie

S3-DiT: Modale Barrieren durchbrechen

Traditionelle Modelle verwenden eine „Dual-Stream“-Architektur. Z-Image-Turbo verwendet Scalable Single-Stream Diffusion Transformer (S3-DiT).

  • Vereinheitlichter Eingangsstrom: Text-Token und Bild-Latents werden direkt verkettet.
  • Vollständige Parameter-Interaktion: Jede Transformer-Schicht führt eine tiefe Text-Bild-Aufmerksamkeitsberechnung durch.
  • Decoupled-DMD: Der Kernalgorithmus, der die Inferenz auf nur 8 Schritte komprimiert.
  • CFG-Verbesserung: Unabhängig optimierte Leitsignale für scharfe Bilder ohne hohe CFG-Werte.
Architecture_v1.0
Text Token
+
Img Latent
Unified Transformer Block Self-Attention (All-to-All)
High-Fidelity Output (8 Steps)

Warum Z-Image-Turbo wählen?

Wir bieten die optimale Lösung für Leistung, Kosten und Ökosystem.

MetrikZ-Image-TurboFlux.1 (Dev)SDXL Base
Parameter6B (Ausgewogen)12B (Massiv)2.6B
VRAM12GB (Nativ BF16)24GB+ (oder Quant)8GB
Schritte8 Schritte (Destilliert)20-50 Schritte20-50 Schritte
Text-EncoderQwen 3.4B (Bi-Lingual)T5 + CLIPOpenCLIP
Typografie⭐️⭐️⭐️⭐️⭐️ Perfekt⭐️⭐️ Schlecht⭐️ Verstümmelt
LizenzApache 2.0Nicht-KommerziellOpenRAIL++
Kosten/Bild~$0.0029HochNiedrig

Ein Segen für Consumer-Hardware

Dank der 6B-Parameterskala und der 8-Schritt-Destillation erreicht Z-Image-Turbo auf RTX 3090/4090 eine Generierung in 2-3s. Für Unternehmens-H800 ist eine Reaktion im Subsekundenbereich Realität.

Nvidia H800 (Enterprise) < 1 s
RTX 4090 (Consumer High-End) ~ 2.5 s
Flux.1 Dev (RTX 4090) ~ 10 s+

Schnellstart

# Schnellladen mit Diffusers

from diffusers import DiffusionPipeline

import torch


# 8-Step Turbo Modell laden

pipe = DiffusionPipeline.from_pretrained(

  "Tongyi-MAI/Z-Image-Turbo",

  torch_dtype=torch.bfloat16

).to("cuda")


# Bild generieren

image = pipe(

  prompt="Cyberpunk-Detektiv, regnerische Nacht, Neonlichter, chinesisches Schild mit der Aufschrift „Tongyi Lab“",

  num_inference_steps=8,

  guidance_scale=1.0 # Destillierte Modelle brauchen kein hohes CFG

).images[0]

Häufig gestellte Fragen

Fragen zu Bereitstellung, Nutzung und Lizenzierung.

GPU-Anforderungen?

Für native Präzision (BF16) werden 16GB VRAM (RTX 4080/3090) empfohlen. Mit GGUF/NF4-Quantisierung laufen 8GB VRAM-Karten (RTX 3060) flüssig mit minimalem Qualitätsverlust.

Darf ich es kommerziell nutzen?

Ja. Z-Image-Turbo verwendet die permissive Apache 2.0-Lizenz. Sie können es ohne Gebühren frei für kommerzielle Produkte nutzen.

Wie schreibe ich chinesische Prompts?

Einfach wie beim Chatten. Dank Qwen 3.4B können Sie komplexe Sätze verwenden. Für Textrendering setzen Sie den Text in Anführungszeichen.

Unterstützung für ComfyUI / WebUI?

Ja. ComfyUI hat Day-0-Support. Automatic1111 WebUI-Support ist im Dev-Branch und kommt bald.

Vorteil gegenüber Flux.1?

Z-Image-Turbo löst Effizienz und Benutzerfreundlichkeit. Während Flux bei extremer Qualität glänzt, bietet Z-Image 3-fache Geschwindigkeit, halben VRAM-Verbrauch und bessere chinesische Unterstützung.

Z
Z-Image-Turbo

Verpflichtet, das Paradigma der effizienten generativen KI der nächsten Generation auf der Grundlage einer einheitlichen Sequenzmodellierung aufzubauen.