Z-Image :
Moteur de génération d'images léger

Z-Image est un outil de génération d'images léger doté d'une architecture d'inférence en 8 étapes efficace. Il offre une génération d'images IA rapide et de haute qualité sur des GPU grand public tout en réduisant considérablement les coûts de calcul.

Prompt 0/500

Dimensions

Galerie d'Exemples

Saxophoniste de Jazz Cinématographique

Une photographie hautement cinématographique avec grain de film. Dans un bar de jazz vintage sombre et enfumé, un saxophoniste âgé joue passionnément. Un projecteur de scène jaune chaud frappe son visage sur le côté, projetant une longue ombre derrière lui. L'arrière-plan montre des membres du public flous tenant des boissons et des enseignes néon clignotantes. Texture de film Kodak Portra 400.

Documentaire de Rue Tokyo Nuit Pluvieuse

Un plan moyen de style documentaire, pris au carrefour animé de Shibuya à Tokyo. Nuit pluvieuse, sol mouillé reflétant des panneaux néon colorés. Une jeune femme tenant un parapluie transparent regarde la caméra dans la foule, ses yeux perdus. Autour d'elle, des piétons pressés et des taxis. ISO élevé, avec bruit.

L'Artisan Horloger

Une photographie spontanée d'un artisan horloger âgé à son établi encombré. Il porte des lunettes grossissantes et travaille soigneusement sur de minuscules engrenages avec des pinces. La pièce est remplie d'outils antiques, de pièces d'horloge et de lumière chaude et désordonnée d'une lampe de bureau. Chaque détail de poussière et de texture métallique est net.

Portrait Hanfu Dynastie Tang

Un portrait en buste d'une dame en magnifique Hanfu de la dynastie Tang. Elle porte une robe rouge à larges manches brodée d'or, avec des motifs exquis de pivoines et de phénix, avec un fort éclat de soie. Elle a un chignon haut et porte des épingles à cheveux dorées. L'arrière-plan est un jardin classique flou avec des fleurs de pommetier en fleurs. Lumière naturelle douce.

Texture Haute Couture

Une photographie éditoriale de haute couture d'un mannequin portant une tenue avant-gardiste entièrement faite de matériaux recyclés et de plastique tissé. L'accent est mis sur les textures et les couches complexes du vêtement. Elle se tient dans un environnement de béton brutaliste. Un éclairage architectural strict met l'accent sur les formes géométriques des vêtements.

Illustration Studio Ghibli

Une illustration numérique sereine dans le style de Studio Ghibli. Une chaumière confortable et encombrée construite dans les racines d'un arbre ancien géant. La fumée s'élève doucement de la cheminée. Des collines verdoyantes et des nuages duveteux dans un ciel bleu pastel. Texture aquarelle, palette de couleurs chaudes, atmosphère accueillante.

Affiche de Film Vintage "Le Goût du Souvenir"

Une affiche de film anglaise fictive pour "The Taste of Memory". Dans une cuisine rustique de style 19e siècle. Le sujet principal est les silhouettes d'un homme et d'une femme se croisant dans une rue pluvieuse floue, dans des tons bleu-vert riches. Le titre est en calligraphie blanche manuscrite disposée verticalement sur le côté droit. Petit texte en bas "A FILM BY WONG KAR-WAI". Texture de vieux papier et de plis.

Couverture de Magazine Nature

Un design de couverture de magazine vertical. Le sujet principal est une photographie macro d'un papillon Morpho bleu vif reposant sur une feuille verte couverte de rosée. Le titre "BIODIVERSITÉ" est en haut dans une grande police sans-serif blanche en gras. En dessous, les sous-titres lisent "Le Monde Caché des Insectes" et "Photographie par A. Smith". La composition générale est nette et frappante.

Conception d'Affiche de Chaise Minimaliste

Une affiche promotionnelle de produit de style minimaliste. Au centre, une chaise en bois design placée seule au bord d'une piscine à débordement blanche pure. L'arrière-plan est un ciel bleu minimaliste et un horizon. En haut dans une police noire fine se trouve le nom de la marque "NORDIC LIVING", et en bas le slogan "Less is More". Éclairage propre, composition avec espace blanc.

Pas seulement rapide, c'est Pleinement évolué

Comblant le fossé entre les modèles légers et massifs, Z-Image-Turbo trouve l'équilibre parfait entre vitesse, qualité et facilité d'utilisation.

Support bilingue natif

Propulsé par le LLM Qwen 3.4B. Fini les caractères chinois brouillés. La calligraphie, la signalétique et la typographie complexe sont rendues avec précision.

Flux unique S3-DiT

Innovation architecturale radicale. Les tokens de texte et d'image sont traités de manière cohérente, similaire à GPT-4, utilisant chaque paramètre pour la génération et la compréhension.

Licence Apache 2.0

Véritable liberté open source. Contrairement aux restrictions commerciales de Flux.1, vous êtes libre de l'utiliser commercialement, de le modifier et de l'intégrer.

6B Paramètres Équilibre doré

8 Steps Inférence Decoupled-DMD

Qwen 3.4B Encodeur Texte Bilingue Natif

12GB VRAM Req Pas de quantification requise

Technologie Principale

S3-DiT : Briser les barrières modales

Les modèles traditionnels utilisent une architecture "double flux". Z-Image-Turbo adopte Scalable Single-Stream Diffusion Transformer (S3-DiT).

Flux d'entrée unifié : Les tokens de texte et les latents d'image sont concaténés directement.
Interaction complète des paramètres : Chaque couche Transformer effectue un calcul d'attention texte-image profond.
Decoupled-DMD : L'algorithme de base qui compresse l'inférence à seulement 8 étapes.
Amélioration CFG : Signaux de guidage optimisés indépendamment pour des images nettes sans valeurs CFG élevées.

Architecture_v1.0

Text Token

Img Latent

Unified Transformer Block Self-Attention (All-to-All)

High-Fidelity Output (8 Steps)

Pourquoi choisir Z-Image-Turbo ?

Nous fournissons la solution optimale équilibrant performance, coût et écosystème.

Métrique	Z-Image-Turbo	Flux.1 (Dev)	SDXL Base
Paramètres	6B (Équilibré)	12B (Massif)	2.6B
VRAM	12GB (Natif BF16)	24GB+ (ou Quant)	8GB
Étapes	8 Étapes (Distillé)	20-50 Étapes	20-50 Étapes
Encodeur Texte	Qwen 3.4B (Bilingue)	T5 + CLIP	OpenCLIP
Typographie	⭐️⭐️⭐️⭐️⭐️ Parfait	⭐️⭐️ Pauvre	⭐️ Brouillé
Licence	Apache 2.0	Non-Commercial	OpenRAIL++
Coût/Img	~$0.0029	Élevé	Faible

Une aubaine pour le matériel grand public

Grâce à l'échelle de paramètres de 6B et à la distillation en 8 étapes, Z-Image-Turbo atteint une génération en 2-3s sur RTX 3090/4090. Pour les H800 d'entreprise, la réponse inférieure à la seconde est une réalité.

Nvidia H800 (Enterprise) < 1 s

RTX 4090 (Consumer High-End) ~ 2.5 s

Flux.1 Dev (RTX 4090) ~ 10 s+

Démarrage rapide

# Chargement rapide avec Diffusers

from diffusers import DiffusionPipeline

import torch

# Charger modèle Turbo 8 étapes

pipe = DiffusionPipeline.from_pretrained(

"Tongyi-MAI/Z-Image-Turbo",

torch_dtype=torch.bfloat16

).to("cuda")

# Générer image

image = pipe(

prompt="Détective cyberpunk, nuit pluvieuse, néons, panneau chinois disant "Laboratoire Tongyi"",

num_inference_steps=8,

guidance_scale=1.0 # Modèles distillés pas besoin de haut CFG

).images[0]

Questions Fréquemment Posées

Questions sur le déploiement, l'utilisation et les licences.

Exigences GPU ?

Pour la précision native (BF16), 16GB VRAM (RTX 4080/3090) est recommandé. Avec la quantification GGUF/NF4, les cartes 8GB VRAM (RTX 3060) fonctionnent fluidement avec une perte de qualité minimale.

Puis-je l'utiliser commercialement ?

Oui. Z-Image-Turbo utilise la licence permissive Apache 2.0. Vous pouvez l'utiliser librement pour des produits commerciaux sans frais.

Comment écrire des prompts chinois ?

Comme si vous discutiez naturellement. Grâce à Qwen 3.4B, vous pouvez utiliser des phrases complexes. Pour le rendu de texte, mettez le texte spécifique entre guillemets.

Support pour ComfyUI / WebUI ?

Oui. ComfyUI a un support Day-0. Le support Automatic1111 WebUI est dans la branche dev et arrive bientôt.

Avantage sur Flux.1 ?

Z-Image-Turbo résout l'efficacité et l'utilisabilité. Alors que Flux excelle en qualité extrême, Z-Image offre une vitesse x3, moitié moins de VRAM, et un support chinois supérieur.