Z-Image :
Moteur de génération d'images léger
Z-Image est un outil de génération d'images léger doté d'une architecture d'inférence en 8 étapes efficace. Il offre une génération d'images IA rapide et de haute qualité sur des GPU grand public tout en réduisant considérablement les coûts de calcul.
Dimensions
Galerie d'Exemples
Saxophoniste de Jazz Cinématographique
Documentaire de Rue Tokyo Nuit Pluvieuse
L'Artisan Horloger
Portrait Hanfu Dynastie Tang
Texture Haute Couture
Illustration Studio Ghibli
Affiche de Film Vintage "Le Goût du Souvenir"
Couverture de Magazine Nature
Conception d'Affiche de Chaise Minimaliste
Pas seulement rapide, c'est Pleinement évolué
Comblant le fossé entre les modèles légers et massifs, Z-Image-Turbo trouve l'équilibre parfait entre vitesse, qualité et facilité d'utilisation.
Support bilingue natif
Propulsé par le LLM Qwen 3.4B. Fini les caractères chinois brouillés. La calligraphie, la signalétique et la typographie complexe sont rendues avec précision.
Flux unique S3-DiT
Innovation architecturale radicale. Les tokens de texte et d'image sont traités de manière cohérente, similaire à GPT-4, utilisant chaque paramètre pour la génération et la compréhension.
Licence Apache 2.0
Véritable liberté open source. Contrairement aux restrictions commerciales de Flux.1, vous êtes libre de l'utiliser commercialement, de le modifier et de l'intégrer.
S3-DiT : Briser les barrières modales
Les modèles traditionnels utilisent une architecture "double flux". Z-Image-Turbo adopte Scalable Single-Stream Diffusion Transformer (S3-DiT).
- Flux d'entrée unifié : Les tokens de texte et les latents d'image sont concaténés directement.
- Interaction complète des paramètres : Chaque couche Transformer effectue un calcul d'attention texte-image profond.
- Decoupled-DMD : L'algorithme de base qui compresse l'inférence à seulement 8 étapes.
- Amélioration CFG : Signaux de guidage optimisés indépendamment pour des images nettes sans valeurs CFG élevées.
Pourquoi choisir Z-Image-Turbo ?
Nous fournissons la solution optimale équilibrant performance, coût et écosystème.
| Métrique | Z-Image-Turbo | Flux.1 (Dev) | SDXL Base |
|---|---|---|---|
| Paramètres | 6B (Équilibré) | 12B (Massif) | 2.6B |
| VRAM | 12GB (Natif BF16) | 24GB+ (ou Quant) | 8GB |
| Étapes | 8 Étapes (Distillé) | 20-50 Étapes | 20-50 Étapes |
| Encodeur Texte | Qwen 3.4B (Bilingue) | T5 + CLIP | OpenCLIP |
| Typographie | ⭐️⭐️⭐️⭐️⭐️ Parfait | ⭐️⭐️ Pauvre | ⭐️ Brouillé |
| Licence | Apache 2.0 | Non-Commercial | OpenRAIL++ |
| Coût/Img | ~$0.0029 | Élevé | Faible |
Une aubaine pour le matériel grand public
Grâce à l'échelle de paramètres de 6B et à la distillation en 8 étapes, Z-Image-Turbo atteint une génération en 2-3s sur RTX 3090/4090. Pour les H800 d'entreprise, la réponse inférieure à la seconde est une réalité.
Démarrage rapide
# Chargement rapide avec Diffusers
from diffusers import DiffusionPipeline
import torch
# Charger modèle Turbo 8 étapes
pipe = DiffusionPipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
).to("cuda")
# Générer image
image = pipe(
prompt="Détective cyberpunk, nuit pluvieuse, néons, panneau chinois disant "Laboratoire Tongyi"",
num_inference_steps=8,
guidance_scale=1.0 # Modèles distillés pas besoin de haut CFG
).images[0]
Questions Fréquemment Posées
Questions sur le déploiement, l'utilisation et les licences.
Exigences GPU ?
Pour la précision native (BF16), 16GB VRAM (RTX 4080/3090) est recommandé. Avec la quantification GGUF/NF4, les cartes 8GB VRAM (RTX 3060) fonctionnent fluidement avec une perte de qualité minimale.
Puis-je l'utiliser commercialement ?
Oui. Z-Image-Turbo utilise la licence permissive Apache 2.0. Vous pouvez l'utiliser librement pour des produits commerciaux sans frais.
Comment écrire des prompts chinois ?
Comme si vous discutiez naturellement. Grâce à Qwen 3.4B, vous pouvez utiliser des phrases complexes. Pour le rendu de texte, mettez le texte spécifique entre guillemets.
Support pour ComfyUI / WebUI ?
Oui. ComfyUI a un support Day-0. Le support Automatic1111 WebUI est dans la branche dev et arrive bientôt.
Avantage sur Flux.1 ?
Z-Image-Turbo résout l'efficacité et l'utilisabilité. Alors que Flux excelle en qualité extrême, Z-Image offre une vitesse x3, moitié moins de VRAM, et un support chinois supérieur.