Z-Image
輕量級圖片生成引擎

Z-Image 是一款輕量級圖片生成工具，採用高效 8-Step 推論架構，在消費級 GPU 上實現快速、高質量的 AI 圖像生成，顯著降低算力成本。

Prompt 0/500

Dimensions

示例展示

電影感暗調爵士薩克斯

一張極具電影感的膠片顆粒照片。在一個煙霧繚繞的昏暗老式爵士酒吧裡,一位年邁的薩克斯風手正在深情演奏。一束暖黃色的舞台聚光燈從側面打在他的臉上,在他的身後投射出長長的影子。背景是模糊的、拿著酒杯的觀眾和閃爍的霓虹燈牌。柯達Portra 400膠片質感。

東京雨夜街頭紀實

一張紀實風格的中景照片,拍攝於繁忙的東京澀谷十字路口。雨夜,地面濕滑反射著五光十色的霓虹燈廣告牌。一位撐著透明雨傘的年輕女子在人群中回頭看向鏡頭,眼神迷茫。周圍是匆忙的行人和出租車。高ISO感光度,帶有噪點。

手工製表匠人

一位年邁的手工製表匠坐在凌亂的工作台前的紀實照片。他戴著放大鏡,正在用鑷子小心翼翼地處理微小的齒輪。房間裡擺滿了古董工具、鐘錶零件,台燈散發出溫暖而凌亂的光線。灰塵和金屬質感的每一個細節都很清晰。

唐朝漢服仕女特寫

一位身著華麗唐朝漢服的仕女半身像。她穿著織金刺繡的紅色大袖衫,上面繡著精細的牡丹和鳳凰圖案,絲綢的光澤感極強。她梳著高聳的髮髻,戴著金色的步搖。背景是虛化的古典園林和盛開的海棠花。柔和的自然光。

高級時裝質感

一張高級時裝編輯攝影照片,模特穿著一套完全由回收材料和編織塑料製成的前衛服裝。重點是服裝複雜的紋理和層次。她站在粗野主義的混凝土環境中。鮮明的建築照明強調了服裝的幾何形狀。

吉卜力工作室插畫

一幅寧靜的吉卜力工作室風格數字插畫。一座舒適、凌亂的小屋建在一棵巨大古樹的樹根上。煙囪裡升起裊裊炊煙。連綿起伏的綠色山丘和蓬鬆的雲朵在淡藍色天空中。水彩質感,溫暖的色調,溫馨的氛圍。

復古電影海報《回憶之味》

一張虛構的英語電影《回憶之味》(The Taste of Memory)的電影海報。場景設置在一個質樸的19世紀風格廚房。海報主體是一男一女在模糊的雨夜街頭擦肩而過的剪影,色彩是濃郁的藍綠色調。片名使用手寫體的白色書法字縱向排列在畫面右側。底部有小字"A FILM BY WONG KAR-WAI"。帶有舊紙張和折痕的質感。

自然雜誌封面

一個垂直的雜誌封面設計。主要主題是一張充滿活力的藍色閃蝶停在覆蓋露水的綠葉上的微距照片。頂部大號白色無襯線字體標題"生物多樣性"。下方副標題為"昆蟲的隱秘世界"和"A. Smith攝影"。整體構圖乾淨而引人注目。

極簡木椅海報設計

一張極簡風格的產品宣傳海報。畫面中央是一把設計感的木質椅子,孤零零地放在一個純白色的無邊泳池邊。背景是極簡的藍天和海平線。畫面上方用細黑體字寫著品牌名"NORDIC LIVING",下方寫著slogan"Less is More"。光影乾淨,構圖留白。

不僅僅是快，是全面進化

填補了輕量級模型與巨型模型之間的空白，Z-Image-Turbo 在速度、質量和易用性之間找到了完美的平衡點。

原生雙語支援

內建 Qwen 3.4B 大語言模型作為大腦。不再有亂碼的漢字，無論是書法、招牌還是複雜的中文排版，都能精準渲染。

S3-DiT 單流架構

激進的架構創新。將文本與圖像 Token 統一處理，類似 GPT-4 的處理方式，每一分參數都在同時服務於圖像生成和語義理解。

Apache 2.0 協議

真正的開源自由。不同於 Flux.1 的商業限制，您可以自由商用、修改、集成，是初創企業和遊戲工作室的理想基座。

6B 參數量黃金平衡點

8 Steps 推論步數 Decoupled-DMD

Qwen 3.4B 文本編碼完美中英雙語

12GB 顯存需求無需量化

核心技術解析

S3-DiT：打破模態壁壘

傳統模型採用「雙流」架構，圖像和文本各跑各的。Z-Image-Turbo 採用 可擴展單流擴散 Transformer (S3-DiT)。

統一輸入流：文本 Token 與圖像 Latent 直接拼接。
全參數交互：每一層 Transformer 都在進行深度的圖文注意力計算。
解耦分佈匹配蒸餾 (Decoupled-DMD)：將推論壓縮至 8 步的核心演算法。
CFG 增強：獨立優化引導信號，無需高 CFG 值即可獲得清晰圖像。

Architecture_v1.0

Text Token

Img Latent

Unified Transformer Block Self-Attention (All-to-All)

High-Fidelity Output (8 Steps)

為什麼選擇 Z-Image-Turbo？

在性能、成本與生態之間，我們提供了最優解。

指標	Z-Image-Turbo	Flux.1 (Dev)	SDXL Base
參數量	6B (黃金平衡)	12B (龐大)	2.6B
顯存需求	12GB (原生 BF16)	24GB+ (或量化)	8GB
推論步數	8 步 (Distilled)	20-50 步	20-50 步
文本編碼器	Qwen 3.4B (中英雙語)	T5 + CLIP	OpenCLIP
中文排版	⭐️⭐️⭐️⭐️⭐️ 完美	⭐️⭐️ 較差	⭐️ 亂碼
開源協議	Apache 2.0 (可商用)	Non-Commercial	OpenRAIL++
單圖成本	~$0.0029	高昂	低

消費級硬體的福音

得益於 6B 參數規模和 8 步蒸餾技術，Z-Image-Turbo 可以在 RTX 3090/4090 等顯示卡上實現 2-3 秒的高清出圖。對於企業用戶，H800 更是能實現亞秒級響應。

Nvidia H800 (Enterprise) < 1 s

RTX 4090 (Consumer High-End) ~ 2.5 s

Flux.1 Dev (RTX 4090) ~ 10 s+

快速上手

# 使用 Diffusers 快速載入

from diffusers import DiffusionPipeline

import torch

# 載入 8-Step Turbo 模型

pipe = DiffusionPipeline.from_pretrained(

"Tongyi-MAI/Z-Image-Turbo",

torch_dtype=torch.bfloat16

).to("cuda")

# 生成圖像

image = pipe(

prompt="賽博龐克偵探，雨夜，霓虹燈，中文招牌寫著"通義實驗室"",

num_inference_steps=8,

guidance_scale=1.0 # 蒸餾模型無需高 CFG

).images[0]

常見問題解答

關於模型部署、使用與授權的疑問。

Z-Image-Turbo 對顯示卡有什麼要求？

對於原生精度（BF16）運行，推薦使用 16GB VRAM 或更高的顯示卡。如果使用 GGUF/NF4 量化版本，8GB VRAM 的顯示卡也可以流暢運行，且畫質損失極小。

它可以用於商業專案嗎？

完全可以。 Z-Image-Turbo 採用寬鬆的 Apache 2.0 許可證。這意味著您可以免費將其用於商業用途，無需支付授權費。

如何書寫中文 Prompt？

像與人聊天一樣自然即可。得益於 Qwen 3.4B 強大的語言理解能力，您可以使用複雜的中文長句。如果需要生成特定文字，請使用引號包裹。

是否支援 ComfyUI 和 WebUI？

是的。ComfyUI 已實現零日支援（Day-0 Support）。Automatic1111 WebUI 的支援也在開發分支中，預計近期合併。

相比 Flux.1，它的優勢在哪裡？

Z-Image-Turbo 主要是為了解決效率和 易用性 問題。推論速度快了 3 倍，顯存佔用少了一半，並且對中文的支援遠超 Flux。