Z-Image
軽量画像生成エンジン

Z-Imageは、効率的な8ステップ推論アーキテクチャを採用した軽量画像生成ツールです。コンシューマー向けGPUで高速かつ高品質なAI画像生成を実現し、計算コストを大幅に削減します。

Prompt 0/500

Dimensions

例の紹介

映画的なジャズサックス奏者

映画的なフィルムグレインの写真。煙の立ち込める薄暗いビンテージジャズバーで、年配のサックス奏者が情熱的に演奏している。暖かい黄色いステージスポットライトが横から彼の顔を照らし、背後に長い影を落としている。背景はぼやけた観客がグラスを持ち、点滅するネオンサイン。コダックポートラ400フィルムテクスチャ。

東京雨夜のストリートドキュメンタリー

ドキュメンタリースタイルのミディアムショット、東京の渋谷交差点で撮影。雨の夜、濡れた地面がカラフルなネオン看板を反射している。透明な傘を持った若い女性が群衆の中でカメラを振り返り、目は迷っている。周りは急ぐ歩行者とタクシー。高ISOで、ノイズあり。

職人時計師

散らかった作業台にいる年配の職人時計師のカンディッド写真。彼は拡大鏡をかけ、ピンセットで小さな歯車を慎重に作業している。部屋はアンティークの工具や時計部品で満たされ、デスクランプからの暖かく散らかった光。埃や金属の質感のすべての細部がシャープ。

唐代漢服女性の肖像

華やかな唐代漢服を着た女性の半身像。彼女は金糸刺繍の赤い広袖のローブを着ており、精巧な牡丹と鳳凰の模様があり、絹の光沢が強い。彼女は高い髷を結び、金色のかんざしを着けている。背景はぼやけた古典的な庭園と咲くリンゴの花。柔らかい自然光。

ハイファッションテクスチャ

リサイクル素材と編まれたプラスチックで完全に作られた前衛的な衣装を着たモデルのハイファッション編集写真。焦点は衣服の複雑なテクスチャと層。彼女はブルータリストのコンクリート環境に立っている。厳格で建築的な照明が衣服の幾何学的形状を強調している。

スタジオジブリイラスト

スタジオジブリスタイルの穏やかなデジタルイラスト。巨大な古木の根に建てられた居心地の良い散らかった小屋。煙突からは煙が優しく立ち上る。パステルブルーの空に緑の丘と綿のような雲。水彩テクスチャ、暖かいカラーパレット、招待的な雰囲気。

ヴィンテージ映画ポスター「記憶の味」

架空の英語映画「The Taste of Memory」の映画ポスター。19世紀スタイルの素朴なキッチンを背景に。メインテーマは、ぼやけた雨の夜の通りですれ違う男女のシルエット、豊かな青緑のトーン。タイトルは白い手書き書道で画面右側に縦に配置。下部に小さな文字で"A FILM BY WONG KAR-WAI"。古い紙とシワのテクスチャ。

自然雑誌の表紙

縦型の雑誌表紙デザイン。メインテーマは、露に覆われた緑の葉に止まる鮮やかな青いモルフォチョウのマクロ写真。上部に大きく太い白いサンセリフフォントでタイトル"生物多様性"。下にサブタイトル"昆虫の隠された世界"と"A. Smith撮影"。全体的な構成はクリーンで印象的。

ミニマリスト椅子ポスターデザイン

ミニマリストスタイルの製品プロモーションポスター。中央にデザイン感のある木製椅子が純白のインフィニティプールのほとりに一人置かれている。背景はミニマリストの青空と水平線。上部に細い黒フォントでブランド名"NORDIC LIVING"、下部にスローガン"Less is More"。クリーンな照明、余白のある構成。

ただ速いだけではない、完全なる進化

軽量モデルと巨大モデルの間隙を埋め、Z-Image-Turboは速度、品質、使いやすさの完璧なバランスを見出しました。

ネイティブバイリンガル対応

Qwen 3.4B LLMを脳として搭載。漢字の文字化けはもうありません。書道、看板、複雑な中国語のタイポグラフィも正確にレンダリングされます。

S3-DiTシングルストリーム

急進的なアーキテクチャ革新。テキストと画像のトークンを一貫して処理し、GPT-4と同様に、すべてのパラメータを生成と理解の両方に活用します。

Apache 2.0ライセンス

真のオープンソースの自由。Flux.1の商用制限とは異なり、商用利用、改変、統合が自由です。スタートアップやゲームスタジオに最適です。

6B パラメータ黄金のバランス

8 Steps 推論ステップ Decoupled-DMD

Qwen 3.4B テキストエンコーダーネイティブバイリンガル

12GB VRAM要件量子化不要

コアテクノロジー

S3-DiT：モータルの壁を破る

従来のモデルは「デュアルストリーム」アーキテクチャを採用していました。Z-Image-Turboはスケーラブルなシングルストリーム拡散Transformer (S3-DiT)を採用しています。

統合入力ストリーム：テキストトークンと画像Latentを直接連結。
全パラメータ相互作用：すべてのTransformer層で深いテキスト-画像注意計算を実行。
Decoupled-DMD：推論をわずか8ステップに圧縮するコアアルゴリズム。
CFG拡張：高いCFG値なしで鮮明な画像を得るための独立最適化されたガイダンス信号。

Architecture_v1.0

Text Token

Img Latent

Unified Transformer Block Self-Attention (All-to-All)

High-Fidelity Output (8 Steps)

なぜZ-Image-Turboを選ぶのか？

パフォーマンス、コスト、エコシステムのバランスが取れた最適なソリューションを提供します。

指標	Z-Image-Turbo	Flux.1 (Dev)	SDXL Base
パラメータ	6B (バランス)	12B (巨大)	2.6B
VRAM要件	12GB (ネイティブBF16)	24GB+ (または量子化)	8GB
ステップ数	8ステップ (蒸留)	20-50ステップ	20-50ステップ
テキストエンコーダー	Qwen 3.4B (中英)	T5 + CLIP	OpenCLIP
タイポグラフィ	⭐️⭐️⭐️⭐️⭐️ 完璧	⭐️⭐️ 劣る	⭐️ 文字化け
ライセンス	Apache 2.0 (商用可)	非商用	OpenRAIL++
1枚あたりコスト	~$0.0029	高価	低

コンシューマーハードウェアの恩恵

6Bパラメータ規模と8ステップ蒸留技術により、Z-Image-TurboはRTX 3090/4090などのグラフィックカードで2〜3秒の生成を実現します。企業向けH800ではサブ秒のレスポンスが可能です。

Nvidia H800 (Enterprise) < 1 s

RTX 4090 (Consumer High-End) ~ 2.5 s

Flux.1 Dev (RTX 4090) ~ 10 s+

クイックスタート

# Diffusersで高速ロード

from diffusers import DiffusionPipeline

import torch

# 8ステップTurboモデルをロード

pipe = DiffusionPipeline.from_pretrained(

"Tongyi-MAI/Z-Image-Turbo",

torch_dtype=torch.bfloat16

).to("cuda")

# 画像生成

image = pipe(

prompt="サイバーパンクな探偵、雨の夜、ネオンライト、「通義実験室」と書かれた看板",

num_inference_steps=8,

guidance_scale=1.0 # 蒸留モデルは高いCFG不要

).images[0]

よくある質問

モデルのデプロイ、使用、ライセンスに関する質問。

GPU要件は？

ネイティブ精度（BF16）での実行には、16GB VRAM（RTX 4080/3090）以上を推奨します。GGUF/NF4量子化版を使用すれば、8GB VRAMのカード（RTX 3060）でもスムーズに動作し、画質劣化も最小限です。

商用利用は可能ですか？

はい、可能です。 Z-Image-Turboは寛容なApache 2.0ライセンスを採用しています。ライセンス料なしで商用製品に自由に使用できます。

中国語プロンプトの書き方は？

自然にチャットするように書けます。Qwen 3.4Bの強力な言語理解能力のおかげで、複雑な長文も理解します。特定の文字を生成する場合は引用符で囲んでください。

ComfyUIやWebUIはサポートされていますか？

はい。ComfyUIはDay-0サポート済みです。Automatic1111 WebUIのサポートも開発ブランチにあり、間もなくマージされる予定です。

Flux.1と比較した利点は？

Z-Image-Turboは主に効率と使いやすさの問題を解決します。Fluxは究極の画質に優れていますが、Z-Imageは3倍高速で、VRAM使用量は半分、そして中国語サポートはFluxを遥かに凌駕します。