Z-Image
軽量画像生成エンジン
Z-Imageは、効率的な8ステップ推論アーキテクチャを採用した軽量画像生成ツールです。コンシューマー向けGPUで高速かつ高品質なAI画像生成を実現し、計算コストを大幅に削減します。
Dimensions
例の紹介
映画的なジャズサックス奏者
東京雨夜のストリートドキュメンタリー
職人時計師
唐代漢服女性の肖像
ハイファッションテクスチャ
スタジオジブリイラスト
ヴィンテージ映画ポスター「記憶の味」
自然雑誌の表紙
ミニマリスト椅子ポスターデザイン
ただ速いだけではない、完全なる進化
軽量モデルと巨大モデルの間隙を埋め、Z-Image-Turboは速度、品質、使いやすさの完璧なバランスを見出しました。
ネイティブバイリンガル対応
Qwen 3.4B LLMを脳として搭載。漢字の文字化けはもうありません。書道、看板、複雑な中国語のタイポグラフィも正確にレンダリングされます。
S3-DiTシングルストリーム
急進的なアーキテクチャ革新。テキストと画像のトークンを一貫して処理し、GPT-4と同様に、すべてのパラメータを生成と理解の両方に活用します。
Apache 2.0ライセンス
真のオープンソースの自由。Flux.1の商用制限とは異なり、商用利用、改変、統合が自由です。スタートアップやゲームスタジオに最適です。
S3-DiT:モータルの壁を破る
従来のモデルは「デュアルストリーム」アーキテクチャを採用していました。Z-Image-Turboはスケーラブルなシングルストリーム拡散Transformer (S3-DiT)を採用しています。
- 統合入力ストリーム:テキストトークンと画像Latentを直接連結。
- 全パラメータ相互作用:すべてのTransformer層で深いテキスト-画像注意計算を実行。
- Decoupled-DMD:推論をわずか8ステップに圧縮するコアアルゴリズム。
- CFG拡張:高いCFG値なしで鮮明な画像を得るための独立最適化されたガイダンス信号。
なぜZ-Image-Turboを選ぶのか?
パフォーマンス、コスト、エコシステムのバランスが取れた最適なソリューションを提供します。
| 指標 | Z-Image-Turbo | Flux.1 (Dev) | SDXL Base |
|---|---|---|---|
| パラメータ | 6B (バランス) | 12B (巨大) | 2.6B |
| VRAM要件 | 12GB (ネイティブBF16) | 24GB+ (または量子化) | 8GB |
| ステップ数 | 8ステップ (蒸留) | 20-50ステップ | 20-50ステップ |
| テキストエンコーダー | Qwen 3.4B (中英) | T5 + CLIP | OpenCLIP |
| タイポグラフィ | ⭐️⭐️⭐️⭐️⭐️ 完璧 | ⭐️⭐️ 劣る | ⭐️ 文字化け |
| ライセンス | Apache 2.0 (商用可) | 非商用 | OpenRAIL++ |
| 1枚あたりコスト | ~$0.0029 | 高価 | 低 |
コンシューマーハードウェアの恩恵
6Bパラメータ規模と8ステップ蒸留技術により、Z-Image-TurboはRTX 3090/4090などのグラフィックカードで2〜3秒の生成を実現します。企業向けH800ではサブ秒のレスポンスが可能です。
クイックスタート
# Diffusersで高速ロード
from diffusers import DiffusionPipeline
import torch
# 8ステップTurboモデルをロード
pipe = DiffusionPipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
).to("cuda")
# 画像生成
image = pipe(
prompt="サイバーパンクな探偵、雨の夜、ネオンライト、「通義実験室」と書かれた看板",
num_inference_steps=8,
guidance_scale=1.0 # 蒸留モデルは高いCFG不要
).images[0]
よくある質問
モデルのデプロイ、使用、ライセンスに関する質問。
GPU要件は?
ネイティブ精度(BF16)での実行には、16GB VRAM(RTX 4080/3090)以上を推奨します。GGUF/NF4量子化版を使用すれば、8GB VRAMのカード(RTX 3060)でもスムーズに動作し、画質劣化も最小限です。
商用利用は可能ですか?
はい、可能です。 Z-Image-Turboは寛容なApache 2.0ライセンスを採用しています。ライセンス料なしで商用製品に自由に使用できます。
中国語プロンプトの書き方は?
自然にチャットするように書けます。Qwen 3.4Bの強力な言語理解能力のおかげで、複雑な長文も理解します。特定の文字を生成する場合は引用符で囲んでください。
ComfyUIやWebUIはサポートされていますか?
はい。ComfyUIはDay-0サポート済みです。Automatic1111 WebUIのサポートも開発ブランチにあり、間もなくマージされる予定です。
Flux.1と比較した利点は?
Z-Image-Turboは主に効率と使いやすさの問題を解決します。Fluxは究極の画質に優れていますが、Z-Imageは3倍高速で、VRAM使用量は半分、そして中国語サポートはFluxを遥かに凌駕します。