Z-Image
경량 이미지 생성 엔진
Z-Image는 효율적인 8단계 추론 아키텍처를 채택한 경량 이미지 생성 도구입니다. 소비자급 GPU에서 빠르고 고품질의 AI 이미지 생성을 실현하며 컴퓨팅 비용을 크게 절감합니다.
Dimensions
예제 쇼케이스
영화적인 재즈 색소폰 연주자
도쿄 비 오는 밤 거리 다큐멘터리
장인 시계공
당나라 한복 여성 초상
하이패션 텍스처
스튜디오 지브리 일러스트
빈티지 영화 포스터 "기억의 맛"
자연 잡지 표지
미니멀 의자 포스터 디자인
빠를 뿐만 아니라, 완전히 진화했습니다
경량 모델과 거대 모델 사이의 간극을 메우며, Z-Image-Turbo는 속도, 품질, 사용성 사이의 완벽한 균형을 찾았습니다.
네이티브 이중 언어 지원
Qwen 3.4B LLM을 두뇌로 탑재했습니다. 더 이상 한자 깨짐이 없습니다. 서예, 간판, 복잡한 중국어 타이포그래피도 정밀하게 렌더링합니다.
S3-DiT 단일 스트림
급진적인 아키텍처 혁신. 텍스트와 이미지 토큰을 GPT-4와 유사하게 일관되게 처리하여 모든 파라미터를 생성과 이해에 동시에 활용합니다.
Apache 2.0 라이선스
진정한 오픈 소스의 자유. Flux.1의 상업적 제한과 달리 상업적 사용, 수정, 통합이 자유롭습니다. 스타트업과 게임 스튜디오에 이상적입니다.
S3-DiT: 모달 장벽을 허물다
기존 모델은 "이중 스트림" 아키텍처를 사용합니다. Z-Image-Turbo는 확장 가능한 단일 스트림 확산 트랜스포머 (S3-DiT)를 채택했습니다.
- 통합 입력 스트림: 텍스트 토큰과 이미지 레이턴트를 직접 연결.
- 전체 파라미터 상호작용: 모든 Transformer 레이어에서 깊은 텍스트-이미지 주의 계산 수행.
- Decoupled-DMD: 추론을 단 8단계로 압축하는 핵심 알고리즘.
- CFG 향상: 높은 CFG 값 없이도 선명한 이미지를 얻기 위해 독립적으로 최적화된 유도 신호.
왜 Z-Image-Turbo인가?
성능, 비용, 생태계 사이의 최적의 솔루션을 제공합니다.
| 지표 | Z-Image-Turbo | Flux.1 (Dev) | SDXL Base |
|---|---|---|---|
| 파라미터 | 6B (균형) | 12B (거대) | 2.6B |
| VRAM 요구량 | 12GB (네이티브 BF16) | 24GB+ (또는 양자화) | 8GB |
| 단계 | 8 단계 (증류) | 20-50 단계 | 20-50 단계 |
| 텍스트 인코더 | Qwen 3.4B (이중언어) | T5 + CLIP | OpenCLIP |
| 타이포그래피 | ⭐️⭐️⭐️⭐️⭐️ 완벽 | ⭐️⭐️ 미흡 | ⭐️ 깨짐 |
| 라이선스 | Apache 2.0 | 비상업용 | OpenRAIL++ |
| 장당 비용 | ~$0.0029 | 높음 | 낮음 |
소비자 하드웨어의 축복
6B 파라미터 규모와 8단계 증류 기술 덕분에 Z-Image-Turbo는 RTX 3090/4090 등에서 2~3초 만에 생성이 가능합니다. 기업용 H800에서는 1초 미만의 반응속도가 현실이 됩니다.
빠른 시작
# Diffusers로 빠른 로드
from diffusers import DiffusionPipeline
import torch
# 8-Step Turbo 모델 로드
pipe = DiffusionPipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
).to("cuda")
# 이미지 생성
image = pipe(
prompt="사이버펑크 탐정, 비 오는 밤, 네온사인, "통이 연구소"라고 쓰여진 간판",
num_inference_steps=8,
guidance_scale=1.0 # 증류 모델은 높은 CFG 불필요
).images[0]
자주 묻는 질문
모델 배포, 사용 및 라이선스에 관한 질문.
GPU 요구 사항은?
네이티브 정밀도(BF16) 실행 시 16GB VRAM(RTX 4080/3090) 이상을 권장합니다. GGUF/NF4 양자화 버전을 사용하면 8GB VRAM 카드(RTX 3060)에서도 품질 손실을 최소화하며 원활하게 실행됩니다.
상업적으로 사용할 수 있나요?
네, 가능합니다. Z-Image-Turbo는 허용적인 Apache 2.0 라이선스를 사용합니다. 수수료 없이 상업용 제품에 자유롭게 사용할 수 있습니다.
중국어 프롬프트는 어떻게 작성하나요?
자연스럽게 채팅하듯 작성하면 됩니다. Qwen 3.4B 덕분에 복잡한 문장도 이해합니다. 특정 텍스트를 생성하려면 따옴표로 묶어주세요.
ComfyUI / WebUI 지원 여부?
네. ComfyUI는 출시 즉시 지원되었습니다(최신 업데이트 필요). Automatic1111 WebUI 지원도 개발 브랜치에 있으며 곧 병합될 예정입니다.
Flux.1 대비 장점은?
Z-Image-Turbo는 효율성과 사용성 문제를 해결합니다. Flux가 극한의 화질에 강점이 있다면, Z-Image는 3배 빠르고 VRAM을 절반만 사용하며 중국어 지원이 훨씬 뛰어납니다.