Z-Image
경량 이미지 생성 엔진

Z-Image는 효율적인 8단계 추론 아키텍처를 채택한 경량 이미지 생성 도구입니다. 소비자급 GPU에서 빠르고 고품질의 AI 이미지 생성을 실현하며 컴퓨팅 비용을 크게 절감합니다.

0/500

Dimensions

예제 쇼케이스

영화적인 재즈 색소폰 연주자

영화적인 재즈 색소폰 연주자

매우 영화적인 필름 그레인 사진. 연기가 자욱한 어두운 빈티지 재즈 바에서 나이 든 색소폰 연주자가 열정적으로 연주하고 있다. 따뜻한 노란색 무대 조명이 옆에서 그의 얼굴을 비추고 뒤에 긴 그림자를 드리운다. 배경은 흐릿한 관객들이 음료를 들고 있고 깜박이는 네온 사인. 코닥 포트라 400 필름 질감.

도쿄 비 오는 밤 거리 다큐멘터리

도쿄 비 오는 밤 거리 다큐멘터리

다큐멘터리 스타일의 미디엄 샷, 도쿄의 번잡한 시부야 교차로에서 촬영. 비 오는 밤, 젖은 지면이 화려한 네온 광고판을 반사하고 있다. 투명 우산을 든 젊은 여성이 군중 속에서 카메라를 돌아보고 있으며 눈은 잃어버린 듯하다. 주변은 서두르는 보행자와 택시. 높은 ISO, 노이즈 있음.

장인 시계공

장인 시계공

어수선한 작업대에 앉아 있는 나이 든 장인 시계공의 솔직한 사진. 그는 확대경을 쓰고 핀셋으로 작은 기어를 조심스럽게 작업하고 있다. 방은 골동품 도구, 시계 부품으로 가득 차 있고 책상 램프에서 따뜻하고 어수선한 빛이 나온다. 먼지와 금속 질감의 모든 세부 사항이 선명하다.

당나라 한복 여성 초상

당나라 한복 여성 초상

화려한 당나라 한복을 입은 여성의 반신상. 그녀는 금사 자수가 있는 빨간 넓은 소매 로브를 입고 있으며 정교한 모란과 봉황 무늬가 있고 비단 광택이 강하다. 그녀는 높은 상투를 틀고 금색 비녀를 쓰고 있다. 배경은 흐릿한 고전 정원과 피어나는 사과꽃. 부드러운 자연광.

하이패션 텍스처

하이패션 텍스처

재활용 재료와 짜여진 플라스틱으로 완전히 만들어진 아방가르드 의상을 입은 모델의 하이패션 편집 사진. 초점은 의복의 복잡한 질감과 층. 그녀는 브루탈리스트 콘크리트 환경에 서 있다. 강렬한 건축 조명이 의복의 기하학적 형태를 강조한다.

스튜디오 지브리 일러스트

스튜디오 지브리 일러스트

스튜디오 지브리 스타일의 평온한 디지털 일러스트. 거대한 고대 나무의 뿌리에 지어진 아늑하고 어수선한 오두막. 굴뚝에서 연기가 부드럽게 올라온다. 파스텔 블루 하늘에 구불구불한 녹색 언덕과 푹신한 구름. 수채화 질감, 따뜻한 색상 팔레트, 초대하는 분위기.

빈티지 영화 포스터 "기억의 맛"

빈티지 영화 포스터 "기억의 맛"

가상의 영어 영화 "The Taste of Memory"의 영화 포스터. 19세기 스타일의 소박한 주방을 배경으로. 주요 주제는 흐릿한 비 오는 밤 거리에서 스쳐 지나가는 남녀의 실루엣, 풍부한 청록색 톤. 제목은 흰색 손글씨 서예로 화면 오른쪽에 세로로 배치. 하단에 작은 글자로 "A FILM BY WONG KAR-WAI". 오래된 종이와 주름 질감.

자연 잡지 표지

자연 잡지 표지

세로 잡지 표지 디자인. 주요 주제는 이슬로 덮인 녹색 잎에 쉬고 있는 생생한 파란색 모르포 나비의 매크로 사진. 상단에 크고 굵은 흰색 산세리프 폰트로 제목 "생물 다양성". 아래에 부제 "곤충의 숨겨진 세계"와 "A. Smith 사진". 전체 구성은 깨끗하고 인상적이다.

미니멀 의자 포스터 디자인

미니멀 의자 포스터 디자인

미니멀 스타일의 제품 홍보 포스터. 중앙에 디자인 감각의 나무 의자가 순백색 인피니티 풀 옆에 홀로 놓여 있다. 배경은 미니멀한 푸른 하늘과 수평선. 상단에 얇은 검은 폰트로 브랜드 이름 "NORDIC LIVING", 하단에 슬로건 "Less is More". 깨끗한 조명, 여백이 있는 구성.

빠를 뿐만 아니라, 완전히 진화했습니다

경량 모델과 거대 모델 사이의 간극을 메우며, Z-Image-Turbo는 속도, 품질, 사용성 사이의 완벽한 균형을 찾았습니다.

네이티브 이중 언어 지원

Qwen 3.4B LLM을 두뇌로 탑재했습니다. 더 이상 한자 깨짐이 없습니다. 서예, 간판, 복잡한 중국어 타이포그래피도 정밀하게 렌더링합니다.

S3-DiT 단일 스트림

급진적인 아키텍처 혁신. 텍스트와 이미지 토큰을 GPT-4와 유사하게 일관되게 처리하여 모든 파라미터를 생성과 이해에 동시에 활용합니다.

Apache 2.0 라이선스

진정한 오픈 소스의 자유. Flux.1의 상업적 제한과 달리 상업적 사용, 수정, 통합이 자유롭습니다. 스타트업과 게임 스튜디오에 이상적입니다.

6B 파라미터 황금 밸런스
8 Steps 추론 단계 Decoupled-DMD
Qwen 3.4B 텍스트 인코더 네이티브 이중 언어
12GB VRAM 요구량 양자화 불필요
핵심 기술 분석

S3-DiT: 모달 장벽을 허물다

기존 모델은 "이중 스트림" 아키텍처를 사용합니다. Z-Image-Turbo는 확장 가능한 단일 스트림 확산 트랜스포머 (S3-DiT)를 채택했습니다.

  • 통합 입력 스트림: 텍스트 토큰과 이미지 레이턴트를 직접 연결.
  • 전체 파라미터 상호작용: 모든 Transformer 레이어에서 깊은 텍스트-이미지 주의 계산 수행.
  • Decoupled-DMD: 추론을 단 8단계로 압축하는 핵심 알고리즘.
  • CFG 향상: 높은 CFG 값 없이도 선명한 이미지를 얻기 위해 독립적으로 최적화된 유도 신호.
Architecture_v1.0
Text Token
+
Img Latent
Unified Transformer Block Self-Attention (All-to-All)
High-Fidelity Output (8 Steps)

왜 Z-Image-Turbo인가?

성능, 비용, 생태계 사이의 최적의 솔루션을 제공합니다.

지표Z-Image-TurboFlux.1 (Dev)SDXL Base
파라미터6B (균형)12B (거대)2.6B
VRAM 요구량12GB (네이티브 BF16)24GB+ (또는 양자화)8GB
단계8 단계 (증류)20-50 단계20-50 단계
텍스트 인코더Qwen 3.4B (이중언어)T5 + CLIPOpenCLIP
타이포그래피⭐️⭐️⭐️⭐️⭐️ 완벽⭐️⭐️ 미흡⭐️ 깨짐
라이선스Apache 2.0비상업용OpenRAIL++
장당 비용~$0.0029높음낮음

소비자 하드웨어의 축복

6B 파라미터 규모와 8단계 증류 기술 덕분에 Z-Image-Turbo는 RTX 3090/4090 등에서 2~3초 만에 생성이 가능합니다. 기업용 H800에서는 1초 미만의 반응속도가 현실이 됩니다.

Nvidia H800 (Enterprise) < 1 s
RTX 4090 (Consumer High-End) ~ 2.5 s
Flux.1 Dev (RTX 4090) ~ 10 s+

빠른 시작

# Diffusers로 빠른 로드

from diffusers import DiffusionPipeline

import torch


# 8-Step Turbo 모델 로드

pipe = DiffusionPipeline.from_pretrained(

  "Tongyi-MAI/Z-Image-Turbo",

  torch_dtype=torch.bfloat16

).to("cuda")


# 이미지 생성

image = pipe(

  prompt="사이버펑크 탐정, 비 오는 밤, 네온사인, "통이 연구소"라고 쓰여진 간판",

  num_inference_steps=8,

  guidance_scale=1.0 # 증류 모델은 높은 CFG 불필요

).images[0]

자주 묻는 질문

모델 배포, 사용 및 라이선스에 관한 질문.

GPU 요구 사항은?

네이티브 정밀도(BF16) 실행 시 16GB VRAM(RTX 4080/3090) 이상을 권장합니다. GGUF/NF4 양자화 버전을 사용하면 8GB VRAM 카드(RTX 3060)에서도 품질 손실을 최소화하며 원활하게 실행됩니다.

상업적으로 사용할 수 있나요?

네, 가능합니다. Z-Image-Turbo는 허용적인 Apache 2.0 라이선스를 사용합니다. 수수료 없이 상업용 제품에 자유롭게 사용할 수 있습니다.

중국어 프롬프트는 어떻게 작성하나요?

자연스럽게 채팅하듯 작성하면 됩니다. Qwen 3.4B 덕분에 복잡한 문장도 이해합니다. 특정 텍스트를 생성하려면 따옴표로 묶어주세요.

ComfyUI / WebUI 지원 여부?

네. ComfyUI는 출시 즉시 지원되었습니다(최신 업데이트 필요). Automatic1111 WebUI 지원도 개발 브랜치에 있으며 곧 병합될 예정입니다.

Flux.1 대비 장점은?

Z-Image-Turbo는 효율성사용성 문제를 해결합니다. Flux가 극한의 화질에 강점이 있다면, Z-Image는 3배 빠르고 VRAM을 절반만 사용하며 중국어 지원이 훨씬 뛰어납니다.