Z-Image
Motor de geração de imagens leve

Z-Image é uma ferramenta leve de geração de imagens com uma eficiente arquitetura de inferência de 8 etapas. Oferece geração de imagens IA rápida e de alta qualidade em GPUs de consumo, reduzindo significativamente os custos computacionais.

0/500

Dimensions

Galeria de Exemplos

Saxofonista de Jazz Cinematográfico

Saxofonista de Jazz Cinematográfico

Uma fotografia altamente cinematográfica com grão de filme. Em um bar de jazz vintage escuro e enfumaçado, um saxofonista idoso toca apaixonadamente. Um holofote de palco amarelo quente atinge seu rosto de lado, projetando uma longa sombra atrás dele. O fundo mostra membros da audiência desfocados segurando bebidas e letreiros de neon piscando. Textura de filme Kodak Portra 400.

Documentário de Rua Tokyo Noite Chuvosa

Documentário de Rua Tokyo Noite Chuvosa

Um plano médio de estilo documental, tirado no movimentado cruzamento de Shibuya em Tóquio. Noite chuvosa, chão molhado refletindo outdoors de neon coloridos. Uma jovem segurando um guarda-chuva transparente olha para a câmera na multidão, seus olhos perdidos. Ao seu redor estão pedestres apressados e táxis. ISO alto, com ruído.

O Artesão Relojoeiro

O Artesão Relojoeiro

Uma fotografia sincera de um artesão relojoeiro idoso em sua bancada de trabalho desordenada. Ele está usando óculos de aumento e trabalhando cuidadosamente em pequenas engrenagens com pinças. O quarto está cheio de ferramentas antigas, peças de relógios e luz quente e desordenada de uma lâmpada de mesa. Cada detalhe de poeira e textura metálica é nítido.

Retrato Hanfu Dinastia Tang

Retrato Hanfu Dinastia Tang

Um retrato de meio corpo de uma dama em magnífico Hanfu da dinastia Tang. Ela usa uma túnica vermelha de mangas largas bordada em ouro, com padrões requintados de peônias e fênix, com forte brilho de seda. Ela tem um coque alto e usa grampos de cabelo dourados. O fundo é um jardim clássico desfocado com flores de macieira florescendo. Luz natural suave.

Textura de Alta Moda

Textura de Alta Moda

Uma fotografia editorial de alta moda de uma modelo usando uma roupa vanguardista feita inteiramente de materiais reciclados e plástico tecido. O foco está nas texturas e camadas complexas da peça. Ela está em um ambiente de concreto brutalista. Iluminação arquitetônica marcante enfatiza as formas geométricas da roupa.

Ilustração Studio Ghibli

Ilustração Studio Ghibli

Uma ilustração digital serena no estilo do Studio Ghibli. Uma cabana aconchegante e desordenada construída nas raízes de uma árvore antiga gigante. Fumaça sobe suavemente da chaminé. Colinas verdes onduladas e nuvens fofas em um céu azul pastel. Textura de aquarela, paleta de cores quentes, atmosfera convidativa.

Pôster de Filme Vintage "O Sabor da Memória"

Pôster de Filme Vintage "O Sabor da Memória"

Um pôster de filme inglês fictício para "The Taste of Memory". Ambientado em uma cozinha rústica de estilo do século XIX. O tema principal são as silhuetas de um homem e uma mulher se cruzando em uma rua chuvosa desfocada, em tons azul-verde ricos. O título está em caligrafia branca manuscrita disposta verticalmente no lado direito. Texto pequeno na parte inferior "A FILM BY WONG KAR-WAI". Textura de papel velho e dobras.

Capa de Revista Nature

Capa de Revista Nature

Um design de capa de revista vertical. O tema principal é uma fotografia macro de uma borboleta Morpho azul vibrante descansando em uma folha verde coberta de orvalho. O título "BIODIVERSIDADE" está no topo em uma fonte sans-serif branca grande e em negrito. Abaixo, os subtítulos leem "O Mundo Oculto dos Insetos" e "Fotografia por A. Smith". A composição geral é limpa e marcante.

Design de Pôster de Cadeira Minimalista

Design de Pôster de Cadeira Minimalista

Um pôster promocional de produto de estilo minimalista. No centro está uma cadeira de madeira de design colocada sozinha ao lado de uma piscina infinita branca pura. O fundo é um céu azul minimalista e horizonte. No topo em fonte preta fina está o nome da marca "NORDIC LIVING", e na parte inferior o slogan "Less is More". Iluminação limpa, composição com espaço em branco.

Não apenas rápido, é Totalmente Evoluído

Preenchendo a lacuna entre modelos leves e massivos, Z-Image-Turbo encontra o equilíbrio perfeito entre velocidade, qualidade e usabilidade.

Suporte Bilíngue Nativo

Alimentado por Qwen 3.4B LLM. Sem mais caracteres chineses distorcidos. Caligrafia, sinalização e tipografia complexa são renderizadas com precisão.

Fluxo Único S3-DiT

Inovação arquitetônica radical. Tokens de texto e imagem são processados consistentemente, similar ao GPT-4, utilizando cada parâmetro tanto para geração quanto para compreensão.

Licença Apache 2.0

Verdadeira liberdade open source. Ao contrário das restrições comerciais do Flux.1, você é livre para usar comercialmente, modificar e integrar. Ideal para startups.

6B Parâmetros Equilíbrio Dourado
8 Steps Inferência Decoupled-DMD
Qwen 3.4B Encoder de Texto Bilíngue Nativo
12GB Req VRAM Sem Quantização Necessária
Tecnologia Principal

S3-DiT: Quebrando Barreiras Modais

Modelos tradicionais usam arquitetura "dual-stream". Z-Image-Turbo adota Transformer de Difusão de Fluxo Único Escalável (S3-DiT).

  • Fluxo de Entrada Unificado: Tokens de texto e latentes de imagem são concatenados diretamente.
  • Interação Total de Parâmetros: Cada camada Transformer realiza cálculo profundo de atenção texto-imagem.
  • Decoupled-DMD: O algoritmo central que comprime a inferência para apenas 8 etapas.
  • Aprimoramento CFG: Sinais de orientação otimizados independentemente para imagens nítidas sem altos valores de CFG.
Architecture_v1.0
Text Token
+
Img Latent
Unified Transformer Block Self-Attention (All-to-All)
High-Fidelity Output (8 Steps)

Por que escolher Z-Image-Turbo?

Fornecemos a solução ideal equilibrando desempenho, custo e ecossistema.

MétricaZ-Image-TurboFlux.1 (Dev)SDXL Base
Parâmetros6B (Equilibrado)12B (Massivo)2.6B
Req VRAM12GB (Nativo BF16)24GB+ (ou Quant)8GB
Etapas8 Etapas (Destilado)20-50 Etapas20-50 Etapas
Encoder TextoQwen 3.4B (Bilíngue)T5 + CLIPOpenCLIP
Tipografia⭐️⭐️⭐️⭐️⭐️ Perfeito⭐️⭐️ Ruim⭐️ Distorcido
LicençaApache 2.0Não-ComercialOpenRAIL++
Custo/Img~$0.0029AltoBaixo

Uma bênção para hardware de consumo

Graças à escala de 6B parâmetros e destilação de 8 etapas, Z-Image-Turbo atinge geração em 2-3s em RTX 3090/4090. Para H800 empresariais, resposta sub-segundo é realidade.

Nvidia H800 (Enterprise) < 1 s
RTX 4090 (Consumer High-End) ~ 2.5 s
Flux.1 Dev (RTX 4090) ~ 10 s+

Início Rápido

# Carregamento rápido com Diffusers

from diffusers import DiffusionPipeline

import torch


# Carregar modelo Turbo 8 etapas

pipe = DiffusionPipeline.from_pretrained(

  "Tongyi-MAI/Z-Image-Turbo",

  torch_dtype=torch.bfloat16

).to("cuda")


# Gerar imagem

image = pipe(

  prompt="Detetive cyberpunk, noite chuvosa, luzes neon, sinal chinês dizendo "Laboratório Tongyi"",

  num_inference_steps=8,

  guidance_scale=1.0 # Modelos destilados não precisam de alto CFG

).images[0]

Perguntas Frequentes

Perguntas sobre implantação, uso e licenciamento.

Requisitos de GPU?

Para precisão nativa (BF16), 16GB VRAM (RTX 4080/3090) é recomendado. Com quantização GGUF/NF4, placas de 8GB VRAM (RTX 3060) rodam suavemente com perda mínima de qualidade.

Posso usar comercialmente?

Sim. Z-Image-Turbo usa a licença permissiva Apache 2.0. Você pode usar livremente para produtos comerciais sem taxas.

Como escrever prompts chineses?

Como conversar naturalmente. Graças ao Qwen 3.4B, você pode usar frases complexas. Para renderizar texto, coloque o texto específico entre aspas.

Suporte para ComfyUI / WebUI?

Sim. ComfyUI tem suporte desde o dia 0. O suporte para Automatic1111 WebUI está no branch de desenvolvimento e chegará em breve.

Vantagem sobre Flux.1?

Z-Image-Turbo resolve eficiência e usabilidade. Enquanto Flux é ótimo para qualidade extrema, Z-Image oferece 3x velocidade, metade do uso de VRAM e suporte chinês superior.

Z
Z-Image-Turbo

Comprometidos em construir o paradigma de IA generativa eficiente de próxima geração baseado em modelagem de sequência unificada.