Z-Image
Motor de geração de imagens leve
Z-Image é uma ferramenta leve de geração de imagens com uma eficiente arquitetura de inferência de 8 etapas. Oferece geração de imagens IA rápida e de alta qualidade em GPUs de consumo, reduzindo significativamente os custos computacionais.
Dimensions
Galeria de Exemplos
Saxofonista de Jazz Cinematográfico
Documentário de Rua Tokyo Noite Chuvosa
O Artesão Relojoeiro
Retrato Hanfu Dinastia Tang
Textura de Alta Moda
Ilustração Studio Ghibli
Pôster de Filme Vintage "O Sabor da Memória"
Capa de Revista Nature
Design de Pôster de Cadeira Minimalista
Não apenas rápido, é Totalmente Evoluído
Preenchendo a lacuna entre modelos leves e massivos, Z-Image-Turbo encontra o equilíbrio perfeito entre velocidade, qualidade e usabilidade.
Suporte Bilíngue Nativo
Alimentado por Qwen 3.4B LLM. Sem mais caracteres chineses distorcidos. Caligrafia, sinalização e tipografia complexa são renderizadas com precisão.
Fluxo Único S3-DiT
Inovação arquitetônica radical. Tokens de texto e imagem são processados consistentemente, similar ao GPT-4, utilizando cada parâmetro tanto para geração quanto para compreensão.
Licença Apache 2.0
Verdadeira liberdade open source. Ao contrário das restrições comerciais do Flux.1, você é livre para usar comercialmente, modificar e integrar. Ideal para startups.
S3-DiT: Quebrando Barreiras Modais
Modelos tradicionais usam arquitetura "dual-stream". Z-Image-Turbo adota Transformer de Difusão de Fluxo Único Escalável (S3-DiT).
- Fluxo de Entrada Unificado: Tokens de texto e latentes de imagem são concatenados diretamente.
- Interação Total de Parâmetros: Cada camada Transformer realiza cálculo profundo de atenção texto-imagem.
- Decoupled-DMD: O algoritmo central que comprime a inferência para apenas 8 etapas.
- Aprimoramento CFG: Sinais de orientação otimizados independentemente para imagens nítidas sem altos valores de CFG.
Por que escolher Z-Image-Turbo?
Fornecemos a solução ideal equilibrando desempenho, custo e ecossistema.
| Métrica | Z-Image-Turbo | Flux.1 (Dev) | SDXL Base |
|---|---|---|---|
| Parâmetros | 6B (Equilibrado) | 12B (Massivo) | 2.6B |
| Req VRAM | 12GB (Nativo BF16) | 24GB+ (ou Quant) | 8GB |
| Etapas | 8 Etapas (Destilado) | 20-50 Etapas | 20-50 Etapas |
| Encoder Texto | Qwen 3.4B (Bilíngue) | T5 + CLIP | OpenCLIP |
| Tipografia | ⭐️⭐️⭐️⭐️⭐️ Perfeito | ⭐️⭐️ Ruim | ⭐️ Distorcido |
| Licença | Apache 2.0 | Não-Comercial | OpenRAIL++ |
| Custo/Img | ~$0.0029 | Alto | Baixo |
Uma bênção para hardware de consumo
Graças à escala de 6B parâmetros e destilação de 8 etapas, Z-Image-Turbo atinge geração em 2-3s em RTX 3090/4090. Para H800 empresariais, resposta sub-segundo é realidade.
Início Rápido
# Carregamento rápido com Diffusers
from diffusers import DiffusionPipeline
import torch
# Carregar modelo Turbo 8 etapas
pipe = DiffusionPipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
).to("cuda")
# Gerar imagem
image = pipe(
prompt="Detetive cyberpunk, noite chuvosa, luzes neon, sinal chinês dizendo "Laboratório Tongyi"",
num_inference_steps=8,
guidance_scale=1.0 # Modelos destilados não precisam de alto CFG
).images[0]
Perguntas Frequentes
Perguntas sobre implantação, uso e licenciamento.
Requisitos de GPU?
Para precisão nativa (BF16), 16GB VRAM (RTX 4080/3090) é recomendado. Com quantização GGUF/NF4, placas de 8GB VRAM (RTX 3060) rodam suavemente com perda mínima de qualidade.
Posso usar comercialmente?
Sim. Z-Image-Turbo usa a licença permissiva Apache 2.0. Você pode usar livremente para produtos comerciais sem taxas.
Como escrever prompts chineses?
Como conversar naturalmente. Graças ao Qwen 3.4B, você pode usar frases complexas. Para renderizar texto, coloque o texto específico entre aspas.
Suporte para ComfyUI / WebUI?
Sim. ComfyUI tem suporte desde o dia 0. O suporte para Automatic1111 WebUI está no branch de desenvolvimento e chegará em breve.
Vantagem sobre Flux.1?
Z-Image-Turbo resolve eficiência e usabilidade. Enquanto Flux é ótimo para qualidade extrema, Z-Image oferece 3x velocidade, metade do uso de VRAM e suporte chinês superior.