掌握 Z-Image Turbo
LoRA 训练艺术

基于 Ostris AI Toolkit 的权威指南。在不牺牲 8 步推理速度的前提下,将自定义角色、风格和对象注入这款来自阿里云的超快模型。

极速推理

仅需 8 步 (NFEs) 即可生成高质量图像,实现亚秒级延迟,效率远超传统 SDXL。

写实摄影风格

擅长逼真的光影和纹理表现,特别适合人像摄影和电影质感的 LoRA 训练。

高效训练

使用专门的去蒸馏适配器 (De-distillation Adapter),防止训练破坏模型的速度优势。

准备工作

开始之前,请确保硬件和环境满足以下要求。

硬件要求

  • 推荐: 24GB+ VRAM (RTX 3090/4090) 以获得最佳速度。
  • 最低: 12GB VRAM (RTX 3060)。需开启 float8 和显存优化。

环境设置

  • 云端 (推荐): RunPod 使用 "Ostris AI Toolkit" 模板,一键部署。
  • 本地: 克隆 ostris/ai-toolkit 并安装依赖。
试试 Fal.ai 云端训练 →

6步速成 训练流程

1

准备数据集

这是决定质量的关键。建议准备 10-30 张高质量图片。

  • 分辨率: 1024x1024 (模型最佳点)。低显存用户可用 768x768。
  • 多样性: 确保不同的角度、光照和背景,避免模型死记硬背。
  • 打标: 创建同名 .txt 文件。例如 img01.png 对应 img01.txt,内容为 "[trigger], 描述..."
2

启动 AI Toolkit

我们使用 Ostris AI Toolkit 的 Gradio 界面进行可视化配置。

# 本地运行命令
python run.py --ui

RunPod 用户只需点击部署后的 "Connect to HTTP Port" 即可。

3

关键参数配置 (Crucial)

在 UI 中创建新 Job,严格按照以下参数设置以防止破坏 Turbo 模型的速度。

SectionSetting
MODEL路径: Tongyi-MAI/Z-Image-Turbo (必须选择带 training adapter 的预设)
TRAINING学习率: 0.0001 (过高会导致画面崩坏)
TRAINING步数: 2000 - 3000 / Batch Size 1
TRAINING优化器: AdamW8Bit
TARGETRank: 8 - 16 (16 适合复杂角色)
ADVANCED高级: 开启 Differential Output Preservation
4

监控与选型

在 Samples 标签页观察生成的预览图。早期的步骤会显示基础模型效果,概念会逐渐浮现。选择过拟合之前的最后一个 .safetensors 文件。

5

推理与使用

生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。记得加入你的触发词。

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 救星指南

  • • 分辨率限制: 最大 768x768 或使用分桶。
  • • Cache: 必须开启 Latents 和 Text Embeddings 缓存。
  • • 优化器: 改用 Adafactor。
  • • 学习率: 调整为 0.0003。
  • • 步数: 减少至 1200-2000 步。

常见问题排查

图像模糊 / 速度变慢?

可能使用了错误的 Adapter 或过高的学习率。这破坏了蒸馏效果。请使用默认 LR (0.0001) 并确保启用了 de-distillation adapter。

概念 "污染" (Leakage)?

背景或无关物体也变成了你的训练对象?尝试开启 DOP 并降低 LoRA 权重至 0.6-0.8。

人脸细节不足?

Turbo 模型有时会过度平滑皮肤。尝试在 Prompt 中增加 "highly detailed skin texture" 等关键词,或增加面部特写训练图。

Z
Z-Image-Turbo

致力于构建基于统一序列建模的下一代高效生成式 AI 范式。