掌握 Z-Image Turbo
LoRA 训练艺术
基于 Ostris AI Toolkit 的权威指南。在不牺牲 8 步推理速度的前提下,将自定义角色、风格和对象注入这款来自阿里云的超快模型。
极速推理
仅需 8 步 (NFEs) 即可生成高质量图像,实现亚秒级延迟,效率远超传统 SDXL。
写实摄影风格
擅长逼真的光影和纹理表现,特别适合人像摄影和电影质感的 LoRA 训练。
高效训练
使用专门的去蒸馏适配器 (De-distillation Adapter),防止训练破坏模型的速度优势。
准备工作
开始之前,请确保硬件和环境满足以下要求。
硬件要求
- 推荐: 24GB+ VRAM (RTX 3090/4090) 以获得最佳速度。
- 最低: 12GB VRAM (RTX 3060)。需开启 float8 和显存优化。
环境设置
- 云端 (推荐): RunPod 使用 "Ostris AI Toolkit" 模板,一键部署。
- 本地: 克隆 ostris/ai-toolkit 并安装依赖。
6步速成 训练流程
1
准备数据集
这是决定质量的关键。建议准备 10-30 张高质量图片。
- 分辨率: 1024x1024 (模型最佳点)。低显存用户可用 768x768。
- 多样性: 确保不同的角度、光照和背景,避免模型死记硬背。
- 打标: 创建同名 .txt 文件。例如 img01.png 对应 img01.txt,内容为 "[trigger], 描述..."
2
启动 AI Toolkit
我们使用 Ostris AI Toolkit 的 Gradio 界面进行可视化配置。
# 本地运行命令
python run.py --ui
python run.py --ui
RunPod 用户只需点击部署后的 "Connect to HTTP Port" 即可。
3
关键参数配置 (Crucial)
在 UI 中创建新 Job,严格按照以下参数设置以防止破坏 Turbo 模型的速度。
| Section | Setting |
|---|---|
| MODEL | 路径: Tongyi-MAI/Z-Image-Turbo (必须选择带 training adapter 的预设) |
| TRAINING | 学习率: 0.0001 (过高会导致画面崩坏) |
| TRAINING | 步数: 2000 - 3000 / Batch Size 1 |
| TRAINING | 优化器: AdamW8Bit |
| TARGET | Rank: 8 - 16 (16 适合复杂角色) |
| ADVANCED | 高级: 开启 Differential Output Preservation |
4
监控与选型
在 Samples 标签页观察生成的预览图。早期的步骤会显示基础模型效果,概念会逐渐浮现。选择过拟合之前的最后一个 .safetensors 文件。
5
推理与使用
生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。记得加入你的触发词。
Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image
# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16
).to("cuda")
# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")
# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")12GB VRAM 救星指南
- • 分辨率限制: 最大 768x768 或使用分桶。
- • Cache: 必须开启 Latents 和 Text Embeddings 缓存。
- • 优化器: 改用 Adafactor。
- • 学习率: 调整为 0.0003。
- • 步数: 减少至 1200-2000 步。
常见问题排查
图像模糊 / 速度变慢?
可能使用了错误的 Adapter 或过高的学习率。这破坏了蒸馏效果。请使用默认 LR (0.0001) 并确保启用了 de-distillation adapter。
概念 "污染" (Leakage)?
背景或无关物体也变成了你的训练对象?尝试开启 DOP 并降低 LoRA 权重至 0.6-0.8。
人脸细节不足?
Turbo 模型有时会过度平滑皮肤。尝试在 Prompt 中增加 "highly detailed skin texture" 等关键词,或增加面部特写训练图。