掌握 Z-Image Turbo
LoRA 训练艺术

基于 Ostris AI Toolkit 的权威指南。在不牺牲 8 步推理速度的前提下，将自定义角色、风格和对象注入这款来自阿里云的超快模型。

极速推理

仅需 8 步 (NFEs) 即可生成高质量图像，实现亚秒级延迟，效率远超传统 SDXL。

写实摄影风格

擅长逼真的光影和纹理表现，特别适合人像摄影和电影质感的 LoRA 训练。

高效训练

使用专门的去蒸馏适配器 (De-distillation Adapter)，防止训练破坏模型的速度优势。

准备工作

开始之前，请确保硬件和环境满足以下要求。

硬件要求

推荐: 24GB+ VRAM (RTX 3090/4090) 以获得最佳速度。
最低: 12GB VRAM (RTX 3060)。需开启 float8 和显存优化。

环境设置

云端 (推荐): RunPod 使用 "Ostris AI Toolkit" 模板，一键部署。
本地: 克隆 ostris/ai-toolkit 并安装依赖。

试试 Fal.ai 云端训练 →

6步速成训练流程

准备数据集

这是决定质量的关键。建议准备 10-30 张高质量图片。

分辨率: 1024x1024 (模型最佳点)。低显存用户可用 768x768。
多样性: 确保不同的角度、光照和背景，避免模型死记硬背。
打标: 创建同名 .txt 文件。例如 img01.png 对应 img01.txt，内容为 "[trigger], 描述..."

启动 AI Toolkit

我们使用 Ostris AI Toolkit 的 Gradio 界面进行可视化配置。

# 本地运行命令
python run.py --ui

RunPod 用户只需点击部署后的 "Connect to HTTP Port" 即可。

关键参数配置 (Crucial)

在 UI 中创建新 Job，严格按照以下参数设置以防止破坏 Turbo 模型的速度。

Section	Setting
MODEL	路径: Tongyi-MAI/Z-Image-Turbo (必须选择带 training adapter 的预设)
TRAINING	学习率: 0.0001 (过高会导致画面崩坏)
TRAINING	步数: 2000 - 3000 / Batch Size 1
TRAINING	优化器: AdamW8Bit
TARGET	Rank: 8 - 16 (16 适合复杂角色)
ADVANCED	高级: 开启 Differential Output Preservation

监控与选型

在 Samples 标签页观察生成的预览图。早期的步骤会显示基础模型效果，概念会逐渐浮现。选择过拟合之前的最后一个 .safetensors 文件。

推理与使用

生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。记得加入你的触发词。

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 救星指南

• 分辨率限制: 最大 768x768 或使用分桶。
• Cache: 必须开启 Latents 和 Text Embeddings 缓存。
• 优化器: 改用 Adafactor。
• 学习率: 调整为 0.0003。
• 步数: 减少至 1200-2000 步。

常见问题排查

图像模糊 / 速度变慢?

可能使用了错误的 Adapter 或过高的学习率。这破坏了蒸馏效果。请使用默认 LR (0.0001) 并确保启用了 de-distillation adapter。

概念 "污染" (Leakage)?

背景或无关物体也变成了你的训练对象？尝试开启 DOP 并降低 LoRA 权重至 0.6-0.8。

人脸细节不足?

Turbo 模型有时会过度平滑皮肤。尝试在 Prompt 中增加 "highly detailed skin texture" 等关键词，或增加面部特写训练图。

掌握 Z-Image TurboLoRA 训练艺术