掌握 Z-Image Turbo
LoRA 訓練藝術

基於 Ostris AI Toolkit 的權威指南。在不犧牲 8 步推理速度的前提下,將自定義角色、風格和對象注入這款來自阿里雲的超快模型。

極速推理

僅需 8 步 (NFEs) 即可生成高質量圖像,實現亞秒級延遲,效率遠超傳統 SDXL。

寫實攝影風格

擅長逼真的光影和紋理表現,特別適合人像攝影和電影質感的 LoRA 訓練。

高效訓練

使用專門的去蒸餾適配器 (De-distillation Adapter),防止訓練破壞模型的速度優勢。

準備工作

開始之前,請確保硬體和環境滿足以下要求。

硬體要求

  • 推薦: 24GB+ VRAM (RTX 3090/4090) 以獲得最佳速度。
  • 最低: 12GB VRAM (RTX 3060)。需開啟 float8 和顯存優化。

環境設置

  • 雲端 (推薦): RunPod 使用 "Ostris AI Toolkit" 模板,一鍵部署。
  • 本地: 克隆 ostris/ai-toolkit 並安裝依賴。
試試 Fal.ai 雲端訓練 →

6步速成 訓練流程

1

準備數據集

這是決定質量的關鍵。建議準備 10-30 張高質量圖片。

  • 解析度: 1024x1024 (模型最佳點)。低顯存用戶可用 768x768。
  • 多樣性: 確保不同的角度、光照和背景,避免模型死記硬背。
  • 打標: 創建同名 .txt 文件。例如 img01.png 對應 img01.txt,內容為 "[trigger], 描述..."
2

啟動 AI Toolkit

我們使用 Ostris AI Toolkit 的 Gradio 界面進行可視化配置。

# 本地運行命令
python run.py --ui

RunPod 用戶只需點擊部署後的 "Connect to HTTP Port" 即可。

3

關鍵參數配置 (Crucial)

在 UI 中創建新 Job,嚴格按照以下參數設置以防止破壞 Turbo 模型的速度。

SectionSetting
MODEL路徑: Tongyi-MAI/Z-Image-Turbo (必須選擇帶 training adapter 的預設)
TRAINING學習率: 0.0001 (過高會導致畫面崩壞)
TRAINING步數: 2000 - 3000 / Batch Size 1
TRAINING優化器: AdamW8Bit
TARGETRank: 8 - 16 (16 適合複雜角色)
ADVANCED高級: 開啟 Differential Output Preservation
4

監控與選型

在 Samples 標籤頁觀察生成的預覽圖。早期的步驟會顯示基礎模型效果,概念會逐漸浮現。選擇過擬合之前的最後一個 .safetensors 文件。

5

推理與使用

生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。記得加入你的觸發詞。

Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 救星指南

  • • 解析度限制: 最大 768x768 或使用分桶。
  • • Cache: 必須開啟 Latents 和 Text Embeddings 緩存。
  • • 優化器: 改用 Adafactor。
  • • 學習率: 調整為 0.0003。
  • • 步數: 減少至 1200-2000 步。

常見問題排查

圖像模糊 / 速度變慢?

可能使用了錯誤的 Adapter 或過高的學習率。這破壞了蒸餾效果。請使用默認 LR (0.0001) 並確保啟用了 de-distillation adapter。

概念 "污染" (Leakage)?

背景或無關物體也變成了你的訓練對象?嘗試開啟 DOP 並降低 LoRA 權重至 0.6-0.8。

人臉細節不足?

Turbo 模型有時會過度平滑皮膚。嘗試在 Prompt 中增加 "highly detailed skin texture" 等關鍵詞,或增加面部特寫訓練圖。

Z
Z-Image-Turbo

致力於構建基於統一序列建模的下一代高效生成式 AI 範式。