掌握 Z-Image Turbo
LoRA 訓練藝術

基於 Ostris AI Toolkit 的權威指南。在不犧牲 8 步推理速度的前提下，將自定義角色、風格和對象注入這款來自阿里雲的超快模型。

極速推理

僅需 8 步 (NFEs) 即可生成高質量圖像，實現亞秒級延遲，效率遠超傳統 SDXL。

寫實攝影風格

擅長逼真的光影和紋理表現，特別適合人像攝影和電影質感的 LoRA 訓練。

高效訓練

使用專門的去蒸餾適配器 (De-distillation Adapter)，防止訓練破壞模型的速度優勢。

準備工作

開始之前，請確保硬體和環境滿足以下要求。

硬體要求

推薦: 24GB+ VRAM (RTX 3090/4090) 以獲得最佳速度。
最低: 12GB VRAM (RTX 3060)。需開啟 float8 和顯存優化。

環境設置

雲端 (推薦): RunPod 使用 "Ostris AI Toolkit" 模板，一鍵部署。
本地: 克隆 ostris/ai-toolkit 並安裝依賴。

試試 Fal.ai 雲端訓練 →

6步速成訓練流程

準備數據集

這是決定質量的關鍵。建議準備 10-30 張高質量圖片。

解析度: 1024x1024 (模型最佳點)。低顯存用戶可用 768x768。
多樣性: 確保不同的角度、光照和背景，避免模型死記硬背。
打標: 創建同名 .txt 文件。例如 img01.png 對應 img01.txt，內容為 "[trigger], 描述..."

啟動 AI Toolkit

我們使用 Ostris AI Toolkit 的 Gradio 界面進行可視化配置。

# 本地運行命令
python run.py --ui

RunPod 用戶只需點擊部署後的 "Connect to HTTP Port" 即可。

關鍵參數配置 (Crucial)

在 UI 中創建新 Job，嚴格按照以下參數設置以防止破壞 Turbo 模型的速度。

Section	Setting
MODEL	路徑: Tongyi-MAI/Z-Image-Turbo (必須選擇帶 training adapter 的預設)
TRAINING	學習率: 0.0001 (過高會導致畫面崩壞)
TRAINING	步數: 2000 - 3000 / Batch Size 1
TRAINING	優化器: AdamW8Bit
TARGET	Rank: 8 - 16 (16 適合複雜角色)
ADVANCED	高級: 開啟 Differential Output Preservation

監控與選型

在 Samples 標籤頁觀察生成的預覽圖。早期的步驟會顯示基礎模型效果，概念會逐漸浮現。選擇過擬合之前的最後一個 .safetensors 文件。

推理與使用

生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。記得加入你的觸發詞。

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 救星指南

• 解析度限制: 最大 768x768 或使用分桶。
• Cache: 必須開啟 Latents 和 Text Embeddings 緩存。
• 優化器: 改用 Adafactor。
• 學習率: 調整為 0.0003。
• 步數: 減少至 1200-2000 步。

常見問題排查

圖像模糊 / 速度變慢?

可能使用了錯誤的 Adapter 或過高的學習率。這破壞了蒸餾效果。請使用默認 LR (0.0001) 並確保啟用了 de-distillation adapter。

概念 "污染" (Leakage)?

背景或無關物體也變成了你的訓練對象？嘗試開啟 DOP 並降低 LoRA 權重至 0.6-0.8。

人臉細節不足?

Turbo 模型有時會過度平滑皮膚。嘗試在 Prompt 中增加 "highly detailed skin texture" 等關鍵詞，或增加面部特寫訓練圖。

掌握 Z-Image TurboLoRA 訓練藝術