掌握 Z-Image Turbo
LoRA 訓練藝術
基於 Ostris AI Toolkit 的權威指南。在不犧牲 8 步推理速度的前提下,將自定義角色、風格和對象注入這款來自阿里雲的超快模型。
極速推理
僅需 8 步 (NFEs) 即可生成高質量圖像,實現亞秒級延遲,效率遠超傳統 SDXL。
寫實攝影風格
擅長逼真的光影和紋理表現,特別適合人像攝影和電影質感的 LoRA 訓練。
高效訓練
使用專門的去蒸餾適配器 (De-distillation Adapter),防止訓練破壞模型的速度優勢。
準備工作
開始之前,請確保硬體和環境滿足以下要求。
硬體要求
- 推薦: 24GB+ VRAM (RTX 3090/4090) 以獲得最佳速度。
- 最低: 12GB VRAM (RTX 3060)。需開啟 float8 和顯存優化。
環境設置
- 雲端 (推薦): RunPod 使用 "Ostris AI Toolkit" 模板,一鍵部署。
- 本地: 克隆 ostris/ai-toolkit 並安裝依賴。
6步速成 訓練流程
1
準備數據集
這是決定質量的關鍵。建議準備 10-30 張高質量圖片。
- 解析度: 1024x1024 (模型最佳點)。低顯存用戶可用 768x768。
- 多樣性: 確保不同的角度、光照和背景,避免模型死記硬背。
- 打標: 創建同名 .txt 文件。例如 img01.png 對應 img01.txt,內容為 "[trigger], 描述..."
2
啟動 AI Toolkit
我們使用 Ostris AI Toolkit 的 Gradio 界面進行可視化配置。
# 本地運行命令
python run.py --ui
python run.py --ui
RunPod 用戶只需點擊部署後的 "Connect to HTTP Port" 即可。
3
關鍵參數配置 (Crucial)
在 UI 中創建新 Job,嚴格按照以下參數設置以防止破壞 Turbo 模型的速度。
| Section | Setting |
|---|---|
| MODEL | 路徑: Tongyi-MAI/Z-Image-Turbo (必須選擇帶 training adapter 的預設) |
| TRAINING | 學習率: 0.0001 (過高會導致畫面崩壞) |
| TRAINING | 步數: 2000 - 3000 / Batch Size 1 |
| TRAINING | 優化器: AdamW8Bit |
| TARGET | Rank: 8 - 16 (16 適合複雜角色) |
| ADVANCED | 高級: 開啟 Differential Output Preservation |
4
監控與選型
在 Samples 標籤頁觀察生成的預覽圖。早期的步驟會顯示基礎模型效果,概念會逐漸浮現。選擇過擬合之前的最後一個 .safetensors 文件。
5
推理與使用
生成的 LoRA 可直接在 ComfyUI 或 Diffusers 中使用。記得加入你的觸發詞。
Python (Diffusers)
import torch
from diffusers import AutoPipelineForText2Image
# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16
).to("cuda")
# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")
# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")12GB VRAM 救星指南
- • 解析度限制: 最大 768x768 或使用分桶。
- • Cache: 必須開啟 Latents 和 Text Embeddings 緩存。
- • 優化器: 改用 Adafactor。
- • 學習率: 調整為 0.0003。
- • 步數: 減少至 1200-2000 步。
常見問題排查
圖像模糊 / 速度變慢?
可能使用了錯誤的 Adapter 或過高的學習率。這破壞了蒸餾效果。請使用默認 LR (0.0001) 並確保啟用了 de-distillation adapter。
概念 "污染" (Leakage)?
背景或無關物體也變成了你的訓練對象?嘗試開啟 DOP 並降低 LoRA 權重至 0.6-0.8。
人臉細節不足?
Turbo 模型有時會過度平滑皮膚。嘗試在 Prompt 中增加 "highly detailed skin texture" 等關鍵詞,或增加面部特寫訓練圖。