Z-Image Turbo
LoRA 学習の極意

Ostris AI Toolkitに基づく決定版ガイド。Alibaba Cloudの超高速モデルに、8ステップ推論速度を犠牲にすることなく、カスタムキャラクター、スタイル、オブジェクトを注入します。

超高速推論

わずか8ステップ(NFE)で高品質な画像を生成し、従来のSDXLを遥かに凌駕するサブ秒単位のレイテンシを実現します。

フォトリアルなスタイル

リアルな光とテクスチャの表現に優れており、ポートレート写真や映画のような質感のLoRA学習に特に適しています。

効率的な学習

専用の脱蒸留アダプター(De-distillation Adapter)を使用し、学習がモデルの速度という利点を損なうのを防ぎます。

事前準備

開始する前に、ハードウェアと環境が以下の要件を満たしていることを確認してください。

ハードウェア要件

推奨: 24GB+ VRAM (RTX 3090/4090) で最高速度を実現。
最低: 12GB VRAM (RTX 3060)。float8とVRAM最適化が必要。

環境設定

クラウド (推奨): RunPodで「Ostris AI Toolkit」テンプレートを使用し、ワンクリックでデプロイ。
ローカル: ostris/ai-toolkit をクローンし、依存関係をインストール。

Fal.ai クラウドトレーニングを試す →

6ステップ学習プロセス

データセットの準備

これが品質を決定します。高品質な画像を10〜30枚準備することをお勧めします。

解像度: 1024x1024 (最適)。低VRAMユーザーは768x768。
多様性: 角度、照明、背景を変えて、過学習を防ぎます。
キャプション: 同名の.txtファイルを作成します。例: img01.png -> img01.txt、内容は "[trigger], description..."

AI Toolkitの起動

Ostris AI ToolkitのGradioインターフェースを使用して視覚的に設定します。

# ローカル実行コマンド
python run.py --ui

RunPodユーザーはデプロイ後に「Connect to HTTP Port」をクリックするだけです。

重要なパラメータ設定

UIで新しいジョブを作成します。Turboモデルの速度を損なわないよう、以下の設定に厳密に従ってください。

Section	Setting
MODEL	パス: Tongyi-MAI/Z-Image-Turbo (training adapter付きプリセットを選択必須)
TRAINING	学習率: 0.0001 (高すぎると画像が崩壊します)
TRAINING	ステップ数: 2000 - 3000 / バッチサイズ 1
TRAINING	オプティマイザ: AdamW8Bit
TARGET	ランク: 8 - 16 (複雑なキャラクターには16)
ADVANCED	高度設定: Differential Output Preservation を有効化

監視と選択

Samplesタブで生成されたプレビューを観察します。初期段階ではベースモデルの効果が表示され、徐々に概念が現れます。過学習する前の最後の .safetensors ファイルを選択してください。

推論と使用

生成されたLoRAはComfyUIやDiffusersで直接使用できます。トリガーワードを入れるのを忘れないでください。

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 救済ガイド

• 解像度制限: 最大768x768、またはバケットを使用。
• キャッシュ: LatentsとText Embeddingsのキャッシュを必ず有効化。
• オプティマイザ: Adafactorに変更。
• 学習率: 0.0003に調整。
• ステップ数: 1200-2000ステップに削減。

よくある問題のトラブルシューティング

画像がぼやける / 速度が遅い?

間違ったアダプターや高すぎる学習率を使用している可能性があります。これは蒸留効果を破壊します。デフォルトのLR (0.0001) を使用し、de-distillation adapterが有効であることを確認してください。

概念の「汚染」(Leakage)?

背景や無関係なオブジェクトまで学習対象になっていませんか？DOPを有効にし、推論時にLoRAの重みを0.6-0.8に下げてみてください。

顔のディテール不足?

Turboモデルは肌を過度に滑らかにすることがあります。プロンプトに "highly detailed skin texture" などを追加するか、顔のアップ画像を学習データに追加してください。

Z-Image TurboLoRA 学習の極意