Z-Image Turbo
LoRA 훈련의 기술

Ostris AI Toolkit 기반의 결정판 가이드. 8단계 추론 속도를 희생하지 않고 알리바바 클라우드의 초고속 모델에 커스텀 캐릭터, 스타일, 오브젝트를 주입하세요.

초고속 추론

단 8단계(NFE) 만에 고품질 이미지를 생성하여 기존 SDXL을 훨씬 능가하는 1초 미만의 지연 시간을 달성합니다.

사실적인 사진 스타일

사실적인 조명과 질감 표현에 탁월하며, 특히 인물 사진과 영화 같은 질감의 LoRA 훈련에 적합합니다.

효율적인 훈련

전용 역증류 어댑터(De-distillation Adapter)를 사용하여 훈련이 모델의 속도 이점을 파괴하는 것을 방지합니다.

준비 사항

시작하기 전에 하드웨어와 환경이 다음 요구 사항을 충족하는지 확인하세요.

하드웨어 요구 사항

권장: 24GB+ VRAM (RTX 3090/4090) 최적의 속도.
최소: 12GB VRAM (RTX 3060). float8 및 메모리 최적화 필요.

환경 설정

클라우드 (권장): RunPod에서 "Ostris AI Toolkit" 템플릿 사용, 원클릭 배포.
로컬: ostris/ai-toolkit 복제 및 종속성 설치.

Fal.ai 클라우드 훈련 시도하기 →

6단계 완성 훈련 과정

데이터셋 준비

품질을 결정하는 핵심입니다. 10-30장의 고품질 이미지를 준비하는 것이 좋습니다.

해상도: 1024x1024 (최적). 낮은 VRAM 사용자는 768x768.
다양성: 과적합을 방지하기 위해 다양한 각도, 조명 및 배경을 확보하세요.
캡션: 동일한 이름의 .txt 파일을 만듭니다. 예: img01.png -> img01.txt, 내용: "[trigger], description..."

AI Toolkit 실행

시각적 구성을 위해 Ostris AI Toolkit의 Gradio 인터페이스를 사용합니다.

# 로컬 실행 명령
python run.py --ui

RunPod 사용자는 배포 후 "Connect to HTTP Port"를 클릭하기만 하면 됩니다.

핵심 매개변수 구성

UI에서 새 작업을 만듭니다. Turbo 모델의 속도를 유지하려면 다음 설정을 엄격히 따르세요.

Section	Setting
MODEL	경로: Tongyi-MAI/Z-Image-Turbo (training adapter가 포함된 프리셋 필수 선택)
TRAINING	학습률: 0.0001 (너무 높으면 이미지가 깨짐)
TRAINING	단계: 2000 - 3000 / 배치 크기 1
TRAINING	최적화: AdamW8Bit
TARGET	Rank: 8 - 16 (복잡한 캐릭터의 경우 16)
ADVANCED	고급: Differential Output Preservation 활성화

모니터링 및 선택

Samples 탭에서 생성된 미리보기를 관찰하세요. 초기 단계에서는 기본 모델 효과가 나타나고 점차 개념이 떠오릅니다. 과적합 전의 마지막 .safetensors 파일을 선택하세요.

추론 및 사용

생성된 LoRA는 ComfyUI 또는 Diffusers에서 직접 사용할 수 있습니다. 트리거 단어를 포함하는 것을 잊지 마세요.

Python (Diffusers)

import torch
from diffusers import AutoPipelineForText2Image

# Load base model
pipe = AutoPipelineForText2Image.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo", 
    torch_dtype=torch.float16
).to("cuda")

# Load trained LoRA
pipe.load_lora_weights("path/to/your_lora.safetensors")

# Inference with trigger word (8 steps)
prompt = "<myconcept>, realistic photo of a person in city"
image = pipe(prompt, num_inference_steps=8, guidance_scale=4.5).images[0]
image.save("output.png")

12GB VRAM 구세주 가이드

• 해상도 제한: 최대 768x768 또는 버킷 사용.
• 캐시: Latents 및 Text Embeddings 캐시를 반드시 활성화하세요.
• 최적화: Adafactor로 전환.
• 학습률: 0.0003으로 조정.
• 단계: 1200-2000 단계로 감소.

일반적인 문제 해결

이미지가 흐리거나 속도가 느린가요?

잘못된 어댑터나 너무 높은 학습률을 사용했을 수 있습니다. 이는 증류 효과를 파괴합니다. 기본 LR(0.0001)을 사용하고 de-distillation adapter가 활성화되었는지 확인하세요.

개념 "오염" (Leakage)?

배경이나 관련 없는 물체도 훈련 대상이 되었나요? DOP를 활성화하고 추론 시 LoRA 가중치를 0.6-0.8로 낮춰보세요.

얼굴 디테일 부족?

Turbo 모델은 때때로 피부를 과도하게 매끄럽게 만듭니다. 프롬프트에 "highly detailed skin texture" 등을 추가하거나 얼굴 클로즈업 훈련 이미지를 추가하세요.

Z-Image TurboLoRA 훈련의 기술