이번 논문은 2023년 Ye et al.에서 제안한 "IP-Adapter: Text Compatible Image Prompt Adapter forText-to-mage Diffusion Models" 입니다. 이 논문은 Stable Diffusion 기반 모델에서 이미지 프롬프트를 효과적으로 활용하기 위한 가볍고 효율적인 어댑터 구조를 제안하며, 텍스트와 이미지를 모두 활용한 멀티모달 생성 능력을 지원합니다.
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
Recent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involves
arxiv.org
GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to
The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt. - GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is des...
github.com
🎯 왜 이 논문이 중요한가?
- 기존의 텍스트-투-이미지 모델은 텍스트 입력만으로 이미지를 생성하지만, 다음과 같은 한계가 있습니다:
- 텍스트만으로 복잡한 정보를 표현하기 어려움
- 프롬프트 엔지니어링이 까다로움
- 이미지 프롬프트를 사용하려면 모델을 다시 훈련(finetuning)해야 함
- "그림 한 장이 천 마디 말보다 낫다"는 속담처럼, 이미지 프롬프트는 훨씬 더 직관적입니다.
이 논문은 기존의 Stable Diffusion을 그대로 두고, 가벼운 어댑터를 추가해 이미지 프롬프트를 지원합니다. - 🧩 핵심 기여 요약
항목 | 설명 |
목표 | Stable Diffusion에 이미지 프롬프트 기능 추가 |
핵심 아이디어 | 텍스트와 이미지를 분리된 cross-attention으로 처리 (decoupled) |
모델 크기 | 약 22M 파라미터 (원래 SD 모델 수백 M 이상) |
호환성 | 텍스트 프롬프트, ControlNet 등과 완벽히 호환됨 |
재사용성 | 한 번 훈련한 IP-Adapter는 다른 커스텀 모델에 바로 사용 가능 |
🧠 IP-Adapter의 구조
- 기본 아이디어: Cross-Attention 분리
- 기존 Diffusion 모델의 UNet은 텍스트 임베딩만을 사용하는 cross-attention을 사용합니다.
- 여기에 이미지 임베딩을 그대로 끼워 넣으면 성능이 떨어집니다.
- 👉 그래서 논문은 텍스트용과 이미지용 cross-attention을 따로 만들자고 제안합니다.
- 구조 구성
- CLIP 이미지 인코더: 이미지를 임베딩으로 변환 (전처리 단계, frozen)
- 투영 네트워크: CLIP 임베딩을 여러 개의 벡터로 분해
- Decoupled Cross-Attention:
- 텍스트 cross-attention과 별도로 이미지 cross-attention을 추가
- 두 attention의 출력을 단순히 합산하여 활용
- $Z_{new} = \text{Attention}(Q, K_{text}, V_{text}) + \lambda \cdot \text{Attention}(Q, K_{img}, V_{img})$
- 여기서 $\lambda$는 이미지 프롬프트의 가중치를 조절하는 하이퍼파라미터입니다.
🔧 학습 방식
- 훈련 시: 텍스트와 이미지 프롬프트 모두 사용 (둘 다 있을 수도, 하나만 있을 수도 있음)
- 손실 함수: 일반적인 noise 예측 기반 loss 사용
- $L = \mathbb{E} \left[ \left\| \epsilon - \epsilon_\theta\left( x_t, c_t, c_i, t \right) \right\|^2 \right]$
- 텍스트/이미지 프롬프트를 일정 확률로 제거하여 classifier-free guidance 지원
- 원래 Stable Diffusion은 고정(freeze)하고, IP-Adapter만 학습
📊 실험 결과
- 정량 평가 (COCO 데이터셋 기준)
- 정성 평가
- 더 다양하고 정밀한 이미지 생성
- 스타일, 구조, 세부 요소까지 이미지 프롬프트와 잘 일치
- ControlNet, T2I-Adapter와 조합 시에도 성능 유지
- Ablation Study
- Decoupled Attention의 중요성
- 기존 방식 (concat 후 단일 attention)보다 훨씬 높은 성능
- 이미지 프롬프트의 세밀한 특징 반영에 효과적
- Fine-grained vs. Global features
- Global CLIP 임베딩은 빠르고 간단하지만 구조 정보 부족
- Fine-grained CLIP grid features는 더 정확하지만 다양성 낮음
- Decoupled Attention의 중요성
🔬 다양한 활용 사례
- 커스텀 모델 적용
- IP-Adapter는 SD 1.5 기반의 Realistic Vision, Anything v4 등 커뮤니티 모델에 적용 가능
- 구조 제어와 병합
- ControlNet과 함께 사용해 “이미지 + 포즈 + 텍스트” 등 복합 조건 가능
- 이미지 인페인팅 및 변환
- Image-to-Image 및 Inpainting도 간단하게 적용 가능
- 멀티모달 프롬프트
- 텍스트와 이미지 프롬프트를 함께 사용
- ex) "이 사진의 인물, 하지만 배경은 cyberpunk city"
✅ 결론 요약
항목 | 내용 |
핵심 기여 | 텍스트 기반 diffusion 모델에 이미지 프롬프트를 가볍게 추가 |
구조 특징 | Decoupled Cross-Attention / Frozen backbone / Projection network |
성능 | 기존 fine-tuned 모델과 동급 또는 그 이상 |
호환성 | 텍스트, 커스텀 모델, ControlNet, Inpainting 등과 호환 가능 |
📝마무리
- IP-Adapter는 ControlNet이 구조적 제어를 가능하게 했던 것처럼, 콘텐츠와 스타일 제어에 이미지 프롬프트를 접목시킨 혁신적인 기법입니다.
- 특히 멀티모달 프롬프트가 가능한 점에서 차별화되며, 커뮤니티 모델과도 잘 통합됩니다.
'Deep Learning > Generative Model' 카테고리의 다른 글
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) (0) | 2025.05.07 |
---|---|
High-Resolution Image Synthesis with Latent Diffusion Models (LDM) (0) | 2025.05.07 |
Denoising Diffusion Probabilistic Models (DDPM) (1) | 2025.05.07 |