👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰

AI Study/Vision

👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰

cs_bot 2025. 3. 28. 19:15

Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?

A1. 고해상도 이미지 생성에서 Transformer의 직접 사용이 어려움.

최근 Transformer 기반 모델(GPT, BERT 등)이 NLP에서 강력한 성능을 보여줬음.
이 흐름이 이미지 생성에도 도입되었으나, 고해상도 이미지에서는 Transformer의 복잡도가 커져 사용이 어려움.
기본적인 Self-Attention은 시퀀스 길이 $(n$ )에 대해 계산 복잡도가 $(O (n^{2})$ )임.
256×256 이미지는 65,536개의 토큰이 필요하며, 이를 직접 Transformer로 다루면 메모리, 시간 측면에서 비효율적임.
따라서, 기존에는 저해상도에만 한정되거나(예: ImageGPT), CNN 구조를 사용함.

📌 기존 한계:

ImageGPT (Chen et al., 2020): 32×32 이미지에만 사용 가능했음.
VQ-VAE-2 (Razavi et al., 2019): CNN 기반으로 high-fidelity 이미지 생성 성공함.

Q2. 이 문제는 왜 중요한가?

A2. Transformer의 표현력과 long-range dependency 학습 능력을 이미지 생성에 도입하기 위함.

Transformer는 복잡한 패턴, 장거리 상관관계를 학습하는 데 특화되어 있음.
이미지 생성에서도 pixel 간 복잡한 관계를 다루기 위해 Transformer의 장점을 활용할 수 있음.
하지만, 고해상도 이미지를 다루기 위한 효율적인 토큰 표현 방식이 필요함.

Q3. 이 논문에서는 어떤 해결책을 제안했는가?

A3. 이미지 토큰화를 통한 Transformer 적용 프레임워크 제안 (VQ-GAN + Transformer).

핵심 아이디어: 이미지를 직접 Transformer로 다루는 대신, 이미지를 discrete token 시퀀스로 변환한 후 학습하는 방식 채택.
이 과정을 다음 두 단계로 분리함:
1. VQ-GAN (Vector Quantized GAN)을 이용해 이미지를 discrete latent 토큰 시퀀스로 압축함.
2. 해당 시퀀스를 Transformer로 학습해 이미지 생성을 수행함.

🔧 이 방법은 GPT나 BERT처럼 discrete 토큰 시퀀스를 다루는 방식과 유사함.

📌 구조 개요:

VQ-GAN: 이미지 압축 및 복원 (압축 → 토큰 → 복원)
Transformer: 생성된 토큰 시퀀스를 기반으로 이미지 생성

Q4. 기존 VQ-VAE 방식과 무엇이 다른가?

A4. VQ-GAN은 VQ-VAE보다 더 정교한 디코더(=GAN 기반)를 사용함.

VQ-VAE는 복원된 이미지의 품질이 낮았음.
VQ-GAN에서는 adversarial loss를 추가함으로써 더욱 정밀한 복원이 가능함.
이로 인해 Transformer가 학습하는 latent space의 시각적 품질이 향상됨.

📌 Loss 구성:

Reconstruction loss (e.g., L2 or perceptual)
Adversarial loss
Commitment loss (VQ loss)

🔗 참고: VQ-VAE-2 - Razavi et al., 2019
🔗 GAN loss - Goodfellow et al., 2014

Q5. 모델의 전체 구조는 어떻게 생겼는가?

A5. 세 가지 주요 블록으로 구성됨.

VQ-GAN Encoder: 고해상도 이미지를 낮은 차원의 discrete latent token으로 변환함.
Transformer: 토큰 시퀀스를 순차적으로 예측하여 이미지의 latent 표현을 생성함.
VQ-GAN Decoder: Transformer가 생성한 토큰 시퀀스를 고해상도 이미지로 복원함.

Q6. 수식적으로 어떻게 작동하는가?

A6. 토큰 예측 확률을 최대화하는 자기회귀 모델 사용.

Transformer는 latent 시퀀스 $(z = z_{1}, . . ., z_{n}$ )의 확률 분포를 학습함:

$p (z) = \prod_{i = 1}^{n} p (z_{i} ∣ z_{< i})$

학습 시에는 cross-entropy loss를 사용하여 다음 토큰을 예측함.

Q7. 어떤 데이터셋에서 실험을 했는가?

A7. 다양한 고해상도 데이터셋에서 실험을 진행함.

CelebA-HQ (256×256)
FFHQ (1024×1024)
ImageNet (256×256)
COCO

이러한 고해상도 데이터셋에서 기존 Transformer 기반 모델보다 훨씬 나은 품질의 이미지를 생성함을 보였음.

Q8. 평가 결과는 어떤가?

A8. FID 점수 및 perceptual 품질 면에서 기존 방법 대비 우수한 성능 보임.

CelebA-HQ 256×256:
- VQGAN + Transformer: FID ≈ 4.98
- VQ-VAE-2: FID ≈ 10.25
ImageNet 256×256:
- BigGAN과 비슷하거나 더 나은 결과
- 단, 일부 클래스에서는 transformer의 불안정성 관찰됨

Q9. Ablation 실험에서는 무엇을 다루는가?

A9. 토큰 수, Transformer depth, loss 구성 등에 따라 성능 변화를 분석함.

Discriminator의 유무에 따른 이미지 품질 차이 확인
Codebook size가 작을수록 압축은 쉬우나 표현력 감소함
Transformer depth가 깊을수록 long-term dependency를 잘 모델링함

Q10. 한계점은 무엇인가?

A10. 아직도 학습 및 샘플링 시간이 오래 걸리며, 일부 객체 구조 왜곡이 있음.

Transformer 기반 생성은 샘플링 속도가 느림 (pixel-by-pixel 방식)
일부 샘플에서는 객체의 구성이 뒤틀리거나 왜곡됨
GAN 기반 디코더 사용 시 학습 안정성 이슈 존재함

Q11. 이 논문의 의의는 무엇인가?

A11. Transformer를 고해상도 이미지 생성에 실질적으로 도입할 수 있는 길을 열었음.

기존의 "Transformer는 고해상도 이미지에는 부적합하다"는 인식을 뒤집음
VQ-GAN을 활용해 효율적이고 효과적인 토큰 표현 방식 제안
이후 DALL·E, Parti, MaskGIT 등 다양한 후속 연구에 영향을 줌

🔗 후속 관련 논문:

DALL·E (Ramesh et al., 2021)

MaskGIT (Chang et al., 2022)

Imagen (Saharia et al., 2022)

📌 요약

문제 정의: 고해상도 이미지에 Transformer 적용이 어렵다는 점
핵심 아이디어: VQ-GAN으로 이미지 압축 후 discrete token을 Transformer로 학습
성과: 고해상도 이미지에서 state-of-the-art 성능 달성
의의: Transformer 기반 이미지 생성의 실용성 입증 및 확장 가능성 제시

'AI Study > Vision' 카테고리의 다른 글

👁️ [2021] AN IMAGE IS WORTH 16X16 WORDS 리뷰 (0)	2025.03.28
👁️ [2020] Denoising Diffusion Probabilistic Models 리뷰 (0)	2025.03.28
👁️ [2016] Pixel Recurrent Neural Networks 리뷰 (0)	2025.03.28
👁️ [2017] Neural Discrete Representation Learning 리뷰 (0)	2025.03.27
👁️ [2014] Generative Adversarial Networks 리뷰 (0)	2025.03.27

현재글👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰

C's Shelter C's Shelter

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

C's Shelter