AI Study/Vision 6

👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰

Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?A1. 고해상도 이미지 생성에서 Transformer의 직접 사용이 어려움.최근 Transformer 기반 모델(GPT, BERT 등)이 NLP에서 강력한 성능을 보여줬음.이 흐름이 이미지 생성에도 도입되었으나, 고해상도 이미지에서는 Transformer의 복잡도가 커져 사용이 어려움.기본적인 Self-Attention은 시퀀스 길이 (n)에 대해 계산 복잡도가 (O(n2))임.256×256 이미지는 65,536개의 토큰이 필요하며, 이를 직접 Transformer로 다루면 메모리, 시간 측면에서 비효율적임.따라서, 기존에는 저해상도에만 한정되거나(예: ImageGPT), CNN 구조를 사용함.📌 기존 한계:Imag..

AI Study/Vision 2025.03.28

👁️ [2021] AN IMAGE IS WORTH 16X16 WORDS 리뷰

🔍 Q1. 왜 기존의 CNN 기반 모델을 대체할 새로운 구조가 필요한가?기존 접근 방식의 한계 CNN은 inductive bias(지역성, 전이 불변성)를 내장하고 있어 학습이 빠름.하지만 이러한 구조적 제약은 데이터가 매우 많을 경우 성능을 제한할 수 있음.자연어처리(NLP)에서는 Transformer가 모든 inductive bias 없이 대규모 데이터에서 성공함 → 이를 비전 분야에도 확장할 수 있을지에 대한 질문이 제기됨.핵심 문제의식 이미지 분류에서 CNN이 지배적인데, Transformer가 순수한 형태로도 경쟁력 있을 수 있는가?이 질문에 대해 실험적으로 답하고자 함.📌 정리 포인트: CNN의 inductive bias는 적은 데이터에 유리하지만, 데이터가 많을수록 방해 요소가 될 수..

AI Study/Vision 2025.03.28

👁️ [2020] Denoising Diffusion Probabilistic Models 리뷰

🔎 Q1. 어떤 문제에서 이 논문이 출발함?A1. 고품질 생성 모델의 안정성과 다양성 확보의 필요성에서 출발함.기존 이미지 생성 모델에서 GAN(Generative Adversarial Networks)이 높은 품질을 제공하지만, 다음과 같은 문제 존재함:훈련 불안정성: Generator와 Discriminator 간의 경쟁 구조로 인해 민감하게 튜닝해야 함.모드 붕괴(mode collapse): 일부 패턴만 반복적으로 생성하는 경향이 있음.표현 다양성 부족: 전체 데이터 분포를 균일하게 커버하지 못함.이에 따라, 더 안정적이며 다양성을 보장할 수 있는 생성 방법에 대한 관심 증가함.📚 참조:Goodfellow et al., "Generative Adversarial Nets", NeurIPS 201..

AI Study/Vision 2025.03.28

👁️ [2016] Pixel Recurrent Neural Networks 리뷰

Q1. 왜 이 논문은 등장했는가? 기존 이미지 생성 모델의 어떤 한계를 해결하고자 했는가?A1.기존 이미지 생성 모델들은 픽셀 간 상관관계를 제대로 포착하지 못함.특히 이미지의 구조적 일관성과 고해상도 품질을 생성하는 데 약점을 보임.예:CNN 기반 모델은 고정된 수용영역(receptive field)만을 사용함 → 장기 의존성(long-range dependencies) 학습에 한계 있음.Fully-connected 방식은 너무 많은 파라미터를 요구함.오토인코더/변분 오토인코더 계열은 blurry한 이미지 생성 문제 존재함 [Kingma et al., 2013].→ 따라서 픽셀 하나하나를 순차적으로 생성하면서, 그 이전 픽셀들의 정보를 최대한 활용하는 방식 필요함.Q2. 이 문제를 어떻게 해결하려 했는..

AI Study/Vision 2025.03.28

👁️ [2017] Neural Discrete Representation Learning 리뷰

1. 왜 이 논문이 중요한가?Q1. 기존의 표현 학습(generative representation learning)에서 어떤 문제가 있었는가?대부분의 딥러닝 기반 생성 모델은 연속(latent continuous) 표현 공간을 사용함.특히 VAE(Variational Autoencoder)는 잠재 변수 공간을 연속적으로 가정함.하지만 인간의 언어, 오디오, 이미지 인식 과정은 이산(discrete) 정보 구조를 가짐.따라서 실제 데이터의 특성과 맞지 않는 연속적 잠재 공간은 비효율적 표현을 유도함.📝 참고: [Kingma & Welling, 2014] “Auto-Encoding Variational Bayes” — VAE의 기본 구조 참고.2. 왜 이산 표현(discrete representation..

AI Study/Vision 2025.03.27

👁️ [2014] Generative Adversarial Networks 리뷰

🔍 1. 왜 이 논문이 시작되었는가?Q1. 왜 새로운 생성 모델이 필요한가?기존 생성 모델(예: RBM, VAE 등)은 학습이 복잡하거나 성능에 한계가 있었음.MCMC 기반 모델은 샘플링이 느림. 최대우도 추정은 계산이 어려움.목적 함수가 불명확하거나, 분포 근사를 잘 못함.A1. 학습과 샘플링이 단순하고 효율적인 새로운 접근이 필요했음. GAN은 이를 해결하고자 함.⚙️ 2. GAN의 핵심 아이디어는?Q2. GAN은 어떤 방식으로 생성 모델을 학습하는가?두 개의 신경망 사용: 생성자(Generator, G)와 판별자(Discriminator, D).G는 데이터를 생성하고, D는 진짜 데이터와 G의 출력을 구분하려 함.둘은 경쟁하면서 학습함.A2. 생성자와 판별자를 대립시켜 학습함으로써, 생성자는 더 ..

AI Study/Vision 2025.03.27