AI Study 10

👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰

Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?A1. 고해상도 이미지 생성에서 Transformer의 직접 사용이 어려움.최근 Transformer 기반 모델(GPT, BERT 등)이 NLP에서 강력한 성능을 보여줬음.이 흐름이 이미지 생성에도 도입되었으나, 고해상도 이미지에서는 Transformer의 복잡도가 커져 사용이 어려움.기본적인 Self-Attention은 시퀀스 길이 $( n $)에 대해 계산 복잡도가 $( \mathcal{O}(n^2) $)임.256×256 이미지는 65,536개의 토큰이 필요하며, 이를 직접 Transformer로 다루면 메모리, 시간 측면에서 비효율적임.따라서, 기존에는 저해상도에만 한정되거나(예: ImageGPT), CNN 구조를 사용함.📌 기존 한계:Imag..

AI Study/Vision 2025.03.28

👁️ [2021] AN IMAGE IS WORTH 16X16 WORDS 리뷰

🔍 Q1. 왜 기존의 CNN 기반 모델을 대체할 새로운 구조가 필요한가?기존 접근 방식의 한계 CNN은 inductive bias(지역성, 전이 불변성)를 내장하고 있어 학습이 빠름.하지만 이러한 구조적 제약은 데이터가 매우 많을 경우 성능을 제한할 수 있음.자연어처리(NLP)에서는 Transformer가 모든 inductive bias 없이 대규모 데이터에서 성공함 → 이를 비전 분야에도 확장할 수 있을지에 대한 질문이 제기됨.핵심 문제의식 이미지 분류에서 CNN이 지배적인데, Transformer가 순수한 형태로도 경쟁력 있을 수 있는가?이 질문에 대해 실험적으로 답하고자 함.📌 정리 포인트: CNN의 inductive bias는 적은 데이터에 유리하지만, 데이터가 많을수록 방해 요소가 될 수..

AI Study/Vision 2025.03.28

👁️ [2020] Denoising Diffusion Probabilistic Models 리뷰

🔎 Q1. 어떤 문제에서 이 논문이 출발함?A1. 고품질 생성 모델의 안정성과 다양성 확보의 필요성에서 출발함.기존 이미지 생성 모델에서 GAN(Generative Adversarial Networks)이 높은 품질을 제공하지만, 다음과 같은 문제 존재함:훈련 불안정성: Generator와 Discriminator 간의 경쟁 구조로 인해 민감하게 튜닝해야 함.모드 붕괴(mode collapse): 일부 패턴만 반복적으로 생성하는 경향이 있음.표현 다양성 부족: 전체 데이터 분포를 균일하게 커버하지 못함.이에 따라, 더 안정적이며 다양성을 보장할 수 있는 생성 방법에 대한 관심 증가함.📚 참조:Goodfellow et al., "Generative Adversarial Nets", NeurIPS 201..

AI Study/Vision 2025.03.28

📘👁️ [2016] Generative Adversarial Text to Image Synthesis 리뷰

1. 왜 이 문제를 다루는가?Q1: 기존의 이미지 생성 모델은 어떤 한계를 가짐?대부분의 이미지 생성 모델은 class label이나 noise vector만을 입력으로 사용함.예: MNIST, CIFAR-10 등에서는 단일 숫자(class)로 이미지를 생성함.하지만 실제 세계는 복잡하며, 세밀한 표현(예: "파란 꽃에 노란 줄무늬가 있음")이 요구됨.→ 따라서 텍스트와 같은 고차원적이고 정밀한 조건을 기반으로 이미지 생성이 가능해야 함.2. 왜 이 문제는 중요한가?Q2: 텍스트 조건 기반 이미지 생성이 중요한 이유는?자연어는 가장 직관적이며 풍부한 정보 전달 도구임.사람이 이미지 생성을 명령하거나 제어하는 가장 쉬운 방식이 자연어임.실제 응용에서 유용함: 디자인, 예술, 가상 쇼핑, 자동 콘텐츠 생성 ..

👁️ [2016] Pixel Recurrent Neural Networks 리뷰

Q1. 왜 이 논문은 등장했는가? 기존 이미지 생성 모델의 어떤 한계를 해결하고자 했는가?A1.기존 이미지 생성 모델들은 픽셀 간 상관관계를 제대로 포착하지 못함.특히 이미지의 구조적 일관성과 고해상도 품질을 생성하는 데 약점을 보임.예:CNN 기반 모델은 고정된 수용영역(receptive field)만을 사용함 → 장기 의존성(long-range dependencies) 학습에 한계 있음.Fully-connected 방식은 너무 많은 파라미터를 요구함.오토인코더/변분 오토인코더 계열은 blurry한 이미지 생성 문제 존재함 [Kingma et al., 2013].→ 따라서 픽셀 하나하나를 순차적으로 생성하면서, 그 이전 픽셀들의 정보를 최대한 활용하는 방식 필요함.Q2. 이 문제를 어떻게 해결하려 했는..

AI Study/Vision 2025.03.28

📘👁️ [2021] Learning Transferable Visual Models From Natural Language Supervision 리뷰

❓ 왜 새로운 학습 방식이 필요한가?💬 기존의 이미지 분류 모델은 대부분 레이블된 데이터에 의존함.Imagenet처럼 수작업으로 정제된 데이터셋을 이용한 지도 학습이 일반적이었으며, 이는 다음과 같은 한계를 가짐:라벨링 비용이 큼새로운 태스크에 잘 일반화되지 않음많은 태스크마다 새로운 fine-tuning이 필요함➡ 결론: 대규모 레이블 없이도 다양한 태스크에 일반화 가능한 모델이 필요함.❓ 어떤 문제를 해결하려는 것인가?💬 "범용적인 시각 모델 (transferable visual model)"을 개발하고자 함.텍스트로 구성된 자연어 supervision을 통해 다양한 시각 인식 문제를 다룰 수 있도록 모델을 학습하려 함.즉, 목표는 다음과 같음:자연어 문장과 이미지를 함께 학습해 multimoda..

👁️ [2017] Neural Discrete Representation Learning 리뷰

1. 왜 이 논문이 중요한가?Q1. 기존의 표현 학습(generative representation learning)에서 어떤 문제가 있었는가?대부분의 딥러닝 기반 생성 모델은 연속(latent continuous) 표현 공간을 사용함.특히 VAE(Variational Autoencoder)는 잠재 변수 공간을 연속적으로 가정함.하지만 인간의 언어, 오디오, 이미지 인식 과정은 이산(discrete) 정보 구조를 가짐.따라서 실제 데이터의 특성과 맞지 않는 연속적 잠재 공간은 비효율적 표현을 유도함.📝 참고: [Kingma & Welling, 2014] “Auto-Encoding Variational Bayes” — VAE의 기본 구조 참고.2. 왜 이산 표현(discrete representation..

AI Study/Vision 2025.03.27

📘 [2018] Improving Language Understanding by Generative Pre-Training 리뷰

Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?A. 기존 NLP 시스템의 한계 때문임.기존 NLP 모델은 일반적으로 각 태스크(task)에 대해 별도 학습이 필요했음.대규모 레이블 데이터를 필요로 함 → 많은 도메인에서 적용이 어려움.예: 질의응답, 감성 분석, 문장 유사도 계산 등 서로 다른 구조를 필요로 함.따라서 일반화된 사전 학습(pretraining) 모델이 NLP에서 절실함.Q2. 기존의 방식들과 무엇이 달랐는가?A. 이전에는 Discriminative 방식이 주류였으나, 이 논문은 Generative 방식을 사용함.이전 방식: classification 기반 (예: BOW + softmax, CNN/RNN encoder 등)이 논문: 언어모델(Language Model)을 통해 텍스트..

AI Study/Language 2025.03.27

📘 [2017] Attention is All You Need 리뷰

Q1. 왜 이 논문이 나왔는가? 기존 문제는 무엇인가?A1.기존 sequence-to-sequence 모델은 RNN이나 LSTM 구조를 기반으로 함.하지만 RNN 기반 모델은 다음과 같은 한계 존재함:병렬 처리 어려움 → 학습/추론 속도 느림긴 문장에 대한 장기 의존성 학습이 어려움 (long-term dependency 문제)구조가 순차적이기 때문에 병렬화에 제약이 많음이러한 한계로 인해 보다 효율적이고 병렬화가 가능한 구조에 대한 필요성 대두됨.참고: RNN의 장기 의존성 문제는 Bengio et al. (1994), Hochreiter & Schmidhuber (1997)에서도 지적된 바 있음.Q2. 이 논문은 어떤 방식으로 문제를 해결하려 했는가?A2.RNN, LSTM, GRU 같은 순환 구조를 ..

AI Study/Language 2025.03.27

👁️ [2014] Generative Adversarial Networks 리뷰

🔍 1. 왜 이 논문이 시작되었는가?Q1. 왜 새로운 생성 모델이 필요한가?기존 생성 모델(예: RBM, VAE 등)은 학습이 복잡하거나 성능에 한계가 있었음.MCMC 기반 모델은 샘플링이 느림. 최대우도 추정은 계산이 어려움.목적 함수가 불명확하거나, 분포 근사를 잘 못함.A1. 학습과 샘플링이 단순하고 효율적인 새로운 접근이 필요했음. GAN은 이를 해결하고자 함.⚙️ 2. GAN의 핵심 아이디어는?Q2. GAN은 어떤 방식으로 생성 모델을 학습하는가?두 개의 신경망 사용: 생성자(Generator, G)와 판별자(Discriminator, D).G는 데이터를 생성하고, D는 진짜 데이터와 G의 출력을 구분하려 함.둘은 경쟁하면서 학습함.A2. 생성자와 판별자를 대립시켜 학습함으로써, 생성자는 더 ..

AI Study/Vision 2025.03.27