👁️ [2021] Taming Transformers for High-Resolution Image Synthesis 리뷰
Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?A1. 고해상도 이미지 생성에서 Transformer의 직접 사용이 어려움.최근 Transformer 기반 모델(GPT, BERT 등)이 NLP에서 강력한 성능을 보여줬음.이 흐름이 이미지 생성에도 도입되었으나, 고해상도 이미지에서는 Transformer의 복잡도가 커져 사용이 어려움.기본적인 Self-Attention은 시퀀스 길이 )에 대해 계산 복잡도가 )임.256×256 이미지는 65,536개의 토큰이 필요하며, 이를 직접 Transformer로 다루면 메모리, 시간 측면에서 비효율적임.따라서, 기존에는 저해상도에만 한정되거나(예: ImageGPT), CNN 구조를 사용함.📌 기존 한계:Imag..