AI Study/Language 2

📘 [2018] Improving Language Understanding by Generative Pre-Training 리뷰

Q1. 왜 이 논문이 필요한가? 어떤 문제가 있었는가?A. 기존 NLP 시스템의 한계 때문임.기존 NLP 모델은 일반적으로 각 태스크(task)에 대해 별도 학습이 필요했음.대규모 레이블 데이터를 필요로 함 → 많은 도메인에서 적용이 어려움.예: 질의응답, 감성 분석, 문장 유사도 계산 등 서로 다른 구조를 필요로 함.따라서 일반화된 사전 학습(pretraining) 모델이 NLP에서 절실함.Q2. 기존의 방식들과 무엇이 달랐는가?A. 이전에는 Discriminative 방식이 주류였으나, 이 논문은 Generative 방식을 사용함.이전 방식: classification 기반 (예: BOW + softmax, CNN/RNN encoder 등)이 논문: 언어모델(Language Model)을 통해 텍스트..

AI Study/Language 2025.03.27

📘 [2017] Attention is All You Need 리뷰

Q1. 왜 이 논문이 나왔는가? 기존 문제는 무엇인가?A1.기존 sequence-to-sequence 모델은 RNN이나 LSTM 구조를 기반으로 함.하지만 RNN 기반 모델은 다음과 같은 한계 존재함:병렬 처리 어려움 → 학습/추론 속도 느림긴 문장에 대한 장기 의존성 학습이 어려움 (long-term dependency 문제)구조가 순차적이기 때문에 병렬화에 제약이 많음이러한 한계로 인해 보다 효율적이고 병렬화가 가능한 구조에 대한 필요성 대두됨.참고: RNN의 장기 의존성 문제는 Bengio et al. (1994), Hochreiter & Schmidhuber (1997)에서도 지적된 바 있음.Q2. 이 논문은 어떤 방식으로 문제를 해결하려 했는가?A2.RNN, LSTM, GRU 같은 순환 구조를 ..

AI Study/Language 2025.03.27