1. 트랜스포머 개요
- 2017년 Google의 논문 “Attention Is All You Need”에서 최초 제안됨
- 기존 RNN, LSTM의 순차 처리 한계를 극복하고 병렬 연산 가능하도록 설계됨
- 자연어 처리(NLP), 음성 처리, 이미지 처리, 시계열 예측 등 다양한 분야에서 활용됨
- 대표적인 딥러닝 기반 시퀀스 모델 구조로 자리잡음
2. 트랜스포머 등장 배경
2.1 기존 시퀀스 모델의 한계
- RNN, LSTM 계열 모델은 입력을 순차적으로 처리해야 함
- 긴 문장일수록 장기 의존성 문제(Long-term dependency) 발생
- 병렬 처리 불가능하여 학습 속도 저하 발생
2.2 트랜스포머의 도입 목적
- 순차적 의존성 제거
- 병렬 연산으로 학습 속도 향상
- 모든 토큰 간의 관계를 동시에 고려하는 Attention 메커니즘 중심 구조 설계
3. 트랜스포머 구조 및 주요 구성 요소
3.1 전체 구조 개요
트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성되며, 각각 N개의 동일한 블록으로 구성됨
[도식: 트랜스포머 전체 아키텍처]
입력 문장 → 인코더(×N) → 디코더(×N) → 출력 문장
3.2 인코더 구조
- 입력 임베딩(Input Embedding): 단어를 고정 차원의 벡터로 변환함
- 포지셔널 인코딩(Positional Encoding): 순서 정보를 추가함
- 멀티헤드 어텐션(Multi-head Attention): 다양한 관점에서 관계 파악함
- 피드포워드 신경망(FFN): 각 위치별 독립적인 선형 변환 수행
- 레이어 노멀라이제이션 및 잔차 연결 포함
3.3 디코더 구조
- 인코더와 유사한 구조에 Self-Attention + 인코더-디코더 어텐션 추가
- Masked Self-Attention을 통해 미래 정보 접근 제한함
- 인코더-디코더 어텐션을 통해 입력 시퀀스와의 상호작용 수행
3.4 주요 컴포넌트 설명
(1) 어텐션 메커니즘 (Attention Mechanism)
- Query, Key, Value의 3가지 벡터를 이용하여 토큰 간 관계 계산
- 단일 어텐션의 한계를 극복하기 위해 Multi-head Attention으로 확장
- Scaled Dot-product Attention 방식 사용
(2) 포지셔널 인코딩 (Positional Encoding)
- 위치 정보를 사인(sin), 코사인(cos) 함수를 기반으로 부여
- 순서를 나타내는 정보가 없기 때문에 이를 보완함
4. 수식 기반 설명
4.1 어텐션 수식
$$
\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V
$$
- $( Q $): Query, $( K $): Key, $( V $): Value
- $( d_k $): Key 벡터의 차원
- 각 Query에 대해 모든 Key와의 유사도를 계산하고, 이를 기반으로 Value를 가중합함
5. 트랜스포머의 장점 및 한계
5.1 장점
- RNN 대비 병렬 연산 가능 → 학습 속도 빠름
- 장기 의존성 문제 해결 → 긴 문장 처리 우수
- 다양한 입력 간 관계를 유연하게 학습 가능
5.2 단점
- 입력 시퀀스 길이에 따라 메모리 및 연산량 급증
- 구조가 복잡하여 튜닝이 어려움
- 대용량 데이터와 계산 자원이 필요함
6. 트랜스포머 기반 응용 사례
6.1 NLP 분야
- BERT, GPT, T5 등 사전학습 언어모델의 기반 구조로 사용됨
- 기계번역, 질의응답, 요약, 감정분석 등에서 높은 성능 발휘함
6.2 비정형 데이터 확장
- 이미지 처리 분야: ViT(Vision Transformer), DETR 등 등장
- 음성: Speech-Transformer, wav2vec
- 멀티모달: CLIP, Flamingo 등 텍스트-이미지 융합 가능
7. 트랜스포머 이후 발전 구조
7.1 BERT
- 인코더 구조만 사용, 양방향 문맥 정보 학습
- MLM(Masked Language Modeling)과 NSP(Next Sentence Prediction) 방식 사용
7.2 GPT
- 디코더 구조만 사용, 순방향 언어 모델링 수행
- 사전학습 → 파인튜닝 방식으로 다양한 다운스트림 태스크 적용 가능
7.3 기타 발전형
- T5: 인코더-디코더 구조 기반, 텍스트를 입력과 출력으로 통일
- Switch Transformer, Performer 등 연산량 감소 구조 지속 등장
8. 결론
- 트랜스포머는 Attention 기반으로 설계되어 기존 순환 신경망의 한계를 극복함
- 병렬 연산, 장기 의존성 학습, 다양한 형태의 데이터에 대한 적응력이 높음
- 정보기술 응용 시스템 개발 시 자연어 및 비정형 데이터 분석 역량 강화에 필수적인 기반 기술로 자리매김함
'IT Study > 인공지능 관련' 카테고리의 다른 글
🤖 알파폴드(AlphaFold) (0) | 2025.03.31 |
---|---|
🤖 AI 반도체(AI Semiconductor) (2) | 2025.03.31 |
🤖 비전 트랜스포머(Vision Transformer) (0) | 2025.03.30 |
🤖 셀프 어텐션(Self Attention) (0) | 2025.03.30 |
🤖 지식 증류(Knowledge Distillation) (2) | 2025.03.30 |