IT Study/인공지능 관련

🤖 트랜스포머(Transformer)

cs_bot 2025. 3. 30. 23:23

1. 트랜스포머 개요

  • 2017년 Google의 논문 “Attention Is All You Need”에서 최초 제안됨
  • 기존 RNN, LSTM의 순차 처리 한계를 극복하고 병렬 연산 가능하도록 설계됨
  • 자연어 처리(NLP), 음성 처리, 이미지 처리, 시계열 예측 등 다양한 분야에서 활용됨
  • 대표적인 딥러닝 기반 시퀀스 모델 구조로 자리잡음

2. 트랜스포머 등장 배경

2.1 기존 시퀀스 모델의 한계

  • RNN, LSTM 계열 모델은 입력을 순차적으로 처리해야 함
  • 긴 문장일수록 장기 의존성 문제(Long-term dependency) 발생
  • 병렬 처리 불가능하여 학습 속도 저하 발생

2.2 트랜스포머의 도입 목적

  • 순차적 의존성 제거
  • 병렬 연산으로 학습 속도 향상
  • 모든 토큰 간의 관계를 동시에 고려하는 Attention 메커니즘 중심 구조 설계

3. 트랜스포머 구조 및 주요 구성 요소

3.1 전체 구조 개요

트랜스포머는 인코더(Encoder)디코더(Decoder)로 구성되며, 각각 N개의 동일한 블록으로 구성됨

[도식: 트랜스포머 전체 아키텍처]
입력 문장 → 인코더(×N) → 디코더(×N) → 출력 문장

3.2 인코더 구조

  • 입력 임베딩(Input Embedding): 단어를 고정 차원의 벡터로 변환함
  • 포지셔널 인코딩(Positional Encoding): 순서 정보를 추가함
  • 멀티헤드 어텐션(Multi-head Attention): 다양한 관점에서 관계 파악함
  • 피드포워드 신경망(FFN): 각 위치별 독립적인 선형 변환 수행
  • 레이어 노멀라이제이션 및 잔차 연결 포함

3.3 디코더 구조

  • 인코더와 유사한 구조에 Self-Attention + 인코더-디코더 어텐션 추가
  • Masked Self-Attention을 통해 미래 정보 접근 제한함
  • 인코더-디코더 어텐션을 통해 입력 시퀀스와의 상호작용 수행

3.4 주요 컴포넌트 설명

(1) 어텐션 메커니즘 (Attention Mechanism)

  • Query, Key, Value의 3가지 벡터를 이용하여 토큰 간 관계 계산
  • 단일 어텐션의 한계를 극복하기 위해 Multi-head Attention으로 확장
  • Scaled Dot-product Attention 방식 사용

(2) 포지셔널 인코딩 (Positional Encoding)

  • 위치 정보를 사인(sin), 코사인(cos) 함수를 기반으로 부여
  • 순서를 나타내는 정보가 없기 때문에 이를 보완함

4. 수식 기반 설명

4.1 어텐션 수식

$$
\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V
$$

  • $( Q $): Query, $( K $): Key, $( V $): Value
  • $( d_k $): Key 벡터의 차원
  • 각 Query에 대해 모든 Key와의 유사도를 계산하고, 이를 기반으로 Value를 가중합함

5. 트랜스포머의 장점 및 한계

5.1 장점

  • RNN 대비 병렬 연산 가능 → 학습 속도 빠름
  • 장기 의존성 문제 해결 → 긴 문장 처리 우수
  • 다양한 입력 간 관계를 유연하게 학습 가능

5.2 단점

  • 입력 시퀀스 길이에 따라 메모리 및 연산량 급증
  • 구조가 복잡하여 튜닝이 어려움
  • 대용량 데이터와 계산 자원이 필요함

6. 트랜스포머 기반 응용 사례

6.1 NLP 분야

  • BERT, GPT, T5 등 사전학습 언어모델의 기반 구조로 사용됨
  • 기계번역, 질의응답, 요약, 감정분석 등에서 높은 성능 발휘함

6.2 비정형 데이터 확장

  • 이미지 처리 분야: ViT(Vision Transformer), DETR 등 등장
  • 음성: Speech-Transformer, wav2vec
  • 멀티모달: CLIP, Flamingo 등 텍스트-이미지 융합 가능

7. 트랜스포머 이후 발전 구조

7.1 BERT

  • 인코더 구조만 사용, 양방향 문맥 정보 학습
  • MLM(Masked Language Modeling)과 NSP(Next Sentence Prediction) 방식 사용

7.2 GPT

  • 디코더 구조만 사용, 순방향 언어 모델링 수행
  • 사전학습 → 파인튜닝 방식으로 다양한 다운스트림 태스크 적용 가능

7.3 기타 발전형

  • T5: 인코더-디코더 구조 기반, 텍스트를 입력과 출력으로 통일
  • Switch Transformer, Performer 등 연산량 감소 구조 지속 등장

8. 결론

  • 트랜스포머는 Attention 기반으로 설계되어 기존 순환 신경망의 한계를 극복함
  • 병렬 연산, 장기 의존성 학습, 다양한 형태의 데이터에 대한 적응력이 높음
  • 정보기술 응용 시스템 개발 시 자연어 및 비정형 데이터 분석 역량 강화에 필수적인 기반 기술로 자리매김함