🤖 트랜스포머(Transformer)

IT Study/인공지능 관련

🤖 트랜스포머(Transformer)

cs_bot 2025. 3. 30. 23:23

1. 트랜스포머 개요

2017년 Google의 논문 “Attention Is All You Need”에서 최초 제안됨
기존 RNN, LSTM의 순차 처리 한계를 극복하고 병렬 연산 가능하도록 설계됨
자연어 처리(NLP), 음성 처리, 이미지 처리, 시계열 예측 등 다양한 분야에서 활용됨
대표적인 딥러닝 기반 시퀀스 모델 구조로 자리잡음

2. 트랜스포머 등장 배경

2.1 기존 시퀀스 모델의 한계

RNN, LSTM 계열 모델은 입력을 순차적으로 처리해야 함
긴 문장일수록 장기 의존성 문제(Long-term dependency) 발생
병렬 처리 불가능하여 학습 속도 저하 발생

2.2 트랜스포머의 도입 목적

순차적 의존성 제거
병렬 연산으로 학습 속도 향상
모든 토큰 간의 관계를 동시에 고려하는 Attention 메커니즘 중심 구조 설계

3. 트랜스포머 구조 및 주요 구성 요소

3.1 전체 구조 개요

트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성되며, 각각 N개의 동일한 블록으로 구성됨

[도식: 트랜스포머 전체 아키텍처]
입력 문장 → 인코더(×N) → 디코더(×N) → 출력 문장

3.2 인코더 구조

입력 임베딩(Input Embedding): 단어를 고정 차원의 벡터로 변환함
포지셔널 인코딩(Positional Encoding): 순서 정보를 추가함
멀티헤드 어텐션(Multi-head Attention): 다양한 관점에서 관계 파악함
피드포워드 신경망(FFN): 각 위치별 독립적인 선형 변환 수행
레이어 노멀라이제이션 및 잔차 연결 포함

3.3 디코더 구조

인코더와 유사한 구조에 Self-Attention + 인코더-디코더 어텐션 추가
Masked Self-Attention을 통해 미래 정보 접근 제한함
인코더-디코더 어텐션을 통해 입력 시퀀스와의 상호작용 수행

3.4 주요 컴포넌트 설명

(1) 어텐션 메커니즘 (Attention Mechanism)

Query, Key, Value의 3가지 벡터를 이용하여 토큰 간 관계 계산
단일 어텐션의 한계를 극복하기 위해 Multi-head Attention으로 확장
Scaled Dot-product Attention 방식 사용

(2) 포지셔널 인코딩 (Positional Encoding)

위치 정보를 사인(sin), 코사인(cos) 함수를 기반으로 부여
순서를 나타내는 정보가 없기 때문에 이를 보완함

4. 수식 기반 설명

4.1 어텐션 수식

$$
\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V
$$

$( Q $): Query, $( K $): Key, $( V $): Value
$( d_k $): Key 벡터의 차원
각 Query에 대해 모든 Key와의 유사도를 계산하고, 이를 기반으로 Value를 가중합함

5. 트랜스포머의 장점 및 한계

5.1 장점

RNN 대비 병렬 연산 가능 → 학습 속도 빠름
장기 의존성 문제 해결 → 긴 문장 처리 우수
다양한 입력 간 관계를 유연하게 학습 가능

5.2 단점

입력 시퀀스 길이에 따라 메모리 및 연산량 급증
구조가 복잡하여 튜닝이 어려움
대용량 데이터와 계산 자원이 필요함

6. 트랜스포머 기반 응용 사례

6.1 NLP 분야

BERT, GPT, T5 등 사전학습 언어모델의 기반 구조로 사용됨
기계번역, 질의응답, 요약, 감정분석 등에서 높은 성능 발휘함

6.2 비정형 데이터 확장

이미지 처리 분야: ViT(Vision Transformer), DETR 등 등장
음성: Speech-Transformer, wav2vec
멀티모달: CLIP, Flamingo 등 텍스트-이미지 융합 가능

7. 트랜스포머 이후 발전 구조

7.1 BERT

인코더 구조만 사용, 양방향 문맥 정보 학습
MLM(Masked Language Modeling)과 NSP(Next Sentence Prediction) 방식 사용

7.2 GPT

디코더 구조만 사용, 순방향 언어 모델링 수행
사전학습 → 파인튜닝 방식으로 다양한 다운스트림 태스크 적용 가능

7.3 기타 발전형

T5: 인코더-디코더 구조 기반, 텍스트를 입력과 출력으로 통일
Switch Transformer, Performer 등 연산량 감소 구조 지속 등장

8. 결론

트랜스포머는 Attention 기반으로 설계되어 기존 순환 신경망의 한계를 극복함
병렬 연산, 장기 의존성 학습, 다양한 형태의 데이터에 대한 적응력이 높음
정보기술 응용 시스템 개발 시 자연어 및 비정형 데이터 분석 역량 강화에 필수적인 기반 기술로 자리매김함

'IT Study > 인공지능 관련' 카테고리의 다른 글

🤖 알파폴드(AlphaFold) (0)	2025.03.31
🤖 AI 반도체(AI Semiconductor) (2)	2025.03.31
🤖 비전 트랜스포머(Vision Transformer) (0)	2025.03.30
🤖 셀프 어텐션(Self Attention) (0)	2025.03.30
🤖 지식 증류(Knowledge Distillation) (2)	2025.03.30

현재글🤖 트랜스포머(Transformer)

C's Shelter

🤖 트랜스포머(Transformer)

1. 트랜스포머 개요

2. 트랜스포머 등장 배경

2.1 기존 시퀀스 모델의 한계

2.2 트랜스포머의 도입 목적

3. 트랜스포머 구조 및 주요 구성 요소

3.1 전체 구조 개요

3.2 인코더 구조

3.3 디코더 구조

3.4 주요 컴포넌트 설명

(1) 어텐션 메커니즘 (Attention Mechanism)

(2) 포지셔널 인코딩 (Positional Encoding)

4. 수식 기반 설명

4.1 어텐션 수식

5. 트랜스포머의 장점 및 한계

5.1 장점

5.2 단점

6. 트랜스포머 기반 응용 사례

6.1 NLP 분야

6.2 비정형 데이터 확장

7. 트랜스포머 이후 발전 구조

7.1 BERT

7.2 GPT

7.3 기타 발전형

8. 결론

'IT Study > 인공지능 관련' 카테고리의 다른 글

'IT Study/인공지능 관련'의 다른글

티스토리툴바

🤖 트랜스포머(Transformer)

1. 트랜스포머 개요

2. 트랜스포머 등장 배경

2.1 기존 시퀀스 모델의 한계

2.2 트랜스포머의 도입 목적

3. 트랜스포머 구조 및 주요 구성 요소

3.1 전체 구조 개요

3.2 인코더 구조

3.3 디코더 구조

3.4 주요 컴포넌트 설명

(1) 어텐션 메커니즘 (Attention Mechanism)

(2) 포지셔널 인코딩 (Positional Encoding)

4. 수식 기반 설명

4.1 어텐션 수식

5. 트랜스포머의 장점 및 한계

5.1 장점

5.2 단점

6. 트랜스포머 기반 응용 사례

6.1 NLP 분야

6.2 비정형 데이터 확장

7. 트랜스포머 이후 발전 구조

7.1 BERT

7.2 GPT

7.3 기타 발전형

8. 결론

'IT Study > 인공지능 관련' 카테고리의 다른 글

'IT Study/인공지능 관련'의 다른글

관련글

티스토리툴바