1. Contrastive Learning 개요
- 비지도 또는 약지도 학습에서 활용되는 표현 학습 기법에 해당함
- 입력 쌍 간의 유사도(similarity) 또는 비유사도(dissimilarity) 를 기준으로 인코더를 학습시키는 방식임
- 대표적으로 self-supervised learning 분야에서 활용되며, 레이블 없이도 강력한 feature representation 생성 가능함
- 핵심 개념은 positive pair는 가깝게, negative pair는 멀리 매핑되도록 인코더 학습을 유도하는 구조에 있음
2. Contrastive Learning의 구조
2.1 데이터 쌍 구성
- Positive pair: 동일 이미지의 augmentation 쌍 또는 같은 클래스에 속하는 텍스트-이미지 쌍 등으로 구성
- Negative pair: 서로 다른 데이터 간 쌍으로 구성하며, 다양한 방식으로 샘플링됨 (in-batch negative, memory bank 등)
2.2 공통 구성 요소
- 인코더 네트워크: 주로 CNN, Transformer 기반 모델 사용하여 feature embedding 벡터 생성함
- Projection Head: 최종 feature embedding을 contrastive loss가 작동하는 공간으로 매핑하는 역할 수행함
- Similarity Function: 보통 cosine similarity 또는 dot product 사용
- Loss Function: 대표적으로 NT-Xent Loss, InfoNCE Loss 등이 활용됨
2.3 학습 방식
- positive pair의 유사도를 극대화하고, negative pair의 유사도를 최소화하도록 손실 함수 구성함
- temperature scaling 등으로 학습 안정성 및 성능 향상 도모함
- 대규모 데이터와 많은 negative pair가 있을수록 성능 개선 효과 큼
3. 대표 Contrastive Learning 모델
3.1 SimCLR (Simple Framework for Contrastive Learning of Visual Representations)
Google Brain에서 제안한 순수 이미지 기반 contrastive 학습 구조임
주요 특징은 다음과 같음:
- 동일 이미지의 두 augmentation 쌍으로 positive pair 구성
- 전체 mini-batch 내에서 모든 다른 쌍을 negative pair로 설정하여 대규모 in-batch negative 구성
- ResNet 기반 인코더 사용 + MLP projection head 추가
- NT-Xent Loss 활용하여 cosine similarity 기반 contrastive 학습 진행
- 학습된 인코더는 down-stream task에 fine-tuning 가능함
결과적으로 supervised 학습에 필적하는 성능을 비지도 학습만으로 달성함
3.2 CLIP (Contrastive Language–Image Pretraining)
OpenAI에서 제안한 이미지-텍스트 멀티모달 contrastive 학습 모델임
주요 구성 요소는 다음과 같음:
- 이미지 인코더와 텍스트 인코더를 각각 독립적으로 학습함
- 이미지와 텍스트 간 쌍을 positive pair로, 나머지를 negative pair로 설정함
- 자연어 설명(문장)과 이미지가 대응되도록 cosine similarity 기반 contrastive loss 사용
- 다양한 자연어 쿼리로 이미지 검색, zero-shot classification 등 멀티모달 활용 가능함
- 대규모 인터넷 데이터 기반 학습을 통해 strong generalization 성능 확보함
multimodal contrastive learning의 대표 사례로서, foundation model의 개념 확장에 기여함
4. 기타 Contrastive 모델
모델명 | 특징 요약 |
---|---|
MoCo | Momentum Encoder 구조 도입, 메모리 뱅크 활용 |
BYOL | Negative pair 없이도 학습 가능하게 설계 |
SwAV | Clustering 기반의 self-labeling 방식 사용 |
SupCon | Supervised Contrastive Loss 도입, 레이블 활용 |
5. Contrastive Learning의 한계와 발전 방향
- Hard negative mining의 어려움 존재함
- Batch size 증가에 따른 메모리 이슈 발생함
- Multi-positive 학습, positive mining 등의 기술 필요함
- CLIP 이후, multimodal pretraining 방향으로 연구 확장됨
- LLM과 Vision 모델의 결합 및 retrieval-augmented learning으로 진화 중임
6. 결론
- Contrastive Learning은 비지도 학습 및 멀티모달 표현 학습에서 매우 중요한 기술 축임
- SimCLR은 순수 이미지 표현 학습의 효율적 구조를 제안함
- CLIP은 텍스트와 이미지를 연결하는 contrastive 기반 멀티모달 학습의 대표 사례임
- 향후 self-supervised, zero-shot, few-shot 학습 기반 foundation model로서 지속적 확장이 예상됨
'IT Study > 인공지능 관련' 카테고리의 다른 글
🤖 AGI(범용 인공지능) 구현에 있어 가장 현실적인 접근은 무엇인가? (2) | 2025.04.23 |
---|---|
🤖 생성형 AI의 확산이 인간 창의성에 미치는 긍정적·부정적 영향 분석 (1) | 2025.04.22 |
🤖 Prompt Engineering 전략과 프롬프트 패턴 디자인 방법론 (0) | 2025.04.21 |
🤖 AI 모델의 Drift 감지(Concept Drift vs Data Drift)와 재학습 전략 (0) | 2025.04.20 |
🤖 컨볼루션 필터의 시각적 해석과 특성 추출 과정 이해 (1) | 2025.04.19 |