IT Study/인공지능 관련

🤖 Contrastive Learning의 구조와 대표 모델(SimCLR, CLIP 등)

cs_bot 2025. 4. 22. 14:22

1. Contrastive Learning 개요

  • 비지도 또는 약지도 학습에서 활용되는 표현 학습 기법에 해당함
  • 입력 쌍 간의 유사도(similarity) 또는 비유사도(dissimilarity) 를 기준으로 인코더를 학습시키는 방식임
  • 대표적으로 self-supervised learning 분야에서 활용되며, 레이블 없이도 강력한 feature representation 생성 가능함
  • 핵심 개념은 positive pair는 가깝게, negative pair는 멀리 매핑되도록 인코더 학습을 유도하는 구조에 있음

2. Contrastive Learning의 구조

2.1 데이터 쌍 구성

  • Positive pair: 동일 이미지의 augmentation 쌍 또는 같은 클래스에 속하는 텍스트-이미지 쌍 등으로 구성
  • Negative pair: 서로 다른 데이터 간 쌍으로 구성하며, 다양한 방식으로 샘플링됨 (in-batch negative, memory bank 등)

2.2 공통 구성 요소

  • 인코더 네트워크: 주로 CNN, Transformer 기반 모델 사용하여 feature embedding 벡터 생성함
  • Projection Head: 최종 feature embedding을 contrastive loss가 작동하는 공간으로 매핑하는 역할 수행함
  • Similarity Function: 보통 cosine similarity 또는 dot product 사용
  • Loss Function: 대표적으로 NT-Xent Loss, InfoNCE Loss 등이 활용됨

2.3 학습 방식

  • positive pair의 유사도를 극대화하고, negative pair의 유사도를 최소화하도록 손실 함수 구성함
  • temperature scaling 등으로 학습 안정성 및 성능 향상 도모함
  • 대규모 데이터와 많은 negative pair가 있을수록 성능 개선 효과 큼

3. 대표 Contrastive Learning 모델

3.1 SimCLR (Simple Framework for Contrastive Learning of Visual Representations)

  • Google Brain에서 제안한 순수 이미지 기반 contrastive 학습 구조임

  • 주요 특징은 다음과 같음:

    • 동일 이미지의 두 augmentation 쌍으로 positive pair 구성
    • 전체 mini-batch 내에서 모든 다른 쌍을 negative pair로 설정하여 대규모 in-batch negative 구성
    • ResNet 기반 인코더 사용 + MLP projection head 추가
    • NT-Xent Loss 활용하여 cosine similarity 기반 contrastive 학습 진행
    • 학습된 인코더는 down-stream task에 fine-tuning 가능함
  • 결과적으로 supervised 학습에 필적하는 성능을 비지도 학습만으로 달성함

3.2 CLIP (Contrastive Language–Image Pretraining)

  • OpenAI에서 제안한 이미지-텍스트 멀티모달 contrastive 학습 모델임

  • 주요 구성 요소는 다음과 같음:

    • 이미지 인코더와 텍스트 인코더를 각각 독립적으로 학습함
    • 이미지와 텍스트 간 쌍을 positive pair로, 나머지를 negative pair로 설정함
    • 자연어 설명(문장)과 이미지가 대응되도록 cosine similarity 기반 contrastive loss 사용
    • 다양한 자연어 쿼리로 이미지 검색, zero-shot classification 등 멀티모달 활용 가능함
    • 대규모 인터넷 데이터 기반 학습을 통해 strong generalization 성능 확보함
  • multimodal contrastive learning의 대표 사례로서, foundation model의 개념 확장에 기여함


4. 기타 Contrastive 모델

모델명 특징 요약
MoCo Momentum Encoder 구조 도입, 메모리 뱅크 활용
BYOL Negative pair 없이도 학습 가능하게 설계
SwAV Clustering 기반의 self-labeling 방식 사용
SupCon Supervised Contrastive Loss 도입, 레이블 활용

5. Contrastive Learning의 한계와 발전 방향

  • Hard negative mining의 어려움 존재함
  • Batch size 증가에 따른 메모리 이슈 발생함
  • Multi-positive 학습, positive mining 등의 기술 필요함
  • CLIP 이후, multimodal pretraining 방향으로 연구 확장됨
  • LLM과 Vision 모델의 결합 및 retrieval-augmented learning으로 진화 중임

6. 결론

  • Contrastive Learning은 비지도 학습 및 멀티모달 표현 학습에서 매우 중요한 기술 축임
  • SimCLR은 순수 이미지 표현 학습의 효율적 구조를 제안함
  • CLIP은 텍스트와 이미지를 연결하는 contrastive 기반 멀티모달 학습의 대표 사례임
  • 향후 self-supervised, zero-shot, few-shot 학습 기반 foundation model로서 지속적 확장이 예상됨