IT Study/인공지능 관련

🤖 클래스 활성화 맵(Class Activation Map, CAM)과 시각적 설명 기법

cs_bot 2025. 4. 18. 02:03

1. 클래스 활성화 맵(CAM)의 개요

  • 딥러닝 기반 분류 모델의 예측 결과가 어떤 영역에 주로 의존했는지 시각적으로 표현하는 기법
  • 특히 합성곱 신경망(CNN)최종 합성곱 층의 출력(feature map)분류기(weights)를 활용하여, 입력 이미지에서 특정 클래스와 관련된 중요 영역(activation)을 강조함
  • 기존의 블랙박스 모델의 해석 가능성 한계를 극복하기 위한 딥러닝 설명 가능성(XAI, Explainable AI) 영역에서 출발함

2. CAM의 기본 원리 및 수학적 표현

  • CAM은 Global Average Pooling (GAP) 레이어 이후의 클래스별 fully-connected weight를 사용하여 다음과 같이 계산됨:

$
\text{CAM}_c(x, y) = \sum_k w_k^c \cdot f_k(x, y)
$

  • 여기서
    • $(f_k(x, y)$): k번째 feature map에서 (x,y) 위치의 값
    • $(w_k^c$): 클래스 c에 대한 k번째 feature map의 가중치
    • 결과적으로, 특정 클래스 c의 예측에 가장 크게 기여한 공간적 위치를 강조함

3. CAM의 발전 계열 기법

구분 설명
CAM (2016) GAP 기반으로 class-specific한 위치를 강조함. 구조 변경이 필요함
Grad-CAM (2017) 구조 변경 없이 backpropagation 기반으로 gradient를 이용해 class에 따른 위치 강조함
Grad-CAM++ Grad-CAM의 정확도 개선 버전. 복수 객체나 세밀한 위치 강조에 유리함
Score-CAM gradient를 사용하지 않고, score 변화량 기반으로 설명함. gradient 기반의 불안정성을 완화함
Layer-CAM shallow layer에서도 활성 위치를 탐지할 수 있도록 개선한 기법

4. CAM의 활용 분야

  • 의료영상 진단 보조

    • 병소 영역을 시각화하여 모델 신뢰성과 의사 결정 투명성 제고
    • 예: 흉부 X-ray 또는 뇌 MRI 영상에서 병변 위치 강조
  • 자율주행 인식 시스템

    • 객체 탐지 모델이 주목한 영역 확인 가능
    • 예: 보행자 감지 판단 근거 영역을 드러내어 판단 정당성 확보
  • 딥러닝 모델 디버깅 및 오류 분석

    • 잘못된 예측의 원인 규명에 도움됨
    • 주로 훈련 데이터의 bias 또는 feature misalignment 확인에 활용됨
  • 신뢰성 기반 AI 적용

    • 금융, 법률, 의료 등 고신뢰 응용 분야에서 설명 가능성 기반 규제 대응 수단으로 활용됨

5. 시각적 설명 기법과의 비교 및 통합 관점

  • CAM은 시각적 설명 기법 중 post-hoc(사후 해석) 계열에 속함
  • 대표적인 시각 설명 계열과 비교하면 다음과 같음:
기법 특징 방식
Saliency Map 입력 gradient를 기반으로 중요도 표현 입력값에 대한 미분
LIME 부분 perturbation 기반 surrogate model 설명 로컬 해석
SHAP game theory 기반 feature 기여도 평가 입력 feature별 영향 분리
CAM 계열 이미지 feature map 기반 공간적 중요도 강조 deep layer의 시각적 해석
  • 최근에는 CAM 계열 기법이 Transformer 기반 비전 모델(ViT)에까지 확장되어 적용됨
  • Token Attention Map, Attention Rollout, Score-CAM with Vision Transformers 등으로 발전 중임

6. 한계점 및 보완 전략

  • CAM의 해석력은 feature map의 해상도 제한으로 인해 정밀도에 한계 존재
  • Gradient 기반 기법의 경우 노이즈에 민감하고 불안정성이 존재함
  • 다중 객체 상황에서 주의 분산되어 해석 모호성이 발생할 수 있음
  • 보완을 위해 다음과 같은 방법이 병행됨:
    • Grad-CAM++ 또는 Score-CAM과 같은 기법 병용
    • Layer-wise 분석 병행
    • 영상 분할 및 객체 탐지와 통합된 하이브리드 방식 활용

7. 결론

  • CAM과 시각적 설명 기법은 딥러닝 모델의 설명 가능성 확보신뢰성 강화를 위한 핵심 수단임
  • 단순한 시각화 도구를 넘어, 모델 개선, 디버깅, 사회적 수용성 확보 등 AI 실용화 전 과정에서 필수적 도구로 자리잡고 있음
  • 향후 Transformer 기반 구조로의 확산, 영상 외 텍스트/멀티모달로의 확장 등 설명 가능 AI의 진화와 함께 계속 진보 중임