IT Study/인공지능 관련

🤖 인간 피드백 기반 강화학습(RLHF)

cs_bot 2025. 3. 28. 17:59

⧉ 1. 인간 피드백 기반 강화학습(RLHF) 개요

  • 기존 강화학습(RL: Reinforcement Learning)은 명확한 보상함수를 통해 에이전트가 최적의 행동정책을 학습하도록 유도함
  • 하지만 언어 생성, 윤리적 판단, 사용자 선호 반영 등 주관적 문제에서는 명시적인 보상함수 정의가 곤란함
  • 이를 해결하기 위해 사람의 평가를 보상함수의 대체 혹은 보완 수단으로 사용하는 기법이 RLHF임
  • 대표적으로 OpenAI의 ChatGPT, InstructGPT 등에 적용되어 모델의 유용성, 안전성, 일관성을 대폭 향상시킨 사례 존재

⧉ 2. RLHF의 필요성과 등장 배경

  • 자연어 생성 모델은 크기가 커질수록 문법적 정확도는 향상되나, 인간의 의도를 충족하지 못하는 경우 빈번
  • 예: 질문에는 그럴듯하지만 틀린 답변을 생성하거나, 부적절한 언어를 사용할 가능성 존재
  • 기존 방법(지도학습, 순수 RL)으로는 사회적 규범, 상식, 인간 가치 등을 내재화하는 데 한계 존재
  • 이에 따라 RLHF는 사람의 판단을 학습 과정에 통합하여 사람 중심의 행동 정책 학습을 지향하게 됨

⧉ 3. RLHF 기본 프로세스

RLHF는 보통 세 단계로 구성됨

지도학습(Pretraining / Supervised Fine-Tuning)

  • 사전 수집된 인간 시연 데이터를 기반으로 초기 정책(π₀) 학습
  • 예: 사람이 올바른 응답을 생성하고, 해당 응답을 데이터로 사용해 사전 학습된 모델을 미세 조정

보상 모델 학습(Reward Model Training)

  • 사람이 여러 응답 중 더 나은 것을 선택하여 쌍(pairwise preference) 생성
  • 예: 질문에 대한 두 개의 모델 응답 중 하나를 선호함
  • 이 데이터를 기반으로 보상 모델(R: x → ℝ) 학습 수행
  • 이 모델은 향후 정책이 생성한 응답의 품질을 점수화하는 기준으로 사용됨

강화학습 단계(Proximal Policy Optimization 등)

  • 학습된 보상모델을 통해 피드백을 제공받아 정책 개선
  • 주로 PPO(Proximal Policy Optimization) 알고리즘 사용
  • 새로운 응답을 생성 → 보상 모델로 평가 → 높은 보상을 유도하는 방향으로 정책(π) 갱신 반복

⧉ 4. 주요 구성요소 및 알고리즘

  • Human Preferences Dataset
    ∙ 응답 쌍에 대한 사람의 선호 데이터
    ∙ 예: A vs B 중 어느 것이 더 나은지 판단
  • Reward Model
    ∙ 사람의 선호를 기반으로 응답의 품질을 정량화하는 모델
    ∙ 로짓 차이, pairwise accuracy 등을 기준으로 성능 평가
  • Policy Model (π)
    ∙ 사용자 입력에 따라 응답을 생성하는 언어 모델
    ∙ 처음에는 Supervised Fine-tuning으로 학습된 상태
  • Reinforcement Algorithm (PPO 등)
    ∙ 보상 모델을 기반으로 policy 모델의 행동을 점진적으로 개선
    ∙ PPO는 안정적인 학습을 위해 클리핑 기법을 사용하여 큰 업데이트 방지

⧉ 5. RLHF의 장점 및 기대효과

  • 명시적 보상 없이도 인간 가치 반영 가능
  • 사회적·윤리적 판단 내재화 가능
  • 사용자 선호에 맞는 유용한 응답 생성 가능
  • 모델의 유해성(toxicity), 환각(hallucination), 무례함 감소
  • 도메인 전문가의 피드백 반영을 통한 특화모델 구축 용이

⧉ 6. 활용 사례

  • OpenAI의 InstructGPT 및 ChatGPT
    ∙ RLHF를 통해 명령 따르기(following instruction), 응답의 유용성, 겸손한 어조 등 향상
  • Anthropic의 Constitutional AI
    ∙ RLHF의 확장 모델로, 사전 정의된 헌법 규칙에 따라 응답을 정제함
  • 헬스케어/법률 등 전문가 도메인 모델 훈련
    ∙ 의사나 변호사 등의 피드백을 받아 RLHF 적용 시 실용성 및 신뢰성 증가

⧉ 7. 한계 및 고려사항

  • 사람의 피드백 품질 의존성 큼
    ∙ 잘못된 피드백은 보상 모델 및 정책의 왜곡 유발 가능
  • 보상 모델의 일반화 어려움
    ∙ 특정 태스크나 문화에 편향된 판단 가능성
  • 학습 비용 및 시간 증가
    ∙ 보상모델 학습 + PPO 등 고비용 프로세스 포함
  • 보상 모델 오용 가능성
    ∙ 사람 선호를 과도하게 최적화하면 응답의 다양성 감소

⧉ 8. 기술 동향 및 발전 방향

  • AI Alignment 연구의 핵심 기술로 자리잡음
  • Constitutional AI, Direct Preference Optimization(DPO) 등 후속 연구 활발
  • 자동화된 피드백 생성(AI-as-a-judge) 통한 확장 가능성 모색
  • 다중 평가자, 동적 피드백 적용 등으로 실시간 적응형 RLHF 연구 진행 중

⧉ 9. 결론

  • RLHF는 명확한 보상 정의가 어려운 문제에서 인간의 판단을 학습에 직접 활용할 수 있는 강력한 방법론
  • 자연어 처리, 생성 AI, 인간 친화형 시스템 개발 등 다양한 분야에 실질적 영향력 행사 중
  • 향후 신뢰 가능한 AI 개발과 인간 중심 설계에 있어 RLHF는 핵심 기술 중 하나로 지속적인 발전이 기대됨