IT Study/인공지능 관련
🤖 인간 피드백 기반 강화학습(RLHF)
cs_bot
2025. 3. 28. 17:59
⧉ 1. 인간 피드백 기반 강화학습(RLHF) 개요
- 기존 강화학습(RL: Reinforcement Learning)은 명확한 보상함수를 통해 에이전트가 최적의 행동정책을 학습하도록 유도함
- 하지만 언어 생성, 윤리적 판단, 사용자 선호 반영 등 주관적 문제에서는 명시적인 보상함수 정의가 곤란함
- 이를 해결하기 위해 사람의 평가를 보상함수의 대체 혹은 보완 수단으로 사용하는 기법이 RLHF임
- 대표적으로 OpenAI의 ChatGPT, InstructGPT 등에 적용되어 모델의 유용성, 안전성, 일관성을 대폭 향상시킨 사례 존재
⧉ 2. RLHF의 필요성과 등장 배경
- 자연어 생성 모델은 크기가 커질수록 문법적 정확도는 향상되나, 인간의 의도를 충족하지 못하는 경우 빈번
- 예: 질문에는 그럴듯하지만 틀린 답변을 생성하거나, 부적절한 언어를 사용할 가능성 존재
- 기존 방법(지도학습, 순수 RL)으로는 사회적 규범, 상식, 인간 가치 등을 내재화하는 데 한계 존재
- 이에 따라 RLHF는 사람의 판단을 학습 과정에 통합하여 사람 중심의 행동 정책 학습을 지향하게 됨
⧉ 3. RLHF 기본 프로세스
RLHF는 보통 세 단계로 구성됨
① 지도학습(Pretraining / Supervised Fine-Tuning)
- 사전 수집된 인간 시연 데이터를 기반으로 초기 정책(π₀) 학습
- 예: 사람이 올바른 응답을 생성하고, 해당 응답을 데이터로 사용해 사전 학습된 모델을 미세 조정
② 보상 모델 학습(Reward Model Training)
- 사람이 여러 응답 중 더 나은 것을 선택하여 쌍(pairwise preference) 생성
- 예: 질문에 대한 두 개의 모델 응답 중 하나를 선호함
- 이 데이터를 기반으로 보상 모델(R: x → ℝ) 학습 수행
- 이 모델은 향후 정책이 생성한 응답의 품질을 점수화하는 기준으로 사용됨
③ 강화학습 단계(Proximal Policy Optimization 등)
- 학습된 보상모델을 통해 피드백을 제공받아 정책 개선
- 주로 PPO(Proximal Policy Optimization) 알고리즘 사용
- 새로운 응답을 생성 → 보상 모델로 평가 → 높은 보상을 유도하는 방향으로 정책(π) 갱신 반복
⧉ 4. 주요 구성요소 및 알고리즘
- Human Preferences Dataset
∙ 응답 쌍에 대한 사람의 선호 데이터
∙ 예: A vs B 중 어느 것이 더 나은지 판단 - Reward Model
∙ 사람의 선호를 기반으로 응답의 품질을 정량화하는 모델
∙ 로짓 차이, pairwise accuracy 등을 기준으로 성능 평가 - Policy Model (π)
∙ 사용자 입력에 따라 응답을 생성하는 언어 모델
∙ 처음에는 Supervised Fine-tuning으로 학습된 상태 - Reinforcement Algorithm (PPO 등)
∙ 보상 모델을 기반으로 policy 모델의 행동을 점진적으로 개선
∙ PPO는 안정적인 학습을 위해 클리핑 기법을 사용하여 큰 업데이트 방지
⧉ 5. RLHF의 장점 및 기대효과
- 명시적 보상 없이도 인간 가치 반영 가능
- 사회적·윤리적 판단 내재화 가능
- 사용자 선호에 맞는 유용한 응답 생성 가능
- 모델의 유해성(toxicity), 환각(hallucination), 무례함 감소
- 도메인 전문가의 피드백 반영을 통한 특화모델 구축 용이
⧉ 6. 활용 사례
- OpenAI의 InstructGPT 및 ChatGPT
∙ RLHF를 통해 명령 따르기(following instruction), 응답의 유용성, 겸손한 어조 등 향상 - Anthropic의 Constitutional AI
∙ RLHF의 확장 모델로, 사전 정의된 헌법 규칙에 따라 응답을 정제함 - 헬스케어/법률 등 전문가 도메인 모델 훈련
∙ 의사나 변호사 등의 피드백을 받아 RLHF 적용 시 실용성 및 신뢰성 증가
⧉ 7. 한계 및 고려사항
- 사람의 피드백 품질 의존성 큼
∙ 잘못된 피드백은 보상 모델 및 정책의 왜곡 유발 가능 - 보상 모델의 일반화 어려움
∙ 특정 태스크나 문화에 편향된 판단 가능성 - 학습 비용 및 시간 증가
∙ 보상모델 학습 + PPO 등 고비용 프로세스 포함 - 보상 모델 오용 가능성
∙ 사람 선호를 과도하게 최적화하면 응답의 다양성 감소
⧉ 8. 기술 동향 및 발전 방향
- AI Alignment 연구의 핵심 기술로 자리잡음
- Constitutional AI, Direct Preference Optimization(DPO) 등 후속 연구 활발
- 자동화된 피드백 생성(AI-as-a-judge) 통한 확장 가능성 모색
- 다중 평가자, 동적 피드백 적용 등으로 실시간 적응형 RLHF 연구 진행 중
⧉ 9. 결론
- RLHF는 명확한 보상 정의가 어려운 문제에서 인간의 판단을 학습에 직접 활용할 수 있는 강력한 방법론
- 자연어 처리, 생성 AI, 인간 친화형 시스템 개발 등 다양한 분야에 실질적 영향력 행사 중
- 향후 신뢰 가능한 AI 개발과 인간 중심 설계에 있어 RLHF는 핵심 기술 중 하나로 지속적인 발전이 기대됨