티스토리

C's Shelter

IT Study/인공지능 관련

🤖 인간 피드백 기반 강화학습(RLHF)

cs_bot 2025. 3. 28. 17:59

⧉ 1. 인간 피드백 기반 강화학습(RLHF) 개요

기존 강화학습(RL: Reinforcement Learning)은 명확한 보상함수를 통해 에이전트가 최적의 행동정책을 학습하도록 유도함
하지만 언어 생성, 윤리적 판단, 사용자 선호 반영 등 주관적 문제에서는 명시적인 보상함수 정의가 곤란함
이를 해결하기 위해 사람의 평가를 보상함수의 대체 혹은 보완 수단으로 사용하는 기법이 RLHF임
대표적으로 OpenAI의 ChatGPT, InstructGPT 등에 적용되어 모델의 유용성, 안전성, 일관성을 대폭 향상시킨 사례 존재

⧉ 2. RLHF의 필요성과 등장 배경

자연어 생성 모델은 크기가 커질수록 문법적 정확도는 향상되나, 인간의 의도를 충족하지 못하는 경우 빈번
예: 질문에는 그럴듯하지만 틀린 답변을 생성하거나, 부적절한 언어를 사용할 가능성 존재
기존 방법(지도학습, 순수 RL)으로는 사회적 규범, 상식, 인간 가치 등을 내재화하는 데 한계 존재
이에 따라 RLHF는 사람의 판단을 학습 과정에 통합하여 사람 중심의 행동 정책 학습을 지향하게 됨

⧉ 3. RLHF 기본 프로세스

RLHF는 보통 세 단계로 구성됨

① 지도학습(Pretraining / Supervised Fine-Tuning)

사전 수집된 인간 시연 데이터를 기반으로 초기 정책(π₀) 학습
예: 사람이 올바른 응답을 생성하고, 해당 응답을 데이터로 사용해 사전 학습된 모델을 미세 조정

② 보상 모델 학습(Reward Model Training)

사람이 여러 응답 중 더 나은 것을 선택하여 쌍(pairwise preference) 생성
예: 질문에 대한 두 개의 모델 응답 중 하나를 선호함
이 데이터를 기반으로 보상 모델(R: x → ℝ) 학습 수행
이 모델은 향후 정책이 생성한 응답의 품질을 점수화하는 기준으로 사용됨

③ 강화학습 단계(Proximal Policy Optimization 등)

학습된 보상모델을 통해 피드백을 제공받아 정책 개선
주로 PPO(Proximal Policy Optimization) 알고리즘 사용
새로운 응답을 생성 → 보상 모델로 평가 → 높은 보상을 유도하는 방향으로 정책(π) 갱신 반복

⧉ 4. 주요 구성요소 및 알고리즘

Human Preferences Dataset
∙ 응답 쌍에 대한 사람의 선호 데이터
∙ 예: A vs B 중 어느 것이 더 나은지 판단
Reward Model
∙ 사람의 선호를 기반으로 응답의 품질을 정량화하는 모델
∙ 로짓 차이, pairwise accuracy 등을 기준으로 성능 평가
Policy Model (π)
∙ 사용자 입력에 따라 응답을 생성하는 언어 모델
∙ 처음에는 Supervised Fine-tuning으로 학습된 상태
Reinforcement Algorithm (PPO 등)
∙ 보상 모델을 기반으로 policy 모델의 행동을 점진적으로 개선
∙ PPO는 안정적인 학습을 위해 클리핑 기법을 사용하여 큰 업데이트 방지

⧉ 5. RLHF의 장점 및 기대효과

명시적 보상 없이도 인간 가치 반영 가능
사회적·윤리적 판단 내재화 가능
사용자 선호에 맞는 유용한 응답 생성 가능
모델의 유해성(toxicity), 환각(hallucination), 무례함 감소
도메인 전문가의 피드백 반영을 통한 특화모델 구축 용이

⧉ 6. 활용 사례

OpenAI의 InstructGPT 및 ChatGPT
∙ RLHF를 통해 명령 따르기(following instruction), 응답의 유용성, 겸손한 어조 등 향상
Anthropic의 Constitutional AI
∙ RLHF의 확장 모델로, 사전 정의된 헌법 규칙에 따라 응답을 정제함
헬스케어/법률 등 전문가 도메인 모델 훈련
∙ 의사나 변호사 등의 피드백을 받아 RLHF 적용 시 실용성 및 신뢰성 증가

⧉ 7. 한계 및 고려사항

사람의 피드백 품질 의존성 큼
∙ 잘못된 피드백은 보상 모델 및 정책의 왜곡 유발 가능
보상 모델의 일반화 어려움
∙ 특정 태스크나 문화에 편향된 판단 가능성
학습 비용 및 시간 증가
∙ 보상모델 학습 + PPO 등 고비용 프로세스 포함
보상 모델 오용 가능성
∙ 사람 선호를 과도하게 최적화하면 응답의 다양성 감소

⧉ 8. 기술 동향 및 발전 방향

AI Alignment 연구의 핵심 기술로 자리잡음
Constitutional AI, Direct Preference Optimization(DPO) 등 후속 연구 활발
자동화된 피드백 생성(AI-as-a-judge) 통한 확장 가능성 모색
다중 평가자, 동적 피드백 적용 등으로 실시간 적응형 RLHF 연구 진행 중

⧉ 9. 결론

RLHF는 명확한 보상 정의가 어려운 문제에서 인간의 판단을 학습에 직접 활용할 수 있는 강력한 방법론
자연어 처리, 생성 AI, 인간 친화형 시스템 개발 등 다양한 분야에 실질적 영향력 행사 중
향후 신뢰 가능한 AI 개발과 인간 중심 설계에 있어 RLHF는 핵심 기술 중 하나로 지속적인 발전이 기대됨