RLHF인간 피드백 강화학습
Reinforcement Learning from Human Feedback
쉽게 이해하기
대규모 언어모델은 먼저 ‘다음 단어 예측’으로 방대한 텍스트를 학습하지만, 이렇게만 두면 사용자의 의도와 다르게 장황하거나 안전하지 않은 답을 할 수 있다. 문제는 학습 목표가 “사실·유용성·안전성”이 아니라 “문장 지속”이라는 점이다. 이 목표 불일치를 줄이기 위해, 사람의 선호를 학습 목표로 바꾸는 절차가 필요하다. 여기서 쓰는 방식이 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)다. 오디션에서 심사위원이 두 공연 중 더 나은 쪽을 고르는 장면을 떠올리면 된다. 사람 평가는 곧 “무엇이 더 낫다”는 신호이고, 이 신호로 보상모델이 ‘좋은 응답에 높은 점수를 주는 법’을 배운다. 그런 다음 모델이 여러 응답을 만들어내면 보상모델이 각각을 채점하고, 점수가 높은 쪽으로 모델을 밀어주는 식으로 조정한다.
구체적으로는 세 단계(지도 미세조정/SFT → 보상모델 → RL 최적화)로 진행된다. 먼저 SFT로 기본적인 지시 따르기를 만든 뒤, 선호쌍 데이터를 모아 “선택된 응답이 더 높게 채점되도록” 보상모델을 학습한다. 마지막으로 PPO 같은 강화학습 옵티마이저가 샘플링한 응답들의 보상 점수를 높이도록 정책을 갱신하며, 이때 분포가 지나치게 변하지 않게 KL 제약/클립을 두는 것이 일반적이다. 이렇게 기대 보상을 키우는 방향으로 업데이트하면서도, 보상 희소성·잘못된 일반화 같은 한계는 별도로 관리해야 한다.
비유와 예시
- 고객지원 챗봇 사전 배포 점검: 내부 라벨러가 동일 질문에 대한 두 답변 중 더 나은 것을 고르고, 안전성·일관성·비정상 응답률 항목으로 태깅한다. 이 선호 데이터로 보상모델을 학습한 뒤 PPO로 미세조정하고, 배포 전 A/B 테스트에서 위 지표로 검증한다.
- 뉴스 TL;DR 스타일 요약 품질 튜닝: 간결·충실·중립성 기준으로 더 나은 요약을 선택한 선호쌍을 모아 보상모델을 만든다. 이후 요약 모델이 샘플링한 후보를 채점해 기대 보상이 높은 방향으로 정책을 업데이트한다.
- 정책 준수 및 안전성 정렬: 도움은 주되 유해 요청은 거절하는 응답을 선호하는 데이터(예: harmlessness 기준)를 수집한다. 보상모델이 금지·제한 주제에서 낮은 점수를 주도록 학습하고, RL 단계에서 이런 요청을 적절히 거절하도록 정책을 조정한다.
한눈에 비교
| RLHF | SFT | Direct Alignment (DPO 등) | |
|---|---|---|---|
| 최적화 대상 | 기대 보상 극대화 | 교사 답변의 우도 최대화 | 선호쌍에 대한 직접 목적 |
| 데이터 | 선호 비교(페어) | 지시-답변 짝 | 선호 비교(페어) |
| 업데이트 | RL 옵티마이저 + KL 제약 | 지도학습(teacher forcing) | 보상모델 없이 폐루프 기울기 |
| 보상모델 의존 | 필요 | 불필요 | 불필요 |
| 활용 시점 | 포스트트레이닝(정렬) | 포맷·기초 순응 학습 | 포스트트레이닝(정렬 대안) |
레이블 예산·속도가 중요하면 Direct Alignment가, 세밀한 정책 제어와 분포 제약이 필요하면 RLHF가, 형식 학습은 SFT가 적합하다.
어디서 왜 중요한가
- 포스트트레이닝 표준 절차로 정착: 대형 모델 학습에서 SFT 이후 선호 기반 정렬 단계가 널리 쓰이며, RLHF가 이 구간의 핵심 도구로 설명된다.
- 알고리즘 선택의 실무 영향: RLHF는 PPO 하나만 의미하지 않는다. 같은 선호 데이터라도 보상모델 품질, KL 제약, 옵티마이저 선택에 따라 결과가 달라지므로, 작은 검증 세트에서 후보 방식을 비교하는 운영이 중요하다.
- 보상모델 한계의 실무 영향: 충분한 피드백 수집의 어려움, 보상 희소성, 함수 근사로 인한 잘못된 일반화·모델 미지정(specification) 이슈가 성능에 영향을 줄 수 있음이 분석돼, 데이터 설계와 검증 절차의 중요성이 부각된다.
- PPO 하이퍼파라미터 민감성 인지: KL 패널티·클립 등 제약을 어떻게 두느냐에 따라 학습 안정성과 품질이 달라져, 세심한 스윕과 모니터링이 요구된다.
- 정렬 대안과 병행 사용: Direct Alignment 같은 RL-free 방법이 선호 미세조정의 한 축으로 자리잡아, 목표·비용·속도에 따라 RLHF와 선택·조합하는 실무가 확산됐다.
자주 하는 오해
- ❌ 오해: RLHF는 모델 지식을 크게 늘린다 → ✅ 실제: RLHF는 사후 정렬 기법으로, 언어·사실 지식 자체를 가르치기보다 사람 선호에 맞게 행동을 조정한다.
- ❌ 오해: RLHF는 곧 PPO 하나뿐이다 → ✅ 실제: PPO가 흔히 쓰이지만, REINFORCE 같은 정책경사 방식이나 보상모델을 생략하는 DPO 계열 접근처럼 다양한 대안이 존재한다.
- ❌ 오해: 보상모델 정확도가 오르면 모델 품질도 반드시 오른다 → ✅ 실제: 연구에 따라 보상모델 평가지표 향상이 최종 정책 품질로 직결되지 않는 ‘정확도 역설’이 보고되었다.
대화에서는 이렇게
- "이번 스프린트에 SFT 마무리하고 선호쌍 라벨 3k 더 확보할게요."
- "보상모델 검증 점수는 올랐는데 policy 품질이 정체라, KL 0.02→0.01로 줄여서 PPO 다시 돌려보겠습니다."
- "요약 쪽은 TL;DR 스타일 프롬프트로 평가 세트 만들고, 안전성은 harmlessness 기준으로 패스율 보죠."
- "빠른 반복은 DPO 베이스라인으로 탐색하고, 최종 튜닝은 RLHF로 세밀하게 가져가는 안이 좋아 보여요."
- "릴리즈 전 주에 A/B 테스트로 비정상 응답률·일관성 지표 체크하고, 필요하면 KL 상한만 조정해서 재학습하자요."
함께 읽으면 좋은 용어
참고 자료
- Training language models to follow instructions with human feedback
InstructGPT/RLHF 파이프라인의 대표 논문으로 SFT, reward model, PPO 단계를 설명한다.
- Deep Reinforcement Learning from Human Preferences
사람 선호 비교로 reward model을 학습하는 RLHF 계열의 기초 논문.
- Learning to summarize from human feedback
요약 작업에서 human feedback과 reward model을 활용한 RLHF 적용 사례.
- Aligning language models to follow instructions
OpenAI의 InstructGPT/RLHF 설명으로, 인간 선호 데이터와 alignment 목적을 설명한다.
- Reinforcement Learning from Human Feedback
RLHF의 데이터, 보상 모델, PPO/선호 최적화 흐름을 체계적으로 정리한 책.