LLM · 생성AI 딥러닝

RLHF인간 피드백 강화학습

Reinforcement Learning from Human Feedback

난이도

쉽게 이해하기

대규모 언어모델은 먼저 ‘다음 단어 예측’으로 방대한 텍스트를 학습하지만, 이렇게만 두면 사용자의 의도와 다르게 장황하거나 안전하지 않은 답을 할 수 있다. 문제는 학습 목표가 “사실·유용성·안전성”이 아니라 “문장 지속”이라는 점이다. 이 목표 불일치를 줄이기 위해, 사람의 선호를 학습 목표로 바꾸는 절차가 필요하다. 여기서 쓰는 방식이 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)다. 오디션에서 심사위원이 두 공연 중 더 나은 쪽을 고르는 장면을 떠올리면 된다. 사람 평가는 곧 “무엇이 더 낫다”는 신호이고, 이 신호로 보상모델이 ‘좋은 응답에 높은 점수를 주는 법’을 배운다. 그런 다음 모델이 여러 응답을 만들어내면 보상모델이 각각을 채점하고, 점수가 높은 쪽으로 모델을 밀어주는 식으로 조정한다.

구체적으로는 세 단계(지도 미세조정/SFT → 보상모델 → RL 최적화)로 진행된다. 먼저 SFT로 기본적인 지시 따르기를 만든 뒤, 선호쌍 데이터를 모아 “선택된 응답이 더 높게 채점되도록” 보상모델을 학습한다. 마지막으로 PPO 같은 강화학습 옵티마이저가 샘플링한 응답들의 보상 점수를 높이도록 정책을 갱신하며, 이때 분포가 지나치게 변하지 않게 KL 제약/클립을 두는 것이 일반적이다. 이렇게 기대 보상을 키우는 방향으로 업데이트하면서도, 보상 희소성·잘못된 일반화 같은 한계는 별도로 관리해야 한다.

비유와 예시

고객지원 챗봇 사전 배포 점검: 내부 라벨러가 동일 질문에 대한 두 답변 중 더 나은 것을 고르고, 안전성·일관성·비정상 응답률 항목으로 태깅한다. 이 선호 데이터로 보상모델을 학습한 뒤 PPO로 미세조정하고, 배포 전 A/B 테스트에서 위 지표로 검증한다.
뉴스 TL;DR 스타일 요약 품질 튜닝: 간결·충실·중립성 기준으로 더 나은 요약을 선택한 선호쌍을 모아 보상모델을 만든다. 이후 요약 모델이 샘플링한 후보를 채점해 기대 보상이 높은 방향으로 정책을 업데이트한다.
정책 준수 및 안전성 정렬: 도움은 주되 유해 요청은 거절하는 응답을 선호하는 데이터(예: harmlessness 기준)를 수집한다. 보상모델이 금지·제한 주제에서 낮은 점수를 주도록 학습하고, RL 단계에서 이런 요청을 적절히 거절하도록 정책을 조정한다.

한눈에 비교

	RLHF	SFT	Direct Alignment (DPO 등)
최적화 대상	기대 보상 극대화	교사 답변의 우도 최대화	선호쌍에 대한 직접 목적
데이터	선호 비교(페어)	지시-답변 짝	선호 비교(페어)
업데이트	RL 옵티마이저 + KL 제약	지도학습(teacher forcing)	보상모델 없이 폐루프 기울기
보상모델 의존	필요	불필요	불필요
활용 시점	포스트트레이닝(정렬)	포맷·기초 순응 학습	포스트트레이닝(정렬 대안)

레이블 예산·속도가 중요하면 Direct Alignment가, 세밀한 정책 제어와 분포 제약이 필요하면 RLHF가, 형식 학습은 SFT가 적합하다.

어디서 왜 중요한가

포스트트레이닝 표준 절차로 정착: 대형 모델 학습에서 SFT 이후 선호 기반 정렬 단계가 널리 쓰이며, RLHF가 이 구간의 핵심 도구로 설명된다.
알고리즘 선택의 실무 영향: RLHF는 PPO 하나만 의미하지 않는다. 같은 선호 데이터라도 보상모델 품질, KL 제약, 옵티마이저 선택에 따라 결과가 달라지므로, 작은 검증 세트에서 후보 방식을 비교하는 운영이 중요하다.
보상모델 한계의 실무 영향: 충분한 피드백 수집의 어려움, 보상 희소성, 함수 근사로 인한 잘못된 일반화·모델 미지정(specification) 이슈가 성능에 영향을 줄 수 있음이 분석돼, 데이터 설계와 검증 절차의 중요성이 부각된다.
PPO 하이퍼파라미터 민감성 인지: KL 패널티·클립 등 제약을 어떻게 두느냐에 따라 학습 안정성과 품질이 달라져, 세심한 스윕과 모니터링이 요구된다.
정렬 대안과 병행 사용: Direct Alignment 같은 RL-free 방법이 선호 미세조정의 한 축으로 자리잡아, 목표·비용·속도에 따라 RLHF와 선택·조합하는 실무가 확산됐다.

자주 하는 오해

❌ 오해: RLHF는 모델 지식을 크게 늘린다 → ✅ 실제: RLHF는 사후 정렬 기법으로, 언어·사실 지식 자체를 가르치기보다 사람 선호에 맞게 행동을 조정한다.
❌ 오해: RLHF는 곧 PPO 하나뿐이다 → ✅ 실제: PPO가 흔히 쓰이지만, REINFORCE 같은 정책경사 방식이나 보상모델을 생략하는 DPO 계열 접근처럼 다양한 대안이 존재한다.
❌ 오해: 보상모델 정확도가 오르면 모델 품질도 반드시 오른다 → ✅ 실제: 연구에 따라 보상모델 평가지표 향상이 최종 정책 품질로 직결되지 않는 ‘정확도 역설’이 보고되었다.

대화에서는 이렇게

"이번 스프린트에 SFT 마무리하고 선호쌍 라벨 3k 더 확보할게요."
"보상모델 검증 점수는 올랐는데 policy 품질이 정체라, KL 0.02→0.01로 줄여서 PPO 다시 돌려보겠습니다."
"요약 쪽은 TL;DR 스타일 프롬프트로 평가 세트 만들고, 안전성은 harmlessness 기준으로 패스율 보죠."
"빠른 반복은 DPO 베이스라인으로 탐색하고, 최종 튜닝은 RLHF로 세밀하게 가져가는 안이 좋아 보여요."
"릴리즈 전 주에 A/B 테스트로 비정상 응답률·일관성 지표 체크하고, 필요하면 KL 상한만 조정해서 재학습하자요."

참고 자료

★논문
Training language models to follow instructions with human feedback
InstructGPT/RLHF 파이프라인의 대표 논문으로 SFT, reward model, PPO 단계를 설명한다.
★논문
Deep Reinforcement Learning from Human Preferences
사람 선호 비교로 reward model을 학습하는 RLHF 계열의 기초 논문.
★논문
Learning to summarize from human feedback
요약 작업에서 human feedback과 reward model을 활용한 RLHF 적용 사례.
★공식 문서
Aligning language models to follow instructions
OpenAI의 InstructGPT/RLHF 설명으로, 인간 선호 데이터와 alignment 목적을 설명한다.
★도서
Reinforcement Learning from Human Feedback
RLHF의 데이터, 보상 모델, PPO/선호 최적화 흐름을 체계적으로 정리한 책.

도움이 되었나요?

0to1log Weekly

AI 용어집