post-training후훈련
Post-training
쉽게 이해하기
후훈련은 이미 넓은 데이터를 배운 모델을 실제 서비스에 맞게 다듬는 단계입니다. 사전 훈련된 base 모델은 문장을 이어 쓰는 능력은 강하지만, 항상 사용자의 의도를 잘 따르거나 안전하게 거절하거나 일정한 말투를 유지하지는 않습니다. 후훈련은 좋은 답변 예시를 보여주고, 여러 답변 중 사람이 더 선호하는 것을 알려주며, 위험한 상황에서 어떤 정책을 따라야 하는지 반복해서 조정합니다. 그래서 우리가 쓰는 챗봇형 모델은 대개 base 모델이 아니라 후훈련을 거친 instruct/chat 모델입니다.
비유와 예시
사전 훈련이 재료와 기본 요리법을 익히는 과정이라면, 후훈련은 손님을 받기 전 레스토랑 운영 리허설을 하는 과정입니다. 같은 재료를 가진 요리사도 접객 방식, 금지 메뉴, 설명 톤, 품질 검수 기준을 훈련받으면 전혀 다르게 일합니다. LLM에서는 SFT가 모범 답안을 따라 배우는 단계이고, RLHF나 DPO는 여러 답변 중 더 나은 답변을 고르는 선호 신호를 이용해 행동을 조정하는 단계입니다. 안전 튜닝과 레드팀 평가는 배포 전 마지막 검수에 해당합니다.
한눈에 비교
| 구분 | 사전 훈련 | 후훈련 |
|---|---|---|
| 시작점 | 무작위 또는 이전 checkpoint | 사전 훈련된 base 모델 |
| 목표 | 언어·지식·표현의 범용 패턴 학습 | 지시 준수, 선호도, 안전성, 제품 톤 정렬 |
| 데이터 | 대규모 일반 데이터 | 지시-응답 예시, 선호 비교, 안전 정책, 평가 데이터 |
| 대표 방법 | next-token prediction, masking, contrastive learning | SFT, reward modeling, RLHF, DPO, rejection sampling |
| 산출물 | base/pretrained model | instruct/chat/aligned model |
어디서 왜 중요한가
사용자가 체감하는 모델 품질은 후훈련에서 많이 결정됩니다. 같은 사전 훈련 기반이라도 지시 데이터가 부실하면 장황하거나 말을 잘 듣지 않는 모델이 되고, 선호 최적화가 지나치면 보기 좋은 말투만 늘고 사실성은 떨어질 수 있습니다. 제품팀은 후훈련을 통해 답변 스타일, 안전 거절, 도메인 절차, 평가 기준을 모델 행동에 반영합니다. 다만 후훈련은 base 모델의 지식 한계를 완전히 없애지 못하므로, 최신 지식은 RAG나 도구 사용과 함께 설계하는 경우가 많습니다.
자주 하는 오해
- ❌ 오해: 후훈련은 하이퍼파라미터 튜닝이나 교차검증이다. → ✅ 실제: LLM 맥락에서는 지시·선호·안전 행동을 학습시키는 정렬 단계에 가깝습니다.
- ❌ 오해: RLHF를 넣으면 항상 좋아진다. → ✅ 실제: 보상 모델 품질, KL 제어, 평가 설계가 나쁘면 보상 해킹이나 성능 회귀가 생깁니다.
- ❌ 오해: 후훈련만 잘하면 지식 오류가 사라진다. → ✅ 실제: 후훈련은 행동을 조정하지만, 지식 최신성은 검색·도구·데이터 갱신이 필요합니다.
대화에서는 이렇게
"base 모델은 괜찮은데 instruct 후훈련 데이터가 약해서 대화 품질이 흔들립니다." "SFT만으로 충분한지, 선호 최적화까지 필요한지 평가 세트를 먼저 보죠." "안전 거절이 과해졌으니 후훈련 후 회귀 평가를 다시 돌려야 합니다." "DPO를 적용하더라도 선호 데이터 품질이 낮으면 답변 스타일만 바뀔 수 있습니다."
함께 읽으면 좋은 용어
참고 자료
- Training language models to follow instructions with human feedbackarXiv
SFT, reward model, PPO 기반 RLHF로 InstructGPT를 만든 대표 후훈련 논문.
- Direct Preference Optimization: Your Language Model is Secretly a Reward ModelarXiv
명시적 RL 루프 없이 선호 데이터를 직접 최적화하는 DPO 방법.
- The Llama 3 Herd of ModelsarXiv
SFT, rejection sampling, DPO 등 공개 모델 후훈련 파이프라인 사례.
- Deep reinforcement learning from human preferencesarXiv
인간 선호를 보상 신호로 학습하는 RLHF 계열의 초기 기반 연구.