pre-training사전 훈련
Pre-training
쉽게 이해하기
사전 훈련은 모델이 특정 업무를 맡기 전에 세상의 기본 패턴을 넓게 읽어 두는 단계입니다. 언어 모델이라면 문장 다음에 올 단어를 맞히고, BERT 계열이라면 가려진 단어를 복원하며, 이미지 모델이라면 같은 대상의 다른 모습이 비슷하다는 신호를 배웁니다. 이 과정은 사람이 직접 붙인 정답 라벨보다 데이터 자체의 구조를 학습 신호로 쓰기 때문에 자기지도 학습에 가깝습니다. 결과물은 곧바로 챗봇 제품이 아니라, 여러 작업이 이어받을 수 있는 가중치와 표현입니다.
비유와 예시
사전 훈련은 전문 직무 교육 전에 기초 교양을 쌓는 과정과 비슷합니다. 법률 상담원을 만들기 전에 언어 이해, 추론, 문서 구조를 넓게 익히게 하고, 이후 법률 데이터와 안전 규칙을 더합니다. GPT 계열의 다음 토큰 예측, BERT의 마스킹 복원, CLIP류의 이미지-텍스트 대비학습은 목적 함수는 다르지만 모두 넓은 표현을 먼저 만드는 흐름입니다. 그래서 사전 훈련을 많이 한 모델은 적은 예시만으로도 새 작업을 이해할 가능성이 커집니다.
한눈에 비교
| 구분 | 사전 훈련 | 미세조정 | 후훈련 |
|---|---|---|---|
| 목표 | 범용 표현과 초기 가중치 확보 | 특정 작업 성능 강화 | 지시 준수, 선호도, 안전성 정렬 |
| 데이터 | 대규모 일반 데이터 | 작업별 라벨/예시 | 지시 데이터, 선호 비교, 평가 신호 |
| 산출물 | base/pretrained checkpoint | task-tuned checkpoint | chat/instruct/aligned model |
| 핵심 위험 | 데이터 품질, 편향, 비용 | 과적합, 범위 축소 | 보상 해킹, 안전성 회귀 |
어디서 왜 중요한가
사전 훈련 품질은 모델의 상한을 크게 정합니다. 데이터가 좁거나 중복이 심하면 이후 튜닝을 해도 지식 범위와 표현력이 제한됩니다. 반대로 사전 훈련이 잘 된 모델은 도메인 미세조정, 검색 증강, 도구 사용 같은 후속 설계가 훨씬 적은 데이터로도 효과를 냅니다. 실무에서는 사전 훈련을 직접 수행할지, 공개 체크포인트를 가져와 적응할지, 또는 API 기반 모델을 쓸지를 비용과 통제권 기준으로 결정합니다.
자주 하는 오해
- ❌ 오해: 사전 훈련만 끝나면 곧바로 좋은 챗봇이다. → ✅ 실제: base 모델은 다음 토큰 예측에는 강해도 지시 준수와 안전성은 별도 후훈련이 필요합니다.
- ❌ 오해: 데이터가 많으면 무조건 좋다. → ✅ 실제: 중복, 저품질, 라이선스, 독성 데이터는 성능과 리스크를 동시에 악화시킬 수 있습니다.
- ❌ 오해: 미세조정은 사전 훈련을 대체한다. → ✅ 실제: 미세조정은 이미 학습된 표현을 좁은 목적에 맞게 바꾸는 후속 단계입니다.
대화에서는 이렇게
"이 모델은 사전 훈련 데이터가 넓어서 도메인 적응이 쉬울 것 같아요." "base checkpoint인지 instruct checkpoint인지 먼저 확인해야 합니다." "사전 훈련을 다시 하기보다 공개 모델을 이어서 튜닝하는 편이 예산에 맞습니다." "데이터 품질 감사 없이 토큰 수만 늘리면 이후 안전성 검수가 어려워집니다."
함께 읽으면 좋은 용어
참고 자료
- BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingarXiv
마스킹 복원 기반 언어 표현 사전 훈련의 대표 논문.
- Language Models are Few-Shot LearnersarXiv
대규모 자기회귀 언어 모델 사전 훈련과 few-shot 전이의 대표 사례.
- Scaling Laws for Neural Language ModelsarXiv
사전 훈련에서 모델 크기, 데이터, 컴퓨트의 스케일링 관계를 다룬 연구.
- On the Opportunities and Risks of Foundation ModelsarXiv
사전 훈련된 파운데이션 모델의 전이성과 리스크를 넓게 정리한 보고서.