제01권 · 제10호 CS · AI · Infra 2026년 4월 5일

AI 용어집

용어 사전레퍼런스학습
ML 기초 LLM · 생성AI

pre-training사전 훈련

사전 훈련은 머신러닝 모델을 대규모의 일반적인 데이터셋으로 초기화하여, 이후 특정 작업에 맞게 미세 조정하는 과정을 의미한다.

난이도

쉽게 이해하기

사전 훈련은 AI 모델이 처음부터 모든 것을 배우지 않고, 이미 학습된 지식을 활용할 수 있게 해주는 방법입니다. 예를 들어, 새로운 언어를 배울 때, 단어 하나하나를 처음부터 배우는 대신, 이미 알고 있는 언어의 문법과 단어를 활용하여 더 빠르게 배우는 것과 비슷합니다. 사전 훈련된 모델은 대규모의 다양한 데이터셋에서 일반적인 패턴을 학습하여, 이후 특정한 작업에 맞게 빠르게 적응할 수 있습니다. 이는 모델이 처음부터 모든 것을 배우는 데 걸리는 시간을 줄이고, 더 효율적으로 학습할 수 있도록 돕습니다.

예시와 비유

  • 번역기 개발: 번역기를 만들 때, 사전 훈련된 언어 모델을 사용하면 새로운 언어 쌍에 대해 빠르게 적응할 수 있습니다.
  • 이미지 인식: 사전 훈련된 이미지 인식 모델을 사용하면 특정 객체를 인식하는 데 필요한 시간을 줄일 수 있습니다.
  • 음성 인식 시스템: 사전 훈련된 음성 인식 모델을 활용하여 다양한 억양과 발음을 더 쉽게 인식할 수 있습니다.
  • 챗봇 개발: 사전 훈련된 대화 모델을 사용하면 사용자와의 자연스러운 대화를 더 빠르게 구현할 수 있습니다.

한눈에 보기

사전 훈련미세 조정
데이터셋대규모, 일반적특정 작업 관련
목적일반 패턴 학습특정 작업 성능 향상
사용 시점초기 단계후속 단계
학습 시간상대적으로 길다상대적으로 짧다

왜 중요한가

  • 사전 훈련이 없으면 모델을 처음부터 학습시켜야 하므로 시간이 많이 걸립니다.
  • 사전 훈련된 모델은 일반적인 패턴을 이미 학습했기 때문에, 특정 작업에 더 빠르게 적응할 수 있습니다.
  • 사전 훈련을 통해 데이터가 부족한 상황에서도 모델의 성능을 높일 수 있습니다.
  • 사전 훈련된 모델을 사용하면 개발 비용과 시간을 절약할 수 있습니다.

실제로 어디서 쓰이나

  • GPT-3: 대규모 언어 모델로, 다양한 자연어 처리 작업에 사전 훈련된 모델을 사용합니다.
  • [BERT](/handbook/bert/): 구글의 자연어 처리 모델로, 사전 훈련을 통해 문맥을 이해하는 능력을 갖추고 있습니다.
  • ResNet: 이미지 인식 분야에서 사전 훈련된 모델로 사용되어 다양한 객체 인식 작업에 활용됩니다.
  • VGGNet: 이미지 분류 작업에서 사전 훈련된 모델로 사용됩니다.
이런 것도 궁금하지 않으세요?
  • 자주 하는 실수가 뭐예요?
  • 회의에서 어떻게 말해요?
  • 다음에 뭘 공부하면 좋아요?

주의할 점

  • ❌ 오해: 사전 훈련된 모델은 모든 작업에 최적이다 → ✅ 실제: 사전 훈련된 모델은 특정 작업에 맞게 미세 조정이 필요합니다.
  • ❌ 오해: 사전 훈련은 항상 최신 데이터로 이루어진다 → ✅ 실제: 사전 훈련은 종종 과거의 대규모 데이터셋을 사용합니다.
  • ❌ 오해: 사전 훈련된 모델은 항상 정확하다 → ✅ 실제: 사전 훈련된 모델도 오류가 있을 수 있으며, 특정 작업에 맞게 조정이 필요합니다.

대화에서는 이렇게

  • 사전 훈련된 모델을 사용하면 개발 시간을 단축할 수 있습니다.
  • 이 프로젝트에서는 사전 훈련된 BERT 모델을 활용합니다.
  • 사전 훈련은 모델의 초기 성능을 높이는 데 중요한 역할을 합니다.
  • 우리는 사전 훈련된 ResNet을 기반으로 이미지 인식을 수행합니다.

함께 알면 좋은 용어

  • 미세 조정 — 사전 훈련된 모델을 특정 작업에 맞게 조정하는 과정
  • 전이 학습 — 사전 훈련된 모델의 지식을 새로운 작업에 적용하는 방법
  • 대규모 언어 모델 — 사전 훈련을 통해 자연어 처리 능력을 갖춘 모델
  • [기초 모델](/handbook/foundation-model/) — 사전 훈련을 통해 다양한 작업에 활용할 수 있는 기본 모델
도움이 되었나요?