BERT버트
Bidirectional Encoder Representations from Transformers
BERT는 2018년 Google이 공개한 트랜스포머 기반의 양방향 언어 표현 모델로, 문장을 왼쪽과 오른쪽 방향을 동시에 고려해 단어의 문맥을 이해하도록 사전학습(pretraining)한 뒤 다양한 NLP 태스크에 미세조정(fine-tuning)해 사용하는 방법이다. 대규모 텍스트로 학습된 BERT는 질의응답, 감정 분석, 개체명 인식 등 여러 과제에서 높은 성능을 보여 현대 LLM의 기반을 마련했다.
30초 요약
사람 말뜻을 제대로 파악하지 못하던 컴퓨터가, 앞뒤 문맥을 함께 보며 이해하도록 만든 방법이다. 글의 양쪽을 동시에 보며 빈칸을 맞히듯 학습한 다음, 여러 언어 문제에 맞게 조금만 고쳐 쓰는 방식이다. 마치 책의 한 줄만 보는 대신 단락 전체를 보며 뜻을 잡아내는 독서법과 비슷하다. 한편 참고자료(문맥)가 엉키면 오해할 수도 있어 주의가 필요하다. 핵심 원리는 트랜스포머의 주의(attention)로 단어 관계를 파악하고, 마스크드 언어모델(빈칸 맞추기)로 양방향 문맥을 학습하며, 대규모 사전학습 후 파인튜닝으로 과제에 맞게 적응시키는 것이다. -> 그래서 뉴스, 리뷰, 질의응답 같은 언어 문제에서 성능을 크게 끌어올렸다.
쉽게 이해하기
컴퓨터는 예전부터 글자를 읽을 수 있었지만, 같은 단어라도 앞뒤 문맥에 따라 뜻이 달라지는 ‘사람 말의 뉘앙스’를 잡아내기 어려웠다. 이 문제를 해결하려면 한 줄을 왼쪽에서 오른쪽으로만 읽는 식으로는 부족하고, 문장의 앞뒤를 동시에 보며 의미를 해석해야 한다. BERT는 바로 이 지점을 공략했다. 텍스트 속 일부 단어를 가려 놓고(빈칸처럼), 주변의 모든 단서를 동시에 참고해 그 빈칸을 맞히는 훈련을 아주 크게, 오래 시킨다. 이렇게 하면 모델은 단어 하나하나보다 단어들 사이의 관계와 흐름을 더 잘 배우게 된다.
비유를 바꿔보자. 신문 스크랩에서 핵심 문장이 지워진 상태로 기사를 읽으며 빈칸을 채우는 연습을 생각해보자. 기사 앞뒤 문단 전체를 살펴보며 ‘여기엔 어떤 표현이 어울릴까?’를 추론하게 된다. BERT도 비슷하다. 모델 내부의 트랜스포머 ‘주의(attention)’ 메커니즘은 문장 속 모든 토큰이 서로를 참고하도록 해, 단어들이 어떤 식으로 서로 영향을 주는지 계산한다. 그리고 ‘마스크드 언어모델링(MLM)’이라는 방식으로 가려진 토큰을 예측하면서 양방향 문맥을 학습한다. 마지막으로, 이렇게 배운 일반적인 언어 감각을 질문응답, 감정분석, 개체명인식 같은 구체적 과제에 맞춰 조금만 더 훈련(파인튜닝)하면 된다. 요약하면, BERT는 양방향 문맥을 주의 메커니즘으로 계산하고, 빈칸 맞추기 학습으로 그 능력을 기른 뒤, 소량의 추가 학습으로 다양한 업무에 적용되도록 만든 모델이다.
예시와 비유
-
FAQ에서 한 문장 답 찾기 (질의응답): 고객이 짧은 질문을 남기면 시스템이 내부 FAQ 문서에서 한두 문장을 정확히 골라 답한다. 질문 문구가 매번 달라도, BERT가 문맥을 양방향으로 파악해 의미가 맞는 문장을 찾아낸다.
-
앱 리뷰 감정 분류 (감정분석): 수만 개의 리뷰를 ‘긍정/부정/중립’으로 나누어 제품 개선에 쓰고자 할 때, BERT는 "버그가 자주 나지만 업데이트 기대" 같은 미묘한 문장을 맥락으로 해석해 적절히 분류한다.
-
계약서 조항 태깅 (개체명인식/라벨링): 계약 문서에서 사람, 회사, 금액, 날짜 같은 중요한 표현을 자동으로 표시한다. 같은 단어라도 앞뒤 문맥에 따라 의미가 달라지는데, BERT는 주변 단서 전체를 활용해 해당 표현의 역할을 식별한다.
-
이메일 의도 판별 (NLI/분류): 고객센터로 온 이메일을 ‘환불 문의’, ‘계정 잠김’, ‘기술 지원’ 등으로 자동 분류한다. 표현이 우회적이거나 문장이 길어도, BERT가 문장 관계와 맥락을 고려해 적절한 클래스에 할당한다.
한눈에 보기
| 구분 | BERT-계열(양방향 엔코더) | 단방향 언어모델(왼→오 등) | 전통적 작업별 분류기(특징 기반) |
|---|---|---|---|
| 문맥 처리 | 앞뒤를 동시에 고려(양방향) | 한 방향 기반(이전 토큰 중심) | 사전 정의한 특징에만 의존 |
| 학습 방식 | 마스크드 언어모델링으로 빈칸 예측, 대규모 사전학습 후 파인튜닝 | 다음 토큰 예측 중심의 순차 학습 | 수작업 특징 설계 + 얕은 모델 학습 |
| 강점 | 문맥 이해가 깊고 QA/감정/개체명인식 등 다수 과제에 우수 | 생성/순차 예측에 자연스러움 | 계산이 가볍고 데이터가 적어도 빠르게 구축 |
| 약점/제약 | 긴 입력 길이에 한계가 있을 수 있음 | 양방향 문맥 정보가 제한됨 | 복잡한 문맥 반영이 어려움 |
| 선택 시나리오 | 문장 이해·분류·스팬 추출이 핵심일 때 | 순서적 생성·예측이 핵심일 때 | 빠른 베이스라인이나 제한된 자원 환경 |
| 대표 활용 | 질문응답, 감정분석, 개체명인식 | 다음 단어 예측 계열 작업 | 간단한 규칙+통계 기반 분류 작업 |
왜 중요한가
-
양방향 문맥을 모르면, 동음이의어를 오해해 분류·검색 품질이 크게 떨어진다.
-
사전학습 없이 처음부터 학습하면, 데이터와 시간이 많이 들어도 일반화가 약할 수 있다.
-
한 방향만 보는 모델을 억지로 적용하면, 질문응답이나 개체명인식처럼 문맥 정밀도가 필요한 작업에서 에러가 잦다.
-
파인튜닝을 생략하면, 특정 업무(예: 도메인 특화 용어)에서 성능이 실제 요구 수준에 미달할 수 있다.
▶ 이런 것도 궁금하지 않으세요? - 실제로 어디서 쓰여요?
- 직군별 활용 포인트
- 자주 하는 실수가 뭐예요?
- 회의에서 어떻게 말해요?
- 다음에 뭘 공부하면 좋아요?
- 다음에 읽을 것
실제로 어디서 쓰이나
-
공개된 BERT 계열 사전학습 모델은 다양한 NLP 작업에 파인튜닝되어 활용될 수 있다.
-
질문응답, 감정분석, 개체명인식 등 텍스트 이해 중심의 서비스 백엔드에 적용될 수 있다.
-
대규모 사전학습과 파인튜닝은 행렬 연산을 많이 쓰므로 GPU 가속 서버 환경에서 효율적으로 수행될 수 있다.
-
검색 질의의 문맥 파악 등, 양방향 문맥 이해가 중요한 기능 개발에 활용될 수 있다.
직군별 활용 포인트
주니어 개발자: 공개된 BERT 사전학습 모델을 작은 데이터셋에 파인튜닝해보세요. 입력 전처리(토크나이징)와 최대 시퀀스 길이가 성능의 바닥을 결정합니다. PM/기획자: 문제 정의를 문장 이해 중심(분류/스팬 추출)으로 명확히 하세요. 생성이 아니라 ‘정확히 찾아내기’ 작업에 BERT 계열이 적합합니다. 시니어 엔지니어/데이터 사이언티스트: 도메인 미스매치가 크면 추가 파인튜닝을 고려하고, 긴 문서는 청크 분할·집계 전략을 설계하세요. 리소스는 GPU 가속 환경을 전제로 계획하세요. 운영/CX 팀: 리뷰·이메일·티켓의 자동 분류 기준을 제공하고, 오분류 사례를 수집해 피드백 루프를 만드세요. 라벨 품질이 곧 모델 품질입니다.
주의할 점
-
❌ 오해: BERT는 대화형 챗봇이다 → ✅ 실제: BERT는 언어 ‘이해’ 표현을 학습하는 모델로, 파인튜닝을 통해 분류·추출·질의응답 같은 작업에 주로 쓰인다.
-
❌ 오해: 양방향이니 미래 단어까지 ‘미리 본다’ → ✅ 실제: 학습 시 단어를 가리고 주변 문맥으로 예측해 양방향 정보를 익히는 것이지, 정답을 미리 엿보는 구조가 아니다.
-
❌ 오해: 사전학습만 하면 모든 과제가 자동으로 잘 된다 → ✅ 실제: 각 과제와 도메인에 맞춘 파인튜닝이 필요하다.
-
❌ 오해: BERT는 무한히 긴 문서를 그대로 처리한다 → ✅ 실제: 입력 길이에 제약이 있으며, 길면 분할·요약 등 추가 전략이 필요하다.
대화에서는 이렇게
-
이번 분류기 베이스라인을 BERT 파인튜닝으로 바꿨더니 개체명인식 F1이 눈에 띄게 올랐어요. 하이퍼파라미터는 기본값입니다.
-
MLM (마스크드 언어모델) 비율을 바꾸는 건 사전학습 단계 이슈라, 지금은 우리 데이터에 맞춘 파인튜닝 에폭 조정이 우선일 듯해요.
-
긴 티켓은 문단을 쪼개서 엔코더 (BERT)에 넣고, 스팬을 합치는 후처리를 추가해보죠. 현재 입력 길이에서 정보가 잘려요.
-
질의응답 PoC는 양방향 컨텍스트가 중요하니 BERT 계열로 가고, 생성형은 다음 분기에 별도 트랙으로 검토합시다.
-
GPU 노드 2대로도 충분할지 검토해주세요. BERT 파인튜닝은 배치 크기와 학습 시간이 핵심 병목이에요.
함께 알면 좋은 용어
-
Transformer — BERT의 토대가 되는 구조. 모든 토큰이 서로를 참고하는 attention으로 장거리 의존성을 잡는다.
-
Masked Language Modeling (MLM) — 단어를 가려 놓고 예측해 양방향 문맥을 학습한다. 다음 토큰 예측 중심 모델과 대비된다.
-
엔코더 전용 vs 단방향 모델 — BERT는 이해·분류에 강하고, 단방향 모델은 순차적 예측·생성에 자연스럽다. 선택은 과제 성격에 따른다.
-
질문응답 (QA) — 문서에서 정답 스팬을 찾는 작업. BERT는 문맥 정밀도가 높아 강점을 보인다.
-
감정분석 — 문장 전체의 뉘앙스를 읽어 긍/부정을 분류. 미묘한 표현 차이에 민감하다.
-
개체명인식 (NER) — 사람·조직·제품명 등 고유명을 토큰 단위로 태깅. 주변 단서가 핵심이라 양방향 모델이 유리하다.
다음에 읽을 것
- Transformer — BERT의 핵심 구조를 이해해야 attention이 왜 문맥을 잘 잡는지 알 수 있다.
- Masked Language Modeling — BERT의 사전학습 방식. 왜 양방향 문맥이 가능한지 이유가 된다.
- 파인튜닝/전이학습 — 사전학습 모델을 우리 과제에 맞게 적응시키는 단계로, 실제 성능을 좌우한다.