LLM대규모 언어 모델
Large Language Model
쉽게 이해하기
사람이 긴 문서를 읽고 요점을 정리하거나 여러 언어를 번역하는 일은 시간이 많이 듭니다. 규칙을 미리 작성하는 방식으로는 표현이 지나치게 다양하고 예외가 많은 자연어를 포괄하기 어렵습니다. 특히 문서 전체의 떨어진 단어들 사이 관계를 동시에 고려하기가 힘들어 맥락이 길어질수록 성능이 떨어졌습니다. LLM은 이런 한계를 데이터에서 직접 패턴을 배우는 방식으로 풀었습니다. 비유하자면, 말을 잘 알아듣는 비서가 대화의 흐름을 따라 다음에 올 말을 가장 자연스럽게 이어가는 것과 비슷합니다. 웹 페이지, 책, 대화 로그, 공개 코드 저장소 같은 다양한 도메인의 문장을 학습하여 어떤 표현이 어떤 맥락 뒤에 이어지기 쉬운지를 통계적으로 파악합니다. 구체적으로 모델은 입력 문장을 토큰(단어 조각)으로 나눠 임베딩한 뒤, Transformer의 self‑attention으로 모든 토큰 쌍의 관련성을 한꺼번에 계산해 문맥을 요약합니다. 그다음 각 위치에서 산출된 로짓(logit)을 소프트맥스(softmax)로 확률 분포로 바꾸고, 그리디, 빔서치, 샘플링(top‑p 등) 같은 디코딩 정책으로 다음 토큰을 선택해 한 토큰씩 이어 씁니다. 디코더‑only 구조는 이전 토큰에만 의존해 생성에 최적화되고, 인코더–디코더 구조는 입력 전체를 압축 표현으로 읽어들인 뒤 그 표현을 근거로 출력을 조건부로 생성합니다. 파라미터가 수십억~수조 개로 늘어나면 더 많은 패턴을 표현할 수 있지만, 실제 품질은 데이터 구성과 정렬·평가 절차에 크게 좌우됩니다.
비유와 예시
- 법률 문서 초안 요약: 수십 쪽 계약서를 넣으면 핵심 조항과 위험 신호를 압축해 보여 줍니다. 다만 법률적 뉘앙스를 놓치거나 환각이 섞일 수 있어 근거 인용과 사람 검토가 필수입니다.
- 다국어 고객 문의 대응: 여러 언어로 온 메일을 자동 분류·요약하고 답변 초안을 만듭니다. 오탐이나 문화적 표현 오해가 발생할 수 있으므로 운영팀이 검토·수정 후 발송합니다.
- 코드 설명·변환 초안: 낯선 저장소의 함수 블록을 자연어로 설명하고 간단한 스니펫을 다른 언어 스타일로 바꿉니다. 컴파일이 되더라도 논리적 오류가 있을 수 있어 테스트와 코드 리뷰가 필요합니다.
한눈에 비교
| 인코더-only (Auto-encoding) | 디코더-only (Auto-regressive) | 인코더–디코더 (Seq2Seq) | |
|---|---|---|---|
| 주된 용도 | 표현 학습·이해 | 자유로운 텍스트 생성 | 조건부 생성(입력→출력 변환) |
| 문맥 방향성 | 좌·우 양방향 | 좌→우(미래 토큰 미사용) | 인코더는 전역, 디코더는 좌→우 |
| 입력 조건 반영 | 낮음(입력 인코딩만) | 중(프롬프트로 간접 반영) | 높음(cross-attention로 직접 반영) |
| 디코딩 필요 | 필요 없음 | 필수 | 필수 |
| 대표 예 | BERT 계열 | GPT·Llama 계열 | 번역용 seq2seq 계열 |
열린 질문에 자연스럽게 이어 쓰려면 디코더‑only를, 특정 입력을 충실히 반영해야 하면 인코더–디코더를, 생성이 필요 없는 이해·분류에는 인코더‑only를 고르는 편이 실무에서 안정적이다.
어디서 왜 중요한가
- 디코더 중심 접근의 널리 사용: 개방형 텍스트 생성에서 좌→우 자동회귀 디코더가 많이 쓰이며, 대화·요약·질의응답 백엔드를 구성합니다.
- 프롬프트 기반 일반화 확산: few‑shot/zero‑shot 등 in‑context 학습이 알려지며, 별도 재학습 없이 프롬프트만으로 새 작업에 적응하는 설계가 늘었습니다.
- 멀티모달 확장: 텍스트 외 이미지·오디오를 함께 다루는 MLLM이 도입돼 캡셔닝, 시각 질의응답, 미디어 편집 보조 등으로 범위가 넓어졌습니다.
- 라이프사이클 분리 관점: 데이터 준비→모델 준비→훈련→정렬→추론→평가로 단계를 나눠 책임과 리스크를 관리하려는 논의가 이어집니다.
- 아키텍처 선택의 트레이드오프 인식: 번역 등 입력‑출력 정렬이 중요한 과업에서는 인코더–디코더가 함께 검토되고, 개방형 생성에는 디코더‑only가 실무상 단순합니다.
자주 하는 오해
- ❌ 오해: LLM은 사실을 데이터베이스처럼 정확히 조회한다 → ✅ 실제: 패턴을 근거로 다음 토큰을 생성하므로 환각이 생길 수 있습니다. 대비: 근거 텍스트를 함께 넣고, 응답에 출처 표기·후속 검증 루틴을 둡니다.
- ❌ 오해: LLM은 모두 같은 구조다(=GPT만 있다) → ✅ 실제: 인코더, 디코더, 인코더–디코더 등 선택지가 있습니다. 대비: 과업별 소규모 비교 실험으로 구조 선택을 검증하세요.
- ❌ 오해: 모델을 크게 만들면 항상 좋아진다 → ✅ 실제: 데이터 품질·정렬·평가가 성능을 좌우합니다. 대비: 필요한 품질에 맞는 규모를 택하고, 소형 모델+근거 제공 전략과 불확실성 표시를 병행합니다.
대화에서는 이렇게
- "현재 context window 예산의 70%를 쓰고 있어서, 긴 티켓은 요약 후 넣겠습니다."
- "개방형 생성 태스크는 디코더-only를 우선 고려하되, 번역 라인은 encoder–decoder 대조 실험을 같이 돌려요."
- "예시 3개로 few-shot을 넣으니 포맷 준수가 좋아졌고, 토큰 비용도 함께 보고할게요."
- "환각 리스크 높은 답변은 근거 텍스트를 붙이게 하고, 호스트 쪽 검증 파이프라인을 추가하죠."
- "이미지 캡션은 멀티모달 LLM 후보를 벤치마크하고, 텍스트 분류는 인코더 임베딩으로 경량화합시다."
함께 읽으면 좋은 용어
참고 자료
- Beyond the Black Box: A Survey on the Theory and Mechanism of Large Language Models
LLM 라이프사이클·이론 이슈를 체계화.
- Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges
LLM 구조 분류와 멀티모달 확장 개요.
- Large Language Models - Stanford University (SLP3 Chapter 7)
인코더·디코더·인코더–디코더 아키텍처 정리.
- The architecture of language: Understanding the mechanics behind LLMs
Transformer·LLM 메커니즘의 개관.
- Large language models use a surprisingly simple mechanism to retrieve stored knowledge
LLM 지식 검색 메커니즘 소개 기사.