딥러닝 LLM · 생성AI

1M context100만 토큰 컨텍스트

1 Million Token Context Window

100만 토큰 컨텍스트는 대형 언어 모델이 한 번의 응답(추론)에서 동시에 참고할 수 있는 입력과 대화 이력의 최대 길이가 약 100만 토큰에 달함을 뜻한다. 이는 모델이 더 긴 문서 묶음이나 장시간의 작업 흐름을 한 호출 안에서 유지하며 추론할 수 있게 하지만, 모든 장기 기억을 대체하는 것은 아니다.

난이도

30초 요약

AI가 한 번에 기억해 둘 수 있는 작업 공간을 대폭 키운 개념이다. 긴 보고서, 코드 묶음, 며칠치 대화를 한 덩어리로 놓고 생각하게 해준다. 시험 볼 때 참고서 한 권을 통째로 책상 위에 펼쳐 놓는 것과 비슷하다. 단, 책상이 커졌다고 해서 영구 보관함(외부 메모리)이 필요 없어지는 건 아니다. -> 초장문 입력을 요구하는 최신 LLM 경쟁의 핵심 기준으로 자주 언급된다.

쉽게 이해하기

기존의 문제는 간단하다. LLM은 한 번의 답변을 만들 때 참고할 수 있는 ‘작업 공간’이 정해져 있다. 이 공간을 벗어나는 내용은 당장 보이지 않으니, 앞에서 읽은 문서를 뒤에서 잊거나, 여러 파일을 번갈아 비교해야 할 때 맥락이 끊기곤 했다. 100만 토큰 컨텍스트는 이 작업 공간을 크게 넓혀, 수백 개의 페이지나 대규모 로그를 한 번에 올려두고 끊김 없이 생각할 수 있게 한다. 비유로 보면, 작은 책상에서는 책 몇 권을 번갈아 치우고 펴느라 흐름이 끊긴다. 큰 회의실 테이블에서는 관련 자료를 전부 펼쳐 두고 필요할 때 즉시 손이 닿는다. 기술적으로는 모델의 컨텍스트 윈도우(한 호출에서 ‘볼 수 있는’ 토큰 수)가 100만 단위로 늘어난 상태다. 트랜스포머의 self-attention은 입력 토큰 간 관계를 모두 살피는 경향이 있어, 윈도우가 커질수록 계산과 메모리 부담이 커진다. 이를 완화하려고 RingAttention이나 컨텍스트 병렬화 (context parallelism) 같은 기법이 연구·활용되어 긴 시퀀스를 여러 장치에 나눠 처리하고 통신으로 결합한다. 그 결과, 한 번의 추론 호출에 매우 긴 입력을 넣고도 앞뒤 문맥을 유지하며 일관된 추론을 하기 쉬워졌다. 다만 이 공간은 일시적이므로, 세션을 넘어서는 장기 보관에는 여전히 벡터 데이터베이스 같은 외부 메모리가 필요하다.

예시와 비유

야간 로그 점검 자동화: 운영 에이전트가 밤새 수집된 방대한 시스템 로그를 한 번의 호출로 읽고, 처음 탐지한 오류 패턴을 마지막 단계까지 추적해 원인을 요약한다. 작은 윈도우에서는 단계별로 잘라 처리하며 맥락이 끊겼지만, 100만 토큰 규모에서는 전체 흐름을 유지한다.
대규모 연구 자료 스크리닝: 수백 편의 논문 초록과 일부 본문을 한꺼번에 넣어 주요 가설, 실험 변수, 상반되는 결과를 한 번에 비교 요약한다. 컨텍스트가 짧으면 분야별로 나눠 여러 번 요약 후 합쳐야 했지만, 초장문 컨텍스트에서는 한 패스로 교차 비교가 가능하다.
복잡한 제품 사양서 통합 검토: 하드웨어 스펙, 펌웨어 변경 이력, 이슈 티켓을 동시에 펼치고 상충 조건을 찾아낸다. 이전에는 문서군을 나누어 순차 처리하다가 연결 실수가 잦았지만, 넓은 컨텍스트로 일관된 제약 조건 검토가 수월해진다.
코드베이스 전반 리팩터링 가이드: 여러 모듈의 인터페이스 정의, 과거 PR 설명, 릴리즈 노트를 한 덩어리로 넣고, 전역적인 리팩터링 계획을 도출한다. 컨텍스트가 충분하면 모듈 간 숨은 의존성까지 한 번에 짚어낼 수 있다.

한눈에 보기

구분	기본 Self-Attention (표준)	RingAttention	컨텍스트 병렬화 (Context Parallelism)
핵심 아이디어	모든 토큰이 서로를 전방위로 참고	길게 늘어선 시퀀스를 링 형태 통신으로 효율 처리	긴 시퀀스를 여러 장치로 분할해 병렬 처리
강점	구현 단순, 중소 길이에서 안정	수백만 단위 길이로 확장 가능성 제시	메모리 한계를 넘어 대형 컨텍스트 수용
병목	길이 증가 시 계산·메모리 급증	통신·동기화 설계 복잡	장치 간 통신 오버헤드, 스케줄링 필요
적용 맥락	일반 LLM 추론/학습	긴 비디오·언어 시퀀스 학습 연구에 활용 보고 [3]	초장문 윈도우 달성 아키텍처 구성에서 언급 [4]

왜 중요한가

컨텍스트가 짧으면 문서·대화가 자주 끊겨 요약·분석의 일관성이 무너진다.
불필요한 쪼개기·병합 과정에서 오류가 생기고, 에이전트 워크플로가 복잡해진다.
긴 흐름을 한 번에 보지 못해, 앞단 가정과 뒷단 결론이 충돌하는 실수가 잦아진다.
초장문 입력이 가능하면, 에이전트의 신뢰도와 장시간 작업의 자동화 가능성이 커진다.

▶ 이런 것도 궁금하지 않으세요?

실제로 어디서 쓰여요?
직군별 활용 포인트
자주 하는 실수가 뭐예요?
회의에서 어떻게 말해요?
다음에 뭘 공부하면 좋아요?
다음에 읽을 것

실제로 어디서 쓰이나

Google이 공개 맥락에서 Gemini 3 Pro가 1M 토큰을 처리한다고 언급된다 [4].
Anthropic의 Claude는 1M 토큰 컨텍스트를 베타로 제공하는 사례가 소개된다 [4].
Meta의 Llama 4 Scout는 10M 토큰 지원이 가능하다는 내용이 보도됐다 [4].
연구 측면에서, 비디오·언어 장문 시퀀스를 RingAttention으로 1M 길이까지 학습한 세계 모델 사례가 보고되었다 [3].

직군별 활용 포인트

주니어 개발자: 입력 토큰 수 산정과 chunk 전략을 직접 설계해보세요. 200K, 400K, 1M에서 품질·비용·지연이 어떻게 달라지는지 실험 로그를 남기면 큰 자산이 됩니다. PM/기획자: 1M 컨텍스트로 얻는 사용자 가치(문서 한 번에 올리기, 대화 연속성 유지)를 시나리오로 정의하고, 세션 간 상태 보존은 외부 메모리로 보완한다는 범위를 명확히 합의하세요. 시니어 엔지니어/리드: RingAttention/병렬화 채택 시 장치 간 통신, FLOPs/메모리 피크를 수치로 관리하세요. 니들 테스트 등 장문 전용 벤치마크를 CI에 넣어 회귀를 조기 탐지하세요. 데이터 운영/애널리스트: 야간 배치 요약, 장문 비교 리포트 등에서 1M의 체감 이득을 정의하고, 정확도 드랍 구간을 발견하면 retrieval 보조 단계를 제안하세요.

주의할 점

❌ 오해: 100만 토큰이면 영구 기억이 된다 → ✅ 실제: 한 호출의 임시 작업 공간일 뿐이며, 세션을 넘는 보관에는 벡터 DB/대화 로그 같은 외부 메모리가 필요하다 [1].
❌ 오해: 컨텍스트가 길수록 정확도도 무조건 오른다 → ✅ 실제: 매우 긴 입력에서는 특정 검색(예: 니들 검색) 정확도가 떨어질 수 있음이 보고되었다 [3].
❌ 오해: 모두가 곧 5M, 10M을 쓴다 → ✅ 실제: self-attention의 근본 스케일링 문제가 있어, 200K–400K가 ‘프리미엄의 보통값’, 1M은 ‘가끔’이라는 맥락이 제시된다 [5].
❌ 오해: 1M이면 에이전트 메모리 설계가 불필요하다 → ✅ 실제: 많은 작업 흐름이 여전히 세션 간 상태 유지를 요구하며, 외부 메모리와의 결합이 중요하다 [1].

대화에서는 이렇게

이번 배치 처리에 문서가 70만 토큰이라 컨텍스트 윈도우를 1M 지원 모델로 바꿔야 합니다. 비용 상승을 tokens-per-second 이득으로 상쇄 가능한지 봅시다.
RingAttention 기반 모델로 바꾸면 메모리 피크가 내려가지만, 장치 간 통신으로 latency가 늘 수 있어요. SLA 기준에 맞는지 재측정 필요합니다.
에이전트 파이프라인에서 외부 벡터 DB 의존을 줄였더니 구현은 단순해졌는데, 세션 넘어가면 상태가 사라집니다. 장기 메모리 전략을 다시 넣죠.
니들 테스트에서 600k~900k 구간 정확도 드랍이 보여요. chunk 설계와 retrieval 단계를 추가해서 보완합시다.

함께 알면 좋은 용어

컨텍스트 윈도우 — 한 호출에서 볼 수 있는 임시 작업 공간. 1M 컨텍스트는 이 공간을 극대화한 버전으로, 길수록 비용과 메모리 트레이드오프가 커진다.
Self-Attention — 모든 토큰이 서로를 본다는 기본 메커니즘. 길이가 커질수록 계산량이 급증해 1M 달성 시 병목이 된다 [5].
RingAttention — 긴 시퀀스를 효율적으로 다루려는 접근. 1M 길이 학습 사례가 보고되었지만 통신 복잡도가 따른다 [3].
컨텍스트 병렬화 — 긴 입력을 여러 장치에 분할해 처리. 메모리 한계를 넘지만 통신 오버헤드와 스케줄링 이슈가 있다 [4].
벡터 데이터베이스 (외부 메모리) — 세션을 넘어 정보를 보존. 1M 컨텍스트가 커도 장기 상태 유지를 완전히 대체하진 못한다 [1].

다음에 읽을 것

컨텍스트 윈도우 — 한 호출에서 모델이 인식하는 작업 공간의 의미와 한계를 먼저 이해합니다.
Self-Attention — 컨텍스트가 길어질수록 왜 계산·메모리 비용이 급증하는지 원리를 파악합니다 [5].
RingAttention / 컨텍스트 병렬화 — 1M 같은 초장문 길이를 실용화하기 위한 확장 기법을 살펴봅니다 [3][4].

도움이 되었나요?

0to1log Weekly

AI 용어집