Anthropic, Claude Opus 4.8 공개 — 같은 가격에 더 빠른 ‘fast mode’와 동적 워크플로 추가
이번 업그레이드는 실무 통제에 초점을 맞췄다. 더 빠르고 저렴해진 fast mode, 비용·품질을 조절하는 노력도구, 대규모 코드 작업을 위한 병렬 서브에이전트가 추가됐고, 테스트에서는 ‘정직성’ 개선이 보고됐다.
한 줄 요약
오늘 발표와 연구는 에이전트를 ‘더 똑똑하게’보다 ‘더 통제 가능하게’ 만든다: Anthropic의 Claude Opus 4.8은 비용·속도·워크플로 제어를 강화했고, 논문들은 안전한 런타임, 수명 신뢰도, 보수성 보정 감독을 제안했다.
LLM & SOTA Models
Anthropic Claude Opus 4.8: 속도·비용·워크플로 업데이트
Anthropic가 최상위 공개 모델을 Claude Opus 4.8로 업그레이드했다. 복잡한 작업에서 허세 없이 불확실성을 더 자주 표시하는 등 협업 신뢰성을 높였고, 표준 가격은 Opus 4.7과 동일하게 유지된다. 초기 테스트에서는 근거 없는 주장을 줄이는 등 ‘정직성’이 개선됐다는 평가가 나왔다. 1
Opus 4.8은 Opus 4.7 이후 41일 만에 나와, 출시 주기가 빨라졌음을 보여준다. TechCrunch는 동시에 복잡한 다단계 작업을 다루기 위한 기능들이 함께 나왔음을 강조했다. 2
Anthropic이 공개한 벤치마크에서는 여러 영역에서 소폭 상향됐다. 에이전트 코딩은 64.3%→69.2%, 도구 활용 다학제 추론은 54.7%→57.9%, 에이전트 컴퓨터 사용은 82.8%→83.4%, 지식 작업 점수는 1753→1890, 금융 분석은 51.5%→53.9%로 각각 올랐다. 3
실무 비용·속도 제어 측면에서 표준 가격은 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 유지된다. fast mode는 이전 대비 약 2.5배 빨라지고 비용은 3배 저렴해졌으며(입력 100만 개 10달러, 출력 100만 개 50달러), 동적 워크플로(연구 프리뷰)로 수백 개 서브에이전트를 병렬 실행하고, claude.ai와 Cowork의 노력도구로 품질·속도·비용을 조절할 수 있다. 또한 메시지 응용프로그램 인터페이스(API)에 작업 중 시스템 엔트리를 넣을 수 있게 바뀌었다. Anthropic은 Opus 4.8이 4.7 대비 코드 결함을 ‘그냥 통과’시키는 비율이 약 4배 낮아졌다고 밝히며, 더 강력한 Mythos급 모델은 안전장치 강화 후 ‘수주 내’ 일반 제공을 예고했다. 1
Open Source & Repos
Emdash: 병렬 코딩 에이전트 개발 환경
Emdash는 여러 코딩 에이전트를 병렬로 실행하고 어떤 모델 공급사와도 연동되는 오픈 소스(아파치 2.0) 에이전트 개발 환경이다. 코드 자동화, PR 리뷰, 멀티에이전트 워크플로를 구축하는 팀에 적합하다. 4
2026-05-26 공개된 v1.1.25는 PR·태스크 흐름을 개선하고, 터미널·diff 뷰(Windows 붙여넣기, 이미지 붙여넣기 유지, TSX/JSX 하이라이트 포함)를 강화했으며, GitHub Enterprise 호환성을 확장하고 모델 컨텍스트 프로토콜(MCP) 새 공급자(Notra)를 추가했다. 4
Research Papers
LACUNA: 타입 체크로 모델이 쓴 코드를 안전하게 실행
이 논문은 각 에이전트 동작을 agentT 형태의 ‘타입이 지정된 호출’로 만들고, 대형 언어 모델(LLM)이 채운 코드를 주변 프로그램 맥락과 함께 타입 체크해 통과한 경우에만 실행하는 LACUNA 프로그래밍 모델을 제안한다. 실패하면 전체 동작을 거부하고 컴파일 경고로 재시도를 유도해, 에이전트 런타임 제어를 모델 코드에 열어주면서도 안전성을 유지한다. 5
BrowseComp-Plus에서는 실행 전 8.6%의 생성물이 거부되고 쿼리당 평균 0.7회 재시도했으며, 정확도는 27.1%였다. τ^2-bench에서는 4개 도메인 392개 과제 중 76.0%를 해결해 기준선 에이전트와 비슷한 성능을 보였다. 이 원시 연산은 ReAct 루프, 서브에이전트, 병렬 분해, 멀티모델 계획을 일반적인 제어 흐름으로 표현한다. 5
에이전트 수명: 장기 운영 중 신뢰도 측정
‘Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems’는 배포 직후 성능이 아닌 배포 후 ‘얼마나 오래 신뢰 가능한가’를 묻는다. AgingBench는 압축·간섭·수정·유지보수 등 4가지 메커니즘으로 에이전트 노화를 조직화하고, 메모리 파이프라인의 쓰기·검색·활용 단계를 시간 의존 그래프와 반사실적 프로브로 진단한다. 6
7개 시나리오, 14개 모델, 약 400회(8–200 세션) 실행에서, 행동 테스트는 멀쩡해 보여도 사실 정확도가 서서히 떨어지거나, 동일 모델 내 파생 상태 추적이 급락하는 등 단일 차원이 아님을 보여준다. 결론은 명확하다: 신뢰성은 전체 에이전트 하니스의 ‘수명 속성’이며, 원인 수준 진단과 단계별 수리가 필요하다. 6
확장 가능한 감독: 보수성 보정 기법
‘Calibrating Conservatism for Scalable Oversight’는 보조 점수 함수를 묶어 보수적 기준선 대비 페널티를 계산하는 ‘보정된 집합적 감독(CCO)’을 제안한다. 감독자의 우려가 쌓이면 행동을 억제하되, 이익이 큰 행동은 통과시키며, 적합도는 적합적 의사결정 이론으로 온라인 보정해 사용자가 지정한 위반률 목표를 유한 시간 내 보장한다. 7
수정된 SWE-bench에서는 더 약한 감독자가 적대적으로 불일치한 더 강한 에이전트를 제약했고, MACHIAVELLI에서는 보상을 유지하면서 윤리적 위반을 크게 줄였다. 실험상 위반률은 지정 목표와 근접해 이론적 보장을 뒷받침했다. 7
커뮤니티 반응
Hacker News (1092↑) — 깜짝 성능 주장에 대한 기대와, 퇴행·신뢰성 문제를 지적하는 불만이 엇갈렸다. 8
"Arc AGI에서 10만(10m) 파라미터짜리 GRAM 모델이 o3-mini를 이겼어요 — 그 모델은 크기가 2000배나 더 컸습니다..." — Hacker News 8
"적어도 제겐 재앙이에요. 마치 GPT-2 시대로 돌아간 것 같아요. 더 이상 파일을 읽지 못하고, 존재하지 않는 경로로 'sed'를 쓰고, 이 세션에서만도 '잘못된 주장'을 했다며 10번 이상 사과했습니다. 버그이길 바랄 뿐이에요 — 심각한 버그라서 빨리 해결되어야 합니다. 완전 엉망이에요." — Hacker News 8
왜 중요한가
기업은 예측 가능한 비용·속도로, 믿고 맡길 수 있는 에이전트가 필요하다. Opus 4.8은 ‘근거 없는 주장’ 감소 같은 신뢰성 개선과 노력도구·더 빠르고 저렴해진 fast mode 같은 실무 제어 장치를 내장했고, CCO 같은 연구는 감독을 ‘측정·보정 가능한 보장’으로 끌어올린다. 1
빌더 관점에서는 Emdash 같은 오픈 소스로 병렬 에이전트를 바로 실험할 수 있고, AgingBench가 말하듯 신뢰도는 ‘하루 테스트’가 아니라 ‘수주 추적’으로 확인해야 한다. 4
댓글 (0)