AI 뉴스Research

약 10분 2026. 4. 17.

AnthropicClaude Opus 4.7SWE-benchagentic reasoningdiffusion LMsself-distillation

Anthropic, Claude Opus 4.7 공개: 더 어려운 코딩·멀티스텝 작업을 안전하게 밀어붙인다

Opus 4.7은 장시간 복잡 과제를 더 적은 감독으로 처리하고 핵심 코딩 벤치마크를 선도하면서도, 더 엄격한 보안 안전장치와 고해상도 비전을 더했습니다. 가격은 그대로입니다.

기사에서 찾기

읽기 모드

한 줄 요약

Anthropic의 Claude Opus 4.7이 실무 코딩과 장시간 작업 성능을 끌어올리며 보안 안전장치와 고해상도 비전을 강화했고, 동시 공개된 연구들은 능력이 생기는 순서를 지도화하고 확산 언어 모델의 격차 축소, 장기 추론의 취약점을 드러냈습니다.

LLM & SOTA Models

Introducing Claude Opus 4.7: 어려운 코딩·장시간 작업을 더 적은 감독으로 처리

Claude Opus 4.7은 이전보다 어려운 소프트웨어 과제를 더 적은 감독으로 맡아 처리하도록 설계되었습니다. 복잡한 멀티스텝 코딩과 수시간 지속되는 작업에서 지시를 더 문자 그대로 따르고, 스스로 결과를 점검하며, UI·슬라이드·문서 작업을 위해 이미지를 훨씬 높은 해상도로 볼 수 있습니다. 가격은 4.6과 동일한 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러이며, Claude 전 제품·API·Amazon Bedrock·Google Vertex AI·Microsoft Foundry에서 사용할 수 있습니다. ¹

개발자 벤치마크에서 Opus 4.7은 일반 제공 모델 중 선도적입니다. 오픈소스 이슈 해결력을 측정하는 SWE-bench Pro에서 64.3%(GPT-5.4는 57.7%, Gemini 3.1 Pro는 54.2%), SWE-bench Verified에서 87.6%를 기록했고, 자율 코딩 성능을 보는 CursorBench는 70%(4.6은 58%)로 뛰었습니다. 에이전트형 워크플로에서는 4.6 대비 멀티스텝 과제 성능이 14% 향상되고 도구 오류는 3분의 1 수준으로 줄었다는 파트너 평가가 나왔으며, 도구 실패 속에서도 복구하며 작업을 이어가는 탄력성이 강조됩니다. 비전은 긴 변 2,576픽셀까지 처리(이전 대비 3배+)로 계약서·도면 등 세부 인식에 초점을 맞췄습니다. ²

실무 적용 시 유의점도 있습니다. 업데이트된 토크나이저로 동일 입력이 대략 1.0–1.35배 더 많은 토큰으로 인코딩될 수 있고, 높은 노력 모드에서 “더 많이 생각”해 출력 토큰이 늘 수 있습니다(반면 Box 내부 평가는 모델 호출 56%↓, 도구 호출 50%↓, 응답 24%↑를 관찰). Anthropic은 금지되거나 고위험 사이버 보안 사용을 자동 탐지·차단하는 안전장치를 추가했고, 이 장치를 먼저 시험하기 위해 Opus 4.7을 자사 최고 성능의 제한 공개 모델인 Mythos Preview보다 “덜 넓게 유능한” 모델로 규정했습니다. 파일 시스템 기반 메모리와 지시 준수도 개선돼, 다중 세션 작업에서 중요한 메모를 더 잘 활용합니다. ³ ⁴ ⁵

Research Papers

What do Language Models Learn and When? The Implicit Curriculum Hypothesis: 사전학습 중 능력은 예측 가능한 순서로 생긴다

이 논문은 “모델은 사전학습 동안 어떤 순서로 능력을 얻는가?”라는 질문에 답합니다. 검색·형태 변화·지시어 결속·논리·수학 등 단순하지만 조합 가능한 과제를 설계해 4개 계열(4.1억~130억 매개변수)에서 고정 정확도 도달 시점을 추적한 결과, 모델 간 출현 순서가 매우 일관됨(스피어만 ρ = 0.81/45쌍)과 합성 과제가 구성 요소 과제 뒤에 등장하는 경향을 확인했습니다. ⁶

또한 이 구조는 모델 내부 표현에도 반영됩니다. 유사한 “함수 벡터”를 가진 과제는 학습 궤적도 비슷하고, 이 표현 공간만으로 홀드아웃 합성 과제의 학습 곡선을 사전 평가 없이도 예측(설명력 $R^2 = 0.68–0.84$ )할 수 있었습니다. 결론적으로, 손실 곡선만으로는 보이지 않는 “내부 커리큘럼”이 존재하며 능력 성장은 일관되고 부분적으로 읽을 수 있습니다. ⁶

배경 맥락으로 IBM의 “중간 학습(mid-training)” 연구는 수학·코드·과학 중심의 중간 단계가 추론 성능을 3~4배 끌어올리고, 중간 학습은 가중치의 90%+를 폭넓게 재구성하는 반면 강화학습은 약 5%만 미세 조정한다는 점을 보여줍니다. 의도적 데이터 구성과 타이밍이 추론형 모델에서 핵심임을 시사합니다. ⁷

Self-Distillation Zero: 이진 보상을 조밀 지도 신호로 바꾸는 자기 수정 학습

SD‑Zero는 정오(이진) 보상만으로도 토큰 단위의 조밀한 학습 신호를 얻는 방법을 제안합니다. 한 모델이 생성기(초안 작성)와 수정자(초안과 보상에 조건부로 개선안 생성) 두 역할을 수행하고, 이후 온폴리시 자기 증류로 수정자의 토큰 분포를 생성기에 증류해 이진 보상을 사실상 조밀한 감독 신호로 바꿉니다. ⁸

수학·코드 추론 벤치마크(Qwen3‑4B‑Instruct, Olmo‑3‑7B‑Instruct)에서 SD‑Zero는 기준 모델 대비 최소 10% 이상 향상했고, 동일 데이터 예산에서 Rejection Fine‑Tuning, GRPO, Self‑Distillation Fine‑Tuning보다 우수했습니다. 특히 (a) 보상 기반으로 바꿔야 할 토큰을 정확히 집어내는 토큰 수준 자기 위치 추정, (b) 수정 능력이 1차 생성 품질로 증류되는 점진 자기 진화가 관찰되었습니다. ⁸

실무 함의: 유닛 테스트 등으로 정오만 채점 가능한 환경이라면, SD‑Zero는 같은 데이터로 더 많은 학습을 이끌어내 조밀한 목표를 만들 수 있는 실용 레시피가 됩니다. ⁸

LangFlow: 연속 확산으로도 언어 모델 품질을 끌어올리다

LangFlow는 연속 확산 기반 언어 모델로, 이산 확산과 견줄 수준의 품질을 목표로 하며 병렬 생성의 장점을 살립니다. 임베딩 공간 확산을 브레그만 발산 기반 플로우 매칭과 연결하고, 연속 흐름형 언어 모델을 위한 ODE 기반 NLL 경계를 제시해 평가의 원칙을 세웠습니다. ⁹

핵심은 두 가지 더 있습니다. 정보 균질 원칙에 따른 검블 분포 기반 학습형 노이즈 스케줄러, 임베딩 공간 확산에 특화된 셀프 컨디셔닝입니다. 그 결과 LM1B 퍼플렉서티 30.0, OpenWebText 24.6을 기록하고, 7개 제로샷 전이 중 4개에서 자기회귀 기준선을 넘어섰습니다(코드 공개). ⁹

과거 “텍스트에서는 확산이 품질 한계”라는 인식과 달리, 목적함수·노이즈 스케줄·훈련 프로토콜 개선으로 연속 확산도 경쟁력이 있음을 보여줍니다. 블록 병렬 생성을 노리는 대안 경로로 주목할 만합니다. ⁹

LongCoT: 장기 체인오브쏘트 추론을 정면 진단하는 벤치마크

LongCoT는 매우 긴 추론 사슬을 끝까지 유지할 수 있는지를 시험합니다. 화학·수학·컴퓨터과학·체스·논리를 아우르는 전문가 설계 2,500문항으로 구성되며, 각 문제는 짧은 입력과 검증 가능한 정답을 가지되, 수만~수십만 토큰에 이르는 상호의존적 단계 그래프를 따라 풀어야 합니다. ¹⁰

각 로컬 단계는 현재 모델들이 풀 수 있을 만큼 간단하도록 설계되어, 실패는 “원자 능력” 부족이 아니라 장기 추론 한계를 드러냅니다. 공개 시점 기준 최고 모델조차 10% 미만 정확도(GPT 5.2: 9.8%, Gemini 3 Pro: 6.1%)로, 단기 추론과 지속 문제 해결 사이의 큰 간극을 보여줍니다. ¹⁰

관련 진단도 같은 메시지를 냅니다. HORIZON 벤치마크는 웹·코드·도구 사용·전략 등에서 에이전트가 어디서 왜 무너지는지(계획 오류, 컨텍스트 상실 등)를 귀인하며, LogiQA는 비교적 짧은 논리 추론을 다룹니다. 정적 정확도와 더불어 장기·궤적 인식형 평가가 중요해질 전망입니다. ¹¹ ¹²

커뮤니티 반응

Hacker News (1313↑) — Opus 4.7의 더 엄격한 안전장치와 제3자 토큰 사용 과금 전환을 두고 논쟁이 오갔습니다. 이전의 계정 정지보다 과금이 합리적이라는 의견과, 4.6 대비 거절이 잦아졌다는 관찰이 함께 나왔습니다.

"So far most of what I'm noticing is different is a lot more flat refusals to do something that Opus 4.6 + prior CC versions would have explored to see if they were possible." — Hacker News

왜 중요한가

Opus 4.7은 같은 가격으로 실무 코딩·에이전트형 작업·고해상도 비전·지시 준수·장시간 탄력성을 골고루 끌어올렸습니다. 반면 토크나이저 변경으로 토큰 집계가 달라지고, 더 엄격한 지시 준수로 기존 프롬프트와 비용 감각을 조정해야 할 수 있습니다. 기업 입장에서는 “신뢰 가능한 장기 작업”에 초점을 맞춘 업데이트입니다. ¹ ²

동시에 오늘의 논문들은 진전과 한계를 선명히 그립니다. 능력 출현 순서는 예측 가능하고 내부에서 읽을 수 있으며, 희소 보상은 조밀한 지도 신호로 바꿔 학습 효율을 높일 수 있고, 연속 확산 기반 언어 모델의 품질 격차는 줄고 있습니다. 다만 장기 추론은 여전히 가장 큰 과제입니다. 팀들은 강한 모델에 더해 커리큘럼·진단·훈련 기법으로 “지속 가능한 추론”을 겨냥해야 합니다. ⁶ ⁸ ⁹ ¹⁰

이번 주 시도해볼 것

Claude Opus 4.7 직접 테스트: Claude.ai 또는 API에서 4.6 대비 이슈 해결(예: SWE‑bench 유형)과 장기 멀티세션 작업 품질·토큰 변화를 비교해보세요. https://www.anthropic.com/news/claude-opus-4-7
LangFlow 훑어보기: 논문을 읽고 코드 저장소를 받아 ODE 기반 평가·검블 노이즈 스케줄러를 소형 데이터로 실험해보세요. https://arxiv.org/abs/2604.11748

출처 13

[1] Anthropic Introducing Claude Opus 4.7 [2] 9to5mac Anthropic reveals new Opus 4.7 model with focus on advanced software engineering [3] Thenextweb Anthropic releases Claude Opus 4.7 with benchmark-leading coding and agentic performance [4] Gizmodo Anthropic Releases Claude Opus 4.7 to Remind Everyone How Great Mythos Is [5] Cnet No, Anthropic's New Claude Opus 4.7 Model Is Not Mythos Preview [6] Arxiv What do Language Models Learn and When? The Implicit Curriculum Hypothesis [7] Ibm Mid-training is essential for LLM reasoning, IBM study shows [8] Arxiv Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [9] Arxiv LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling [10] Daily I-DLM: Introspective Diffusion Language Models (summary) [11] Arxiv LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning [12] Confident-ai LogiQA | DeepEval by Confident AI [13] Gentic HORIZON Benchmark Diagnoses Long-Horizon Failures in GPT-5 and Claude Agents

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집