추론·지각·3D 에이전트: 모델이 ‘생각’하는 방식을 다시 짚은 4편

추론을 ‘학습된 수렴점’으로 보고, 모델 학습을 잡음 채널의 용량 문제로 해석하며, 비전-언어 모델에서 ‘보기’와 ‘생각하기’를 분리해 성과를 끌어올리고, 언어 지시로 3D 장면을 촬영하는 에이전트 과제를 실행 가능하게 만든 연구들이 나왔다.

기사에서 찾기

읽기 모드

한 줄 요약

네 편의 연구가 확장 가능한 추론을 정량화한다: 수렴하는 어트랙터, 섀넌식 용량 한계, 단계형 비전-언어 후훈련, 그리고 3D 사진 에이전트.

Research Papers

Equilibrium Reasoners: ‘어트랙터’로 수렴하는 스케일러블 추론

이 논문은 추론을 “숨은 상태가 올바른 해로 안정적으로 수렴하는 과정”으로 본다. 마치 구슬이 그릇 안쪽으로 굴러가 멈추듯, 모델은 내부 잠재 상태를 반복 갱신해 수렴시키고, 테스트 시에 반복 횟수를 늘리거나 무작위 초기화를 여러 번 시도해 평균내면 성능이 오른다. ¹

결과는 적응형 연산을 보여준다. 쉬운 경우는 1~5번 내에 수렴하지만, 어려운 경우에는 층 4만 개에 해당하는 길이로 언롤링할수록 도움이 된다. Sudoku-Extreme에서 피드포워드 기준선 2.6%가 이 방식으로 99%를 넘겼고, 외부 검증기나 과제별 사전지식 없이도 가능했다. 성능 향상은 해와 정렬된 어트랙터로의 수렴 강도와 밀접히 연관된다. ¹

LLMs as Noisy Channels: 섀넌 관점의 용량·스케일링 법칙

이 연구는 대형 언어 모델(LLM) 학습을 잡음 채널의 정보 전송으로 본다. 파라미터는 대역폭, 학습 토큰은 신호 세기에 해당하고, 신호대잡음비가 유지되지 않으면 스케일링이 오히려 해가 된다. 제안된 섀넌 스케일링 법칙은 양자화 악화나 과도한 추가 학습으로 성능이 ‘U자형’으로 떨어지는 현상을 설명한다. ²

Pythia와 OLMo2에서 가우시안 잡음, 양자화, 수학·질의응답·코드 과제의 지도 미세조정(SFT) 조건으로 검증했을 때, 고전적 단조 스케일링 법칙보다 일관되게 더 잘 맞았다. 최대 69억 파라미터와 1,800억 토큰 구간으로 적합해 120억 파라미터 모델의 3,070억 토큰까지 예측했으며, 묶음 R^2 = 0.847을 달성해 기존 접근이 놓친 손실 곡면의 ‘골’을 포착했다. ²

From Seeing to Thinking: 지각과 추론을 분리한 단계형 VLM 후훈련

이 연구는 비전-언어 모델(VLM)의 후훈련을 시각 지각, 시각 추론, 텍스트 추론의 세 단계로 쪼개고 각 단계에 특화된 데이터를 쓴다. 핵심은 “지각이 병목”이라는 점으로, 캡션 기반 지도 미세조정(SFT)보다 강화학습(RL)으로 더 효과적으로 학습된다. ³

여러 VLM에서 단계형 훈련은 지각과 추론을 모두 개선했다. 추론 정확도는 1.5% 높아지고, 단계별 추론(CoT) 길이는 20.8% 짧아졌다. 예를 들어 WeMath에서 +5.2%, RealWorldQA에서 +3.7%를 기록해 공개 가중치 모델들 가운데 강한 성과를 보였고, 난이도 기반 커리큘럼과의 결합은 추가 이득을 줬다. ³

PhotoFlow: 3D 장면에서 언어로 사진을 ‘찍는’ 에이전트

PhotoFlow는 임의의 Blender 장면에 들어가 언어 지시를 해석하고 카메라 파라미터를 고른 뒤 최종 사진을 렌더링하는 과제를 에이전트 문제로 정의한다. Director–Reviewer–Reflector 루프를 쓰는데, Director가 다양한 후보 카메라를 제안하고, Reviewer가 규칙 점검과 시각적 비평·쌍대 비교 선정을 수행하며, Reflector가 실패를 영역 기억·사각지대 억제·고탐색 재배치로 전환한다. ⁴

저자들은 47개 오픈 라이선스 Blender 장면과 141개 언어 지시 미션으로 구성된 VPhotoBench를 소개했다. 렌더링 6라운드 예산 하에서 PhotoFlow는 원샷, 단일 체인 반성, 앵커 뱅크 선택, 무작위 탐색보다 복합 품질-정렬 지표와 성공률이 가장 높았고, 임의 Blender 장면에서 언어 조건 가상 촬영을 ‘실행 가능한’ 에이전트 과제로 만든 첫 사례라고 주장한다. ⁴

커뮤니티 반응

Hacker News (1959↑) — 4.7이 4.6 대비 실제로 개선됐는지, 컨텍스트 창 한계와 중간 수준 추론 퇴보 가능성을 두고 엇갈린 반응. ⁵

"Claude 4.7에 대한 벤치마크가 토큰 창(token window)을 명시하지 않는 걸 다른 사람들도 눈치채고 있나요? 우리 회사의 Cursor와 LiteLLM은 토큰 창을 200k로 제한합니다. 제 느낌엔 4.7이 더 나아진 게 아니라, 200k 컨텍스트 창으로 제한하면 4.6보다 오히려 못한 것 같습니다. 컨텍스트 창을 200k로 제한했을 때 4.6과 4.7의 성능 통계가 있는 분 있나요?" — Hacker News ⁵

"중간 수준의 추론(Medium reasoning)은 4.6보다 퇴보했습니다. 반면 None과 Max는 우리 벤치마크에서 4.6보다 개선됐습니다. 우리는 이것이 Claude가 증가한 사용자 기반에 대응하려는 방식이라고 추정합니다. 참고로 구글과 오픈AI도 오래전에 비슷한 조치를 했을 것입니다." — Hacker News ⁵

왜 중요한가

현업 팀에 두 가지 사고 도구가 생긴다. 추론을 안정적으로 수렴시키는 동역학(어트랙터)으로 보고, 어려운 문제에서만 테스트 연산을 더 쓰는 방식이다. 이는 어디에 반복 계산을 ‘더’ 쓰고 어디서 멈출지 결정을 선명하게 해준다. ¹

한편 섀넌식 관점은 신호대잡음비를 못 지키면 파라미터나 데이터를 더해도 성능이 떨어질 수 있음을 경고한다. 지각을 먼저 다지는 단계형 후훈련과 3D 에이전트 벤치마크는 모델이 실제로 ‘본 것’과 ‘한 일’에 묶인 평가로 나아가고 있음을 시사한다. ²

이번 주 시도해볼 것

Equilibrium Reasoners 핵심 읽기: 초록과 그림을 훑어 ‘어트랙터’ 개념을 잡는다. https://arxiv.org/abs/2605.21488
Seeing→Thinking 프롬프트 연습: 단계형 레시피를 읽고, 이미지에 대해 ‘지각 메모’를 먼저 적은 뒤 추론을 요청해 본다. https://arxiv.org/abs/2605.20177

출처 5

[1] Arxiv Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning [2] Arxiv LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws [3] Arxiv From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models [4] Arxiv PhotoFlow: Agentic 3D Virtual Photography Missions [5] Ycombinator Introducing Claude Opus 4.7 | Hacker News

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집