새 연구들, AI 스케일링 초점을 추론 컴퓨트와 신호 품질로 이동
어트랙터 기반 추론, 섀넌 스케일링 법칙, 단계적 비전 학습을 제안한 3편의 논문이 나왔습니다. 추론 컴퓨트 조절과 입력 노이즈 감소로 정확도를 높일 수 있다는 메시지입니다.
한 줄 요약
세 편의 논문이 AI 스케일링의 초점을 추론 단계 컴퓨트, 신호대잡음비를 고려한 학습, 그리고 지각 우선 비전 모델로 옮겨야 한다고 제시한다.
Industry & Biz
Equilibrium Reasoners: 어트랙터(끌개) 기반 추론으로 추론 단계 확장
이 논문은 Equilibrium Reasoners(EqR)라는 접근을 소개한다. 모델이 잠재 상태를 반복적으로 갱신해 유효한 해에 해당하는 안정점(어트랙터)에 수렴함으로써, 더 많은 단계 실행이나 여러 번의 초기화·샘플을 합치는 것만으로 답변을 개선할 수 있다는 개념이다. EqR은 외부 검증기나 작업별 사전지식 없이도 추론 시점에 깊이(반복 횟수)와 너비(다중 확률 경로)를 확장할 수 있다고 보고한다. 1
실험에서는 단순한 경우 1~5단계 내 수렴하고, 어려운 문제는 최대 40,000층에 해당하는 언롤링이 도움이 되어, 피드포워드 기준선의 2.6% 정확도를 Sudoku-Extreme에서 99% 이상으로 끌어올린다. 실무 관점에서는 난도가 높은 과제에 대해 반복 단계나 다중 샘플 수를 늘려 시간을 정확도로 교환하는 실질적 조절 레버가 생긴다. 1
LLMs as Noisy Channels: 섀넌 관점의 스케일링 법칙
이 논문은 대형 언어 모델(LLM) 훈련을 잡음 채널의 정보 전송으로 해석하고, 모델 매개변수를 대역폭, 학습 토큰을 신호 세기로 대응시키는 섀넌 스케일링 법칙을 제안한다. 신호대잡음비(SNR)를 보존하지 않은 채 크기나 데이터를 키우면 성능이 U자형으로 악화될 수 있어, 과훈련 붕괴나 양자화로 인한 열화 같은 비단조 현상을 설명한다고 주장한다. 2
Pythia와 OLMo2에서 가우시안 노이즈, 양자화, 수학·QA·코드 과제의 감독 미세조정(SFT) 조건을 실험해, 최대 6.9B 파라미터/180B 토큰 구간을 적합하고 12B 모델/최대 307B 토큰까지 결합 R^2=0.847로 외삽해 고전적 거듭제곱 법칙보다 잘 맞는다고 보고한다. 의사결정자에게는 “더 크게”보다 “적정 규모와 더 깨끗한 데이터” 전략을 뒷받침하는 근거다. 2
From Seeing to Thinking: 지각·추론 분리로 VLM 성능 향상
이 논문은 비전-언어 모델(VLM)에서 긴 단계별 추론(CoT)보다 시각 지각의 약점이 주된 병목임을 보이고, 사후 학습을 시각 지각·시각 추론·텍스트 추론의 단계로 분리할 것을 제안한다. 특히 지각은 특화 데이터로의 표적 최적화가 필요하고, 캡션 기반 감독 학습(SFT)보다 강화학습(RL)로 더 효과적으로 학습된다고 보고한다. 3
여러 VLM에서 단계적 학습은 지각과 추론 모두를 끌어올렸고, 추론 정확도 1.5%p 향상과 추론 과정 길이 20.8% 단축, WeMath +5.2%·RealWorldQA +3.7% 개선을 달성했다. 실무에서는 “무엇이 보이는가?”를 먼저 묻고 “무엇을 의미하는가?”를 그다음에 묻는 2단계 프롬프트/학습이 토큰 사용을 줄이면서 답변 품질을 높일 수 있다. 3
커뮤니티 반응
Hacker News (1959↑) — Claude Opus 4.7이 4.6보다 실제로 나아졌는지에 대해 의견이 엇갈리며, 토큰 창 사양 미표기, 중간 난이도 추론의 퇴보, 사용자 증가 대응을 위한 절충 가능성 등이 논의된다. 4
"Claude 4.7에 대한 벤치마크가 토큰 창(token window)을 명시하지 않는 걸 다른 사람들도 눈치채고 있나요? 우리 회사의 Cursor와 LiteLLM은 토큰 창을 200k로 제한합니다. 제 느낌엔 4.7이 더 나아진 게 아니라, 200k 컨텍스트 창으로 제한하면 4.6보다 오히려 못한 것 같습니다. 컨텍스트 창을 200k로 제한했을 때 4.6과 4.7의 성능 통계가 있는 분 있나요?" — Hacker News 4
"중간 수준의 추론(Medium reasoning)은 4.6보다 퇴보했습니다. 반면 None과 Max는 우리 벤치마크에서 4.6보다 개선됐습니다. 우리는 이것이 Claude가 증가한 사용자 기반에 대응하려는 방식이라고 추정합니다. 참고로 구글과 오픈AI도 오래전에 비슷한 조치를 했을 것입니다." — Hacker News 4
나에게 주는 의미
정답 품질이 속도보다 중요한 업무라면, 추론 단계 수나 샘플 수를 늘려볼 만하다. EqR 결과에 따르면 간단한 문제도 1~5단계 추가로 도움을 받고, 어려운 문제는 훨씬 더 많은 언롤링이 필요할 수 있다. 즉, 추론 시점 컴퓨트를 조절 가능한 예산으로 보고 난이도에 따라 높이는 전략이 합리적이다. 1
“더 큰 모델·더 긴 컨텍스트”를 우선시하는 습관을 경계하라. 섀넌 관점은 신호보다 잡음이 빨리 늘면 성능이 오히려 떨어질 수 있음을 시사한다. 먼저 프롬프트와 지식 베이스를 정제해 중복·보일러플레이트를 제거하고, 문서를 압축한 뒤 성능을 재측정한 후에 상위 티어로의 확장을 검토하라. 2
이미지 중심 업무에서는 작업을 두 단계로 나누라. 먼저 객체·텍스트·속성을 추출하게 하고, 그다음에 추론이나 답변을 요구하라. 단계적 학습 결과와 부합하며, 이는 정확도를 높이고 추론 과정 길이를 줄여 토큰/지연 예산에도 유리하다. 3
공급사 평가도 달라진다. 벤치마크의 토큰 창 크기 명시 여부, 창이 제한될 때(예: 200k) 성능, 양자화나 트래픽 증가가 품질에 미치는 영향 등을 확인하라. Claude 4.7 대비 4.6에 대한 커뮤니티 논쟁은 이런 세부 조건이 실제 사용성에 얼마나 중요한지 보여준다. 4
지금 할 일
- 어려운 과제에 추론 단계/샘플 늘리기: 계획·추론형 프롬프트에 대해 최대 토큰을 늘리고 단계별 추론을 요청한 뒤 3~5회 샘플을 실행해 집계가 정확도에 주는 효과를 비교하라.
- 컨텍스트 정제·압축 실험: 자주 붙여넣는 10쪽짜리 문서에서 보일러플레이트와 중복을 제거해 1~2쪽으로 압축하고, 답변 품질과 지연 변화를 확인하라.
- 비전 프롬프트 2단계로 분리: 먼저 이미지의 객체/텍스트/속성을 나열하게 하고, 다음에 질문에 답하게 하라. 정확도 상승과 토큰 절감 여부를 기록하라.
- 공급사에 구체 수치 요구: 벤치마크의 토큰 창 크기, 창 제한(예: 200k) 시 정확도, 추론 단계 수 대비 정확도 곡선 공개 여부를 요청하라.
댓글 (0)