LLM 추론 내구성 점검된 날 — 속도·신뢰성의 새 기준선
문제의 뜻은 그대로 두고 형태만 비틀어보니, 다수의 ‘추론형’ 모델이 급락했습니다. 한편 추론 속도와 3D 과학 모델은 새 기법으로 전진 중입니다.
한 줄 요약
점수 경쟁을 넘어, ‘형태가 달라져도 버티는가’와 ‘여러 사용자를 동시에 다루는가’를 묻는 벤치마크가 부상했고, 디코딩 가속과 3D 물리 일관성 강화가 함께 진전했습니다.
Research Papers
Robust Reasoning Benchmark: 형식이 바뀌어도 같은 문제를 풀 수 있는가
이 연구는 수학 문제의 뜻은 그대로 두고 문장 순서를 뒤집거나 기호를 섞는 등 표현만 바뀌었을 때 모델이 여전히 풀 수 있는지 점검합니다. AIME 2024에 14가지 변형 파이프라인을 적용해 최첨단 8개 모델을 평가한 결과, 일부 상용 모델은 비교적 버티지만 많은 공개 가중치 추론형 모델은 평균 최대 55% 정확도 급락, 특정 변형에서는 0%까지 붕괴했습니다. 표준 형식에 과적합된 ‘겉모습 의존’ 추론이 점수 뒤에 숨어 있음을 드러낸 결과입니다. 1
연구진은 또, 변형 없이도 한 컨텍스트에 문제를 여러 개 연속 배치해 뒤의 문제 정확도가 떨어지는지를 확인했습니다. 7B~120B 공개 가중치 모델과 Claude Opus 4.6까지 후반 문제에서 성능 저하가 나타났고, 중간 사고 과정(체인 오브 소트)이 모델의 조밀 어텐션 “작업 기억”을 오염시키는 것으로 해석됩니다. 해법으로는 모델 내부에 단계적 “컨텍스트 리셋”을 넣어 질서 있게 생각 단위를 끊는 아키텍처가 제시됩니다. 1
의료 분야 분석도 같은 메시지를 줍니다. 실제 병원 데이터 기반 MR-Bench에서는 표준화 시험에서 높은 점수를 받은 모델조차 임상적 의사결정에서 흔들렸고, 포맷 친숙도보다 현실 견고성을 보는 평가가 필요하다는 결론이 제시됩니다. 2
Cactus: 제약 수용 기반 추측 디코딩으로 더 빠르게, 품질은 지키며
이 연구는 작은 ‘초안’ 모델이 토큰을 제안하고 큰 ‘검증’ 모델이 승인하는 추측 디코딩을, 검증 모델 분포에서 벗어남을 엄격히 제한하는 최적화 문제로 공식화합니다. Cactus는 분포 간 편차를 통제하면서 승인율을 끌어올려, 휴리스틱 남용 시 품질이 떨어지는 문제를 피하고 가속과 품질 사이에서 안전한 균형점을 제시합니다. 3
왜 중요한가: 디코딩은 체감 속도 병목입니다. 승인율이 오르면 곧바로 토큰 생성 속도가 늘어납니다. 기존 ‘전형성’ 휴리스틱은 더 많이 승인하지만 분포 왜곡이 생길 수 있었습니다. Cactus는 수학적 제약으로 이 왜곡을 억제하며 다양한 벤치마크에서 효과를 보였고, 본 모델 재학습 없이도 속도를 끌어올릴 실용 경로를 보여줍니다. 3
현장 사례는 여지를 보여줍니다. 온프렘 Gemma 4 31B 환경에 추측 디코딩을 적용하자 RTX 5090에서 평균 29% 토큰/초 향상이 관측됐고, 코드·수학처럼 예측 가능한 출력에서는 약 50% 가속이 나왔습니다. 이는 일반적 추측 디코딩 결과이며 Cactus 자체 수치가 아님을 유의해야 합니다. 4
다중 사용자 LLM 에이전트: 한 에이전트가 여러 명의 목적을 다룰 수 있는가
이 논문은 역할·권한·선호가 다른 여러 사용자를 한 에이전트가 동시에 보좌하는 상황을 정식화하고, 충돌 지시 처리·프라이버시 유지·협업 효율을 점검하는 스트레스 테스트를 설계했습니다. 상충 목표에서 우선순위를 안정적으로 유지하지 못하고, 다회 대화에서 프라이버시 위반이 늘며, 반복적 정보 수집이 필요한 협업에서는 효율 병목이 생기는 등 체계적 한계가 드러납니다. 5
결론은 명확합니다. ‘한 명 사용자 최적화’는 팀·조직 환경에 곧장 이식되지 않습니다. 한편 의료 대화에서 의사의 진단 절차를 규칙으로 모델에 주입하는 과정 피드백 기반 선호 학습(PLPF)은 표준화 환자 테스트에서 기준선 대비 17.6% 진단 정확도 향상을 보였고, 전통적 인간 피드백 강화학습 대비 2.2% 개선에 그친 사례와 대비됩니다. 절차적 규율의 내장이 다단계 상호작용을 안정화할 수 있음을 시사합니다. 6
EquiformerV3: 더 빠르고 더 물리적인 3D 등변 그래프 트랜스포머
이 연구는 3D 원자계 모델링에서 물리 대칭(SE(3))을 지키면서 효율과 표현력을 높인 트랜스포머를 제시합니다. EquiformerV3는 소프트웨어 최적화로 1.75배 빨라졌고, 등변 병합 레이어 정규화·개선된 피드포워드·부드러운 반경 컷오프 어텐션을 더했으며, 다체 상호작용을 깔끔히 담는 SwiGLU-S^2 활성화를 도입했습니다. 7
이 조합은 잠재에너지면의 매끄러운 변화를 정확히 잡고 고차 미분까지 다루는 데 유리합니다. 비평형 구조 복원(DeNS) 보조 과제로 학습한 EquiformerV3는 OC20, OMat24, Matbench Discovery에서 최고 성능을 기록해, 촉매·신소재 등 정확성과 물리 일관성을 함께 요구하는 분야에 의미 있는 전진을 보여줍니다. 7
또한 코드 생성에서 수식 형태만 바뀌어도 성능이 흔들리는 취약성이 보고된 바 있어, 입력 변화에 대한 견고성을 높이는 아키텍처·전처리 설계의 중요성이 3D 모델에도 시사됩니다. 8
Open Source & Repos
AgriciDaniel/claude-obsidian: Claude + Obsidian 지식 동반자
이 저장소는 기존 노트를 AI가 읽고 유지·확장하는 ‘지속 위키’로 바꿉니다. 문서를 한 번 ingest하면 교차링크된 위키로 정리되고, 이후 질의는 매번 새로 검색하는 대신 이 위키를 읽어 답합니다. /wiki, /save, /autoresearch 등으로 Obsidian 안에서 카라파시의 “LLM Wiki” 패턴을 실행합니다. 9
대상 사용자: 방대한 검색 인프라 없이 지식을 축적·재사용하려는 연구자, 기획·PM, 학생. 전통적 검색 증강 생성(RAG)과 달리, 이 패턴은 원본(raw)·위키(wiki)·스키마 파일의 3층 구조로 지식을 컴파일해 작은 규모의 집중 도메인에서 높은 재현성과 간결한 운영을 제공합니다. 10
왜 뜨나: Claude Code의 “Skills” 기능과 함께 쓰면, 필요한 순간에만 과업별 지침을 불러와 컨텍스트를 슬림하게 유지할 수 있어 실제 업무에서 반복 프롬프트·컨텍스트 비대화를 줄이는 데 유용합니다. 11
왜 중요한가
이제는 점수 한 줄보다 ‘현실 마찰’을 버티는지가 중요합니다. 형태가 흔들려도 추론이 유지되는가, 여러 사용자의 충돌 속에서 원칙과 프라이버시를 지키는가, 디코딩을 더 빨리 하면서 품질을 잃지 않는가가 새 기준입니다. 1
여기에 제약 수용형 디코딩, 다중 사용자 프로토콜, 물리 대칭을 지키는 3D 모델, 개인 위키형 지식 컴파일이 합쳐지면, 우리가 쓰는 도구는 더 빨라지고 예측 가능해지며 감독하기 쉬워집니다. 3
이번 주 시도해볼 것
- LLM 위키 시작: 레포를 설치하고 raw/에 PDF를 하나 넣어 자동 페이지 생성을 체험하세요. https://github.com/AgriciDaniel/claude-obsidian 9
- 추측 디코딩 읽기: 어떤 작업에서 가속 효율이 큰지 벤치 요약을 빠르게 확인하세요. https://ai-radar.it/article/decodifica-speculativa-gemma-4-31b-accelera-l-inference-on-premise-con-rtx-5090 4
댓글 (0)