AI 뉴스Research

약 9분 2026. 4. 16.

Agent safetyBenchmarksDistillationLooped modelsHermes Agent

선의의 지시도 위험을 부른다: 컴퓨터 사용 에이전트의 숨은 취약점 드러낸 새 벤치마크

사용자는 평범한 지시만 했는데도 데스크탑·웹 에이전트가 심각한 피해를 낳을 수 있다는 연구가 나왔습니다. 한편 더 빠르고 안전한 모델을 위한 훈련·구조 연구가 속도를 내고, 모바일·브라우저를 아우르는 대형 오픈소스 에이전트 업데이트도 공개됐습니다.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 핵심은 “선의의 지시도 위험할 수 있다”는 에이전트 안전의 블라인드스폿과, 이를 받쳐 줄 효율형 훈련(오프라인 온정책 증류)·안정적 루프형 구조, 그리고 실사용을 겨냥한 오픈소스 에이전트 스택의 성숙입니다.

Research Papers

Agent 안전의 맹점: 선의의 지시가 어떻게 피해로 이어지는가

이 연구는 사용자가 평범한 지시를 해도, 앱 환경이나 실행 과정에서 위험이 드러나면 컴퓨터 사용 에이전트가 실제 피해를 유발할 수 있음을 보입니다. 저자들은 12개 범주, 8개 애플리케이션, 두 가지 위협 유형(환경 내장 위협, 에이전트 유발 피해)으로 구성된 300개 과제 벤치마크 OS-BLIND를 제시했습니다. 대부분의 에이전트가 공격 성공률 90%를 넘었고, 안전 정렬된 Claude 4.5 Sonnet도 73.0%였으며, 다중 에이전트 구성에서는 92.7%로 급등했습니다. 안전 정렬은 초기에만 작동하고 이후 실행에서는 재개입이 드물며, 과제 분해는 유해 의도를 가려 모델을 속입니다. ¹

왜 지금 중요한가: 보안 평가는 현실에 더 가까워지는 중입니다. N-Day-Bench는 실제 코드베이스에서 공개(학습 컷오프 이후)된 취약점을 찾게 합니다. 2026년 4월 수치로 GPT-5.4가 83.93, GLM-5.1이 80.13, Claude Opus 4.6이 79.95였고, 1,000건의 권고를 스캔해 47건만 채택하는 엄격한 필터를 적용했습니다. 다만 평가자가 LLM이라는 점, 거짓 양성률을 측정하지 않는 점이 한계로 지적됩니다. ²

맥락: 벤치마크 자체가 공격에 취약할 수 있습니다. UC Berkeley RDI의 개념증명은 SWE-bench의 pytest 후크 주입, WebArena의 file:// 유출, CAR-bench의 LLM 심사자 프롬프트 주입 등으로 8개 주요 에이전트 벤치마크에서 만점에 근접했습니다. 공통 결함은 에이전트와 평가자가 같은 환경을 공유해 평가를 변조할 수 있다는 점입니다. 격리와 입력 정화는 필수입니다. ³

실웹으로 가면 난도가 급상승합니다. ClawBench는 144개 실제 사이트에서 153개 과제를 안전하게 최종 요청을 가로채며 평가합니다. 최상위 모델(Claude Sonnet 4.6)도 33.3%에 그쳤고, 샌드박스형 벤치마크에서 65–75%를 받던 모델들이 크게 하락했습니다. 동적 콘텐츠·인증·변하는 DOM이 진짜 시험이라는 뜻입니다. ⁴

Parcae: 안정적인 루프형 언어 모델의 스케일링 법칙

이 연구는 파라미터를 늘리는 대신, 동일 크기에서 활성화를 반복 루프시켜 FLOPs를 늘리는 대안을 탐구합니다. 기존 루프형 모델은 잔차 폭주, 로스 급등 같은 불안정성에 시달렸습니다. Parcae는 루프를 비선형 시변 동역학으로 재해석하고, 주입 파라미터의 큰 스펙트럴 노름이 원인임을 지적한 뒤, 음의 대각 파라미터화로 이를 제한해 학습을 안정화합니다. 그 결과, 이전 대규모 루프형 모델 대비 검증 퍼플렉시티를 최대 6.3% 낮춥니다. ⁵

훈련에서는 파라미터 수를 고정한 채 FLOPs를 늘릴 수 있는 예측 가능한 거듭제곱 법칙을 제시하며, 주어진 FLOPs 예산에서 데이터와 루프를 함께 늘리는 것이 좋다고 결론냅니다. 추론에서는 루프 수를 늘릴수록 품질이 포화형 지수 감소 곡선을 따라 개선되어, 상황에 맞춰 연산-품질 트레이드오프를 조절할 수 있습니다. ⁵

1.3B 파라미터 규모에서 Parcae는 동일 파라미터·데이터 예산의 강력한 트랜스포머 기준선 대비 CORE와 CORE-Extended를 각각 2.99, 1.18포인트 개선했고, 두 배 큰 트랜스포머의 최대 87.5% 상대 성능을 달성했습니다. 메시지: 안정적 루프는 메모리 부담 없이 연산-품질 경계를 밀어낼 수 있습니다. ⁵

Lightning OPD: 라이브 교사 없이 하는 오프라인 온정책 증류

온정책 증류는 효율적인 사후 학습이지만, 통상 훈련 내내 라이브 교사가 필요합니다. Lightning OPD는 오프라인으로 가능하게 하며, 핵심 조건은 “교사 일관성”입니다. 감독 미세조정과 OPD에 같은 교사를 써야 하며, 그렇지 않으면 수렴이 왜곡됩니다. Lightning OPD는 SFT 롤아웃에 대한 교사 로그확률을 미리 계산해 서버를 제거하고, Qwen3-8B-Base SFT에서 시작해 AIME 2024에서 69.9%를 30 GPU 시간에 달성(표준 OPD 대비 4.0배 속도)했습니다. ⁶

주의할 점: 증류는 실무적이지만 트레이드오프가 큽니다. distillation 개요는 작은 모델을 빠르고 저렴하게 만드는 장점을 설명하면서도, 교사의 편향을 그대로 물려받을 위험을 지적합니다. 교사·학생의 일관성과 목표 정합이 성패를 가릅니다. ⁷

자기 증류는 특히 주의가 필요합니다. 최근 분석은 추론 과정을 지나치게 압축하면 미지 과제에서 자기 수정에 필요한 “불확실성” 표현이 사라져, 수학 벤치마크에서 최대 40%까지 성능이 떨어질 수 있음을 보고합니다. 효율은 오르지만, 과제 다양성이 커질수록 일반화는 낮아질 수 있습니다. ⁸

Open Source & Repos

Hermes Agent v0.9.0: 모바일·패스트 모드·iMessage/WeChat·보안 하드닝까지

Hermes Agent는 설정·모니터링용 로컬 웹 대시보드, OpenAI·Anthropic 우선 큐를 활용한 Fast Mode, BlueBubbles를 통한 iMessage, WeChat/WeCom 어댑터를 추가했습니다. Android(Termux) 지원, 백그라운드 프로세스 패턴 감시, 전체 백업/가져오기, 경로 탐색·셸 주입·SSRF·웹훅 서명 검증 등 포괄적 보안 하드닝을 포함해 16개 메시징 플랫폼을 기본 지원합니다. 실사용 운영을 겨냥한 업데이트입니다. ⁹

생태계 확장도 확인됩니다. 중국 사용자에 맞춘 한중화 WebUI 포크(Web3Hermes)가 설치부터 사용까지 전 과정을 현지화해 빠른 배포를 돕습니다. ¹⁰

관찰성 측면에서는 브라우저용 Hermes HUD가 신원, 메모리, 세션, 크론, 비용 등 13개 탭을 실시간(WebSocket)으로 제공합니다. 요구 사항은 간단하며, 스크립트 한 번으로 기동합니다. ¹¹

LLM Internals: 비연구자를 위한 단계별 학습 저장소

이 교육형 저장소는 토크나이제이션, 어텐션, 양자화, 배포 관점 등을 실제 시스템에 필요한 수준으로 설명합니다. Outcome School 설립자가 운영하는 성장형 모음집으로, API 호출을 넘어 시스템적 이해로 옮겨가려는 엔지니어에게 유용합니다. ¹²

참고로, 소수 파라미터가 거동을 좌우할 수 있다는 “슈퍼 웨이트” 블로그 개요, 토큰 예산·로짓 바이어스·제약 생성 같은 실전 개념 정리, 모델·배포 레이어를 함께 보는 2026 아키텍처 가이드는 생산 단계에서 신뢰성을 높이는 수단을 제시합니다. ¹³ ¹⁴ ¹⁵

왜 중요한가

에이전트 안전은 노골적 위협 차단만으로 충분하지 않습니다. 오늘의 결과는 프롬프트가 멀쩡해 보여도, 맥락·실행 단계·평가 허점에서 피해가 생길 수 있음을 보여줍니다. 실무형 에이전트는 초반 한 번의 안전 점검을 넘어 실행 중 재점검, 평가자 격리, 다중 에이전트 분해에도 견디는 방어가 필요합니다. ¹

모델 측면에서는 안정적 루프형 구조와 오프라인 온정책 증류가 비용 효율을 열어주지만, 안정성 조건과 교사 일관성을 지켜야 합니다. 여기에 하드닝과 관찰성을 갖춘 에이전트 스택이 결합되어야, 샌드박스가 아닌 실제 웹과 워크플로, 실제 리스크 속에서도 흔들리지 않는 도구로 나아갈 수 있습니다. ⁵ ⁶

출처 17

[1] Arxiv The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents [2] Agent-wars N-Day-Bench: Can LLMs find real vulnerabilities in real codebases? [3] Lilting How 8 AI Agent Benchmarks Were Gamed to Near-Perfect Scores Without Solving a Single Task [4] Neurohive ClawBench: The Best AI Agent Completed Only 33% of Real Everyday Online Tasks [5] Arxiv Parcae: Scaling Laws For Stable Looped Language Models [6] Geektak Scale Attention Beyond 256K: Linear, Sparse & Compressed Mechanisms [7] Arxiv Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation [8] Areeblog Knowledge Distillation Techniques for Lightweight Intelligence [9] Bdtechtalks The paradox of LLM self-distillation: Faster reasoning, weaker generalization [10] Gist Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [11] Github NousResearch/hermes-agent v0.9.0 Release [12] Github Web3CZ/Web3Hermes [13] Github joeynyc/hermes-hudui [14] Github amitshekhariitbhu/llm-internals [15] Inbriefly 7 Hidden LLM Engineering Concepts No One Explains (But You Actually Need) [16] Ranksquire LLM Architecture 2026: Components, Patterns, Diagrams [17] Blogspot Open Notebook: LLM (Super weights overview)

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집