‘안전해 보이는’ AI 모델 내부의 숨은 위험 드러난다
연구진은 개입 기반 테스트와 잠재 취약성 점수를 제안해 출력 중심 안전성과 내부 견고성의 간극을 보여준다.
한 줄 요약
출력만 보는 안전 점검을 넘어 잠재공간까지 들여다보는 감사가 제안됐고, 에이전트 분산 조정·프로그래머블 분산 학습·테스트 시점 프롬프트 학습이 확장성을 끌어올리며, 에이전트 UI 스택은 실무 적용을 다졌다.
Research Papers
When Behavioral Safety Evaluation Fails: 표현 수준 취약성으로 본 안전 평가 간극
이 논문은 모델이 내놓는 답(행동 안전성)만 점검하면 내부 취약성이 드러나지 않을 수 있다고 주장한다. 다시 말해 겉으로는 안전해 보여도, 약한 개입만으로 유해한 동작을 유도하기 쉬운 경우가 있다. 저자들은 행동 안전성과 개입하에서의 견고성 사이의 불일치를 “감사 간극(audit gap)”으로 정의하고, 겉보기 거부 행동은 유지하되 잠재공간에서는 취약한 “분리 모델(dissociated models)”을 구성해 이를 연구한다. 1
연구팀은 매개변수와 은닉 활성에 대한 소프트 개입, 유해 파인튜닝, 계층별 잠재 교란을 포함하는 개입 기반 평가 프레임워크를 제안한다. 또한 제한된 잠재 교란으로 유해 행동을 얼마나 쉽게 유도할 수 있는지를 정량화하는 잠재 취약성 점수(Latent Vulnerability Score, LVS)를 도입한다. 1
여러 안전 정렬·비정렬 최신 모델에서, 거부율 같은 행동 지표만으로는 취약성이 포착되지 않는다. 분리 모델은 유해 개입 하에서도 거부 행동은 비슷하지만 LVS가 크게 높게 나타나, 표면적 행동만으로 내부 견고성을 대신할 수 없음을 보여준다. 1
또한 중간 표현이 개입에 가장 민감하다는 결과가 나온다. 실무적 함의는 분명하다. 출력만 보지 말고 내부 표현을 함께 점검하고, 행동 지표와 더불어 표현 인식형 지표를 병기해 보고해야 한다는 것이다. 1
DeLM: 공유 컨텍스트로 분산 조정하는 다중 에이전트
DeLM은 중앙 조정자 없이 병렬 에이전트가 공동의 검증된 컨텍스트를 공유하며 각자 하위 작업을 가져가 처리하는 다중 에이전트 시스템(MAS)이다. 에이전트는 비동기적으로 작업을 청구하고, 누적된 진행 상황을 읽고, 로컬 추론을 수행한 뒤, 검증된 간결 업데이트를 공용 저장소에 기록한다. 2
SWE-bench Verified에서 DeLM은 Avg.@1, Pass@2, Pass@4 모두에서 최고 성능을 기록했고, 최강 기준선 대비 최대 10.5퍼센트포인트까지 향상하면서 작업당 비용을 약 50% 줄였다. LongBench‑v2 다문서 질의응답(QA)에서도 네 가지 프런티어 모델 계열 전반에서 최고 평균 정확도를 보였고, 최강 기준선 대비 최대 5.7포인트 개선됐다. 2
Piper: 전략과 런타임을 분리한 분산 학습
Piper는 데이터·파이프라인·전문가 병렬화를 조합하는 고수준 전략을 사용자가 선언하면, 런타임이 자동으로 장치별 실행을 컴파일하는 프로그래머블 분산 학습 시스템이다. 새로운 병렬화 조합마다 저수준 구현을 수작업으로 짜야 하는 부담을 줄인다. 3
핵심은 전역 학습 계획을 유향 비순환 그래프(DAG) 형태의 중간 표현(IR)으로 분리해, 전략과 구현을 느슨하게 결합하는 것이다. ZeRO 같은 일반 전략에서는 동등한 성능을 유지하고, DeepSeek‑V3의 DualPipe처럼 합성된 전략에서는 연산·통신의 공동 스케줄링으로 추가 속도와 메모리 효율을 확보할 수 있음을 보인다. 3
EEVEE: 현실 작업 스트림용 테스트 시점 프롬프트 학습
EEVEE는 여러 데이터셋·도메인에서 섞여 들어오는 현실적 작업 흐름에서 대형 언어 모델(LLM) 에이전트가 실행 중 프롬프트를 학습해 조정하도록 돕는 프레임워크다. 라우터가 입력을 작업 군집으로 분할하고, 각 군집에 맞는 프롬프트 구성을 할당한다. 4
라우터와 프롬프트를 교대로 학습하는 공동 진화 전략으로 상호 의존성을 다룬다. 실험에서 EEVEE는 Qwen3‑4B‑Instruct와 DeepSeek‑V3.2 대비 평균 다중 벤치마크 점수를 각각 10.38, 24.32포인트 높였고, 최신 성능(State of the Art, SOTA) 기법인 GEPA와 ACE를 최대 37.2%, 48.2%까지 앞섰다. 4
Open Source & Repos
CopilotKit: 에이전트·생성 UI 프런트엔드 스택 v1.59.5
CopilotKit은 React, Angular, Vue, React Native, Slack 등에서 에이전트 네이티브 애플리케이션과 생성 UI를 구축하는 프런트엔드 스택이다. v1.59.5 패치는 React 채팅의 A2UI 복구 렌더링을 개선하고, 시끄러운 런타임 라이선스 경고를 제거했으며, v1.59.4 롤백 이후 Intelligence threads 예제 배포를 재적용하고, 에이전트 보조 CI 실행을 강화했다. 5
유지관리자는 AG‑UI Protocol의 제작자임을 표방하며, 공유 상태와 사람 개입형 워크플로를 앱에 통합하는 문서와 예제를 제공한다. 5
왜 중요한가
출력만 보는 점검은 모델 내부 표현에 숨어 있는 실패를 놓칠 수 있다. 개입 기반 테스트와 잠재공간 점수는 안전팀이 거부율 같은 행동 지표와 함께 내부 취약성을 드러내어 보고할 수 있는 구체적 도구를 제공한다. 리더 입장에서는 행동 지표뿐 아니라 표현 인식형 안전 증거를 요구하는 것이 실무적 변화다. 1
한편 역량과 도구 측면에서는 분산 조정(DeLM), 프로그래머블 분산 학습(Piper), 테스트 시점 프롬프트 학습(EEVEE)이 더 큰 학습 없이도 추론력과 효율을 끌어올리는 접근을 제시한다. 여기에 CopilotKit 같은 오픈 도구가 결합되면서, 실행 중 더 잘 적응하고 표현 수준 감사가 필수인 AI 스택의 방향이 드러난다. 2 3 4 5
댓글 (0)