제01권 · 제10호 CS · AI · Infra 2026년 5월 14일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI

Agent Evaluation에이전트 평가

난이도

쉽게 이해하기

기존 LLM 평가는 한 번 질문하고 한 번 답을 받아 채점하는 식이라, 에이전트처럼 여러 단계를 거쳐 도구를 쓰고 환경을 바꾸는 시스템을 온전히 판단하기 어렵습니다. 같은 모델이라도 프롬프트를 어떻게 짜고 어떤 도구와 환경을 주느냐에 따라 결과가 크게 달라져 공정한 비교가 힘듭니다. 그래서 생긴 문제가 "무엇이 진짜 잘해서 성능이 올랐는가"를 분리해 말하기가 어렵다는 점입니다. 에이전트 평가는 이를 해결하기 위해 ‘여행 경로’를 함께 봅니다. 계획을 세우고(tool 계획), 도구를 호출해 행동하고, 관찰 결과로 다음 단계를 바꾸는 루프를 전부 기록해 채점합니다. 비유하면, 시험지가 정답만 맞췄는지 보는 게 아니라 어떤 풀이 과정을 거쳤는지, 불필요한 돌아가기가 없었는지도 함께 본다는 뜻입니다. 구체적으로는 세 가지가 핵심입니다. 첫째, 단일 출력 대신 실행 궤적과 환경 상태 변화를 평가 단위로 삼습니다. 둘째, 추론(계획) 계층과 행동(도구 사용) 계층을 분리해 어떤 층위에서 실패했는지 진단합니다. 셋째, 정확도에 더해 단계 수, 실행 시간, 토큰 소비 같은 효율 지표를 병기하고, 프롬프트·도구·환경을 통제하는 표준화된 샌드박스를 지향해 비교 가능성을 높입니다.

비유와 예시

  • 웹 탐색 샌드박스 작업: 제한된 브라우저 환경에서 문서를 찾아 요약하는 과제에서, 에이전트가 몇 번 클릭했는지와 중간 관찰을 기반으로 경로와 최종 결과를 함께 채점합니다.
  • 코드 수정 시나리오: 가상 CLI와 편집 도구가 제공된 환경에서 버그를 고치는 과제에서, 테스트 통과 여부뿐 아니라 도구 호출 횟수와 불필요한 반복 시도가 줄었는지도 평가합니다.
  • 임상 계산 도구 활용: 임상 점수 계산에 필요한 외부 도구를 호출해 포맷에 맞춘 최종 답을 제출하게 하고, 형식 유효성·해석 오류 등 세부 실패 유형을 분리해 기록합니다.

한눈에 비교

모델 평가에이전트 평가
대상정적 입·출력 매핑다단계 상호작용 시스템
단위단일 응답실행 궤적+최종 상태 변화
환경고정 데이터셋도구·규칙이 있는 샌드박스
지표정확도/품질정확도+단계 길이·시간·토큰
변동 요인모델·프롬프트프롬프트·도구·환경 설계까지

에이전트 평가는 정답만이 아니라 환경과의 상호작용 경로와 효율을 함께 보며, 프롬프트·도구·환경 차이를 통제할 표준화가 중요하다.

어디서 왜 중요한가

  • 평가 대상 전환: 단일 응답이 아닌 상호작용 궤적을 채점하면서, 계획·행동 단계별 오류 귀속이 가능해졌습니다.
  • 효율 지표의 상시화: 단계 수, 실행 시간, 토큰 소비 같은 비용 지표를 병기해야 공정한 비교가 가능하다는 실무 인식이 확산되었습니다.
  • 표준화 필요성 부각: 프롬프트·도구·환경 차이가 결과를 흔들어 벤치마크 간 비교가 어렵다는 분석이 나오며, 통일된 샌드박스·절차 논의가 진행되고 있습니다.
  • 과적합·지름길 경계: 사람 해설 복제나 환경 편법 등으로 성능이 부풀려질 수 있어, 재현성 있는 홀드아웃과 내재적(환경 독립) 평가의 필요가 제기됩니다.
  • 계층 분리 디버깅: 추론 계층과 행동 계층을 분리 채점해, 프롬프트 설계 문제인지 도구 선택·호출 문제인지 진단이 쉬워졌습니다.

자주 하는 오해

  • ❌ 오해: 최종 답만 맞으면 좋은 에이전트다 → ✅ 실제: 실행 경로, 환경 변화, 실패 원인까지 함께 봐야 신뢰성과 재현성을 담보한다.
  • ❌ 오해: 같은 모델이면 어느 프롬프트·도구에서도 성능이 같다 → ✅ 실제: 프롬프트·도구·샌드박스 설계가 성능을 크게 좌우해 통제가 필요하다.
  • ❌ 오해: 정확도만 높이면 된다 → ✅ 실제: 단계 수·시간·토큰 같은 비용을 함께 통제·보고하지 않으면 비교가 왜곡된다.

대화에서는 이렇게

  • "이번 실험은 샌드박스도구 세트를 고정하고 비교해야 공정해요."
  • "최종 정답은 맞았는데 궤적 길이가 너무 길어요—토큰 소비도 같이 리포트합시다."
  • "이건 추론 계층은 근거를 잘 세웠는데, 행동 계층에서 잘못된 API를 반복 호출했네요."
  • "리랭킹으로 성능이 올랐는데 프롬프트 변경 영향인지 모델 향상인지 분리 실험을 추가하죠."
  • "재현이 안 돼요—시드/도구 버전/환경 스냅샷을 고정해서 다시 돌려봅시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?