제01권 · 제10호 CS · AI · Infra 2026년 5월 14일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI

Evaluation Harness평가 하니스

난이도

쉽게 이해하기

LLM은 프롬프트나 샘플링 설정을 조금만 바꿔도 점수가 달라집니다. 팀마다 코드가 제각각이면 논문·블로그의 수치가 서로 비교되지도 않습니다. 이 혼란을 줄이기 위해, 모두가 같은 입력과 채점 규칙으로 같은 방식으로 돌려보는 장치가 필요합니다. 평가 하니스는 바로 그 장치입니다. 경기장에서 같은 규칙으로 달리게 하듯, 정해둔 데이터셋·프롬프트·메트릭으로 모델을 자동 시험합니다. 과제(task) 정의와 모델 백엔드(hf, vLLM, API 등)를 분리해, YAML/CLI로 과제를 선택하고 배치·디바이스·샘플 수를 지정합니다. 실행 중에는 표준 로그를 남기고, 결과는 동일 포맷으로 저장되어 리더보드나 대시보드에 바로 올릴 수 있습니다.

비유와 예시

  • 사내 릴리즈 전 회귀 검사: 새 프롬프트 템플릿을 적용한 모델을 하니스로 돌려 기존 버전과 같은 과제에서 점수를 비교합니다. 특정 과제 점수가 떨어지면 CI 단계에서 배포를 중단합니다.
  • RAG 설정 변경 영향 파악: 검색 단계 파라미터를 바꾸고 동일 쿼리 세트로 하니스 평가를 반복합니다. 검색 품질 저하가 최종 답변 정확도에 미치는 변화를 수치로 확인합니다.
  • 에이전트 행동 평가 자동화: OpenHands 스타일 워크플로로 사용자 응답을 모의(user_response_fn)하고, 에이전트의 액션 이력과 결과를 기준으로 합격/실패를 산출합니다. 같은 작업을 여러 모델 설정에 일괄 적용합니다.

한눈에 비교

Evaluation Harness개별 스크립트 실행리더보드 플랫폼
목적표준화·재현·자동화단발성 실험공개 비교·순위
구성과제 정의 + 모델 추상화 + 메트릭임시 코드·환경 의존제출 형식·심사 규칙
재현성높음(버전·프롬프트 고정)낮음(설정 누락 잦음)중간(제출 규칙 전제)
파이프라인 연동CI/관측 연계 용이수동 보고 중심제출 후 집계 중심

하니스는 내부 실험을 일관화하고 CI에 걸기 쉬워 팀 생산성을 높이고, 리더보드는 그 결과를 대외 비교에 활용합니다.

어디서 왜 중요한가

  • EleutherAI의 LM Evaluation Harness는 Open LLM Leaderboard의 실행 기반으로 쓰이며, 다양한 벤치마크에서 비교 가능한 점수를 제공합니다.
  • 조직은 배포 전 평가 게이트를 도입해, 하니스 메트릭이 후퇴하면 배포를 차단합니다.
  • 프롬프트 템플릿과 태스크 구성을 공개/버전 관리하면 재현성과 감사 가능성이 높아집니다.
  • OpenHands 같은 프레임워크는 컨트롤러 루프를 통해 에이전트 평가를 구조화합니다.
  • 금융 등 특정 도메인에서는 전용 하니스를 통해 프롬프트 정책과 평가 규칙을 표준화합니다.

자주 하는 오해

  • ❌ 하니스 점수가 높으면 실사용도 항상 좋다 → ✅ 특정 데이터·메트릭 기준의 상대 비교일 뿐이며, 운영 트래픽/제약을 반영하지 못할 수 있습니다.
  • ❌ 한 번 설정하면 영원히 재현된다 → ✅ 데이터·태스크·프롬프트도 버전이 필요하고 고정/기록하지 않으면 재현성이 깨집니다.
  • ❌ 하니스는 연구용만 쓴다 → ✅ CI 게이트·관측과 결합해 프로덕션 회귀 차단에 실무적으로 활용됩니다.

대화에서는 이렇게

  • "이번 프롬프트 리팩터링은 하니스 CI 게이트를 통과해야 배포됩니다."
  • "vLLM 백엔드로 바꿔 같은 과제셋에서 돌렸는데, latency는 줄었고 정확도는 동일합니다."
  • "리더보드 제출 전, 내부 harness 설정(YAML)을 freeze해서 재현 로그를 남깁시다."
  • "에이전트 평가에 user_response_fn을 붙여 상호작용을 고정해야 공정 비교가 됩니다."
  • "이번 실패는 think_end_token 설정 차이로 보이니, 동일화 후 다시 측정합시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?