제01권 · 제10호 CS · AI · Infra 2026년 4월 7일

AI 용어집

용어 사전레퍼런스학습
ML 기초 수학 · 통계

F1-ScoreF1 점수

F1 점수는 분류 모델의 성능을 평가할 때 정밀도(precision)와 재현율(recall)을 하나의 값으로 균형 있게 결합한 지표로, 두 값의 조화평균이다. 특히 데이터가 불균형할 때 정확도만으로는 드러나지 않는 오탐과 미탐의 균형을 단일 수치로 보여주며, 참 음성은 고려하지 않는다는 한계가 있다.

난이도

30초 요약

AI가 어떤 대상을 맞췄는지 숫자로 한 번에 판단하기 어렵다. 어떤 때는 틀리게 골라내는 실수와, 아예 놓치는 실수가 서로 엇갈리기 때문이다. F1 점수는 이 둘을 동시에 고려해 하나의 숫자로 정리해 주는 기준이다. 마치 수비수가 ‘헛손질’과 ‘놓침’을 함께 줄였는지를 한 번에 보는 느낌이다. 다만 ‘아예 안전한 상황을 제대로 거른 비율(진짜 음성)’은 계산에 포함하지 않는다. -> 그래서 데이터가 한쪽으로 치우친 작업에서, 모델을 공정하게 비교할 때 뉴스와 보고서에 자주 등장한다.

쉽게 이해하기

분류 모델에서는 두 가지 실수가 자주 충돌한다. 잘못된 것을 맞다고 하는 ‘오탐’과, 맞는 것을 놓치는 ‘미탐’이다. 예를 들어 골키퍼를 떠올려 보자. 공을 더 세게 막으려다 헛손질(오탐에 해당하는 잘못된 판정)할 수도 있고, 너무 조심하다가 결정적인 슛을 놓칠(미탐) 수도 있다. F1 점수는 이 두 실수를 함께 줄였는지를 한 번에 보여주는 점수다. 구체적으로는 정밀도 (precision)와 재현율 (recall)을 합쳐서 계산한다. 정밀도는 ‘잡은 것 중에 진짜가 얼마나 많은가’를 뜻해 오탐을 줄이는 관점이고, 재현율은 ‘진짜 중에 얼마나 많이 찾았나’를 뜻해 미탐을 줄이는 관점이다. 두 값이 한쪽으로만 높고 다른 쪽이 낮다면, 모델은 한 면만 잘하는 것이다. F1은 이 둘의 조화평균을 사용해 한쪽이 낮으면 전체 점수를 크게 깎는다. 왜냐하면 조화평균은 두 값 중 작은 값의 영향을 크게 받아, 정밀도와 재현율 사이의 불균형을 ‘벌주는’ 성질이 있기 때문이다. 요약하면 정밀도는 FP(거짓 양성)를 줄이는 방법, 재현율은 FN(거짓 음성)를 줄이는 방법이며, F1은 이 둘이 함께 높아야 좋은 점수를 주도록 설계된 균형 지표다.

예시와 비유

  • 제조 라인의 희소 불량 검출: 하루에 수만 개의 제품이 통과하지만 실제 불량은 극히 드물다. 이때 정확도만 보면 대부분 정상이라 높은 점수가 나오지만, 중요한 건 드문 불량을 놓치지 않으면서도 정상품을 과하게 불량으로 오인하지 않는 균형이다. F1 점수로 모델이 두 실수를 동시에 얼마나 잘 줄였는지 판단할 수 있다.

  • 커뮤니티 규정 위반 자동 탐지: 대부분의 글은 정상이나, 드물게 심각한 위반이 섞여 있다. 규정 위반을 놓치면 피해가 크지만, 정상 글을 과하게 차단하면 사용자 불만이 커진다. 이런 상황에서 F1 점수는 재현율과 정밀도의 균형을 수치로 보여준다.

  • 의료 선별검사(희귀 질환 스크리닝): 환자 대부분은 음성이지만, 양성을 놓치면 치료 기회를 잃을 수 있다. 동시에 과도한 양성 판정은 불필요한 추가 검사 비용을 낳는다. F1 점수는 이 상충 관계를 한 눈에 비교하는 데 유용하다.

  • 보안 로그에서 이상 징후 알림: 정상 트래픽이 대부분인 로그 속에서 드문 침입 신호를 찾아야 한다. 알림이 너무 많으면 운영팀이 피로해지고, 놓치면 사고로 번진다. F1 점수로 탐지의 민감도와 오경보의 균형을 함께 평가할 수 있다.

한눈에 보기

구분F1 점수정확도(Accuracy)MCC(Matthews Correlation Coefficient)
핵심 개념정밀도와 재현율의 조화평균으로 두 오류(FP/FN) 균형 평가전체에서 맞춘 비율(양성/음성 모두)TP, TN, FP, FN 모두를 반영하는 상관계수
클래스 불균형 대응강함 — 양성 소수 클래스에서 유리약함 — 불균형이 크면 과대평가 위험강함 — TN 비중이 큰 작업에 유리
TN(진짜 음성) 반영반영하지 않음반영함강하게 반영
선택 가이드(예)드문 이벤트를 놓치면 안 되고, 오탐도 중요한 텍스트 분류·탐지두 클래스가 비슷한 비율일 때의 전반적 정확도 비교TN 관리가 중요한 이상탐지·품질관리에서 균형 평가
해석 포인트정밀도·재현율이 함께 높아야 고득점단순하고 직관적이나 불균형에 취약해석이 다소 어렵지만 전반 균형에 강함

왜 중요한가

  • 정확도만 보면 좋은 모델로 착각: 불균형 데이터에서 대부분을 ‘음성’이라 예측해도 정확도가 높게 나올 수 있다.

  • 운영 비용 폭증: 정밀도가 낮으면 오탐이 많아져 사람이 검수해야 할 작업이 늘고 비용이 튄다.

  • 위험 사례 누락: 재현율이 낮으면 중요한 양성을 놓쳐 실제 사고나 손실로 이어질 수 있다.

  • 모델 비교 오류: 정밀도만, 혹은 재현율만 보고 모델을 바꾸면 현장에서 균형이 무너질 수 있다. F1로 한 번 더 교차 점검해야 한다.

이런 것도 궁금하지 않으세요?
  • 실제로 어디서 쓰여요?
  • 직군별 활용 포인트
  • 자주 하는 실수가 뭐예요?
  • 회의에서 어떻게 말해요?
  • 다음에 뭘 공부하면 좋아요?
  • 다음에 읽을 것

실제로 어디서 쓰이나

  • 사기·이상 행위 탐지와 같은 불균형 데이터 작업에서 모델 비교에 활용될 수 있다. 두 오류 유형(FP/FN)을 함께 고려해야 한다는 점이 강조된다. (일반적 활용 맥락)

  • NLP 분류 과제(예: 문서 라벨링, 의도 분류)에서 정확도보다 더 균형 잡힌 지표로 쓰일 수 있다. (일반적 활용 맥락)

  • 컴퓨터 비전의 객체 검출·세분화 등에서 정밀도/재현율을 함께 본 성능 요약치로 보고서에 포함될 수 있다. (일반적 활용 맥락)

  • 모델 운영 중 임계값 조정(threshold tuning) 시, 정밀도-재현율 트레이드오프를 비교하는 기준으로 사용할 수 있다. (일반적 활용 맥락)

직군별 활용 포인트

주니어 개발자: 혼동행렬을 직접 계산해 정밀도·재현율·F1을 모두 구해보세요. 임계값을 바꾸며 어떤 지표가 어떻게 움직이는지 체감하는 게 중요합니다. PM/기획자: 리스크 비용이 FP/FN 중 어디에 큰지 사업 관점으로 정의하세요. 그 비중에 따라 F1만이 아니라 다른 지표(MCC 등) 병행 여부를 결정할 수 있습니다. 데이터 사이언티스트/리드: 불균형 데이터에서 샘플링/가중치/임계값 조정 전략과 함께 F1 변화를 보고서에 명시하세요. 운영 단계에서는 지표 추세와 알람량(오탐 비용)을 연결해 설명하세요. 품질/운영 담당자: F1이 좋아도 현장 알람 피로도가 높을 수 있습니다. 오탐·미탐 사례를 주간 리뷰로 정리해 모델 개선의 우선순위를 제시하세요.

주의할 점

  • ❌ 오해: F1이 항상 최고의 지표다 → ✅ 실제: 데이터가 치우치고 FP/FN이 모두 중요할 때 특히 유용하다. TN까지 중요하면 MCC 같은 다른 지표를 함께 보아야 한다.

  • ❌ 오해: F1이 높으면 정밀도와 재현율도 각각 아주 높다 → ✅ 실제: 둘 다 ‘균형 있게’ 높을 때 유리하지만, 한쪽이 낮으면 F1이 크게 깎인다. 개별 값도 반드시 확인해야 한다.

  • ❌ 오해: F1은 정확도의 개선판이라 같다고 봐도 된다 → ✅ 실제: 정확도는 전체 정답 비율을, F1은 정밀도·재현율 균형을 본다. 목적과 데이터 분포에 따라 선택이 달라진다.

  • ❌ 오해: F1은 이진 분류에서만 쓴다 → ✅ 실제: 멀티클래스에서도 평균 방식(예: 클래스별 계산 후 평균)을 통해 확장해 사용할 수 있다.

대화에서는 이렇게

  • 이번 릴리스에서 임계값 0.6으로 바꾸니 정밀도는 0.92에서 0.95로 올랐는데 재현율이 0.78로 내려갔어요. F1 점수 기준으로는 소폭 하락입니다.

  • 데이터가 심하게 불균형이라 정확도는 98%인데, F1은 0.55예요. 운영 리스크 고려하면 F1 기준으로 재학습이 필요해요.

  • TN 영향도까지 보려면 MCC 추가 보고합시다. F1만 보면 알람 억제가 과한지 판단이 어려워요.

  • 주간 리포트는 PR 곡선과 임계값별 F1 스윕 테이블을 같이 넣어주세요. 의사결정에 도움이 됩니다.

  • A/B 실험에서 모델 B가 재현율은 같고 정밀도가 높아 F1이 개선됐어요. 검수 인건비도 줄 전망입니다.

함께 알면 좋은 용어

  • 정밀도 (Precision) — ‘맞다고 한 것 중에 진짜 비율’. 오탐 억제에 초점. F1은 이 값이 낮으면 크게 감점된다.

  • 재현율 (Recall) — ‘진짜 중에 찾은 비율’. 미탐 억제에 초점. F1은 이 값과 정밀도의 균형을 요구한다.

  • 정확도 (Accuracy) — 전체에서 맞춘 비율. 불균형 데이터에서는 과대평가될 수 있어 F1과 병행 비교가 필요하다.

  • MCC (Matthews Correlation Coefficient) — TP/TN/FP/FN 모두 반영. TN 중요도가 큰 작업에서는 F1만 볼 때의 맹점을 보완한다.

  • 혼동행렬 (Confusion Matrix) — TP, FP, FN, TN을 정리한 표. F1, 정확도, MCC 등 대부분의 분류 지표 계산의 출발점이다.

  • F-베타 점수 (Fβ) — 정밀도와 재현율의 가중 균형. 특정 상황에서 한쪽을 더 중시하고 싶을 때 F1(β=1) 대신 선택한다.

다음에 읽을 것

  1. 정밀도 (Precision) — 오탐을 어떻게 줄이는지 이해해야 F1의 절반을 제대로 해석할 수 있다
  2. 재현율 (Recall) — 미탐을 어떻게 줄이는지 알아야 F1의 다른 절반을 이해할 수 있다
  3. 혼동행렬 (Confusion Matrix) — TP/FP/FN/TN을 정확히 파악해야 F1, 정확도, MCC를 스스로 계산·검증할 수 있다
도움이 되었나요?