ML 기초 수학 · 통계

F1-ScoreF1 점수

F1 점수는 분류 모델의 성능을 평가할 때 정밀도(precision)와 재현율(recall)을 하나의 값으로 균형 있게 결합한 지표로, 두 값의 조화평균이다. 특히 데이터가 불균형할 때 정확도만으로는 드러나지 않는 오탐과 미탐의 균형을 단일 수치로 보여주며, 참 음성은 고려하지 않는다는 한계가 있다.

난이도

30초 요약

AI가 어떤 대상을 맞췄는지 숫자로 한 번에 판단하기 어렵다. 어떤 때는 틀리게 골라내는 실수와, 아예 놓치는 실수가 서로 엇갈리기 때문이다. F1 점수는 이 둘을 동시에 고려해 하나의 숫자로 정리해 주는 기준이다. 마치 수비수가 ‘헛손질’과 ‘놓침’을 함께 줄였는지를 한 번에 보는 느낌이다. 다만 ‘아예 안전한 상황을 제대로 거른 비율(진짜 음성)’은 계산에 포함하지 않는다. -> 그래서 데이터가 한쪽으로 치우친 작업에서, 모델을 공정하게 비교할 때 뉴스와 보고서에 자주 등장한다.

쉽게 이해하기

분류 모델에서는 두 가지 실수가 자주 충돌한다. 잘못된 것을 맞다고 하는 ‘오탐’과, 맞는 것을 놓치는 ‘미탐’이다. 예를 들어 골키퍼를 떠올려 보자. 공을 더 세게 막으려다 헛손질(오탐에 해당하는 잘못된 판정)할 수도 있고, 너무 조심하다가 결정적인 슛을 놓칠(미탐) 수도 있다. F1 점수는 이 두 실수를 함께 줄였는지를 한 번에 보여주는 점수다. 구체적으로는 정밀도 (precision)와 재현율 (recall)을 합쳐서 계산한다. 정밀도는 ‘잡은 것 중에 진짜가 얼마나 많은가’를 뜻해 오탐을 줄이는 관점이고, 재현율은 ‘진짜 중에 얼마나 많이 찾았나’를 뜻해 미탐을 줄이는 관점이다. 두 값이 한쪽으로만 높고 다른 쪽이 낮다면, 모델은 한 면만 잘하는 것이다. F1은 이 둘의 조화평균을 사용해 한쪽이 낮으면 전체 점수를 크게 깎는다. 왜냐하면 조화평균은 두 값 중 작은 값의 영향을 크게 받아, 정밀도와 재현율 사이의 불균형을 ‘벌주는’ 성질이 있기 때문이다. 요약하면 정밀도는 FP(거짓 양성)를 줄이는 방법, 재현율은 FN(거짓 음성)를 줄이는 방법이며, F1은 이 둘이 함께 높아야 좋은 점수를 주도록 설계된 균형 지표다.

예시와 비유

제조 라인의 희소 불량 검출: 하루에 수만 개의 제품이 통과하지만 실제 불량은 극히 드물다. 이때 정확도만 보면 대부분 정상이라 높은 점수가 나오지만, 중요한 건 드문 불량을 놓치지 않으면서도 정상품을 과하게 불량으로 오인하지 않는 균형이다. F1 점수로 모델이 두 실수를 동시에 얼마나 잘 줄였는지 판단할 수 있다.
커뮤니티 규정 위반 자동 탐지: 대부분의 글은 정상이나, 드물게 심각한 위반이 섞여 있다. 규정 위반을 놓치면 피해가 크지만, 정상 글을 과하게 차단하면 사용자 불만이 커진다. 이런 상황에서 F1 점수는 재현율과 정밀도의 균형을 수치로 보여준다.
의료 선별검사(희귀 질환 스크리닝): 환자 대부분은 음성이지만, 양성을 놓치면 치료 기회를 잃을 수 있다. 동시에 과도한 양성 판정은 불필요한 추가 검사 비용을 낳는다. F1 점수는 이 상충 관계를 한 눈에 비교하는 데 유용하다.
보안 로그에서 이상 징후 알림: 정상 트래픽이 대부분인 로그 속에서 드문 침입 신호를 찾아야 한다. 알림이 너무 많으면 운영팀이 피로해지고, 놓치면 사고로 번진다. F1 점수로 탐지의 민감도와 오경보의 균형을 함께 평가할 수 있다.

한눈에 보기

구분	F1 점수	정확도(Accuracy)	MCC(Matthews Correlation Coefficient)
핵심 개념	정밀도와 재현율의 조화평균으로 두 오류(FP/FN) 균형 평가	전체에서 맞춘 비율(양성/음성 모두)	TP, TN, FP, FN 모두를 반영하는 상관계수
클래스 불균형 대응	강함 — 양성 소수 클래스에서 유리	약함 — 불균형이 크면 과대평가 위험	강함 — TN 비중이 큰 작업에 유리
TN(진짜 음성) 반영	반영하지 않음	반영함	강하게 반영
선택 가이드(예)	드문 이벤트를 놓치면 안 되고, 오탐도 중요한 텍스트 분류·탐지	두 클래스가 비슷한 비율일 때의 전반적 정확도 비교	TN 관리가 중요한 이상탐지·품질관리에서 균형 평가
해석 포인트	정밀도·재현율이 함께 높아야 고득점	단순하고 직관적이나 불균형에 취약	해석이 다소 어렵지만 전반 균형에 강함

왜 중요한가

정확도만 보면 좋은 모델로 착각: 불균형 데이터에서 대부분을 ‘음성’이라 예측해도 정확도가 높게 나올 수 있다.
운영 비용 폭증: 정밀도가 낮으면 오탐이 많아져 사람이 검수해야 할 작업이 늘고 비용이 튄다.
위험 사례 누락: 재현율이 낮으면 중요한 양성을 놓쳐 실제 사고나 손실로 이어질 수 있다.
모델 비교 오류: 정밀도만, 혹은 재현율만 보고 모델을 바꾸면 현장에서 균형이 무너질 수 있다. F1로 한 번 더 교차 점검해야 한다.

▶ 이런 것도 궁금하지 않으세요?

실제로 어디서 쓰여요?
직군별 활용 포인트
자주 하는 실수가 뭐예요?
회의에서 어떻게 말해요?
다음에 뭘 공부하면 좋아요?
다음에 읽을 것

실제로 어디서 쓰이나

사기·이상 행위 탐지와 같은 불균형 데이터 작업에서 모델 비교에 활용될 수 있다. 두 오류 유형(FP/FN)을 함께 고려해야 한다는 점이 강조된다. (일반적 활용 맥락)
NLP 분류 과제(예: 문서 라벨링, 의도 분류)에서 정확도보다 더 균형 잡힌 지표로 쓰일 수 있다. (일반적 활용 맥락)
컴퓨터 비전의 객체 검출·세분화 등에서 정밀도/재현율을 함께 본 성능 요약치로 보고서에 포함될 수 있다. (일반적 활용 맥락)
모델 운영 중 임계값 조정(threshold tuning) 시, 정밀도-재현율 트레이드오프를 비교하는 기준으로 사용할 수 있다. (일반적 활용 맥락)

직군별 활용 포인트

주니어 개발자: 혼동행렬을 직접 계산해 정밀도·재현율·F1을 모두 구해보세요. 임계값을 바꾸며 어떤 지표가 어떻게 움직이는지 체감하는 게 중요합니다. PM/기획자: 리스크 비용이 FP/FN 중 어디에 큰지 사업 관점으로 정의하세요. 그 비중에 따라 F1만이 아니라 다른 지표(MCC 등) 병행 여부를 결정할 수 있습니다. 데이터 사이언티스트/리드: 불균형 데이터에서 샘플링/가중치/임계값 조정 전략과 함께 F1 변화를 보고서에 명시하세요. 운영 단계에서는 지표 추세와 알람량(오탐 비용)을 연결해 설명하세요. 품질/운영 담당자: F1이 좋아도 현장 알람 피로도가 높을 수 있습니다. 오탐·미탐 사례를 주간 리뷰로 정리해 모델 개선의 우선순위를 제시하세요.

주의할 점

❌ 오해: F1이 항상 최고의 지표다 → ✅ 실제: 데이터가 치우치고 FP/FN이 모두 중요할 때 특히 유용하다. TN까지 중요하면 MCC 같은 다른 지표를 함께 보아야 한다.
❌ 오해: F1이 높으면 정밀도와 재현율도 각각 아주 높다 → ✅ 실제: 둘 다 ‘균형 있게’ 높을 때 유리하지만, 한쪽이 낮으면 F1이 크게 깎인다. 개별 값도 반드시 확인해야 한다.
❌ 오해: F1은 정확도의 개선판이라 같다고 봐도 된다 → ✅ 실제: 정확도는 전체 정답 비율을, F1은 정밀도·재현율 균형을 본다. 목적과 데이터 분포에 따라 선택이 달라진다.
❌ 오해: F1은 이진 분류에서만 쓴다 → ✅ 실제: 멀티클래스에서도 평균 방식(예: 클래스별 계산 후 평균)을 통해 확장해 사용할 수 있다.

대화에서는 이렇게

이번 릴리스에서 임계값 0.6으로 바꾸니 정밀도는 0.92에서 0.95로 올랐는데 재현율이 0.78로 내려갔어요. F1 점수 기준으로는 소폭 하락입니다.
데이터가 심하게 불균형이라 정확도는 98%인데, F1은 0.55예요. 운영 리스크 고려하면 F1 기준으로 재학습이 필요해요.
TN 영향도까지 보려면 MCC 추가 보고합시다. F1만 보면 알람 억제가 과한지 판단이 어려워요.
주간 리포트는 PR 곡선과 임계값별 F1 스윕 테이블을 같이 넣어주세요. 의사결정에 도움이 됩니다.
A/B 실험에서 모델 B가 재현율은 같고 정밀도가 높아 F1이 개선됐어요. 검수 인건비도 줄 전망입니다.

함께 알면 좋은 용어

정밀도 (Precision) — ‘맞다고 한 것 중에 진짜 비율’. 오탐 억제에 초점. F1은 이 값이 낮으면 크게 감점된다.
재현율 (Recall) — ‘진짜 중에 찾은 비율’. 미탐 억제에 초점. F1은 이 값과 정밀도의 균형을 요구한다.
정확도 (Accuracy) — 전체에서 맞춘 비율. 불균형 데이터에서는 과대평가될 수 있어 F1과 병행 비교가 필요하다.
MCC (Matthews Correlation Coefficient) — TP/TN/FP/FN 모두 반영. TN 중요도가 큰 작업에서는 F1만 볼 때의 맹점을 보완한다.
혼동행렬 (Confusion Matrix) — TP, FP, FN, TN을 정리한 표. F1, 정확도, MCC 등 대부분의 분류 지표 계산의 출발점이다.
F-베타 점수 (Fβ) — 정밀도와 재현율의 가중 균형. 특정 상황에서 한쪽을 더 중시하고 싶을 때 F1(β=1) 대신 선택한다.

다음에 읽을 것

정밀도 (Precision) — 오탐을 어떻게 줄이는지 이해해야 F1의 절반을 제대로 해석할 수 있다
재현율 (Recall) — 미탐을 어떻게 줄이는지 알아야 F1의 다른 절반을 이해할 수 있다
혼동행렬 (Confusion Matrix) — TP/FP/FN/TN을 정확히 파악해야 F1, 정확도, MCC를 스스로 계산·검증할 수 있다

도움이 되었나요?

0to1log Weekly

AI 용어집