제01권 · 제10호 CS · AI · Infra 2026년 5월 13일

AI 용어집

용어 사전레퍼런스학습
데이터 엔지니어링 LLM · 생성AI ML 기초

Synthetic Data합성 데이터

난이도

쉽게 이해하기

합성 데이터는 실제 사람이나 사건에서 직접 수집한 데이터가 아니라, 컴퓨터가 규칙이나 모델을 이용해 새로 만든 데이터다. 실제 고객 기록을 그대로 쓰기 어렵거나, 드문 장애 사례가 부족하거나, 모델 평가용 샘플을 더 만들고 싶을 때 사용한다.

비유와 예시

합성 데이터는 운전 연습용 시뮬레이터와 비슷하다. 실제 도로는 아니지만 비, 야간, 급정거 같은 상황을 안전하게 반복해 볼 수 있다. AI에서는 가짜 영수증 이미지, 생성된 고객 대화, 희귀 의료 케이스, 로봇 시뮬레이션 데이터가 예가 될 수 있다.

한눈에 비교

구분실제 데이터합성 데이터
출처관측, 로그, 설문, 센서규칙, 시뮬레이션, 생성 모델
장점현실 반영규모 확장, privacy risk 완화, rare case 보강
위험개인정보, 편향, 수집 비용분포 차이, 생성기 편향, 오염
검증샘플링과 라벨 품질실제 holdout 대비 분포와 성능 비교

어디서 왜 중요한가

AI 모델은 데이터 품질에 크게 의존한다. 합성 데이터는 데이터가 부족한 영역에서 빠르게 샘플을 늘리고, 민감 데이터를 직접 공개하지 않고 분석을 돕고, edge case를 의도적으로 만들 수 있다. 하지만 실제 데이터의 대체품으로 무조건 믿기보다는 목적별 검증과 provenance 관리가 필요하다.

자주 하는 오해

  • 오해: 합성 데이터는 개인정보 문제가 없다.
  • 실제: 원본을 외운 생성기나 너무 가까운 샘플은 privacy leakage를 만들 수 있다.
  • 오해: 데이터가 많아지면 무조건 모델이 좋아진다.
  • 실제: 낮은 품질의 합성 데이터는 모델을 생성기 스타일에 과적합시킬 수 있다.
  • 오해: 평가 데이터도 합성으로 마음껏 만들면 된다.
  • 실제: 학습 데이터와 평가 데이터의 생성 경로가 겹치면 contamination이 생길 수 있다.

대화에서는 이렇게

  • "이 합성 데이터가 실제 holdout 분포와 얼마나 맞는지 봤나요?"
  • "민감 정보가 재생성되지 않는지 privacy filter가 필요합니다."
  • "학습용인지 평가용인지 provenance를 분리해서 기록해야 합니다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?