Synthetic Data합성 데이터
쉽게 이해하기
합성 데이터는 실제 사람이나 사건에서 직접 수집한 데이터가 아니라, 컴퓨터가 규칙이나 모델을 이용해 새로 만든 데이터다. 실제 고객 기록을 그대로 쓰기 어렵거나, 드문 장애 사례가 부족하거나, 모델 평가용 샘플을 더 만들고 싶을 때 사용한다.
비유와 예시
합성 데이터는 운전 연습용 시뮬레이터와 비슷하다. 실제 도로는 아니지만 비, 야간, 급정거 같은 상황을 안전하게 반복해 볼 수 있다. AI에서는 가짜 영수증 이미지, 생성된 고객 대화, 희귀 의료 케이스, 로봇 시뮬레이션 데이터가 예가 될 수 있다.
한눈에 비교
| 구분 | 실제 데이터 | 합성 데이터 |
|---|---|---|
| 출처 | 관측, 로그, 설문, 센서 | 규칙, 시뮬레이션, 생성 모델 |
| 장점 | 현실 반영 | 규모 확장, privacy risk 완화, rare case 보강 |
| 위험 | 개인정보, 편향, 수집 비용 | 분포 차이, 생성기 편향, 오염 |
| 검증 | 샘플링과 라벨 품질 | 실제 holdout 대비 분포와 성능 비교 |
어디서 왜 중요한가
AI 모델은 데이터 품질에 크게 의존한다. 합성 데이터는 데이터가 부족한 영역에서 빠르게 샘플을 늘리고, 민감 데이터를 직접 공개하지 않고 분석을 돕고, edge case를 의도적으로 만들 수 있다. 하지만 실제 데이터의 대체품으로 무조건 믿기보다는 목적별 검증과 provenance 관리가 필요하다.
자주 하는 오해
- 오해: 합성 데이터는 개인정보 문제가 없다.
- 실제: 원본을 외운 생성기나 너무 가까운 샘플은 privacy leakage를 만들 수 있다.
- 오해: 데이터가 많아지면 무조건 모델이 좋아진다.
- 실제: 낮은 품질의 합성 데이터는 모델을 생성기 스타일에 과적합시킬 수 있다.
- 오해: 평가 데이터도 합성으로 마음껏 만들면 된다.
- 실제: 학습 데이터와 평가 데이터의 생성 경로가 겹치면 contamination이 생길 수 있다.
대화에서는 이렇게
- "이 합성 데이터가 실제 holdout 분포와 얼마나 맞는지 봤나요?"
- "민감 정보가 재생성되지 않는지 privacy filter가 필요합니다."
- "학습용인지 평가용인지 provenance를 분리해서 기록해야 합니다."
함께 읽으면 좋은 용어
참고 자료
- What is synthetic data?
합성 데이터의 정의, 활용 목적, 품질과 개인정보 맥락을 설명한다.
- What is Synthetic Data?
AI/ML에서 합성 데이터를 쓰는 이유와 일반적인 생성 방식을 설명한다.
- What Are Synthetic Data?
공공 통계에서 합성 데이터가 실제 데이터 노출을 줄이는 방식으로 쓰이는 사례를 설명한다.
- NIST SP 800-226: Guidelines for Evaluating Differential Privacy Guarantees
민감 데이터 공개와 프라이버시 보장 검토 맥락에서 합성 데이터 평가의 한계를 이해하는 데 유용하다.