Self-Supervised Pretext Tasks자기지도 사전학습 과제
쉽게 이해하기
머신러닝은 보통 많은 라벨이 필요하지만, 현실의 텍스트·이미지·오디오 데이터에는 정답이 붙어 있지 않은 경우가 대부분이다. 라벨링은 돈과 시간이 많이 들고, 분야가 특수할수록 더 어렵다. 이 때문에 ‘라벨 없이도 쓸 만한 표현을 뽑아내는 방법’이 필요했다.
자기지도 사전학습 과제는 데이터를 살짝 숨기거나 뒤섞어 스스로 문제를 만들어 푸는 방식이다. 예를 들어 이미지의 일부 패치를 가려 복원하게 하거나, 문장에서 가린 단어를 맞히게 하거나, 같은 장면의 두 가지 보기(증강된 뷰)를 가깝게 만들고 다른 장면은 멀어지게 학습한다. 마치 퍼즐을 풀면서 전체 그림의 규칙을 익히는 것과 같다.
메커니즘은 간단하다. 원본 x를 변형한 x′를 만들고, 모델이 x′로부터 숨긴 정보 y를 예측하도록 손실을 정의한다. 이때 증강(크롭, 색변환 등), 마스킹 비율, 양·음성 쌍 구성 같은 설정이 학습 난이도와 표현 품질을 좌우한다. 이렇게 얻어진 중간 표현(임베딩)은 이후 분류·검색 등 다운스트림 작업에 전이해 적은 라벨만으로도 성능을 낼 수 있다.
비유와 예시
- 영상 스트리밍 썸네일 검색 향상: 같은 영상의 서로 다른 프레임을 양성 쌍으로 삼아 대조학습을 수행하면, 비슷한 장면을 더 잘 묶는 임베딩을 얻어 검색 품질을 높일 수 있다.
- 산업 설비 센서 데이터 사전학습: 시계열의 일부 구간을 마스킹하고 복원하게 학습해 장비의 정상 패턴을 표현으로 익히면, 적은 라벨로 이상 탐지를 미세조정하기 수월해진다.
- 멀티모달 모델의 시각-텍스트 정렬: 같은 이미지-텍스트를 양성으로, 다른 쌍을 음성으로 두는 과제를 통해 두 모달리티 표현 공간을 맞추면, 캡션 매칭이나 검색에 유리한 기반을 만든다.
한눈에 비교
| 마스킹/복원(예: MAE, MLM) | 대조학습(예: SimCLR, MoCo) | 오토리그레션(다음 토큰 예측) | |
|---|---|---|---|
| 핵심 아이디어 | 일부를 숨기고 복원 | 같은 뷰는 가깝게, 다른 뷰는 멀게 | 앞부분으로 다음을 예측 |
| 필요한 구성 | 마스킹 정책, 복원 헤드 | 강한 증강, 대규모 배치/큐 | 언어/시계열 토크나이저 |
| 대표 효과 | 지역/전역 구조 복원 능력 | 구분력 높은 임베딩 | 생성·예측 일관성 |
| 전이 방식 | 선형평가·미세조정 | 선형평가·미세조정 | 생성·지시튜닝 기반 전이 |
데이터와 목표 작업 특성에 따라 복원은 구조 보존에, 대조학습은 분리도 높은 임베딩에, 오토리그레션은 생성 일관성에 강점을 보인다.
어디서 왜 중요한가
- 대규모 비라벨 데이터 활용이 표준화: 텍스트·이미지 등 웹 규모 데이터에서 사전학습 후 다운스트림에 전이하는 워크플로가 널리 쓰인다.
- 라벨 비용 절감과 희소 도메인 대응: 의료·과학 등 라벨이 비싼 영역에서 자기지도 표현으로 적은 라벨만으로도 성능을 끌어올리려는 실무가 확산됐다.
- 데이터 증강의 중요성 부각: 대조학습·자기증류 등에서 증강 조합과 멀티크롭이 표현 품질에 큰 영향을 줘, 증강 설계가 핵심 튜닝 포인트가 됐다.
- 견고성·공정성 관찰 사례: 일부 연구에서 자기지도 표현이 라벨 오염·교란에 더 강하고 공정성 지표에서도 유리할 수 있음을 보고해, 리스크 민감 산업에서 관심이 높다.
- 멀티모달 확장: 이미지·비디오·오디오·그래프 등 다양한 모달리티로 사전학습 과제가 확장되며, 공통 표현 공간 구축이 활발하다.
자주 하는 오해
- ❌ 오해: 자기지도는 비지도와 완전히 같다 → ✅ 실제: 라벨은 없지만 사람이 설계한 사전학습 과제와 손실을 통해 ‘감독 신호’를 만든다.
- ❌ 오해: 프리텍스트 손실만 낮추면 다운스트림도 자동으로 좋아진다 → ✅ 실제: 과제-목표 정렬이 중요하며, 부적절한 과제나 증강은 전이 성능을 해칠 수 있다.
- ❌ 오해: 대조학습에는 음성 샘플만 많으면 된다 → ✅ 실제: 증강 품질·배치/큐 구성·프로젝터 등 설계 전반이 표현의 분리도와 안정성에 영향을 준다.
대화에서는 이렇게
- "이번 분기는 **마스킹 비율 75%**로 MAE 프리텍스트를 먼저 돌리고, 다운스트림은 선형평가로 빠르게 스크리닝합시다."
- "대조학습 쪽은 멀티크롭 증강을 더해봤더니 mAP가 1.8p 올랐어요. 배치 사이즈를 더 키울 여유가 있는지도 확인할게요."
- "문서 임베딩은 MLM 사전학습 체크포인트에서 헤드만 바꿔 미세조정하니 라벨 10%로 베이스라인을 넘겼습니다."
- "그래프 데이터는 노드 마스킹이 효과가 좋았는데, 다운스트림 분류 라벨이 불균형이라 평가를 선형프로빙+F1로 보죠."
- "활용처가 검색 위주라 대조 손실 온도랑 증강 강도를 먼저 튜닝하고, 필요하면 자기증류로 안정화하겠습니다."
함께 읽으면 좋은 용어
참고 자료
- PT4AL: Using Self-Supervised Pretext Tasks for Active Learning
회전 예측 등 간단한 과제 손실과 다운스트림 손실의 연관 보고.
- Self-Supervised Learning of Pretext-Invariant Representations (PIRL)
지그소 기반 프리텍스트-불변 표현 학습 방법 제안.
- A Cookbook of Self-Supervised Learning
자기지도 학습 계열별 방법·튜닝·평가를 총정리.
- A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends
자기지도 학습 알고리즘과 사전학습 파이프라인 개관.
- Self-Supervised Learning - Pretext Tasks
지그소 퍼즐 등 대표 프리텍스트 과제 사례 설명.
- Self-Supervised Learning Explained
프리텍스트 과제 개념과 마스킹·대조·오토리그레션 소개.