Multimodal Model멀티모달 모델
쉽게 이해하기
멀티모달 모델은 텍스트만 다루는 모델이 아니라 이미지, 오디오, 비디오 같은 여러 형태의 정보를 함께 이해하거나 생성하는 모델이다. 예를 들어 사진을 보고 질문에 답하거나, 음성을 듣고 응답하거나, 화면 이미지를 보고 다음 행동을 고를 수 있다.
비유와 예시
텍스트 전용 모델이 책만 읽는 사람이라면, 멀티모달 모델은 책도 읽고 그림도 보고 소리도 듣는 사람에 가깝다. 예를 들어 영수증 사진에서 금액을 읽고, 회의 녹음을 요약하고, 제품 이미지를 보고 설명문을 쓰는 작업이 해당된다.
한눈에 비교
| 구분 | 텍스트 모델 | 멀티모달 모델 |
|---|---|---|
| 입력 | 주로 text | text, image, audio, video 등 |
| 강점 | 문장 이해와 생성 | cross-modal reasoning, visual/audio grounding |
| 위험 | 언어 hallucination | modality mismatch, grounding failure |
| 활용 | 글쓰기, 요약, QA | OCR, voice assistant, screen agent, video analysis |
어디서 왜 중요한가
현실의 정보는 텍스트만으로 존재하지 않는다. 문서에는 표와 이미지가 있고, 회의에는 음성과 화면이 있으며, 로봇이나 에이전트는 시각 정보를 보고 행동해야 한다. 멀티모달 모델은 이런 데이터를 한 작업 흐름 안에서 연결하기 때문에 AI 제품의 사용 범위를 크게 넓힌다.
자주 하는 오해
- 오해: 이미지 입력을 받으면 모두 멀티모달 모델이다.
- 실제: 단순 OCR pipeline과 모델 내부에서 cross-modal reasoning을 하는 경우는 다르다.
- 오해: 모달리티가 많을수록 항상 좋다.
- 실제: 각 모달리티의 품질, alignment, latency, safety 검수가 더 중요하다.
- 오해: 이미지가 있으면 hallucination이 줄어든다.
- 실제: 잘못된 grounding은 오히려 더 그럴듯한 오류를 만들 수 있다.
대화에서는 이렇게
- "이 모델은 text-only가 아니라 이미지와 음성 입력까지 처리합니다."
- "OCR은 맞았지만 표와 질문을 연결하는 grounding이 틀렸습니다."
- "모달리티별 latency와 실패 케이스를 따로 봐야 합니다."
함께 읽으면 좋은 용어
참고 자료
- Gemini: A Family of Highly Capable Multimodal Models
text, image, audio, video 이해를 포함한 multimodal model의 대표 기술 보고서다.
- GPT-4o System Card
text/audio/image/video 입출력 조합을 다루는 omni multimodal model의 공식 system card다.
- Hello GPT-4o
GPT-4o의 multimodal interaction 방향과 text/audio/image/video 입력 맥락을 설명한다.