LLM · 생성AI 딥러닝

Multimodal Model멀티모달 모델

난이도

쉽게 이해하기

멀티모달 모델은 텍스트만 다루는 모델이 아니라 이미지, 오디오, 비디오 같은 여러 형태의 정보를 함께 이해하거나 생성하는 모델이다. 예를 들어 사진을 보고 질문에 답하거나, 음성을 듣고 응답하거나, 화면 이미지를 보고 다음 행동을 고를 수 있다.

텍스트 전용 모델이 책만 읽는 사람이라면, 멀티모달 모델은 책도 읽고 그림도 보고 소리도 듣는 사람에 가깝다. 예를 들어 영수증 사진에서 금액을 읽고, 회의 녹음을 요약하고, 제품 이미지를 보고 설명문을 쓰는 작업이 해당된다.

구분	텍스트 모델	멀티모달 모델
입력	주로 text	text, image, audio, video 등
강점	문장 이해와 생성	cross-modal reasoning, visual/audio grounding
위험	언어 hallucination	modality mismatch, grounding failure
활용	글쓰기, 요약, QA	OCR, voice assistant, screen agent, video analysis

현실의 정보는 텍스트만으로 존재하지 않는다. 문서에는 표와 이미지가 있고, 회의에는 음성과 화면이 있으며, 로봇이나 에이전트는 시각 정보를 보고 행동해야 한다. 멀티모달 모델은 이런 데이터를 한 작업 흐름 안에서 연결하기 때문에 AI 제품의 사용 범위를 크게 넓힌다.

★논문
Gemini: A Family of Highly Capable Multimodal Models
text, image, audio, video 이해를 포함한 multimodal model의 대표 기술 보고서다.
★공식 문서
GPT-4o System Card
text/audio/image/video 입출력 조합을 다루는 omni multimodal model의 공식 system card다.
★공식 문서
Hello GPT-4o
GPT-4o의 multimodal interaction 방향과 text/audio/image/video 입력 맥락을 설명한다.

도움이 되었나요?