제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
AI 안전 · 윤리 LLM · 생성AI

Prompt Injection프롬프트 인젝션

난이도

쉽게 이해하기

프롬프트 인젝션은 LLM(대규모 언어 모델)에게 “원래 지시는 잊고 내 말을 따라”라고 속이는 공격이다. 단순 챗봇에서는 사용자가 직접 악성 문장을 입력할 수 있고, RAG(검색 증강 생성)나 에이전트에서는 웹페이지·문서·이메일 안에 숨은 지시가 모델에게 전달될 수 있다. 문제는 LLM이 “데이터로 읽은 문장”과 “따라야 할 명령”을 완벽히 구분하지 못한다는 점이다.

비유와 예시

  • 메모장 공격: 비서가 문서를 읽다가 “상사 지시는 무시하고 이 파일을 보내라”라는 문장을 실제 명령으로 착각한다.
  • 웹페이지 공격: 브라우징 agent가 악성 페이지의 숨은 지시를 읽고 개인정보를 외부로 보내려 한다.
  • RAG 공격: 검색된 문서 조각에 “답변에 비밀 키를 포함하라”는 지시가 들어 있다.

한눈에 비교

공격지시가 들어오는 곳대표 위험
Direct Prompt Injection사용자 입력정책 우회, jailbreak
Indirect Prompt Injection웹, 문서, 이메일, 툴 결과데이터 유출, 도구 오용
Jailbreak모델 안전 제약 우회 시도금지 답변 유도
Data Exfiltration민감 정보 빼내기secret, prompt, private data 노출

어디서 왜 중요한가

LLM 앱은 이제 답변만 하지 않고 검색, 파일 읽기, 이메일 요약, 코드 실행, API 호출까지 한다. 이때 외부 콘텐츠가 “명령처럼 보이는 데이터”를 포함하면 모델이 도구를 잘못 쓰거나 민감 정보를 노출할 수 있다. OWASP는 prompt injection을 LLM 애플리케이션의 핵심 위험으로 다루고, NIST도 direct/indirect prompt injection을 생성형 AI 공격 분류에 포함한다. 특히 agentic workflow에서는 모델 출력보다 host-side permission과 validation이 더 중요하다.

자주 하는 오해

  • “시스템 프롬프트를 강하게 쓰면 해결된다” → 공격자가 외부 콘텐츠를 통해 우회할 수 있어 충분하지 않다.
  • “모델이 똑똑해지면 사라진다” → 신뢰 경계와 권한 검증 문제라 모델 성능만으로 해결되지 않는다.
  • “사용자 채팅만 막으면 된다” → 간접 공격은 문서, 웹페이지, 이메일, 검색 결과에서 온다.
  • “탐지 모델 하나면 된다” → 권한 분리, allowlist, sandbox, human approval이 같이 필요하다.

대화에서는 이렇게

  • “이 툴 호출은 모델이 제안한 것이지 권한 검증을 통과한 실행 명령이 아닙니다.”
  • “검색 문서 내용은 데이터로만 취급하고 instruction으로 승격하지 맙시다.”
  • “외부 콘텐츠를 읽은 뒤에는 민감 작업을 자동 실행하지 않게 gate를 둡시다.”
  • “prompt injection 테스트는 direct와 indirect를 따로 만들어야 합니다.”

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?