AI 안전 · 윤리 LLM · 생성AI

Hallucination환각

난이도

쉽게 이해하기

환각은 AI가 모르는 것을 모른다고 말하지 않고, 그럴듯한 답을 만들어내는 상황입니다. 문장 자체는 자연스럽고 자신 있어 보이지만, 실제 문서나 조건과 대조하면 틀릴 수 있습니다.

비유하면 발표자가 슬라이드에 없는 내용을 기억나는 척 설명하는 것과 비슷합니다. 듣는 사람은 말투가 자연스러워서 믿기 쉽지만, 발표 자료를 확인하면 빠진 근거가 보입니다.

핵심은 "거짓말"이라기보다 "근거 없는 예측이 유창하게 이어진 결과"에 가깝다는 점입니다. 그래서 단순히 말을 더 조심스럽게 시키는 것보다, 답변을 근거와 대조하고 위험하면 보류하게 만드는 운영 설계가 중요합니다.

구분	무엇이 문제인가	주된 완화 방법
지식 부족형 환각	모델이 필요한 사실을 모르거나 오래된 정보를 알고 있음	RAG, 최신 문서 검색, 출처 대조
근거 불일치형 환각	검색 문서는 있지만 답변이 문서와 어긋남	인용 검증, 문장별 근거 매핑
추론 오류형 환각	중간 계산이나 논리 단계가 틀리며 결론이 무너짐	테스트, 규칙 검증기, 다중 풀이 비교
과잉 확신형 환각	불확실한데도 단정적으로 말함	confidence 표시, abstain 정책, human review

❌ 오해: 모델이 자신 없어 보일 때만 환각이 나온다. → ✅ 실제: 가장 위험한 환각은 자연스럽고 자신 있는 문장으로 나타나는 경우가 많습니다.
❌ 오해: RAG를 붙이면 환각이 사라진다. → ✅ 실제: 검색 문서가 틀렸거나, 관련 문서를 못 찾았거나, 모델이 문서를 잘못 읽으면 여전히 환각이 생깁니다.
❌ 오해: temperature를 낮추면 충분하다. → ✅ 실제: 무작위성은 줄어도 지식 부족이나 근거 불일치는 남을 수 있습니다.
❌ 오해: 긴 답변일수록 더 신뢰할 수 있다. → ✅ 실제: 길이가 길수록 검증해야 할 주장도 늘어납니다.

★논문2024
AI hallucination: towards a comprehensive classification of distorted outputs
Classifies distorted AI outputs and terminology for hallucination failure types.
★논문2025
Explainable Hallucination Mitigation in Large Language Models: A Survey
Surveys mitigation strategies and explainability-oriented diagnosis methods.
★논문2024
Mechanistic Understanding and Mitigation of Language Model Non-Factual Hallucinations
Discusses internal mechanisms behind non-factual generations and mitigation directions.
·블로그
What Are AI Hallucinations?
Plain-language overview of causes, examples, and risk controls.

도움이 되었나요?