AI가 거짓말을 하는 이유 | LLM 기초
LLM이 '맞는 답'이 아닌 '그럴듯한 답'을 만드는 확률 시스템임을 이해하고, Hallucination과 Knowledge Cutoff가 버그가 아닌 구조적 한계임을 배웁니다
Overview
AI가 존재하지 않는 라이브러리의 사용법을 자신있게 설명하거나, 이미 바뀐 API를 최신인 것처럼 알려줄 때, 이것은 버그가 아닙니다. LLM이 작동하는 방식 자체에서 생기는 현상입니다.
이 레슨에서는 LLM이 "정답을 찾는 기계"가 아니라 "그럴듯한 다음 단어를 예측하는 확률 시스템"임을 이해하고, Hallucination과 Knowledge Cutoff가 왜 구조적으로 사라질 수 없는지 살펴봅니다.
학습 목표
- LLM은 "정답을 찾는 기계"가 아니라 "다음에 올 단어를 예측하는 확률 시스템"이라는 것을 이해합니다
- Hallucination은 고칠 수 있는 버그가 아니라, LLM이 작동하는 방식 자체에서 생기는 현상임을 이해합니다
- LLM이 특정 시점까지의 데이터로만 학습하기 때문에, 그 이후의 정보는 구조적으로 알 수 없다는 것을 이해합니다
LLM이란: 다음 단어를 예측하는 시스템
대량의 텍스트를 학습해서, 주어진 문맥 다음에 올 가장 그럴듯한 단어를 예측하는 시스템입니다. "맞는 답"을 찾는 것이 아니라, 학습 데이터의 패턴을 바탕으로 "자연스러운 다음 단어"를 고를 뿐입니다.

단어? 토큰?
실제로 LLM은 "단어"가 아니라 토큰(token) 단위로 텍스트를 처리합니다. 토큰은 단어보다 작을 수도 있고, 짧은 단어는 그 자체가 하나의 토큰이 되기도 합니다. 이 레슨에서는 편의상 "단어"로 설명합니다.
실험: 존재하지 않는 라이브러리 물어보기
"react-smooth-virtual-grid라는 라이브러리 사용법 알려줘"
이 패키지는 실제로 존재하지 않습니다. 하지만 AI는 자신있게 답합니다:
npm install react-smooth-virtual-grid설치 명령어import { VirtualGrid } from 'react-smooth-virtual-grid'import 문- props와 사용 예제까지 자신있게 설명
AI는 라이브러리의 존재 여부를 확인하지 않습니다. 이름이 그럴듯하니까, 그 뒤에 올 자연스러운 답변을 생성한 것뿐입니다.
Hallucination: AI는 왜 자신만만하게 틀릴까
Hallucination(할루시네이션)은 사실이 아닌 내용을 사실처럼 말하는 현상입니다. 위험한 이유는 겉모습으로 구별할 수 없다는 점입니다. 정확한 답과 부정확한 답이 똑같은 자신감으로 나옵니다.
왜 "모르겠다"고 말하지 않을까?
인터넷 텍스트 대부분은 자신있는 어조로 쓰여 있고, LLM은 이 패턴을 기본값으로 학습합니다. 강화학습으로 교정하지만, 수십억 건의 학습 데이터를 완전히 덮어쓸 수는 없습니다.
Hallucination은 고칠 수 있는 버그인가?
아닙니다. "그럴듯한 다음 단어를 예측한다"는 원리 자체에서 생기는 구조적 현상이기 때문에, 줄일 수는 있어도 완전히 없앨 수는 없습니다.
최신 모델들의 완화 노력:
- 잘 모르는 주제에 대해 "확실하지 않습니다"라고 답하도록 추가 훈련
- 웹 검색 도구를 연결해서 기억 대신 직접 확인
그럼에도 AI 답변을 무조건 신뢰하는 것은 위험합니다.
개발자에게 Hallucination이 의미하는 것
- 존재하지 않는 API나 라이브러리 함수를 자신있게 알려줍니다
- deprecated 문법을 최신인 것처럼 제안합니다
- 동작하지 않는 코드를 그럴듯하게 작성합니다
Knowledge Cutoff: AI가 어제 일을 모르는 이유
2024년 12월에 출판된 백과사전은 2025년 1월 사건을 모릅니다.
Knowledge Cutoff(학습 기준일)도 같은 원리입니다. LLM은 특정 시점까지의 데이터로만 학습됩니다. 그 이후의 정보는 알 수 없습니다.

문제는 AI가 "모릅니다"라고 말하지 않는다는 점입니다. 과거 정보로 추측하거나 지어냅니다.
Knowledge Cutoff와 Hallucination은 자주 함께 발생합니다.
Knowledge Cutoff를 확인하는 방법
AI에게 직접 물어보면 됩니다. 모델마다 시점이 다릅니다.
개발자에게 Knowledge Cutoff가 의미하는 것
- 최신 API를 물어보면 과거 버전의 API를 알려줄 수 있습니다
- 새로 변경된 프레임워크 문법을 모를 수 있습니다
- 공식 문서를 직접 확인하는 습관이 필요합니다
핵심 포인트 정리
- LLM은 확률 예측 시스템: "정답"이 아니라 "그럴듯한 다음 단어"를 예측합니다
- Hallucination은 버그가 아닌 구조적 현상: 줄일 수는 있지만 없앨 수 없습니다
- LLM은 "모르겠다"를 잘 말하지 않음: 자신있는 어조의 학습 데이터가 기본 패턴이기 때문입니다
- Knowledge Cutoff는 구조적 한계: 학습 이후 정보는 알 수 없고, 그럴듯하게 지어낼 수 있습니다
FAQ
-
Q: AI가 만든 코드가 Hallucination인지 어떻게 알 수 있나요?
- A: 실행해보면 됩니다. 존재하지 않는 API를 호출하거나 잘못된 파라미터를 넣으면 에러가 나기 때문입니다. 핵심은 AI가 준 코드가 "맞아 보인다"는 이유로 그대로 신뢰하지 않는 것입니다
-
Q: 웹 검색을 연결하면 Hallucination 문제가 해결되지 않나요?
- A: 크게 줄어들지만 완전히 사라지지는 않습니다. 검색 결과를 해석하고 요약하는 과정에서 여전히 "그럴듯한 다음 단어"를 생성하기 때문입니다. 도구가 사실을 가져다줘도, 그것을 조합하는 과정은 여전히 확률적입니다
-
Q: ChatGPT, Gemini, Claude도 같은 문제가 있나요?
- A: 네. Hallucination과 Knowledge Cutoff는 LLM 기술 자체의 특성이라 모든 LLM에 해당합니다. 다만 모델마다 정도와 완화 기법이 다릅니다
이어서 배울 내용
다음 레슨에서는 LLM에게 Tool을 연결하면 무엇이 달라지는지 알아봅니다.
- Tool Use의 개념과 LLM 한계를 보완하는 방식
- LLM과 Agent의 차이