AI가 거짓말을 하는 이유

LLM이 '맞는 답'이 아닌 '그럴듯한 답'을 만드는 확률 시스템임을 이해하고, Hallucination과 Knowledge Cutoff가 버그가 아닌 구조적 한계임을 배웁니다

Overview

AI가 존재하지 않는 라이브러리의 사용법을 자신있게 설명하거나, 이미 바뀐 API를 최신인 것처럼 알려줄 때, 이것은 버그가 아닙니다. LLM이 작동하는 방식 자체에서 생기는 현상입니다.

이 레슨에서는 LLM이 "정답을 찾는 기계"가 아니라 "그럴듯한 다음 단어를 예측하는 확률 시스템"임을 이해하고, Hallucination과 Knowledge Cutoff가 왜 구조적으로 사라질 수 없는지 살펴봅니다.

학습 목표

LLM은 "정답을 찾는 기계"가 아니라 "다음에 올 단어를 예측하는 확률 시스템"이라는 것을 이해합니다
Hallucination은 고칠 수 있는 버그가 아니라, LLM이 작동하는 방식 자체에서 생기는 현상임을 이해합니다
LLM이 특정 시점까지의 데이터로만 학습하기 때문에, 그 이후의 정보는 구조적으로 알 수 없다는 것을 이해합니다

LLM이란: 다음 단어를 예측하는 시스템

대량의 텍스트를 학습해서, 주어진 문맥 다음에 올 가장 그럴듯한 단어를 예측하는 시스템입니다. "맞는 답"을 찾는 것이 아니라, 학습 데이터의 패턴을 바탕으로 "자연스러운 다음 단어"를 고를 뿐입니다.

lesson-01-token-prediction

단어? 토큰?

실제로 LLM은 "단어"가 아니라 토큰(token) 단위로 텍스트를 처리합니다. 토큰은 단어보다 작을 수도 있고, 짧은 단어는 그 자체가 하나의 토큰이 되기도 합니다. 이 레슨에서는 편의상 "단어"로 설명합니다.

실험: 존재하지 않는 라이브러리 물어보기

"react-smooth-virtual-grid라는 라이브러리 사용법 알려줘"

이 패키지는 실제로 존재하지 않습니다. 하지만 AI는 자신있게 답합니다:

npm install react-smooth-virtual-grid 설치 명령어
import { VirtualGrid } from 'react-smooth-virtual-grid' import 문
props와 사용 예제까지 자신있게 설명

AI는 라이브러리의 존재 여부를 확인하지 않습니다. 이름이 그럴듯하니까, 그 뒤에 올 자연스러운 답변을 생성한 것뿐입니다.

잘 모르는 주제에 대해 "확실하지 않습니다"라고 답하도록 추가 훈련
웹 검색 도구를 연결해서 기억 대신 직접 확인

그럼에도 AI 답변을 무조건 신뢰하는 것은 위험합니다.

개발자에게 Hallucination이 의미하는 것

존재하지 않는 API나 라이브러리 함수를 자신있게 알려줍니다
deprecated 문법을 최신인 것처럼 제안합니다
동작하지 않는 코드를 그럴듯하게 작성합니다

Knowledge Cutoff: AI가 어제 일을 모르는 이유

2024년 12월에 출판된 백과사전은 2025년 1월 사건을 모릅니다.

Knowledge Cutoff(학습 기준일)도 같은 원리입니다. LLM은 특정 시점까지의 데이터로만 학습됩니다. 그 이후의 정보는 알 수 없습니다.

lesson-01-knowledge-cutoff-timeline

문제는 AI가 "모릅니다"라고 말하지 않는다는 점입니다. 과거 정보로 추측하거나 지어냅니다.

Knowledge Cutoff와 Hallucination은 자주 함께 발생합니다.

Knowledge Cutoff를 확인하는 방법

AI에게 직접 물어보면 됩니다. 모델마다 시점이 다릅니다.

개발자에게 Knowledge Cutoff가 의미하는 것

최신 API를 물어보면 과거 버전의 API를 알려줄 수 있습니다
새로 변경된 프레임워크 문법을 모를 수 있습니다
공식 문서를 직접 확인하는 습관이 필요합니다

핵심 포인트 정리

LLM은 확률 예측 시스템: "정답"이 아니라 "그럴듯한 다음 단어"를 예측합니다
Hallucination은 버그가 아닌 구조적 현상: 줄일 수는 있지만 없앨 수 없습니다
LLM은 "모르겠다"를 잘 말하지 않음: 자신있는 어조의 학습 데이터가 기본 패턴이기 때문입니다
Knowledge Cutoff는 구조적 한계: 학습 이후 정보는 알 수 없고, 그럴듯하게 지어낼 수 있습니다

FAQ

Q: AI가 만든 코드가 Hallucination인지 어떻게 알 수 있나요?
- A: 실행해보면 됩니다. 존재하지 않는 API를 호출하거나 잘못된 파라미터를 넣으면 에러가 나기 때문입니다. 핵심은 AI가 준 코드가 "맞아 보인다"는 이유로 그대로 신뢰하지 않는 것입니다
Q: 웹 검색을 연결하면 Hallucination 문제가 해결되지 않나요?
- A: 크게 줄어들지만 완전히 사라지지는 않습니다. 검색 결과를 해석하고 요약하는 과정에서 여전히 "그럴듯한 다음 단어"를 생성하기 때문입니다. 도구가 사실을 가져다줘도, 그것을 조합하는 과정은 여전히 확률적입니다
Q: ChatGPT, Gemini, Claude도 같은 문제가 있나요?
- A: 네. Hallucination과 Knowledge Cutoff는 LLM 기술 자체의 특성이라 모든 LLM에 해당합니다. 다만 모델마다 정도와 완화 기법이 다릅니다

이어서 배울 내용

다음 레슨에서는 LLM에게 Tool을 연결하면 무엇이 달라지는지 알아봅니다.

Tool Use의 개념과 LLM 한계를 보완하는 방식
LLM과 Agent의 차이

AI가 거짓말을 하는 이유 | LLM 기초