LLM의 추론은 논리 계산인가, 통계적 휴리스틱인가

핵심 요약

LLM의 추론을 “논리 계산 기반 추론이 아니라 통계적 패턴 기반 휴리스틱 추론”이라고 설명하는 것은 큰 방향에서 타당하다. LLM은 정리 증명기, SAT solver, Prolog 같은 형식 논리 엔진으로 설계된 시스템이 아니다. 기본적으로 입력 문맥을 토큰 단위로 처리하고, 다음 토큰의 조건부 확률분포를 계산하며, 디코딩 전략에 따라 출력을 이어 가는 자기회귀적 언어 모델이다.

이 설명은 한 가지 보완이 필요하다. LLM의 추론을 단순한 패턴 모방이나 무작위 단어 선택으로 축소하면 모델 내부에서 실제로 일어나는 복잡한 벡터 계산, 관계 추적, 절차적 일반화, 후학습된 응답 규범을 설명하기 어렵다. Transformer 내부에서는 attention, MLP, 잔차 연결, 정규화, 임베딩 공간 변환을 통해 고차원 계산이 일어나며, 일부 과제에서는 계산적 추론으로 해석할 수 있는 내부 구조가 관찰된다.

따라서 더 정밀한 핵심 문장은 다음과 같다.

LLM의 추론은 형식 논리 규칙을 명시적으로 적용해 결론을 보장하는 절차라기보다, 대규모 데이터에서 학습한 통계적 구조와 Transformer 내부의 벡터 계산, 후학습된 응답 규범, 프롬프트·디코딩 조건이 결합되어 나타나는 휴리스틱적 문제 해결 행동이다. 이 행동은 일부 과제에서 계산적 추론처럼 작동하지만, 그 과정과 결과는 별도 검증이 필요하다.

이 관점은 두 극단을 피한다. 첫째, LLM을 단순한 “확률적 앵무새”로만 보는 설명은 모델의 표현 학습과 제한적 일반화 능력을 충분히 설명하지 못한다. 둘째, LLM을 인간처럼 의미를 이해하고 논리적으로 증명하는 주체로 보는 설명은 모델의 환각, 비일관성, 분포 밖 실패, Chain-of-Thought 설명의 불충실성 문제를 과소평가한다. 현재 가장 방어 가능한 설명은 LLM을 “통계적 패턴, 내부 계산, 후학습된 응답 규범, 외부 검증 구조가 결합될 때 추론처럼 작동하는 확률적 문제 해결 시스템”으로 보는 것이다.

문제의식

LLM을 둘러싼 추론 논쟁은 보통 두 문장 사이에서 흔들린다. 하나는 “LLM은 다음 토큰을 예측할 뿐이므로 추론하지 않는다”는 축소적 설명이다. 다른 하나는 “LLM이 단계별 풀이를 제시하므로 실제로 생각한다”는 과잉 해석이다. 두 문장은 각각 중요한 사실을 포함하지만, 단독으로는 충분하지 않다.

LLM의 학습 목표는 주로 다음 토큰 예측과 관련된다. 그러나 언어 데이터는 단순한 문자 배열이 아니다. 텍스트 안에는 세계 지식, 인과관계, 수학 풀이, 프로그래밍 관용구, 논증 구조, 법적 문체, 과학 논문의 형식, 오류 수정 절차가 들어 있다. LLM은 이런 구조가 압축된 대규모 텍스트를 학습하면서 특정 문제 유형에 맞는 해결 양식과 표현 구조를 형성한다.

그래서 핵심 질문은 “LLM이 생각하는가?”보다 “LLM의 문제 해결 행동을 어느 층위에서 설명해야 하는가?”에 가깝다. 학습 목표의 층위, 내부 계산의 층위, 출력 행동의 층위, 인간이 부여하는 철학적 해석의 층위를 구분해야 한다. 이 구분이 없으면 “통계적 패턴”이라는 표현은 너무 약해지고, “추론”이라는 표현은 너무 강해진다.

개념의 정의

LLM

LLM, 곧 대형 언어 모델은 대규모 텍스트 데이터를 학습하여 언어 입력에 대한 출력을 생성하는 신경망 모델이다. 현대 LLM의 주류 구조는 Transformer 계열이며, 입력 텍스트를 토큰 단위로 분해한 뒤 각 토큰의 표현을 고차원 벡터로 변환한다. OpenAI Help Center의 설명처럼 토큰은 단어와 완전히 같지 않다. 한 글자, 부분 단어, 공백, 구두점, 짧은 단어 전체가 모두 토큰이 될 수 있다.

LLM의 기본 목표는 문맥 x_{<t}가 주어졌을 때 다음 토큰 x_t의 조건부 확률분포를 모델링하는 것이다.

P(x_t | x_1, x_2, ..., x_{t-1})

이 수식은 LLM의 기본 방향을 보여 준다. 모델은 정답이라는 객체를 직접 꺼내는 것이 아니라, 현재 문맥에서 다음에 올 법한 토큰들의 분포를 계산한다. 생성 과정에서는 이 분포에서 토큰을 선택하고, 선택된 토큰을 다시 문맥에 추가해 다음 분포를 계산한다. 이 과정이 반복되면서 문장, 코드, 수식 풀이, 설명문이 생성된다.

여기서 “가장 높은 확률을 선택한다”는 표현은 조심해야 한다. 실제 생성은 설정에 따라 달라진다. Greedy decoding은 매 단계에서 가장 높은 확률의 토큰을 고르지만, sampling, temperature, top-k, top-p 같은 방식은 확률분포 안에서 다양성을 허용한다. 따라서 LLM은 단순히 “항상 가장 높은 확률의 단어를 고르는 장치”가 아니라, 확률분포를 만들고 디코딩 전략에 따라 출력 경로를 결정하는 시스템이다.

논리 계산 기반 추론

논리 계산 기반 추론은 명시적 규칙과 형식 체계에 따라 결론을 도출하는 방식이다. 명제 논리, 술어 논리, 정리 증명기, SAT solver, Prolog 같은 시스템은 전제와 규칙을 조작해 결론을 산출한다. 이때 중요한 것은 보장성이다. 규칙이 올바르고 전제가 참이면, 결론의 타당성을 형식적으로 검토할 수 있다.

LLM은 기본적으로 이런 방식으로 작동하지 않는다. 모델 내부에 모든 삼단논법 규칙, 수학 정리, 법적 추론 규칙을 명시적으로 적용하는 고정 규칙표가 들어 있는 것은 아니다. 출력이 논리적으로 타당한지 검사하는 증명 검증기가 기본적으로 내장된 것도 아니다. LLM은 논리적 문장을 생성할 수 있지만, 그 문장을 생성하는 과정이 항상 형식 논리 계산과 일치한다고 볼 수 없다.

휴리스틱 추론

휴리스틱은 제한된 시간, 정보, 계산 자원 안에서 충분히 그럴듯한 판단을 내리는 경험적 규칙이다. 인간은 일상적 판단에서 모든 가능성을 완전 탐색하지 않는다. Tversky와 Kahneman은 불확실성 아래의 판단에서 대표성 휴리스틱, 가용성 휴리스틱, 앵커링 같은 빠른 판단 규칙이 작동한다고 분석했다. Herbert Simon의 제한된 합리성 이론도 인간이 완전한 최적화를 수행하기보다 제한된 정보와 계산 능력 안에서 만족할 만한 선택을 한다는 관점을 제시한다.

LLM의 휴리스틱성은 인간 심리와 동일하다는 뜻이 아니다. 인간 휴리스틱은 생물학적 인지, 몸, 감정, 사회적 경험, 목표 지향성 속에서 작동한다. LLM의 휴리스틱은 텍스트 데이터, 손실함수, 모델 구조, 디코딩 방식, 후학습에 의해 형성된다. 두 시스템은 구현 방식이 다르지만, 완전 탐색보다 근사적 문제 해결을 수행한다는 점에서 구조적으로 비교할 수 있다.

통계적 패턴

통계적 패턴은 단순한 단어 빈도만을 뜻하지 않는다. LLM이 학습하는 패턴에는 어휘 빈도, 문법, 문체, 장르, 지식 관계, 인과적 설명, 문제 풀이 절차, 코드 구조, 논증 전개 방식까지 포함된다. “통계적”이라는 말은 모델이 명시적 의미 사전을 읽고 판단한다는 뜻이 아니라, 대규모 데이터에서 반복적으로 나타나는 관계를 매개변수 공간에 압축한다는 뜻이다.

이 지점이 중요하다. 통계적 패턴 학습은 얕은 흉내에 머물 수도 있지만, 충분히 복잡한 데이터와 모델에서는 구조적 일반화로 이어질 수도 있다. 수학 풀이 데이터에는 답뿐 아니라 중간 절차가 들어 있다. 코드 데이터에는 문법뿐 아니라 알고리즘 패턴이 들어 있다. 논문 데이터에는 정의, 가설, 방법, 결과, 한계의 구조가 들어 있다. LLM은 이런 반복 구조를 학습하면서 문제 해결의 형식을 재생산할 수 있다.

배경과 맥락

Transformer와 자기회귀 생성

현대 LLM의 핵심 기술적 배경은 Transformer이다. Vaswani 등의 「Attention Is All You Need」는 recurrent network나 convolution에 의존하지 않고 attention mechanism을 중심으로 sequence transduction을 수행하는 Transformer 구조를 제안했다. 이후 대형 언어 모델은 Transformer 계열 구조를 기반으로 발전했다.

자기회귀 언어 모델은 이전 토큰들을 조건으로 다음 토큰을 예측한다. 한 번 생성된 토큰은 이후 생성의 조건이 된다. 그래서 초기 출력이 잘못되면 뒤의 출력도 그 잘못된 경로의 영향을 받을 수 있다. 반대로 중간 단계가 잘 구성되면 이후 출력도 더 안정될 수 있다. Chain-of-Thought가 성능을 높이는 이유 중 하나는 중간 계산을 언어 공간에 펼쳐서, 다음 토큰 예측이 더 좋은 문맥 위에서 진행되도록 만들기 때문이다.

사전학습과 후학습

LLM의 능력은 사전학습만으로 설명되지 않는다. 사전학습은 대규모 텍스트에서 언어와 지식의 통계 구조를 학습하는 단계이다. 이후 지도 미세조정, 인간 피드백 기반 강화학습, 선호 최적화 같은 후학습 과정이 모델의 응답 방식, 안전성, 지시 준수, 대화 적합성을 조정한다.

Ouyang 등의 InstructGPT 연구는 큰 모델이 자동으로 사용자의 의도를 잘 따르는 것은 아니며, 인간 피드백을 활용한 정렬 과정이 응답 선호도, 유용성, 진실성, 독성 감소에 영향을 줄 수 있음을 보여 주었다. 추론 논의에서도 이 구분은 중요하다. 어떤 모델의 답변이 논리적으로 보인다면, 그것은 사전학습에서 얻은 언어·지식 구조, 후학습에서 배운 응답 규범, 디코딩 전략, 프롬프트 설계가 결합된 결과일 수 있다.

“추론”이라는 말의 세 층위

LLM 논의에서 추론은 최소한 세 층위로 나뉜다.

첫째, 행동 수준의 추론이다. 모델이 정답에 도달하고 중간 과정을 그럴듯하게 제시하면, 외부 관찰자는 모델이 추론했다고 말할 수 있다. 벤치마크 성능, 수학 문제 풀이, 코드 작성 성능은 주로 이 수준에서 평가된다.

둘째, 계산 수준의 추론이다. 모델 내부에서 실제로 어떤 중간 표현과 계산 과정이 형성되는지 묻는다. 기계적 해석 연구가 이 층위에 해당한다. 이 연구는 activation, attention head, MLP feature, circuit, attribution graph 등을 분석해 특정 기능이 어떤 계산으로 구현되는지 추적하려 한다.

셋째, 인지적 또는 철학적 의미의 추론이다. 여기서는 모델이 의미를 이해하는가, 의도와 믿음을 갖는가, 자기 반성과 목표 지향성을 갖는가를 묻는다. 이 질문은 현재 기술적 성능만으로 단정하기 어렵다. LLM이 복잡한 출력을 만든다는 사실만으로 인간식 이해나 의식이 있다고 결론 내릴 수 없다.

핵심 논리

1. LLM은 형식 논리 엔진으로 설계된 시스템이 아니다

LLM의 기본 학습 목표는 텍스트 시퀀스에서 다음 토큰을 잘 예측하도록 매개변수를 조정하는 것이다. 이 목표는 형식 논리 체계와 다르다. 정리 증명기는 전제와 추론 규칙을 바탕으로 결론의 증명 가능성을 탐색한다. LLM은 입력 문맥을 벡터 표현으로 바꾸고, 다음 토큰의 확률분포를 계산한다.

이 차이 때문에 LLM 출력은 원리적으로 보장되지 않는다. 모델은 모든 가능한 반례를 검토한 뒤 결론을 내는 방식보다, 현재 문맥에서 가능성이 높고 후학습에서 선호된 응답 양식을 생성하는 방식에 가깝다. 어떤 수학 풀이가 표면적으로 자연스러워도 중간 계산이 틀릴 수 있고, 어떤 법률 설명이 전문가 문체를 갖추어도 실제 조항과 어긋날 수 있다.

2. 다음 토큰 예측은 단순한 단어 맞히기가 아니다

“다음 토큰 예측”이라는 설명은 LLM을 이해하는 출발점이지만, 그 말만으로 모델 행동 전체를 설명하기에는 부족하다. 다음 토큰을 잘 예측하려면 모델은 장거리 문맥, 문법, 사실 관계, 장르, 화자의 의도, 코드 의존성, 수학적 절차를 일정 정도 반영해야 한다. 다음 토큰 예측이라는 목표가 단순해 보여도, 그 목표를 대규모 데이터에서 잘 달성하려면 복잡한 내부 표현이 필요하다.

예를 들어 “철수가 영희보다 키가 크고, 영희가 민수보다 키가 크다면…”이라는 문장이 이어질 때, 다음 문장에서는 관계 추적이 필요하다. 모델이 “철수는 민수보다 키가 크다”는 결론을 높은 확률로 생성한다면, 이는 단순 단어 빈도만으로 설명하기 어렵다. 모델이 관계 구조를 일정 정도 압축하고 활용했을 가능성이 있다.

여기서 중요한 균형점은 가능성과 보장성의 구분이다. LLM은 관계 구조를 활용할 수 있지만, 항상 안정적으로 활용한다고 보장되지 않는다. 관계가 길어지거나, 표현이 낯설거나, 문제 조건이 분포 밖으로 나가면 성능이 급격히 떨어질 수 있다.

3. LLM의 추론은 휴리스틱적 문제 해결에 가깝다

LLM은 문제를 받으면 먼저 문제의 표면적·의미적 유형을 분류하는 듯한 행동을 보인다. 그다음 해당 유형에 어울리는 풀이 형식, 설명 방식, 결론 양식을 생성한다. 이 과정은 명시적 규칙표를 순서대로 적용하는 방식보다 휴리스틱에 가깝다.

예를 들어 초등 수학 문장제 문제를 받으면 모델은 “수량 파악 → 연산 선택 → 계산 → 답”이라는 흔한 풀이 구조를 생성한다. 논증 글을 요청받으면 “주장 → 근거 → 반론 → 종합”이라는 구조를 생성한다. 코드 오류를 물으면 “오류 원인 → 재현 조건 → 수정 코드 → 설명”이라는 패턴을 따른다. 이런 구조는 학습 데이터에서 반복적으로 등장하는 문제 해결 양식이다.

이 휴리스틱은 많은 텍스트 기반 작업에서 강력하다. 반복적 형식이 있는 작업에서는 기존 데이터 안의 문제 해결 양식이 새 입력에도 유용하게 전이될 수 있다. 인간도 일상적 문제를 풀 때 모든 가능성을 탐색하지 않고, 익숙한 유형과 경험적 규칙을 사용한다. LLM도 텍스트로 표현된 문제 공간에서 유사한 기능적 구조를 보인다.

4. LLM의 휴리스틱은 내부 계산과 결합된다

LLM을 휴리스틱 모델이라고 부르는 것은 내부 계산이 없다는 뜻이 아니다. Transformer는 입력 토큰을 고차원 벡터로 바꾸고, 여러 층을 거치며 표현을 갱신한다. Attention head는 특정 토큰 관계를 강조할 수 있고, MLP 층은 비선형 변환을 통해 추상적 특징을 구성할 수 있다.

기계적 해석 연구는 이 내부 계산을 이해하려는 시도이다. Elhage 등의 Transformer Circuits 연구는 작은 Transformer에서 attention head와 residual stream을 수학적으로 분석하는 틀을 제시했다. Anthropic의 2025년 연구는 attribution graph와 circuit tracing을 통해 Claude 3.5 Haiku 내부의 언어별 회로, 언어 독립적 회로, 덧셈 관련 회로 사례를 분석했다. 이 연구들은 아직 모델 전체의 추론 과정을 완전히 설명하지 못하지만, LLM을 단순 문자열 재조합 장치로만 보는 설명이 충분하지 않다는 점을 보여 준다.

5. Chain-of-Thought는 추론 성능을 돕지만 내부 사고의 투명한 기록은 아니다

Wei 등의 Chain-of-Thought 연구는 단계적 중간 추론을 예시로 제공하면 산술, 상식, 기호 추론 과제에서 성능이 개선될 수 있음을 보였다. Kojima 등의 Zero-shot-CoT 연구는 “Let’s think step by step” 같은 단순 지시만으로도 일부 추론 벤치마크 성능이 올라갈 수 있음을 제시했다. Wang 등의 self-consistency 연구는 하나의 풀이 경로만 택하는 대신 여러 추론 경로를 샘플링하고, 가장 일관된 답을 선택하면 성능이 개선될 수 있음을 보였다.

이 결과는 LLM이 중간 단계를 활용할 수 있음을 보여 준다. 그러나 Chain-of-Thought 텍스트가 모델 내부에서 실제로 일어난 계산의 완전한 기록이라고 보기는 어렵다. Turpin 등의 연구는 Chain-of-Thought 설명이 모델 예측의 실제 이유를 체계적으로 잘못 나타낼 수 있음을 보였다. 모델이 말하는 “풀이 과정”은 문제 해결에 도움을 주는 외부화된 작업 공간일 수 있지만, 항상 충실한 자기 보고는 아니다.

따라서 Chain-of-Thought는 “모델이 사람처럼 생각한다”는 직접 증거라기보다, 언어적 중간 상태를 만들어 다음 토큰 예측 조건을 개선하는 추론 보조 장치로 이해하는 편이 안전하다.

6. 탐색과 검증을 외부 구조로 붙이면 추론 행동이 안정된다

LLM 자체는 일반적으로 한 방향으로 토큰을 생성한다. 그래서 한 번 나쁜 경로를 택하면 그 경로의 영향을 뒤에서 계속 받는다. 이를 보완하기 위해 self-consistency, Tree of Thoughts, verifier, tool use, retrieval, code execution 같은 외부 구조가 붙는다.

Tree of Thoughts는 하나의 선형 Chain-of-Thought를 넘어서 여러 중간 사고 단위를 생성하고 평가하며, 필요하면 되돌아가거나 다른 경로를 탐색하는 프레임워크를 제안했다. 이런 방식은 LLM의 약점을 잘 드러낸다. 모델 단독의 즉흥적 출력보다, 후보 생성·평가·탐색·검증 구조를 붙인 시스템이 더 안정적이다. 이는 LLM이 완전한 논리 탐색 시스템이라기보다, 좋은 후보를 생성하는 확률적 추론 모듈에 가깝다는 해석을 뒷받침한다.

두 관점: 시뮬레이션 관점과 계산적 추론 관점

LLM의 추론을 설명할 때 “Simulation theory”와 “Reasoning theory”라는 대립 구도를 사용할 수 있다. 다만 이 표현은 표준화된 학파명처럼 쓰기보다, 논쟁을 정리하기 위한 분석틀로 쓰는 편이 안전하다. 여기서는 각각을 “시뮬레이션 관점”과 “계산적 추론 관점”으로 부른다.

시뮬레이션 관점

시뮬레이션 관점은 LLM이 실제로 추론한다기보다 추론하는 사람의 언어 패턴을 시뮬레이션한다고 본다. 모델은 수학 문제를 푸는 사람, 철학적으로 논증하는 사람, 코드를 디버깅하는 사람, 법률 문서를 해석하는 사람의 텍스트 패턴을 학습하고, 그 상황에 맞는 발화를 생성한다.

이 관점의 강점은 LLM의 오류를 잘 설명한다는 점이다. 모델은 표면적으로 전문가처럼 말할 수 있지만, 사실 관계를 지어내거나, 논리적 비약을 하거나, 앞뒤가 맞지 않는 설명을 만들 수 있다. Bender 등의 「On the Dangers of Stochastic Parrots」는 대규모 언어 모델의 규모, 데이터, 환경비용, 편향, 의미 이해로의 성급한 해석 문제를 경계했다. 이 논문은 “LLM은 의미 이해가 전혀 없다”는 실증적 증명이라기보다, 유창한 언어 생성물을 곧장 이해나 지능으로 해석하는 태도에 대한 비판적 프레임으로 읽는 편이 정확하다.

시뮬레이션 관점에도 한계가 있다. 모델이 새로운 입력에 대해 일정한 일반화를 보이고, 코드와 수학 과제에서 훈련 예시를 넘어선 성능을 보이며, 내부 표현 연구에서 기능적 회로가 관찰되는 현상을 표면 모방만으로 설명하기 어렵다. 시뮬레이션이라는 말이 지나치게 넓어지면, 모델 내부의 모든 계산까지 단순 모방으로 흡수해 버리는 문제가 생긴다.

계산적 추론 관점

계산적 추론 관점은 LLM 내부에서 계산적 추론으로 해석할 수 있는 과정이 부분적으로 발생한다고 본다. 여기서 “실제 추론”은 인간의 의식적 사고와 같다는 뜻이 아니다. 입력 조건을 내부 표현으로 변환하고, 관계를 추적하며, 중간 상태를 구성하고, 결론 생성에 필요한 계산을 수행하는 것으로 해석할 수 있는 내부 구조를 보인다는 뜻이다.

이 관점의 근거는 Chain-of-Thought 효과, self-consistency 효과, in-context learning, 코드 작성 능력, 기계적 해석 연구에서 발견되는 회로적 구조다. 모델이 오직 표면 문자열만 잇는다면, 복잡한 새 입력에 대해 일정한 일반화를 보이는 현상을 설명하기 어렵다.

계산적 추론 관점의 약점은 보장성과 안정성의 부족이다. Berglund 등의 Reversal Curse 연구는 자기회귀 언어 모델이 “A is B” 형태의 사실을 학습해도 자동으로 “B is A” 방향의 질문에 일반화하지 못할 수 있음을 보였다. Huang 등의 연구는 외부 피드백 없이 모델이 자기 답을 스스로 고치는 intrinsic self-correction 능력이 제한적이며, 경우에 따라 자기 수정 후 성능이 떨어질 수 있음을 보고했다.

Apple 연구진의 「The Illusion of Thinking」은 대형 reasoning model도 복잡도가 높아지는 퍼즐 환경에서 정확 계산과 일관된 알고리즘 사용에 한계를 보일 수 있음을 주장했다. 이 연구는 중요한 한계 사례이지만, 실험 설계 한계를 지적하는 반론 논문도 존재한다. 따라서 이 연구를 결정적 결론으로 쓰기보다, reasoning model의 한계를 둘러싼 현재 논쟁을 보여 주는 사례로 다루는 편이 적절하다.

혼합 모델

가장 균형 잡힌 설명은 혼합 모델이다. LLM은 추론 텍스트를 시뮬레이션하면서 동시에 계산적 추론으로 해석할 수 있는 내부 계산을 보인다. 모델은 인간의 풀이 양식을 학습해 그 형식을 따라가지만, 그 과정에서 내부 벡터 표현을 통해 관계 추적과 절차적 계산도 수행할 수 있다. 이 계산은 형식 논리 엔진처럼 보장되지 않으며, 데이터 분포, 프롬프트 구조, 디코딩 방식, 후학습 목표에 강하게 의존한다.

이 혼합 관점에서는 다음 문장이 가장 적절하다.

LLM은 “생각하는 척만 하는 시스템”도 아니고 “사람처럼 생각하는 논리 기계”도 아니다. 그것은 언어 패턴을 통해 추론 양식을 학습하고, 제한된 내부 계산과 외부 프롬프트 구조를 이용해 문제를 푸는 확률적 추론 시스템이다.

구체적 사례

산술 문제

다음 문제를 보자.

상자에 사과가 12개 있다. 민수가 5개를 가져가고, 영희가 3개를 더 넣었다. 지금 사과는 몇 개인가?

LLM은 보통 다음 구조를 생성한다.

처음에 12개가 있었다.
5개를 가져갔으므로 12 - 5 = 7개가 남는다.
3개를 더 넣었으므로 7 + 3 = 10개가 된다.
정답은 10개이다.

이 출력은 논리적이고 계산도 맞다. 그러나 모델이 내부에서 사람처럼 수직셈을 했다고 단정할 수는 없다. 모델은 문장제 문제의 전형적 풀이 패턴을 학습했고, 숫자 관계를 어느 정도 조작할 수 있으며, 중간 계산 토큰을 생성하면서 답을 안정화한다. 짧고 익숙한 산술에서는 이 방식이 잘 작동한다.

문제가 길어지고 조건이 꼬이면 오류가 늘어난다. 특히 중간 계산 하나가 틀리면 그 이후의 토큰 생성은 잘못된 상태를 이어받는다. 이런 점에서 LLM의 산술은 계산기와 다르다. 계산기는 명시적 알고리즘을 실행하며, 같은 입력에 대해 안정적 결과를 낸다. LLM은 계산처럼 보이는 언어 절차를 생성하고, 그 과정에서 실제 계산적 관계를 일부 반영하지만, 보장된 산술 엔진은 아니다.

논증 글 작성

“AI는 인간의 사고를 확장하는가?”라는 질문을 받으면 LLM은 보통 찬반 구조를 만든다. 한쪽에서는 정보 접근성, 아이디어 생성, 반론 구성, 작업 자동화를 말하고, 다른 쪽에서는 의존성, 검증 약화, 편향 강화, 책임 분산을 말한다. 마지막에는 사용 방식이 핵심이라는 종합 결론을 낸다.

이것은 논증의 형식을 잘 학습했다는 증거다. 그러나 논증의 타당성은 별도로 검증해야 한다. 모델은 균형 잡힌 형식을 만들 수 있지만, 그 형식이 실제 근거와 연결되어 있는지는 자동으로 보장되지 않는다. 그래서 LLM의 논증을 사용할 때는 “논리 구조 생성”과 “사실 근거 검증”을 분리해야 한다.

코드 작성

코드 작성에서 LLM은 강한 성능을 보일 수 있다. 함수명, 라이브러리 사용법, 예외 처리 패턴, 알고리즘 관용구가 공개 코드 데이터에 많이 들어 있기 때문이다. 모델은 “요구사항 → 함수 구조 → 테스트 → 예외 처리”라는 패턴을 잘 생성한다.

그러나 코드도 실행 전에는 가설이다. LLM이 만든 코드는 문법상 자연스러워 보여도, 버전 차이, 의존성, 엣지 케이스, 보안 조건, 성능 제약에서 실패할 수 있다. 코드 영역에서는 LLM의 휴리스틱 추론을 테스트, 타입 검사, 린터, 실행 환경, 공식 문서 확인과 결합해야 한다.

법률·의학·금융 설명

법률, 의학, 금융 영역에서 LLM은 문서 형식과 설명 구조를 잘 생성할 수 있다. 법률에서는 조문 해설처럼 보이는 문장을 만들고, 의학에서는 증상·원인·치료·주의사항 구조를 만들며, 금융에서는 지표·위험·전망·시나리오를 정리할 수 있다. 이 능력은 유용하지만 위험도 크다.

이 영역에서는 최신성, 관할권, 개인 상황, 전문 판단의 중요성이 높다. LLM이 만든 설명은 검토 초안으로는 쓸 수 있지만, 최종 판단으로 쓰기에는 부족하다. 법률은 조문 원문과 최신 판례, 의학은 임상 가이드라인과 전문의 판단, 금융은 공식 공시·감독기관 자료·위험 공시와 함께 확인해야 한다.

주요 쟁점과 반론

“다음 토큰 예측이면 추론이 없다”는 주장

이 주장은 학습 목표와 행동 능력을 혼동한다. 다음 토큰 예측은 학습 목표이지만, 그 목표를 잘 달성하기 위해 형성된 내부 표현이 어떤 기능을 갖는지는 별도의 문제다. 새의 비행은 생존과 번식에 유리한 방향으로 진화했지만, 그렇다고 새가 실제로 날지 않는 것은 아니다. 마찬가지로 LLM이 다음 토큰 예측으로 학습되었다고 해서 복잡한 관계 추적과 문제 해결 행동이 모두 무의미해지는 것은 아니다.

이 비유는 제한적으로만 유효하다. 새의 비행은 물리적으로 관찰 가능한 운동이지만, LLM의 추론은 출력 행동과 내부 계산의 관계가 완전히 해명되지 않았다. 따라서 더 정밀한 표현은 “다음 토큰 예측으로 학습된 모델도 추론 행동을 보일 수 있지만, 그 행동은 형식 논리처럼 보장되지 않는다”이다.

“Chain-of-Thought가 있으니 실제 사고가 있다”는 주장

Chain-of-Thought는 성능 개선을 설명하는 중요한 현상이지만, 그것을 내부 사고의 투명한 기록으로 받아들이면 위험하다. 모델의 단계별 설명은 실제 원인이라기보다 사후 합리화일 수 있다. 사람도 자신의 판단 이유를 항상 정확히 보고하지 못하듯, LLM도 그럴듯한 이유를 생성할 수 있다.

CoT의 가치는 다른 곳에 있다. 그것은 모델이 중간 상태를 언어로 외부화하게 하여 문제를 작은 단계로 나누고, 각 단계의 문맥을 다음 생성에 반영하도록 만든다. 즉 CoT는 “내면의 사고를 보여 주는 창”이라기보다 “추론을 더 안정적으로 수행하게 만드는 작업 공간”에 가깝다.

“LLM은 인간 휴리스틱과 같다”는 주장

LLM과 인간 모두 완전 탐색 대신 근사적 판단을 사용한다는 점에서는 비교할 수 있다. 그러나 인간 휴리스틱은 지각, 몸, 감정, 욕구, 생존 압력, 사회적 상호작용 속에서 형성된다. LLM은 텍스트 데이터, 모델 구조, 최적화 과정, 후학습으로 형성된다. 두 시스템의 유사성은 기능적 수준의 유사성이지, 존재론적 동일성이 아니다.

가장 안전한 표현은 “LLM의 문제 해결 방식은 인간 휴리스틱과 구조적으로 비교 가능한 측면이 있다”이다. “LLM도 인간처럼 생각한다”는 표현은 과잉 해석이다.

“기계적 해석 연구가 있으니 내부 추론은 증명되었다”는 주장

기계적 해석은 중요한 진전이지만, 현재의 증거는 제한적이다. 작은 모델과 특정 과제에서는 회로 분석이 가능하지만, 대형 상용 모델의 복잡한 추론 전체를 완전히 설명하기에는 아직 부족하다. 또한 어떤 회로가 발견되었다고 해서 모델의 모든 출력이 그 회로로 안정적으로 설명되는 것은 아니다.

그럼에도 이 연구는 중요한 방향을 제시한다. 앞으로 LLM 추론 논쟁은 단순히 “모방인가 추론인가”를 반복하기보다, 특정 과제에서 어떤 내부 계산이 어떤 출력 행동을 낳는지 실증적으로 분석하는 방향으로 가야 한다.

“더 큰 모델은 자동으로 완전한 추론자가 된다”는 주장

모델 규모가 커지면 일반적으로 성능이 개선되는 경향이 있지만, 모든 추론 문제가 자동으로 해결되는 것은 아니다. Brown 등의 GPT-3 연구는 규모 증가가 task-agnostic few-shot 성능을 크게 개선할 수 있음을 보였다. 그러나 Schaeffer 등의 연구는 일부 “창발 능력”이 실제 급격한 능력 출현이라기보다 평가 지표 선택의 산물일 수 있음을 지적했다.

규모 증가는 중요한 변수지만 충분조건은 아니다. 데이터 품질, 훈련 방식, 도구 사용, 검증 구조, 외부 메모리, 추론 시간 계산, 평가 설계가 함께 작동해야 한다.

오해와 한계

오해 1. “통계적”이라는 말은 “지능이 없다”는 뜻이다

통계적 모델이라고 해서 복잡한 기능을 수행할 수 없다는 뜻은 아니다. 현대 머신러닝의 핵심은 통계적 학습을 통해 복잡한 구조를 표현하는 것이다. 문제는 통계성이 아니라 보장성이다. LLM은 강력한 패턴 일반화를 보일 수 있지만, 그 결과가 항상 참이거나 논리적으로 타당하다고 보장되지 않는다.

오해 2. “휴리스틱”은 그냥 찍기다

휴리스틱은 무작위 추측과 다르다. 휴리스틱은 제한된 자원 안에서 빠르고 그럴듯한 판단을 내리는 규칙이다. LLM의 휴리스틱도 완전히 무질서한 선택이 아니라, 학습된 확률분포와 응답 규범에 의해 구조화된다. 다만 그 구조가 참을 보장하지 않기 때문에 검증이 필요하다.

오해 3. “확률 기반이면 답이 항상 랜덤이다”

LLM은 무작위로 단어를 뽑는 장치가 아니다. 모델은 문맥에 따라 매우 구조화된 확률분포를 만든다. 디코딩 전략에 따라 가장 높은 확률의 토큰을 고를 수도 있고, 일정 범위 안에서 샘플링할 수도 있다. 낮은 temperature나 결정적 설정에서는 같은 입력에 대해 비슷한 출력이 나올 수 있다. 확률적이라는 말은 무질서하다는 뜻이 아니라, 후보들 사이의 가능성을 수치화한다는 뜻이다.

오해 4. “부분적 계산 추론은 인간식 사고의 증거다”

LLM 내부에서 계산적 추론으로 해석할 수 있는 구조가 관찰된다고 해서, 곧바로 인간식 사고, 의미 이해, 의식, 의도를 인정할 수는 없다. 계산적 구조와 인지적 주체성은 다른 문제다. LLM은 특정 조건에서 관계 추적과 절차 수행을 잘할 수 있지만, 그 사실만으로 믿음, 욕구, 자의식, 책임성을 가진다고 말할 수는 없다.

오해 5. Apple의 「The Illusion of Thinking」은 reasoning model 논쟁의 최종 결론이다

이 연구는 reasoning model의 한계를 보여 주는 중요한 사례다. 특히 복잡한 퍼즐 환경에서 정확도 붕괴와 알고리즘 사용 한계를 지적했다는 점에서 주목할 만하다. 그러나 반론 논문은 실험 설계 자체가 결과를 만든 측면이 있다고 비판한다. 따라서 이 연구는 결정적 판정문이 아니라 현재 논쟁의 한 축으로 다루어야 한다.

설명의 한계

현재 연구는 LLM의 내부 추론을 완전히 설명하지 못한다. 대형 모델의 표현 공간은 매우 고차원이며, 같은 출력이 여러 내부 경로로 만들어질 수 있다. Chain-of-Thought, self-consistency, Tree of Thoughts 같은 기법은 성능을 높이지만, 그것이 모델 내부의 본질적 사고 구조를 직접 보여 주는 것은 아니다. 또한 “이해”, “의미”, “의도”, “추론”이라는 개념 자체가 철학적 논쟁을 포함한다.

따라서 이 설명문은 LLM의 추론을 하나의 확정된 본질로 규정하기보다, 현재 연구에서 가장 방어 가능한 해석을 제시한다. LLM은 형식 논리 엔진도 아니고, 단순 문자열 앵무새로도 충분히 설명되지 않는다. LLM은 통계적 언어 학습을 통해 형성된 내부 표현과 휴리스틱적 생성 절차를 이용해, 일부 상황에서 추론처럼 작동하는 시스템이다.

실전적 판단 기준

LLM을 사용할 때는 작업 성격에 따라 신뢰 수준을 다르게 잡아야 한다.

창의적 초안, 설명 구조, 아이디어 확장, 관점 비교처럼 정답이 하나로 정해지지 않은 작업에서는 LLM의 휴리스틱 추론이 매우 유용하다. 이 경우 모델은 가능한 해석 공간을 넓히고, 논지의 뼈대를 만들며, 반론을 제시하는 데 강하다.

수학, 법률, 의학, 금융, 최신 정보, 코드 실행처럼 정확성이 중요한 작업에서는 LLM 출력을 검증 가능한 절차와 결합해야 한다. 이때 LLM은 결론 기계가 아니라 후보 생성기, 설명 보조기, 오류 탐지 보조기로 쓰는 편이 안전하다.

가장 좋은 사용 방식은 다음 구조다.

문제 정의 → LLM 초안 생성 → 반례 요청 → 외부 자료 검증 → 계산 또는 실행 확인 → 최종 판단

영역별 검증 구조는 다음처럼 구체화할 수 있다.

영역	LLM의 적절한 역할	검증 도구 또는 절차
수학	풀이 후보 생성, 직관 설명, 반례 탐색	계산기, CAS, 증명기, 수식 전개 재검산
코드	설계 초안, 오류 가능성 탐색, 테스트 아이디어 생성	실행, 단위 테스트, 타입체커, 린터, 공식 문서, 보안 리뷰
법률	쟁점 정리, 조문 후보 탐색, 문서 구조화	법령 원문, 최신 판례, 관할권 확인, 전문가 검토
의학	개념 설명, 질문 목록 작성, 논문 요약	임상 가이드라인, 의료기관 자료, 전문의 상담
금융	시나리오 정리, 위험 요인 목록화	공시, 감독기관 자료, 회계자료, 최신 시장 데이터
최신 정보	검색어 설계, 비교 틀 작성	1차 출처, 공식 발표, 날짜 확인, 복수 출처 교차검증
논증·글쓰기	구조화, 반론 생성, 표현 개선	근거 확인, 논리적 비약 검토, 독자 목적 점검

이 구조는 LLM의 장점과 약점을 동시에 반영한다. LLM은 빠르게 후보를 만들고 구조를 제안한다. 인간과 외부 도구는 사실성, 논리성, 실행 가능성, 책임성을 검증한다.

정리

LLM의 추론을 가장 간결하게 말하면 “통계적 패턴 기반 휴리스틱 추론”이다. 이 표현은 LLM이 형식 논리 엔진처럼 보장된 증명 절차를 수행하지 않는다는 점을 잘 포착한다. 그러나 이 표현은 반드시 보완되어야 한다. LLM의 패턴은 단순한 단어 빈도가 아니라 대규모 언어 데이터에 담긴 지식, 절차, 논증, 코드, 수학 풀이의 구조를 포함한다. 모델 내부에서는 복잡한 벡터 계산과 표현 변환이 일어나며, 일부 과제에서는 계산적 추론으로 해석할 수 있는 구조도 관찰된다.

최종 결론은 다음과 같다.

LLM의 추론은 명시적 논리 규칙을 따라 결론의 타당성을 보장하는 형식 추론이 아니다. 그것은 대규모 텍스트에서 학습한 통계적 구조, 내부 벡터 계산, 후학습된 응답 규범, 프롬프트와 디코딩 전략이 결합되어 나타나는 휴리스틱적 문제 해결 과정이다. 이 과정은 일부 상황에서 계산적 추론처럼 작동하지만, 결과의 참·거짓과 논리적 타당성은 항상 별도 검증을 요구한다.

이 관점은 LLM을 과소평가하지도, 과대평가하지도 않는다. LLM은 인간 사고의 완전한 대체물이 아니라, 인간이 문제를 구조화하고 검증할 때 강력한 인지적 보조 장치가 될 수 있다. 핵심은 LLM이 “정답을 아는가”가 아니라, 그 출력을 어떤 검증 구조 안에 배치할 것인가이다.

참고자료

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention Is All You Need,” NeurIPS, 2017.
Brown, Tom B., Benjamin Mann, Nick Ryder, et al., “Language Models are Few-Shot Learners,” NeurIPS, 2020.
Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell, “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?,” FAccT, 2021.
Elhage, Nelson, Neel Nanda, Catherine Olsson, et al., “A Mathematical Framework for Transformer Circuits,” Transformer Circuits Thread, 2021.
OpenAI, “What are tokens and how to count them?,” OpenAI Help Center, 확인일 2026-05-06.
OpenAI, “Counting tokens,” OpenAI API Documentation, 확인일 2026-05-06.
Ouyang, Long, Jeff Wu, Xu Jiang, et al., “Training language models to follow instructions with human feedback,” NeurIPS, 2022.
Wei, Jason, Xuezhi Wang, Dale Schuurmans, et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS, 2022.
Kojima, Takeshi, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa, “Large Language Models are Zero-Shot Reasoners,” NeurIPS, 2022.
Wang, Xuezhi, Jason Wei, Dale Schuurmans, et al., “Self-Consistency Improves Chain of Thought Reasoning in Language Models,” ICLR, 2023.
Schaeffer, Rylan, Brando Miranda, and Sanmi Koyejo, “Are Emergent Abilities of Large Language Models a Mirage?,” NeurIPS, 2023.
Yao, Shunyu, Dian Yu, Jeffrey Zhao, et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models,” NeurIPS, 2023.
Turpin, Miles, Julian Michael, Ethan Perez, and Samuel R. Bowman, “Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting,” NeurIPS, 2023.
Huang, Jie, Xinyun Chen, Swaroop Mishra, et al., “Large Language Models Cannot Self-Correct Reasoning Yet,” arXiv, 2023.
Berglund, Lukas, Meg Tong, Max Kaufmann, et al., “The Reversal Curse: LLMs trained on ‘A is B’ fail to learn ‘B is A’,” ICLR, 2024.
Anthropic, “On the Biology of a Large Language Model,” Transformer Circuits Thread, 2025.
Shojaee, Parshin, Iman Mirzadeh, Keivan Alizadeh, et al., “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity,” Apple Machine Learning Research and arXiv, 2025.
Lawsen, Alex, “The Illusion of the Illusion of Thinking: A Comment on Shojaee et al.,” arXiv, 2025.
Tversky, Amos, and Daniel Kahneman, “Judgment under Uncertainty: Heuristics and Biases,” Science, Vol. 185, No. 4157, 1974.
Simon, Herbert A., “A Behavioral Model of Rational Choice,” The Quarterly Journal of Economics, Vol. 69, No. 1, 1955.
Kahneman, Daniel, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011.