LLM은 인간의 추론 능력을 확장하는가

핵심 요약

대형 언어 모델(large language model, LLM)은 인간의 추론 능력을 한 방향으로만 바꾸는 기술이 아니다. 같은 모델이라도 사용 방식에 따라 사고를 대신 수행하는 대체 장치가 될 수도 있고, 사고를 더 넓은 구조로 조직하는 인지 확장 장치가 될 수도 있다. 핵심 변수는 모델의 존재 자체보다 인간이 어떤 과정을 AI에게 맡기고, 어떤 과정을 끝까지 자신의 책임 아래에 두는가에 있다.

LLM이 인간 추론을 약화시키는 경로는 비교적 분명하다. 사용자가 문제 정의, 가설 생성, 근거 검토, 반론 구성, 최종 판단을 모두 모델 출력에 의존하면 사고의 핵심 근육을 덜 사용하게 된다. 이때 AI는 생산성을 높이는 듯 보이지만, 장기적으로는 검증 능력, 개념 구분 능력, 논증 구성 능력, 지적 인내심을 약화시킬 수 있다.

LLM이 추론을 확장하는 경로도 분명하다. 사용자가 먼저 문제를 정의하고, 모델을 가설 생성·관점 확장·논리 점검·반론 생성·자료 통합의 상대로 사용하면 사고는 개인의 머릿속에 갇히지 않는다. 인간의 판단은 언어, 기록, 데이터, 모델, 검증 절차가 결합된 분산적 체계 속에서 작동한다. 이 경우 LLM은 정답 기계보다 사고의 외부 작업 공간에 가깝다.

따라서 더 중요한 질문은 “AI를 쓰면 인간이 멍청해지는가?”가 아니다. 더 정밀한 질문은 “AI와 결합한 인간 지능은 어떤 구조로 재편되며, 그 구조 안에서 인간은 판단의 주체로 남을 수 있는가?”이다.

문제의식

LLM을 둘러싼 논쟁은 자주 두 극단으로 갈라진다. 한쪽은 AI가 인간의 지적 능력을 퇴화시킬 것이라고 본다. 다른 한쪽은 AI가 인간의 생산성과 창의성을 폭발적으로 확장할 것이라고 본다. 두 관점에는 각각 근거가 있다. 실제로 LLM은 문서 작성, 요약, 번역, 코드 생성, 자료 탐색, 기획, 학습 보조에서 인간의 작업 속도를 높인다. 동시에 너무 쉽게 완성된 답을 제공하기 때문에 사용자가 문제를 스스로 붙잡고 버티는 시간을 줄일 수 있다.

이 논쟁을 이해하려면 “능력”을 단순히 머릿속의 순수한 재능으로 보지 않아야 한다. 인간의 추론은 항상 외부 장치와 결합되어 작동해 왔다. 문자, 종이, 도표, 계산기, 검색 엔진, 데이터베이스, 프로그래밍 언어는 모두 인간 사고의 일부 부담을 외부로 옮겼다. 그 결과 어떤 능력은 덜 사용되었고, 다른 능력은 새롭게 중요해졌다.

LLM은 이 흐름의 연장선에 있으면서도 이전 도구보다 더 깊이 사고 과정에 들어온다. 검색 엔진은 주로 정보를 찾아준다. 계산기는 사용자가 정의한 연산을 수행한다. LLM은 질문을 해석하고, 가능한 답변 구조를 만들고, 논증을 흉내 내며, 사용자의 글과 사고를 직접 재구성한다. 그래서 LLM은 단순한 생산성 도구가 아니라 인간의 추론 구조를 재배치하는 기술이다.

이 글의 중심 주장은 다음과 같다. LLM은 인간 추론을 자동으로 약화시키지도, 자동으로 확장하지도 않는다. LLM은 추론의 비용 구조를 바꾸고, 인간이 사용하던 인지 작업의 일부를 외부화한다. 그 외부화가 숙련을 대체하면 약화가 발생하고, 메타인지와 검증을 강화하면 확장이 발생한다.

개념의 정의

LLM은 대규모 텍스트 데이터와 딥러닝 기반 언어 모델링을 통해 문맥에 맞는 언어 출력을 생성하는 모델이다. 기술적으로는 다음 토큰을 예측하는 통계적 학습 시스템에서 출발하지만, 실제 사용 환경에서는 질의응답, 요약, 번역, 코드 작성, 추론 보조, 대화형 학습, 문서 작성 도구로 작동한다. 여기서 중요한 점은 LLM이 인간처럼 세계를 직접 경험하는 주체라기보다, 언어적 패턴과 학습된 표현 구조를 바탕으로 가능한 응답을 생성하는 시스템이라는 점이다.

추론 능력은 단순히 빠르게 답을 내는 능력보다 넓다. 추론은 문제를 정의하고, 관련 개념을 구분하고, 근거와 결론의 관계를 따지고, 반례를 검토하고, 불확실성을 평가하며, 최종 판단을 구성하는 과정이다. 산술 계산, 기억, 문장 생성은 추론의 일부를 도울 수 있지만, 추론 전체와 동일하지는 않다.

인지적 오프로딩(cognitive offloading)은 사람이 기억, 계산, 판단, 계획 같은 인지적 부담을 외부 장치나 환경으로 옮기는 현상을 가리킨다. 메모장에 할 일을 적고, 스마트폰에 일정을 저장하고, 검색 엔진으로 사실을 확인하고, 계산기로 연산을 처리하는 행위가 여기에 속한다. 오프로딩은 인간을 게으르게 만드는 현상으로만 볼 수 없다. 적절한 오프로딩은 제한된 주의와 작업 기억을 더 중요한 판단에 배분하게 한다. 문제는 외부화된 기능을 더 이상 이해하거나 검증하지 않을 때 발생한다.

확장된 마음 이론(extended mind theory)은 인간의 인지가 두뇌 내부에만 머물지 않고, 특정 조건에서는 외부 도구와 환경까지 포함한 체계로 확장될 수 있다는 철학적 입장이다. 앤디 클라크와 데이비드 차머스가 1998년 발표한 「The Extended Mind」는 이 논의를 대표한다. 이 관점에서 노트는 단순한 종이가 아니라 기억 체계의 일부가 될 수 있고, 계산기는 단순한 기계가 아니라 수리적 인지 과정의 일부가 될 수 있다.

분산 인지(distributed cognition)는 인지가 개인 내부의 과정만이 아니라 사람, 도구, 표상, 규칙, 조직 절차가 결합된 시스템 차원에서 일어난다고 보는 관점이다. 에드윈 허친스(Edwin Hutchins)는 선박 항해와 같은 실제 작업 환경을 분석하면서, 항해 능력이 한 사람의 머릿속 지식이 아니라 여러 사람, 지도, 계기, 절차, 의사소통 체계에 분산되어 있다고 설명했다. LLM과 인간의 협업도 이 관점에서 보면 한 개인의 사고가 모델, 프롬프트, 문서, 검증 규칙과 결합되는 사례로 볼 수 있다.

자동화 편향(automation bias)은 사람이 자동화 시스템의 제안에 과도하게 의존하여 오류를 놓치거나 자신의 판단을 충분히 사용하지 않는 현상을 뜻한다. LLM의 문장이 유창하고 정돈되어 있을수록 사용자는 출력의 정확성까지 높다고 느낄 수 있다. 이때 위험은 모델이 틀렸다는 단순한 사실보다, 인간이 틀릴 가능성을 점검하지 않는 태도에서 커진다.

배경과 맥락

인간은 오래전부터 자신의 사고를 외부 장치와 결합해 왔다. 문자는 기억을 외부화했다. 문자가 없던 시기의 지식은 구술, 반복, 의례, 암기에 크게 의존했다. 문자가 등장하자 인간은 더 많은 정보를 기록하고, 세대를 넘어 지식을 누적하고, 복잡한 법·종교·행정·과학 체계를 만들 수 있게 되었다. 동시에 기억력 약화에 대한 우려도 나타났다. 도구가 어떤 능력을 덜 사용하게 한다는 걱정은 기술사의 반복되는 주제다.

계산기는 산술 처리의 부담을 줄였다. 계산기를 사용하면 손계산 능력은 덜 훈련될 수 있다. 하지만 계산기는 더 복잡한 문제 모델링, 수식화, 해석, 시뮬레이션을 가능하게 했다. 계산기를 잘 사용하는 사람은 계산 과정을 완전히 포기한 사람이 아니라, 계산의 의미와 결과의 타당성을 이해하면서 반복 연산을 외부 장치에 맡기는 사람이다.

인터넷과 검색 엔진은 기억과 정보 접근의 구조를 바꾸었다. 2011년 베치 스패로(Betsy Sparrow), 제니 리우(Jenny Liu), 대니얼 웨그너(Daniel Wegner)는 사람들이 정보를 직접 기억하기보다 어디서 다시 찾을 수 있는지를 기억하는 경향을 보인다는 연구를 발표했다. 흔히 “구글 효과(Google effect)”라고 불리는 이 현상은 인터넷이 인간 기억을 단순히 망가뜨린다기보다, 기억의 기능을 내용 저장에서 접근 경로 관리로 일부 이동시킨다는 점을 보여준다.

LLM은 검색 엔진보다 더 깊이 들어온다. 검색 엔진은 사용자가 읽고 판단해야 할 자료를 제시한다. LLM은 자료의 의미를 요약하고, 논증 형태로 정리하고, 사용자의 생각을 대신 문장화한다. 따라서 LLM을 사용할 때 외부화되는 것은 기억이나 연산에 그치지 않는다. 문제 설정, 언어 구성, 논리 전개, 반론 예상, 자료 통합 같은 고차 인지 작업의 일부가 외부화된다.

이 변화가 위험한 이유는 고차 인지 작업이 곧 추론 능력의 핵심이기 때문이다. 사람이 단순 계산을 계산기에 맡기는 것과 자신의 주장을 모델에게 통째로 맡기는 것은 인지적 의미가 다르다. 후자는 판단의 중심을 흔들 수 있다. 반대로 사람이 모델을 비판적 대화 상대와 임시 작업 공간으로 활용하면, 추론은 더 정교한 형태로 확장될 수 있다.

핵심 논리

LLM은 인간의 사고를 약화시키거나 확장시키는 고정된 원인이 아니라, 사고 과정의 비용과 배치를 바꾸는 장치다. 인간은 보통 제한된 작업 기억, 제한된 시간, 제한된 배경지식, 제한된 관점 안에서 추론한다. LLM은 이 제한을 일부 완화한다. 다양한 관점을 빠르게 제시하고, 막연한 생각을 문장화하며, 초안·반론·비교표·개념 지도를 만들어 준다. 이 기능은 인간 사고의 탐색 공간을 넓힌다.

동시에 LLM은 사고의 어려운 구간을 지나치게 쉽게 건너뛰게 만든다. 좋은 추론에는 불편한 시간이 필요하다. 문제를 붙잡고, 모호한 개념을 구분하고, 첫 번째 답이 틀릴 가능성을 견디고, 근거를 다시 확인하고, 반례를 찾아보는 시간이 필요하다. LLM이 즉시 그럴듯한 답을 제시하면 사용자는 이 시간을 생략하기 쉽다. 그 결과 산출물의 양은 늘어나지만 사고의 내적 훈련량은 줄어들 수 있다.

이 차이는 “대체”와 “비계(scaffolding)”의 차이로 설명할 수 있다. 대체는 사용자가 해야 할 사고를 모델이 대신 수행하고, 사용자는 결과를 거의 그대로 소비하는 구조다. 비계는 사용자가 스스로 더 높은 수준의 사고를 수행하도록 모델이 임시 지지대를 제공하는 구조다. 같은 LLM이라도 “이 주제로 글 써줘”라고 쓰면 대체에 가까워지고, “내 주장에 숨어 있는 전제를 찾아줘”, “가장 강한 반론을 구성해줘”, “내가 먼저 쓴 초안의 논리적 약점을 지적해줘”라고 쓰면 비계에 가까워진다.

이 관점에서 인간의 핵심 역할은 사라지지 않는다. 오히려 더 선명해진다. 인간은 무엇이 중요한 문제인지 정하고, 어떤 기준으로 판단할지 정하며, 어떤 가치와 맥락을 우선할지 결정한다. AI는 후보 구조를 생성하고, 누락된 관점을 제시하며, 표현을 정리하고, 반례를 찾아보는 데 도움을 줄 수 있다. 하지만 최종 판단의 책임은 사용자의 몫이다.

LLM 시대의 추론 능력은 “AI 없이 혼자 생각하는 능력”만으로 정의되기 어렵다. 앞으로의 핵심 능력은 혼자 생각할 수 있는 기초 능력과, AI를 포함한 외부 인지 체계를 비판적으로 운용하는 능력의 결합이다. 인간은 AI를 쓰지 않는 순수한 사고자와 AI에 종속된 소비자 사이에서 선택해야 하는 것이 아니다. 더 중요한 선택지는 AI와 함께 생각하되, 문제 정의와 검증과 책임을 포기하지 않는 구조를 만드는 것이다.

LLM이 인간 추론을 확장하는 방식

LLM이 인간 추론을 확장하는 첫 번째 방식은 탐색 공간을 넓히는 것이다. 사람은 자신이 이미 알고 있는 개념과 익숙한 해석 틀 안에서 문제를 보는 경향이 있다. LLM은 한 주제에 대해 역사적 관점, 철학적 관점, 경제적 관점, 심리학적 관점, 기술적 관점, 반대 입장을 빠르게 제시할 수 있다. 이 기능은 결론을 대신 내리는 데보다 가능한 사고 경로를 늘리는 데 가치가 있다.

두 번째 방식은 사고의 외부화다. 머릿속의 생각은 대개 흐릿하고 압축되어 있다. 글로 쓰거나 말로 설명하는 순간, 개념의 빈틈과 논리의 약점이 드러난다. LLM과 대화하려면 사용자는 최소한 질문을 언어화해야 한다. 모델의 답을 다시 비판하거나 수정하는 과정에서는 자신의 기준도 더 명확히 해야 한다. 이때 LLM은 단순한 답변자가 아니라 생각을 바깥에 펼쳐 놓게 만드는 작업 공간이 된다.

세 번째 방식은 반론과 검증의 상대역이 되는 것이다. 인간은 자기 생각에 유리한 근거를 더 쉽게 찾고, 자신의 결론에 맞는 사례를 더 설득력 있게 느끼는 경향이 있다. LLM에게 의도적으로 반론을 요구하면, 사용자는 자신의 논증이 어떤 조건에서 약해지는지 더 빨리 확인할 수 있다. 이 기능은 AI가 완벽한 비판자라서 가치 있는 것이 아니다. 인간이 혼자서는 생략하기 쉬운 반대 방향의 사고를 강제로 호출할 수 있다는 점에서 가치가 있다.

네 번째 방식은 복잡한 정보의 임시 조직화다. 연구 자료, 회의록, 법령, 논문, 데이터 설명, 코드 문서가 많을 때 인간은 전체 구조를 잡는 데 큰 부담을 느낀다. LLM은 자료를 주제별로 묶고, 핵심 쟁점을 분리하고, 비교 기준을 제안할 수 있다. 사용자는 이렇게 만들어진 구조를 그대로 받아들이기보다, 구조의 적합성을 검토하고 자신의 목적에 맞게 재편해야 한다.

다섯 번째 방식은 학습 과정의 개인화와 반복성이다. 사람에게 같은 질문을 계속 묻는 일은 사회적 비용이 크지만, LLM에게는 비교적 낮은 비용으로 반복 설명, 난이도 조절, 예시 변경, 퀴즈 생성, 피드백 요청을 할 수 있다. OpenAI가 2025년에 공개한 ChatGPT Study Mode처럼 즉답보다 단계적 질문, 소크라테스식 문답, 이해 점검을 강조하는 설계는 AI가 대체 장치보다 학습 비계로 작동하도록 만들려는 시도다. 물론 이런 기능도 사용자가 언제든 우회할 수 있으며, 실제 학습 효과는 사용자의 태도와 맥락에 따라 달라진다.

LLM이 인간 추론을 약화시키는 방식

가장 큰 위험은 문제 정의 능력의 약화다. 좋은 답은 좋은 질문에서 나온다. 사용자가 스스로 문제의 범위, 조건, 기준, 개념을 정리하기 전에 모델에게 결과를 요구하면, 추론의 출발점이 외부화된다. 이 경우 사용자는 답을 얻지만 왜 그 답이 필요한지, 어떤 조건에서 타당한지, 무엇이 빠졌는지 판단하기 어려워진다.

두 번째 위험은 검증 능력의 약화다. LLM의 답변은 대개 문법적으로 자연스럽고 구조적으로 정돈되어 있다. 이 유창함은 사용자가 사실성, 논리성, 적합성을 과대평가하게 만들 수 있다. NIST의 생성형 AI 위험관리 문서는 생성형 AI의 위험을 다룰 때 정보 무결성, 허위 생성, 출처 검증의 필요성을 강조한다. LLM 사용자는 모델 출력이 “잘 쓰인 문장”인지와 “참인 주장”인지를 분리해서 보아야 한다.

세 번째 위험은 자동화 편향이다. 인간공학 연구에서 오래전부터 지적되어 온 자동화 편향은 사람이 자동 시스템을 지나치게 신뢰할 때 발생한다. LLM 환경에서는 이 문제가 더 교묘해진다. 기존 자동화 시스템은 보통 숫자, 경고, 추천을 제공했다. LLM은 논리적 설명처럼 보이는 문장을 함께 제공한다. 설명이 붙은 오류는 단순한 오류보다 더 설득력 있게 느껴질 수 있다.

네 번째 위험은 사고와 표현의 균질화다. 많은 사람이 비슷한 모델을 사용해 비슷한 방식으로 글을 만들면 문서의 구조, 표현, 논증 패턴이 닮아갈 수 있다. 정돈된 글은 늘어나지만, 낯선 문제 설정, 거친 초안에서 나오는 독창성, 비정형적 탐색의 흔적은 줄어들 수 있다. Microsoft Research와 Carnegie Mellon 연구자들이 2025년 발표한 지식노동자 조사에서도 생성형 AI 사용이 비판적 사고의 위치를 정보 수집에서 검증, 문제 해결에서 응답 통합, 과제 실행에서 과제 관리로 이동시킨다는 점이 관찰되었다. 이 이동은 생산성을 높일 수 있지만, 사용자가 모델 출력의 방향에 과도하게 수렴할 위험도 함께 만든다.

다섯 번째 위험은 학습의 조기 단축이다. 학습자는 특정 개념을 이해하기 전에 충분히 시도하고 실패해야 할 때가 있다. LLM이 처음부터 완성된 풀이, 완성된 글, 완성된 요약을 제공하면 학습자는 결과를 이해했다고 느끼지만 실제로는 생성 과정을 통과하지 않았을 수 있다. 2025년 공개된 MIT Media Lab 계열의 에세이 작성 EEG 연구는 LLM 사용 집단에서 낮은 소유감과 다른 신경 연결 패턴을 보고했다. 이 연구는 표본 규모가 작고 사전출판물이라는 한계가 있어 강한 일반화에는 주의가 필요하지만, LLM이 학습자의 인지 참여 방식을 바꿀 수 있다는 문제의식을 제기한다.

연구 동향과 경험적 근거

현재 연구는 LLM이 인간 추론에 미치는 영향을 단일 결론으로 확정하기보다, 조건부 효과를 보여주는 방향으로 축적되고 있다. 어떤 연구는 생산성 향상을 보여주고, 어떤 연구는 비판적 사고와 인지적 노력의 감소를 우려하며, 교육 분야의 연구는 사용 설계와 학습 맥락에 따라 효과가 달라진다고 본다.

Noy와 Zhang의 2023년 연구는 전문직 글쓰기 과제에서 ChatGPT 접근이 작업 시간을 줄이고 산출물 품질을 높였다고 보고했다. 이 결과는 LLM이 중간 수준의 전문 글쓰기에서 생산성을 높일 수 있음을 보여준다. 하지만 생산성 향상은 곧 추론 능력 향상을 뜻하지 않는다. 더 빠르게 더 나은 문서를 만들었다는 사실은 업무 산출의 효율성을 보여주지만, 사용자의 장기적 사고 훈련량이 어떻게 변하는지는 별도로 평가해야 한다.

Lee, Sarkar, Tankelevitch 등은 2025년 CHI 논문에서 319명의 지식노동자를 대상으로 생성형 AI 사용과 비판적 사고의 관계를 조사했다. 이 연구는 AI에 대한 신뢰가 높을수록 비판적 사고 노력이 줄어드는 경향이 있고, 자기 과제에 대한 자신감이 높을수록 비판적 사고가 더 많이 작동한다고 보고했다. 특히 생성형 AI가 비판적 사고를 없애기보다 그 위치를 바꾼다는 분석이 중요하다. 과거에는 사람이 직접 정보를 찾고 문제를 해결했다면, AI 사용 후에는 결과 검증, AI 응답 통합, 작업 방향 관리가 더 중요해진다.

고등교육 분야의 연구는 양면적이다. 2025년 ScienceDirect에 게재된 고등교육 내 ChatGPT 활용 체계적 문헌고찰은 ChatGPT가 지식 접근성, 학습 지원, 참여도, 협업에 도움이 될 수 있지만 학문적 진실성, 비판적 사고, 과의존 문제를 함께 제기한다고 정리했다. 2026년 Humanities and Social Sciences Communications에 공개된 35개 실험 연구 메타분석은 ChatGPT가 학생 학습 성과에 중간 정도의 긍정 효과를 보였다고 보고했다. 동시에 이 논문은 표본 선택, 고차 사고 평가, 장기 효과 측정의 한계를 인정한다.

이 연구 흐름은 한 가지 결론을 가리킨다. LLM의 효과는 “사용 여부”보다 “사용 구조”에 의해 크게 달라진다. 즉답형 사용은 사고의 단축을 낳기 쉽고, 질문형·검증형·반성형 사용은 사고를 확장할 가능성이 높다. 교육과 지식노동에서 중요한 것은 AI 사용을 금지하거나 무조건 허용하는 이분법이 아니라, 어떤 작업 단계에서 어떤 방식으로 AI를 배치할지 설계하는 일이다.

구체적 사례

보고서 작성 상황을 보자. 약화형 사용자는 주제를 입력하고 “완성된 보고서를 써줘”라고 요청한다. 모델이 제시한 구조와 문장을 거의 그대로 사용한다. 이 경우 사용자는 보고서를 얻지만 문제의 범위, 핵심 개념, 근거의 강도, 반론 가능성을 깊이 다루지 않았을 수 있다. 산출물은 정돈되어 있어도 사용자의 추론 훈련은 적다.

확장형 사용자는 먼저 자신의 문제의식과 잠정 목차를 작성한다. 그런 다음 LLM에게 “이 목차에서 개념이 겹치는 부분을 찾아줘”, “가장 취약한 전제를 지적해줘”, “반대 입장에서 논증을 구성해줘”, “이 문단의 근거가 충분한지 평가해줘”라고 요청한다. 마지막에는 원자료를 확인하고, 모델이 제안한 표현을 자신의 판단으로 다시 쓴다. 이 경우 AI는 글을 대신 쓰는 장치가 아니라 사고를 압박하고 확장하는 장치가 된다.

학습 상황도 마찬가지다. 약화형 사용자는 수학 문제나 철학 개념을 바로 풀이·요약해 달라고 한다. 답을 읽고 이해했다고 느끼지만, 스스로 개념을 재구성하거나 오류를 찾아내는 훈련은 부족하다. 확장형 사용자는 먼저 자신의 풀이를 제시하고, AI에게 어디서 논리적 비약이 생겼는지 묻는다. 또는 AI에게 정답을 바로 말하지 말고 단계별 힌트와 확인 질문을 달라고 요구한다. 이 방식은 LLM을 즉답 기계가 아니라 튜터에 가깝게 만든다.

정책·법률·의학처럼 고위험 판단이 필요한 영역에서는 역할 구분이 더 중요하다. LLM은 쟁점 목록, 관련 문서 요약, 가능한 반론, 체크리스트 생성에 도움을 줄 수 있다. 하지만 사실 확인, 법적 책임, 진단, 처방, 정책 결정은 검증 가능한 전문 절차와 인간 책임 아래 놓여야 한다. LLM이 그럴듯한 설명을 제공한다는 이유로 공식 자료, 전문가 판단, 규범적 책임을 대체하게 만들면 자동화 편향의 위험이 커진다.

창작에서도 같은 원리가 적용된다. LLM은 소재, 플롯 변형, 문체 실험, 장면 구조 제안에 유용하다. 하지만 사용자가 모델의 평균적 표현을 그대로 수용하면 작품은 매끄러워지면서도 고유한 긴장과 목소리를 잃을 수 있다. 확장형 창작자는 모델을 초안 생산자보다 낯선 제안자, 반대 편집자, 구조 실험 도구로 사용한다. 최종 문체와 문제의식은 인간이 선택한다.

주요 쟁점과 반론

첫 번째 쟁점은 “외부화는 곧 퇴화인가”이다. 외부화 자체는 인간 인지의 오래된 전략이다. 메모를 한다고 기억력이 무조건 나빠지는 것은 아니다. 계산기를 쓴다고 수학적 사고가 사라지는 것도 아니다. 외부화가 문제가 되는 시점은 사용자가 외부 장치의 출력 원리와 한계를 이해하지 못하고, 결과를 검증할 능력도 유지하지 못할 때다. LLM도 마찬가지다. 사고의 일부를 외부화하더라도 사용자가 문제 정의와 검증 능력을 유지하면 확장이 가능하다.

두 번째 쟁점은 “생산성 향상은 지능 향상인가”이다. 생산성은 단위 시간당 산출물의 양과 품질을 가리킨다. 지능이나 추론 능력은 문제를 이해하고 판단하는 구조적 능력이다. LLM은 생산성을 높일 수 있지만, 그 효과가 곧 사용자의 내적 추론 능력 향상으로 이어진다고 단정할 수 없다. 어떤 사용자는 AI를 통해 더 깊이 배우고, 어떤 사용자는 더 빠르게 대체한다.

세 번째 쟁점은 “AI가 반론을 제시하면 정말 비판적 사고가 강화되는가”이다. AI가 제시하는 반론도 모델의 한계를 가진다. 모델은 때로 그럴듯하지만 약한 반론을 만들고, 사용자의 암묵적 전제를 충분히 파악하지 못하며, 출처가 불분명한 내용을 섞을 수 있다. 따라서 AI 반론은 최종 판정이 아니라 사고를 흔드는 자극으로 보아야 한다. 좋은 사용자는 AI의 비판까지 다시 비판한다.

네 번째 쟁점은 불평등이다. LLM은 누구에게나 같은 방식으로 확장 장치가 되지 않는다. 기본 지식, 언어 능력, 검증 능력, 자료 접근성, 도메인 전문성이 높은 사용자는 AI를 더 잘 활용할 가능성이 크다. 반대로 배경지식이 부족한 사용자는 모델의 오류를 식별하기 어렵고, 그럴듯한 출력을 더 쉽게 받아들일 수 있다. AI 리터러시는 단순한 사용법 교육이 아니라 판단력 교육이어야 한다.

다섯 번째 쟁점은 평가의 어려움이다. LLM이 추론 능력을 약화시키는지 확장하는지는 단기 과제 성과만으로 판단하기 어렵다. 사용자의 산출물이 좋아졌더라도 장기적 독해력, 문제 정의 능력, 반론 구성 능력, 기억 유지, 자기 설명 능력이 어떻게 변했는지는 별도 측정이 필요하다. 현재 연구들은 빠르게 늘고 있지만, 장기적이고 다양한 문화권을 포함한 연구는 아직 충분하지 않다.

오해와 한계

첫 번째 오해는 LLM을 “생각하는 주체”로 보는 것이다. LLM은 인간과 유사한 문장을 생성하지만, 출력의 유창성이 인간식 이해나 책임을 보장하지 않는다. 사용자는 모델을 지적 파트너로 활용할 수 있지만, 모델에게 책임 있는 판단 주체의 지위를 부여해서는 곤란하다.

두 번째 오해는 LLM 사용을 곧 사고 포기로 보는 것이다. 실제로는 사용 구조가 중요하다. 초안을 모델에게 맡기는 방식은 사고를 약화시킬 수 있다. 반대로 자신의 초안을 비판하게 하거나, 반례를 만들게 하거나, 개념 구분을 요구하는 방식은 사고를 더 정교하게 만들 수 있다. 같은 도구라도 사용자의 질문 방식과 검증 습관에 따라 효과가 달라진다.

세 번째 오해는 프롬프트 기술이 전부라는 생각이다. 좋은 프롬프트는 중요하지만, 더 근본적인 능력은 문제를 보는 눈이다. 무엇을 물어야 하는지 모르면 정교한 프롬프트도 피상적 결과를 낳는다. AI 시대의 핵심 능력은 프롬프트 문장 기술보다 문제 정의, 기준 설정, 반론 구성, 출처 검증, 맥락 판단이다.

네 번째 오해는 모델이 제시한 균형 잡힌 문장이 곧 균형 잡힌 판단이라는 생각이다. LLM은 양쪽 입장을 정돈해 제시할 수 있지만, 쟁점의 비대칭성, 근거의 질 차이, 사실관계의 강약을 충분히 반영하지 못할 수 있다. 균형 잡힌 형식과 타당한 판단은 구분되어야 한다.

이 글의 한계도 분명하다. LLM이 인간 인지에 미치는 장기 효과는 아직 연구가 진행 중이다. 현재 연구는 특정 과제, 특정 모델, 특정 언어권, 특정 교육 수준에 제한된 경우가 많다. 모델 성능과 사용 방식도 빠르게 변한다. 따라서 “LLM은 인간을 약화시킨다” 또는 “LLM은 인간을 확장한다”라는 단정적 결론보다, 어떤 조건에서 어떤 효과가 발생하는지 분석하는 방식이 더 정확하다.

인간과 AI의 역할 분담

LLM을 추론 확장 장치로 쓰려면 인간과 AI의 역할을 분리해야 한다. 인간은 문제 정의, 가치 판단, 최종 책임을 맡는다. AI는 후보 생성, 구조화, 반론 제시, 표현 변환, 자료 정리에 강하다. 인간은 다시 사실성, 논리성, 맥락 적합성, 윤리적 함의를 검증한다.

효과적인 사고 구조는 다음과 같이 정리할 수 있다.

인간이 먼저 문제를 정의한다. 무엇을 알고 싶은지, 어떤 결정을 내려야 하는지, 판단 기준이 무엇인지 적는다.
인간이 잠정 가설을 만든다. AI에게 묻기 전에 자신의 생각을 짧게라도 작성한다.
AI에게 탐색을 맡긴다. 가능한 관점, 반례, 비교 대상, 누락된 쟁점을 요구한다.
AI에게 비판을 맡긴다. 자신의 주장에 대한 가장 강한 반론, 숨어 있는 전제, 약한 근거를 찾게 한다.
인간이 검증한다. 원자료, 공식 문서, 논문, 데이터, 전문가 지식과 대조한다.
인간이 재구성한다. 모델 출력을 그대로 쓰지 않고 자신의 문제의식과 문체로 다시 조직한다.
인간이 책임진다. 최종 판단과 산출물의 책임을 모델에게 넘기지 않는다.

이 구조에서 LLM은 사고를 대체하는 장치가 아니라 사고의 압력을 높이는 장치가 된다. 사용자는 더 많은 관점을 보고, 더 많은 반론을 만난다. 동시에 자신의 기준과 책임을 유지한다. 이것이 LLM을 통해 추론을 확장하는 최소 조건이다.

정리

LLM은 인간 추론 능력을 약화시키는가, 아니면 확장하는가? 가장 정확한 답은 조건부다. LLM은 사고를 대신하게 만들 수 있고, 사고를 더 넓게 조직하게 만들 수도 있다. 사용자가 문제 정의와 검증을 포기하면 LLM은 인지적 게으름, 자동화 편향, 표현의 균질화, 학습의 조기 단축을 낳는다. 사용자가 모델을 가설 생성, 반론 구성, 정보 통합, 메타인지 훈련의 상대로 사용하면 LLM은 추론의 외부 작업 공간이 된다.

AI 시대의 지능은 개인의 머릿속 능력만으로 설명되기 어렵다. 인간의 지능은 언어, 기록, 도구, 데이터, 모델, 제도, 검증 절차와 결합된 분산적 체계로 이동하고 있다. 이 변화 속에서 중요한 능력은 AI 없이 아무 도구도 쓰지 않는 능력이 아니라, 어떤 사고를 외부화하고 어떤 판단을 내부에 남겨야 하는지 구분하는 능력이다.

따라서 앞으로의 핵심 질문은 “AI가 인간을 멍청하게 만드는가?”보다 더 깊다. 인간은 AI와 결합한 사고 구조 속에서도 문제를 정의하고, 근거를 검토하고, 반론을 견디고, 최종 판단의 책임을 질 수 있는가? 이 질문에 대한 답이 LLM 시대 인간 지능의 방향을 결정한다.

참고자료

Andy Clark, David J. Chalmers, 「The Extended Mind」, Analysis, Vol. 58, No. 1, 1998.
Edwin Hutchins, Cognition in the Wild, MIT Press, 1995.
Evan F. Risko, Sam J. Gilbert, 「Cognitive Offloading」, Trends in Cognitive Sciences, Vol. 20, No. 9, 2016.
Betsy Sparrow, Jenny Liu, Daniel M. Wegner, 「Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips」, Science, Vol. 333, No. 6043, 2011.
Raja Parasuraman, Victor Riley, 「Humans and Automation: Use, Misuse, Disuse, Abuse」, Human Factors, Vol. 39, No. 2, 1997.
Shakked Noy, Whitney Zhang, 「Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence」, Science, 2023.
Hao-Ping Lee, Advait Sarkar, Lev Tankelevitch, Ian Drosos, Sean Rintel, Richard Banks, Nicholas Wilson, 「The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers」, CHI Conference on Human Factors in Computing Systems, ACM, 2025.
N. Abdallah 외, 「Systematic Review of ChatGPT in Higher Education: Navigating Impact on Learning, Wellbeing, and Collaboration」, International Journal of Educational Research Open, 2025.
Xinning Wu, Pei Zhu, Jinliang Zhang, Mengwei Yin, Yingxi Wang 외, 「ChatGPT’s Impact on Student Learning Outcomes: A Meta-Analysis of 35 Experimental Studies」, Humanities and Social Sciences Communications, 2026.
Nataliya Kosmyna 외, 「Your Brain on ChatGPT: Accumulation of Cognitive Debt When Using an AI Assistant for Essay Writing Task」, preprint 및 연구 소개 자료, 2025.
National Institute of Standards and Technology, 「Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile」, NIST AI 600-1, 2024.
Stanford Institute for Human-Centered Artificial Intelligence, 「The 2025 AI Index Report」, Stanford HAI, 2025.
OpenAI, 「Introducing Study Mode」, OpenAI Product Announcement, 2025.
OpenAI Help Center, 「ChatGPT Study Mode - FAQ」, 2026년 5월 4일 확인.