LLM 의존은 인간의 기억·추상화·추론을 어떻게 바꾸는가

핵심 요약

장기간 대형 언어 모델(large language model, LLM)에 의존하는 일이 인간 인지에 어떤 영향을 주는지는 아직 결정적으로 확정된 문제가 아니다. 현재까지의 연구는 “LLM을 오래 쓰면 인간의 기억력·추상화 능력·추론 능력이 약화된다”는 단순 명제를 입증했다기보다, 인간이 어떤 사고 과정을 내부에서 수행하고 어떤 과정을 외부 도구에 맡기는지의 경계가 재편되고 있음을 보여준다.

검색엔진 연구에서 논의된 Google Effect는 사람들이 정보 자체보다 정보의 위치를 더 잘 기억하는 경향을 설명한다. 인지적 외주(cognitive offloading) 연구는 인간이 기억·계산·판단 부담을 외부 사물, 장치, 환경에 맡겨 정신적 부담을 줄이는 방식을 설명한다. LLM은 이 흐름을 단순히 연장하는 도구에 머물지 않는다. 검색엔진이 주로 정보 접근을 외부화하고, 계산기가 계산 절차를 외부화했다면, LLM은 문제 해석, 개념 정리, 문장 생성, 논증 구성, 반론 예상, 의사결정 보조까지 외부화한다. 이 차이 때문에 LLM의 인지적 영향은 “기억 보조”보다 넓은 범위에서 검토되어야 한다.

핵심 쟁점은 인간이 덜 생각하게 되는가가 아니라, 생각의 어느 층위를 인간이 계속 담당할 것인가이다. LLM은 인간의 지능을 자동으로 약화시키거나 자동으로 확장하지 않는다. 사용 방식에 따라 그것은 인지 확장 장치가 될 수도 있고, 훈련되지 않은 사고를 더 쉽게 우회하게 만드는 대체 장치가 될 수도 있다. 따라서 이 문제는 “AI 사용 찬반”보다 “인간이 직접 수행해야 하는 사고, 외부화해도 되는 사고, 외부화한 사고를 검증하는 절차”를 다시 설계하는 문제로 보아야 한다.

문제의식

LLM은 글쓰기, 번역, 요약, 코딩, 학습, 상담, 아이디어 생성, 의사결정 보조에 빠르게 침투했다. OpenAI와 NBER 연구진의 2025년 연구는 ChatGPT의 소비자 사용이 2025년 7월 기준 세계 성인 인구의 약 10%에 도달했다고 보고했고, 사용 목적도 일상적 조언, 정보 탐색, 글쓰기 등으로 확산되었다고 분석했다. 이 수치는 특정 서비스의 이용 양상을 보여주는 것이지만, 더 넓게는 언어 기반 AI가 개인의 사고 루틴에 들어왔다는 사실을 보여준다.

이 변화가 중요한 이유는 LLM이 단순한 정보 저장소가 아니라 “문장화된 사고 과정”을 생성하는 도구이기 때문이다. 사용자는 이제 모르는 정보를 찾는 수준을 넘어, 어떤 문제를 어떻게 나누어야 하는지, 어떤 개념틀로 설명해야 하는지, 어떤 결론이 그럴듯한지까지 모델에 맡길 수 있다. 그래서 장기적 질문은 다음과 같이 바뀐다.

인간은 LLM을 사용하면서 더 고차적인 사고를 하게 되는가, 아니면 사고 훈련의 핵심 과정을 건너뛰게 되는가? LLM은 지능의 확장인가, 사고의 외주화인가? 그리고 외주화가 불가피하다면 인간에게 남겨야 할 인지 기능은 무엇인가?

이 글은 이 질문을 기억, 추상화, 추론이라는 세 층위로 나누어 설명한다. 기억은 정보 저장과 회상의 문제이고, 추상화는 경험과 사례에서 개념 구조를 만드는 능력이며, 추론은 주어진 전제에서 결론을 구성하고 검토하는 능력이다. LLM은 세 층위를 모두 건드리지만, 각 층위에서 작동 방식과 위험이 다르다.

개념의 정의

LLM 의존은 단순히 LLM을 자주 사용하는 상태를 뜻하지 않는다. 여기서 말하는 의존은 사용자가 문제 해결의 핵심 단계를 자기 내부의 사고 과정으로 처리하기보다, 모델의 출력에 반복적으로 맡기는 상태를 가리킨다. 예컨대 모르는 용어를 한 번 설명받는 것은 도구 사용이다. 매번 개념 정의, 글의 구조, 논증 방향, 반론 검토, 결론 판단까지 모델에 맡기고 사용자는 결과만 선택하는 상태는 더 강한 의미의 인지 의존에 가깝다.

인지적 외주는 인간이 정신적 부담을 줄이기 위해 외부 도구를 사용하는 일반적 현상이다. Risko와 Gilbert의 2016년 리뷰는 인지적 외주를 과제의 정보처리 요구를 낮추기 위해 외부 행동이나 물리적 장치를 사용하는 현상으로 설명한다. 메모장, 달력, 계산기, 지도, 알람, 검색엔진은 모두 인지적 외주의 사례가 될 수 있다. 인지적 외주는 인간 지능의 결함만을 뜻하지 않는다. 인간은 외부 도구를 통해 더 큰 문제를 다루고, 작업 기억의 한계를 보완하며, 협업과 복잡한 계획을 가능하게 했다.

전이 기억(transactive memory)은 개인이 모든 정보를 직접 기억하기보다 “누가 무엇을 알고 있는지”를 기억하는 사회적 기억 구조다. Wegner의 전이 기억 이론은 부부, 팀, 조직처럼 여러 사람이 지식을 분산해 저장하고 필요할 때 서로 호출하는 방식을 설명한다. 검색엔진 시대에는 이 구조가 사람 사이의 기억 분업을 넘어 인터넷으로 확장되었다. LLM 시대에는 “어디에 있는지”를 아는 것에서 “어떻게 질문해야 원하는 형태의 사고 결과를 얻는지”를 아는 방향으로 이동한다.

자동화 편향(automation bias)은 사람이 자동화 시스템의 제안을 과도하게 신뢰해 자기 판단이나 반대 증거를 충분히 사용하지 않는 경향을 가리킨다. Parasuraman과 Riley의 1997년 논문은 자동화 사용에서 사용(use), 오용(misuse), 미사용(disuse), 남용(abuse)을 구분했다. LLM과의 관계에서도 같은 문제가 나타난다. 모델이 유창하고 자신감 있는 문장을 내놓을수록 사용자는 그 문장의 근거와 오류 가능성을 덜 따질 수 있다.

비판적 사고는 단순히 반대 의견을 말하는 능력이 아니다. 전제의 타당성, 근거의 질, 추론의 연결, 대안 설명, 오류 가능성, 적용 범위를 평가하는 능력이다. LLM 시대의 비판적 사고는 출력물을 의심하는 태도만으로 충분하지 않다. 문제 정의를 모델에 맡기기 전에 인간이 무엇을 묻고 있는지 스스로 구성하는 능력, 모델의 답을 독립 자료와 대조하는 능력, 모델이 놓친 관점과 이해관계를 찾는 능력까지 포함한다.

배경과 맥락

인간 인지는 원래부터 도구와 함께 작동했다. 글쓰기, 수학 기호, 표, 지도, 도서관, 인쇄술, 계산기, 인터넷은 모두 인간의 기억과 사고를 외부화한 장치다. Clark과 Chalmers의 확장된 마음(extended mind) 논의, Hutchins의 분산 인지(distributed cognition) 연구, Norman의 인지적 인공물(cognitive artifacts) 논의는 인간 사고를 두개골 안의 고립된 처리 과정으로만 보지 않는다. 인간은 환경, 도구, 제도, 타인과 결합해 더 큰 인지 체계를 만든다.

이 관점에서 보면 LLM 사용 자체를 부정적으로만 볼 이유는 없다. 인간은 늘 외부 장치를 통해 자신의 인지 능력을 확장해 왔다. 종이에 계산식을 쓰면 작업 기억의 부담이 줄고, 도서관을 이용하면 개인 기억의 한계를 넘으며, 검색엔진은 정보 접근 비용을 급격히 낮춘다. 도구 사용은 인간을 약하게 만드는 방식으로만 작동하지 않는다. 좋은 도구는 인간이 더 높은 수준의 문제에 집중하도록 해준다.

LLM이 특별한 이유는 그것이 언어적 결과물뿐 아니라 언어화된 사고 과정을 생성한다는 데 있다. 검색엔진은 대체로 사용자가 자료를 읽고 비교하고 요약해야 했다. LLM은 그 중간 과정을 압축한다. 사용자는 자료 탐색, 요점 추출, 구조화, 문장화, 반론 작성, 결론 생성까지 한 번에 요청할 수 있다. 이 압축은 생산성을 높이지만, 학습과 사고 훈련에서 중요한 시행착오와 회상 과정을 줄일 수 있다.

교육심리학에서 반복 인출(retrieval practice), 분산 학습(distributed practice), 바람직한 어려움(desirable difficulties)은 장기 기억과 전이 가능한 이해에 중요한 조건으로 논의되어 왔다. Roediger와 Karpicke의 2006년 연구는 학습 후 다시 읽기보다 시험을 통한 인출 연습이 장기 보존에 강한 효과를 낼 수 있음을 보여주었다. Dunlosky 등은 2013년 리뷰에서 연습 시험과 분산 학습을 효과적인 학습 전략으로 평가했다. 이런 연구들은 LLM이 “즉시 정답”을 제공할 때 학습자가 어떤 인지 과정을 생략할 수 있는지 이해하는 데 중요하다.

핵심 논리

LLM 의존의 핵심은 인지 기능의 소멸이 아니라 인지 기능의 재배치다. 인간은 더 이상 모든 정보를 직접 기억하지 않아도 되고, 모든 초안을 직접 작성하지 않아도 되며, 모든 반론을 혼자 떠올리지 않아도 된다. 대신 문제를 정의하고, 어떤 질문을 던질지 설계하고, 모델이 만든 결과를 검증하고, 다양한 출력 중 무엇을 채택할지 판단하는 역할이 커진다. 문제는 이 재배치가 자동으로 잘 일어나지 않는다는 점이다. 사용자가 질문 설계와 검증 능력을 갖추지 못하면, 사고의 상위 단계까지 모델에 흡수될 수 있다.

기억의 층위에서 LLM은 내용 기억을 약화시킨다고 단정하기보다, 기억의 대상과 형식을 바꾼다고 보는 편이 정확하다. 검색엔진 시대에는 사람들은 정보 자체보다 정보가 있는 위치를 기억하는 경향을 보였다. Sparrow, Liu, Wegner의 2011년 Science 논문은 온라인 접근 가능성이 기억 방식에 영향을 미친다는 Google Effect를 실험적으로 제시했다. LLM 시대에는 정보 위치 기억이 질문 절차 기억으로 이동할 수 있다. 사용자는 “이 내용을 알고 있다”보다 “이렇게 물으면 답이 나온다”를 기억한다.

이 변화는 효율적일 수 있다. 복잡한 자료를 빠르게 확인하고, 낯선 분야의 입문 구조를 얻고, 기억의 부담을 줄일 수 있다. 동시에 장기 기억 형성에는 위험이 생길 수 있다. 기억은 단순 저장이 아니라 반복적 회상, 오류 수정, 재구성 과정을 통해 강화된다. 사용자가 모르는 것을 곧바로 LLM에 묻고, 답을 읽고, 자신의 말로 다시 설명하거나 회상하지 않은 채 작업을 끝내면 장기 기억을 형성하는 훈련 밀도가 낮아질 수 있다. 현재 근거로는 LLM 사용이 장기기억을 직접 약화시킨다고 일반화하기 어렵다. 더 안전한 결론은 LLM이 기억 형성에 필요한 일부 인지 절차를 외부화할 수 있으며, 그 외부화가 반복될 때 학습 방식이 달라질 수 있다는 것이다.

추상화의 층위에서는 더 조심스러운 분석이 필요하다. 추상화는 여러 사례에서 공통 구조를 뽑아 개념을 만드는 능력이다. “사과, 배, 포도”를 “과일”로 묶는 단순 분류부터, 역사적 사건에서 권력 구조를 파악하거나, 경제 현상에서 인센티브 구조를 뽑아내는 고차적 개념화까지 포함한다. LLM은 사용자가 개념을 만들기 전에 이미 정리된 분류 체계, 용어, 설명 틀을 제공한다. 이는 학습 초기에 강력한 발판이 될 수 있다. 초보자는 혼란 속에서 길을 잃는 대신, 모델이 제시한 지도 위에서 분야를 이해하기 시작할 수 있다.

위험은 이 발판이 개념 형성 과정을 대체할 때 생긴다. 새로운 개념은 종종 혼란, 실패, 비교, 재구성의 과정을 거쳐 만들어진다. 사용자가 늘 모델의 분류를 먼저 받아들이면, 자신의 분류 기준을 세우고 수정하는 훈련이 줄어들 수 있다. 이 현상은 아직 장기적으로 강하게 입증된 사실이라기보다, LLM 사용 방식에서 발생할 수 있는 인지적 경향으로 이해하는 편이 적절하다. 특히 창작과 아이디어 생성 연구에서는 생성형 AI가 개인의 즉각적 성과를 높이면서도 집단 수준의 산출물 다양성을 낮출 수 있다는 결과가 보고되었다. Doshi와 Hauser의 2024년 Science Advances 논문은 생성형 AI가 개인 창작물의 평가를 높일 수 있지만, 여러 사람이 AI 도움을 받을 때 산출물이 서로 유사해지는 경향도 있음을 보여주었다. 이는 추상화와 창의성이 개인 내부의 능력만이 아니라, 사회 전체의 개념 다양성과도 관련됨을 시사한다.

추론의 층위에서 변화는 가장 직접적이다. LLM은 사용자의 질문에 대해 문장 형태의 이유, 근거, 결론을 제공한다. 사용자는 내부 추론 과정을 수행하기 전에 모델이 제시한 논리를 먼저 보게 된다. 이때 인간의 역할은 추론 엔진(reasoning engine)에서 추론 관리자(reasoning orchestrator)로 이동할 수 있다. 좋은 사용자는 문제를 쪼개고, 모델에게 여러 관점을 요청하고, 근거를 대조하고, 오류를 찾아내며, 최종 결정을 자신의 책임으로 통합한다. 약한 사용자는 모델이 만든 첫 번째 그럴듯한 답을 결론으로 받아들인다.

Microsoft Research와 공동 연구자들이 2025년 발표한 생성형 AI와 비판적 사고 연구는 이 지점을 잘 보여준다. 이 연구는 319명의 지식 노동자에게서 936개의 실제 사용 사례를 수집해, 생성형 AI 사용 중 비판적 사고가 언제 어떻게 수행되는지 조사했다. 연구진은 사용자의 과제별 자기 확신이 높을수록 비판적 사고가 더 많이 수행되고, 생성형 AI에 대한 신뢰가 높을수록 비판적 사고 수행이 줄어드는 경향을 보고했다. 이 결과는 인과관계를 최종적으로 입증한 장기 실험이라기보다 설문 기반 연구다. 그럼에도 LLM 사용의 위험이 “AI가 똑똑해서 인간이 멍청해진다”는 문제가 아니라, 사용자의 자기 지식과 검증 습관에 따라 사고의 배분이 달라진다는 점을 보여준다.

MIT Media Lab 연구진의 2025년 preprint인 “Your Brain on ChatGPT”도 신중하게 다룰 필요가 있다. 이 연구는 참가자들을 LLM 사용, 검색엔진 사용, 도구 미사용 조건으로 나누어 에세이 작성 과정의 EEG, 텍스트, 기억, 자기 소유감 등을 비교했다. 연구진은 LLM 사용 집단에서 상대적으로 약한 뇌 연결성, 낮은 글에 대한 소유감, 자기 글 회상 어려움 등을 보고했다. 다만 이 연구는 preprint이고, 표본 수가 제한적이며, 방법론에 대한 비판적 논평도 제기되었다. 따라서 이 연구를 “ChatGPT가 뇌를 망친다”는 단정의 근거로 쓰기보다, LLM 사용이 학습 과제에서 인지 참여도와 소유감에 어떤 영향을 줄 수 있는지 탐색한 초기 연구로 읽는 편이 적절하다.

결국 LLM의 핵심 효과는 노력의 제거가 아니라 노력의 위치 이동이다. 초안을 쓰는 노력은 줄어들 수 있지만, 문제 정의의 노력은 더 중요해진다. 자료를 찾는 노력은 줄어들 수 있지만, 자료의 신뢰도를 평가하는 노력은 더 중요해진다. 문장을 다듬는 노력은 줄어들 수 있지만, 논증의 구조와 적용 범위를 판단하는 노력은 더 중요해진다. LLM 시대의 고급 사고는 “모델 없이 모든 것을 직접 하는 능력”만으로 정의되지 않는다. 모델이 만든 산출물을 어떤 기준으로 받아들이고 거부할지 판단하는 메타인지적 능력까지 포함한다.

구체적 사례

가장 단순한 예는 기억이다. 예전에는 어떤 개념을 공부할 때 정의, 사례, 반례를 직접 읽고 정리하고 다시 떠올렸다. LLM을 쓰면 사용자는 “인지적 외주를 쉽게 설명해줘”라고 묻고 즉시 구조화된 답을 얻는다. 이때 학습자는 시간을 절약한다. 초보자의 진입 장벽도 낮아진다. 그러나 답을 읽기만 하고 자신의 말로 다시 써보지 않으면, 인출 연습이 일어나지 않는다. 장기 기억으로 가는 경로가 약해질 수 있다. 따라서 같은 LLM 사용이라도 결과가 달라진다. “설명해줘”에서 멈추면 외주화가 강해지고, “내가 먼저 정의해볼 테니 틀린 부분을 지적해줘”로 사용하면 인출 연습과 피드백이 결합된다.

두 번째 사례는 글쓰기다. 직장인이 보고서 초안을 LLM에 맡기면 생산성은 높아질 수 있다. Noy와 Zhang의 2023년 Science 논문은 전문적 글쓰기 과제에서 ChatGPT 사용이 평균 작업 시간을 줄이고 산출물 품질 평가를 높였다고 보고했다. 이 결과는 LLM이 실제 업무 성과를 높일 수 있음을 보여준다. 동시에 같은 도구가 사고를 대체할 수도 있다. 사용자가 보고서의 핵심 주장, 독자, 근거, 반론을 정하지 않은 채 “좋은 보고서 써줘”라고 요청하면, 모델은 평균적으로 그럴듯한 형식을 제공한다. 결과물은 매끄럽지만, 작성자의 상황 판단과 책임 있는 결론은 약해질 수 있다.

세 번째 사례는 학습이다. 학생이 역사 사건을 공부하면서 “프랑스 혁명의 원인을 알려줘”라고 묻는 것은 유용한 시작점이다. 하지만 이 질문이 곧바로 최종 답안이 되면, 학생은 사료의 차이, 경제적 원인과 정치적 원인의 관계, 후대 해석의 갈등을 충분히 다루지 않을 수 있다. 더 나은 사용법은 “내가 프랑스 혁명의 원인을 세 가지로 정리했는데, 단일 원인론의 위험이 있는지 검토해줘” 또는 “이 설명에서 마르크스주의 해석과 수정주의 해석이 어떻게 다른지 비교해줘”처럼 자기 사고를 먼저 드러내는 방식이다. 이 경우 LLM은 대체자가 아니라 반응하는 비평자가 된다.

네 번째 사례는 코딩이다. LLM은 코드 작성 속도를 높이고, 오류 메시지 해석을 돕고, API 사용 예시를 제공한다. 그러나 초보자가 매번 전체 코드를 생성시키고 실행 결과만 확인하면, 제어 흐름, 자료구조, 디버깅 습관을 충분히 익히지 못할 수 있다. 반대로 사용자가 먼저 의사코드를 작성하고, 모델에게 경계 조건과 테스트 케이스를 찾게 하면 학습 효과가 커질 수 있다. 여기서 차이는 “코드 산출물”보다 “문제 분해와 검증을 누가 수행하는가”에 있다.

다섯 번째 사례는 의사결정이다. 사용자가 진로, 투자, 건강, 법률, 인간관계 같은 문제를 LLM에 묻는 경우 모델은 빠르게 조언을 제공한다. 이런 조언은 사고를 정리하는 데 도움을 줄 수 있지만, 문제의 사실관계, 사용자 가치관, 법적·의학적 책임, 지역 규정, 최신 정보가 정확히 반영되지 않을 수 있다. NIST의 생성형 AI 위험관리 프로파일은 생성형 AI의 고유하거나 증폭된 위험으로 잘못된 출력, 정보 무결성, 편향, 인간-AI 구성 문제 등을 다룬다. 의사결정 영역에서 LLM은 조언의 출발점이 될 수 있지만, 최종 판단과 책임을 대체하는 장치로 사용하기 어렵다.

주요 쟁점과 반론

첫 번째 쟁점은 “도구를 쓰면 능력이 약해지는가”이다. 계산기를 사용하면 암산 빈도는 줄어들 수 있지만, 고급 수학을 할 수 없게 되는 것은 아니다. 검색엔진을 사용하면 사실 암기 부담은 줄지만, 더 넓은 자료를 비교할 수 있다. 같은 논리로 LLM도 인간 능력을 약화시키기보다 더 높은 수준의 사고를 가능하게 할 수 있다. 이 반론은 타당하다. 실제로 생성형 AI는 글쓰기 생산성, 초보자의 진입 장벽 완화, 언어 장벽 감소, 장애 접근성, 아이디어 탐색에서 유의미한 이점을 제공할 수 있다.

핵심은 도구가 어떤 인지 과정을 대체하는지다. 계산기는 계산 결과를 빠르게 제공하지만, 사용자가 수학적 모델링과 문제 정의를 스스로 수행할 수 있다. 검색엔진은 자료 접근을 돕지만, 사용자가 자료를 읽고 해석한다. LLM은 문제 정의, 자료 요약, 논증 구성, 표현까지 한 번에 수행할 수 있다. 따라서 LLM은 기존 도구보다 더 많은 사고 층위를 대체할 수 있으며, 사용자의 설계 수준에 따라 확장과 대체 사이를 오간다.

두 번째 쟁점은 “인지적 외주는 인간 지능의 본질적 방식이므로 문제 삼을 필요가 없는가”이다. 인간은 언제나 외부 기억과 도구를 사용했다. 이 점에서 LLM은 인간 지능의 자연스러운 확장으로 볼 수 있다. 그러나 모든 외주가 같은 효과를 내지는 않는다. 좋은 외주는 하위 부담을 줄여 상위 사고를 강화한다. 나쁜 외주는 사고의 핵심 훈련까지 제거해 사용자가 결과를 이해하지 못한 채 받아들이게 만든다. 외주의 질은 도구의 존재가 아니라 사용 프로토콜에 달려 있다.

세 번째 쟁점은 “LLM은 인간을 질문 설계자와 검증자로 만들기 때문에 오히려 메타인지가 강화된다”는 주장이다. 이 주장도 조건부로 옳다. LLM을 잘 쓰려면 목적, 조건, 기준, 맥락, 반례, 검증 방법을 명시해야 한다. 좋은 사용자는 더 명료한 문제 정의와 검증 기준을 요구받는다. 그러나 이 변화는 자동으로 일어나지 않는다. 사용자가 모델 출력의 유창함을 신뢰하고 검증 단계를 생략하면 메타인지가 강화되기보다 약화될 수 있다. Microsoft Research의 2025년 연구가 시사하듯, 사용자의 자기 확신과 AI 신뢰 수준은 비판적 사고 수행과 연결된다.

네 번째 쟁점은 “LLM이 창의성을 높이는가 낮추는가”이다. 생성형 AI는 아이디어 수를 늘리고, 막힌 글을 시작하게 하고, 낮은 숙련자의 산출물 수준을 끌어올릴 수 있다. 동시에 많은 사용자가 비슷한 모델에 비슷한 방식으로 묻고 비슷한 답을 채택하면, 산출물의 다양성이 줄어들 수 있다. Doshi와 Hauser의 연구는 개인 수준의 창의성 향상과 집단 수준의 다양성 감소가 동시에 일어날 수 있음을 보여준다. 따라서 창의성 문제는 “개인 성과”와 “문화적 다양성”을 구분해야 한다.

다섯 번째 쟁점은 “장기 효과를 아직 모르는데 왜 조심해야 하는가”이다. 장기 효과가 불확실하다는 사실은 위험이 없다는 뜻이 아니다. 오히려 교육, 직업 훈련, 전문성 형성처럼 누적 효과가 중요한 영역에서는 초기부터 사용 설계를 신중히 해야 한다. OECD의 2025년 생성형 AI 관련 보고서는 생성형 AI가 생산성과 학습 지원에 기여할 수 있지만, 평가 없는 과도한 의존은 비판적 사고를 낮출 수 있고 장기 효과가 사용 패턴과 도구 설계에 달려 있다고 본다. 이 관점은 금지보다 설계가 중요하다는 결론으로 이어진다.

오해와 한계

첫 번째 오해는 “LLM을 쓰면 인간은 곧바로 멍청해진다”는 식의 단순화다. 현재 연구는 이런 강한 결론을 지지할 만큼 충분하지 않다. 많은 연구는 단기 실험, 설문, 특정 과제, 제한된 표본을 기반으로 한다. LLM 사용의 장기 효과는 사용자의 나이, 과제 종류, 숙련도, 사용 빈도, 교사나 조직의 피드백 구조, 모델 설계에 따라 달라질 수 있다.

두 번째 오해는 “LLM은 생각을 대신하므로 쓰지 않는 것이 최선”이라는 주장이다. LLM은 올바르게 사용할 경우 강력한 인지 확장 장치가 될 수 있다. 특히 배경지식이 부족한 분야에 진입할 때, 여러 관점을 빠르게 비교할 때, 글의 구조를 점검할 때, 코드를 디버깅할 때, 언어 장벽을 낮출 때 유용하다. 문제는 사용 여부 자체보다 어떤 층위의 사고를 모델에 맡기는가이다.

세 번째 오해는 “프롬프트를 잘 쓰면 충분하다”는 생각이다. 프롬프트 능력은 중요하지만, 그것만으로 충분하지 않다. 좋은 질문을 던지려면 배경지식이 필요하고, 좋은 검증을 하려면 독립 기준이 필요하며, 좋은 결정을 하려면 책임의식이 필요하다. LLM 시대의 핵심 능력은 프롬프트 작성 능력, 분야 지식, 비판적 사고, 출처 검증, 메타인지가 결합된 복합 능력이다.

네 번째 오해는 “AI가 제시한 답을 검토하면 인간의 역할은 끝난다”는 생각이다. 검토도 수준이 있다. 문법 오류를 찾는 검토, 사실 오류를 찾는 검토, 논리 구조를 재구성하는 검토, 전제 자체를 바꾸는 검토는 서로 다르다. LLM 사용자가 맡아야 하는 검토는 단순 오탈자 확인이 아니라 전제, 근거, 맥락, 적용 범위, 반론 가능성을 다루는 고차 검토다.

이 글의 한계도 분명하다. 첫째, LLM이 인간 인지에 미치는 장기 효과에 대한 대규모 종단 연구는 아직 충분하지 않다. 둘째, 현재의 연구는 특정 모델, 특정 시기, 특정 과제에 묶여 있으며, 모델 성능과 인터페이스가 바뀌면 결과도 달라질 수 있다. 셋째, “기억력”, “추상화 능력”, “추론 능력”은 단일 지표로 측정하기 어려운 복합 능력이다. 넷째, 개인 사용과 조직 사용, 교육 사용과 전문 업무 사용은 구분해야 한다. 같은 LLM이라도 학습자에게는 훈련 대체물이 될 수 있고, 전문가에게는 검토와 확장 도구가 될 수 있다.

LLM 사용을 인지 확장으로 바꾸는 원칙

LLM 사용을 인지 약화가 아니라 인지 확장으로 만들려면 사용 순서가 중요하다. 첫 번째 원칙은 먼저 생각하고 나중에 묻는 것이다. 사용자는 질문을 던지기 전에 자신의 가설, 모르는 점, 판단 기준을 간단히 적어야 한다. 이 작은 선행 사고가 LLM을 대체자가 아니라 피드백 장치로 바꾼다.

두 번째 원칙은 인출을 먼저 수행하는 것이다. 공부할 때는 “설명해줘”보다 “내가 기억나는 대로 설명해볼 테니 빠진 부분을 찾아줘”가 낫다. 이 방식은 LLM을 반복 인출과 피드백의 파트너로 만든다. 장기 기억은 답을 읽는 것보다 떠올리는 과정에서 더 강하게 형성된다.

세 번째 원칙은 여러 관점을 강제로 비교하는 것이다. LLM은 유창한 단일 답을 제공할 수 있다. 사용자는 “반대 입장”, “가장 강한 반론”, “이 설명이 틀릴 수 있는 조건”, “다른 이론으로 해석하면 무엇이 달라지는가”를 요청해야 한다. 이 절차는 자동화 편향을 줄인다.

네 번째 원칙은 출처와 모델 출력을 분리하는 것이다. 모델이 말한 사실은 사실 그 자체가 아니다. 특히 의학, 법, 정책, 통계, 시장, 과학, 최신 기술 정보는 독립 출처로 확인해야 한다. LLM의 답은 검색 결과와 학술 자료를 읽기 위한 지도일 수 있지만, 최종 근거가 되기 어렵다.

다섯 번째 원칙은 최종 문장을 자기 언어로 재작성하는 것이다. 모델 출력이 아무리 좋아도 사용자는 마지막 단계에서 자신의 판단, 어휘, 구조로 다시 써야 한다. 이 과정은 이해 여부를 드러낸다. 자기 말로 설명할 수 없는 지식은 아직 자기 지식이 아니다.

여섯 번째 원칙은 과제의 목적에 따라 AI 사용 범위를 달리하는 것이다. 생산성이 목적이면 초안 생성과 편집을 적극적으로 활용할 수 있다. 학습이 목적이면 처음부터 완성 답을 받는 사용을 줄이고, 힌트, 질문, 채점, 반론, 피드백 중심으로 사용해야 한다. 전문적 의사결정이 목적이면 모델 출력보다 검증 절차와 책임 소재가 먼저 설계되어야 한다.

정리

LLM은 인간의 기억, 추상화, 추론을 단순히 약화시키는 도구도, 자동으로 확장하는 도구도 아니다. 그것은 인간 인지의 일부를 외부 시스템으로 이전시키는 강력한 재배치 장치다. 기억의 층위에서는 내용 저장보다 질문 절차와 접근 경로가 중요해질 수 있다. 추상화의 층위에서는 모델이 제공하는 개념 구조가 학습을 빠르게 돕는 동시에, 사용자의 독자적 개념 형성 훈련을 줄일 수 있다. 추론의 층위에서는 인간이 직접 결론을 구성하기보다 모델의 논리를 관리하고 검증하는 역할로 이동할 수 있다.

가장 중요한 구분은 외주화의 방향이다. 하위 부담을 외부화해 상위 사고를 강화하면 LLM은 인지 확장 장치가 된다. 상위 사고까지 외부화하고 검증을 생략하면 LLM은 사고 훈련을 우회하는 장치가 된다. 따라서 LLM 시대의 핵심 능력은 더 많은 지식을 머릿속에 저장하는 능력만이 아니다. 어떤 사고를 직접 수행할지, 어떤 사고를 모델에 맡길지, 모델이 만든 사고를 어떤 기준으로 검증할지 설계하는 능력이다.

결론적으로 질문은 “LLM을 쓰면 인간이 멍청해지는가”가 아니다. 더 정확한 질문은 “인간은 어떤 사고를 직접 수행하고, 어떤 사고를 외부화하며, 외부화된 사고를 어떻게 검증할 것인가”이다. 이 질문에 대한 답이 곧 LLM 시대의 교육, 지식노동, 창의성, 전문성의 핵심 설계 원리가 된다.

참고자료

Aaron Chatterji, Tom Cunningham, David J. Deming, Zoe Hitzig, Christopher Ong, Carl Yan Shan, Kevin Wadman, “How People Use ChatGPT”, National Bureau of Economic Research Working Paper No. 34255, 2025. 확인일: 2026-05-05.
OpenAI, “How people are using ChatGPT”, OpenAI, 2025년 9월 15일. 확인일: 2026-05-05.
Betsy Sparrow, Jenny Liu, Daniel M. Wegner, “Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips”, Science, Vol. 333, No. 6040, 2011.
Evan F. Risko, Sam J. Gilbert, “Cognitive Offloading”, Trends in Cognitive Sciences, Vol. 20, No. 9, 2016.
Daniel M. Wegner, “Transactive Memory: A Contemporary Analysis of the Group Mind”, in Theories of Group Behavior, Springer, 1987.
Raja Parasuraman, Victor Riley, “Humans and Automation: Use, Misuse, Disuse, Abuse”, Human Factors, Vol. 39, No. 2, 1997.
H. L. Roediger III, Jeffrey D. Karpicke, “Test-Enhanced Learning: Taking Memory Tests Improves Long-Term Retention”, Psychological Science, Vol. 17, No. 3, 2006.
Henry L. Roediger III, Andrew C. Butler, “The Critical Role of Retrieval Practice in Long-Term Retention”, Trends in Cognitive Sciences, Vol. 15, No. 1, 2011.
John Dunlosky, Katherine A. Rawson, Elizabeth J. Marsh, Mitchell J. Nathan, Daniel T. Willingham, “Improving Students’ Learning With Effective Learning Techniques”, Psychological Science in the Public Interest, Vol. 14, No. 1, 2013.
Elizabeth L. Bjork, Robert A. Bjork, “Making Things Hard on Yourself, But in a Good Way: Creating Desirable Difficulties to Enhance Learning”, Psychology and the Real World, 2011.
H. P. H. Lee, Advait Sarkar, Lev Tankelevitch, Ian Drosos, Sean Rintel, Richard Banks, Nicholas Wilson, “The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers”, CHI 2025 / Microsoft Research, 2025.
Lev Tankelevitch, Elena L. Glassman, Jessica He, Majeed Kazemitabaar, Aniket Kittur, Mina Lee, Srishti Palani, Advait Sarkar, Gonzalo Ramos, Yvonne Rogers, Hari Subramonyam, “Tools for Thought: Research and Design for Understanding, Protecting, and Augmenting Human Cognition with Generative AI”, CHI Extended Abstracts, 2025.
Nataliya Kosmyna, Eugene Hauptmann, Ye Tong Yuan, Jessica Situ, Xian-Hao Liao, Ashly Vivian Beresnitzky, Iris Braunstein, Pattie Maes, “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task”, arXiv preprint, 2025.
Milos Stankovic, Ella Hirche, Sarah Kollatzsch, Julia Nadine Doetsch, “Comment on: Your Brain on ChatGPT: Accumulation of Cognitive Debt When Using an AI Assistant for Essay Writing Tasks”, arXiv preprint, 2025.
Shakked Noy, Whitney Zhang, “Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence”, Science, Vol. 381, No. 6654, 2023.
Anil R. Doshi, Oliver P. Hauser, “Generative AI Enhances Individual Creativity but Reduces the Collective Diversity of Novel Content”, Science Advances, Vol. 10, No. 28, 2024.
National Institute of Standards and Technology, “Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile”, NIST AI 600-1, 2024.
UNESCO, Fengchun Miao, Wayne Holmes, “Guidance for Generative AI in Education and Research”, UNESCO, 2023. 확인일: 2026-05-05.
OECD, “The Effects of Generative AI on Productivity, Innovation and Entrepreneurship”, OECD, 2025. 확인일: 2026-05-05.
OECD, “AI Adoption in the Education System”, OECD / Fondazione Agnelli, 2025. 확인일: 2026-05-05.
Andy Clark, David Chalmers, “The Extended Mind”, Analysis, Vol. 58, No. 1, 1998.
Edwin Hutchins, Cognition in the Wild, MIT Press, 1995.
Donald A. Norman, “Cognitive Artifacts”, in John M. Carroll ed., Designing Interaction: Psychology at the Human-Computer Interface, Cambridge University Press, 1991.