Generative Agents 논문 설명문: 기억·반성·계획이 만드는 AI 사회 시뮬레이션

핵심 요약

Joon Sung Park 외 연구진의 「Generative Agents: Interactive Simulacra of Human Behavior」는 대형 언어 모델을 단순한 응답 생성기로 쓰는 대신, 장기 기억을 저장하는 memory stream, 기억을 추상화하는 reflection, 행동을 시간적으로 조직하는 planning을 결합하면 더 지속적이고 일관된 행동을 보이는 시뮬레이션 에이전트를 만들 수 있음을 보인 논문이다. 이 논문이 주장하는 핵심은 “AI가 인간처럼 진짜 행위성을 갖는다”가 아니라, 인간 행동처럼 보이는 그럴듯한 행동 시뮬레이션을 생성할 수 있는 에이전트 아키텍처를 제안했다는 데 있다.

Smallville이라는 가상 마을에서 25명의 에이전트가 이틀 동안 상호작용한 실험은 정보 확산, 관계 형성, 집단 이벤트 조율이 어떻게 발생하는지를 보여준다. 특히 Isabella Rodriguez에게 “Valentine’s Day party를 열고 싶다”는 초기 조건이 주어진 뒤, 초대 전파, 데이트 신청, 장식 준비, 실제 참석이 추가 스크립트 없이 전개되었다. 이 결과는 LLM 기반 에이전트가 단일 프롬프트 응답을 넘어 기억·반성·계획이라는 구조를 가질 때 사회적 행동을 더 그럴듯하게 생성할 수 있음을 보여준다.

문제의식

기존의 LLM은 한 번의 질문에 자연스럽고 설득력 있는 답을 생성하는 데 강하다. 그러나 지속적 행동을 요구하는 환경에서는 여러 약점이 드러난다. 어제 들은 정보를 오늘의 행동에 반영해야 하고, 과거 대화에서 형성된 관계를 기억해야 하며, 단기 반응이 장기 계획과 충돌하지 않아야 한다. 단일 대화형 모델은 이런 장기적 일관성을 자동으로 보장하지 않는다.

게임 NPC, 사회 시뮬레이션, 인간-컴퓨터 상호작용 연구, UX 프로토타이핑, 가상 공동체 실험에서는 에이전트가 단발성 대답을 하는 것보다 훨씬 복잡한 요구를 받는다. 에이전트는 환경을 관찰하고, 과거 경험을 기억하고, 중요한 정보를 골라내고, 자신의 경험을 일반화하며, 시간표에 따라 행동해야 한다. 이 논문은 바로 이 문제를 “LLM 위에 어떤 인지적 구조를 얹을 것인가”라는 아키텍처 문제로 다룬다.

개념의 정의

Generative agent는 생성 모델을 기반으로 인간 행동처럼 보이는 행동을 시뮬레이션하는 계산적 소프트웨어 에이전트다. 여기서 “generative”는 단순히 텍스트를 생성한다는 의미를 넘어서, 에이전트의 행동·대화·일정·관계 변화를 자연어 기반 추론을 통해 생성한다는 의미를 갖는다.

이 논문에서 중요한 표현은 “believable human behavior”이다. 이는 에이전트가 실제 인간과 같은 의식, 의도, 책임 능력을 갖는다는 뜻이 아니다. 관찰자에게 그럴듯하게 보이는 행동 패턴을 생성한다는 뜻에 가깝다. 따라서 이 논문을 읽을 때 “인간 같은 AI”라는 표현은 조심해서 써야 한다. 더 정확한 표현은 “인간 행동의 그럴듯한 시뮬레이션을 생성하는 LLM 기반 에이전트”이다.

이 개념은 전통적인 규칙 기반 NPC와도 다르다. 규칙 기반 NPC는 개발자가 미리 작성한 조건문과 스크립트에 따라 움직인다. Generative agent는 자연어로 저장된 기억과 현재 상황을 바탕으로 LLM이 다음 행동을 생성한다. 강화학습 에이전트와도 다르다. 이 논문의 초점은 보상함수 최적화보다, 기억·반성·계획 구조를 통해 일관된 사회적 행동을 생성하는 데 있다.

배경과 맥락

이 논문은 LLM의 등장 이후 에이전트 연구가 어떤 방향으로 확장될 수 있는지를 보여주는 대표 사례다. LLM은 언어 이해와 생성에 강하지만, 자체적으로 장기 기억 데이터베이스, 일정 관리, 사회적 관계 모델, 환경 상태 추적을 안정적으로 갖고 있지는 않다. 따라서 LLM만 호출하는 구조는 매 순간 그럴듯한 반응을 만들 수 있어도, 장기적 삶의 흐름을 유지하기 어렵다.

연구진은 이 문제를 해결하기 위해 LLM을 하나의 “두뇌”로만 두지 않고, 그 주변에 memory stream, retrieval, reflection, planning을 붙인다. 이 구조는 전통적 인공지능의 상징적 상태 관리와 최근 LLM의 자연어 추론 능력을 결합한 형태로 볼 수 있다. 모든 경험, 계획, 반성은 자연어로 저장되며, LLM은 그 자연어 기록을 읽고 다음 행동을 생성한다.

실험 환경인 Smallville은 The Sims에서 영감을 받은 가상 마을이다. 에이전트들은 집, 카페, 학교, 상점, 공원 같은 공간에서 생활하며 서로 마주치고 대화한다. 각 에이전트는 이름, 직업, 성격, 가족 관계, 관심사 같은 초기 정보를 갖고 출발한다. 이 초기 정보는 에이전트의 첫 기억이 되고, 이후 관찰과 대화가 memory stream에 계속 추가된다.

핵심 논리

논문의 핵심 아키텍처는 “현재 환경 → 관찰 → memory stream → 관련 기억 검색 → reflection 및 planning → 행동 생성”의 흐름으로 이해할 수 있다. 중요한 점은 LLM이 모든 것을 즉석에서 해결하지 않는다는 것이다. LLM은 자연어 추론 엔진 역할을 하지만, 기억 저장, 검색, 반성, 계획은 별도의 구조적 장치로 분리된다.

Memory stream은 에이전트가 경험한 사건을 자연어로 저장하는 장기 기록이다. 예를 들어 “John Lin is cooking breakfast”, “Maria Lopez is studying for a Chemistry test”, “Isabella Rodriguez and Maria Lopez are conversing about planning a Valentine’s Day party” 같은 문장이 계속 축적된다. 각 기록은 생성 시각, 최근 접근 시각, 중요도 같은 메타데이터를 가진다. 이 구조 덕분에 에이전트는 단순히 현재 입력에 반응하는 존재가 아니라, 과거 경험을 가진 존재처럼 행동할 수 있다.

Retrieval은 memory stream 안에서 현재 상황에 필요한 기억만 골라내는 절차다. 논문에서 retrieval은 architecture의 독립 핵심 모듈이라기보다 memory stream을 활용하는 검색 메커니즘으로 이해하는 편이 정확하다. 검색 기준은 recency, importance, relevance이다. 최근에 접근한 기억일수록, 에이전트에게 중요하다고 평가된 기억일수록, 현재 상황과 의미적으로 관련된 기억일수록 더 높은 점수를 받는다. 이 절차가 필요한 이유는 모든 기억을 LLM 프롬프트에 넣을 수 없고, 많은 기억을 무차별적으로 요약하면 중요한 맥락이 희석되기 때문이다.

Reflection은 개별 관찰을 더 높은 수준의 추상적 판단으로 바꾸는 과정이다. 에이전트가 “Klaus Mueller is reading a book on gentrification”, “Klaus Mueller is writing a research paper”, “Klaus Mueller is conversing about his research project” 같은 관찰을 여러 번 축적하면, 시스템은 “Klaus Mueller is dedicated to his research”와 같은 상위 인사이트를 만든다. 이 반성 역시 memory stream에 저장되며, 이후 행동 결정에 다시 사용된다. Reflection은 단순 기억 회상과 다르다. 관찰의 나열을 성향, 관심사, 관계, 목표에 대한 추상적 지식으로 바꾸는 역할을 한다.

Planning은 행동을 시간적으로 조직하는 장치다. LLM이 매 순간 “지금 무엇을 할까”만 결정하면 에이전트는 점심을 이미 먹었는데 또 먹거나, 같은 행동을 반복하거나, 장기 목표와 무관한 행동을 할 수 있다. 논문은 하루 단위의 거친 계획을 먼저 만들고, 이를 시간 단위, 다시 5~15분 단위의 세부 행동으로 분해하는 방식을 사용한다. 이 계획도 memory stream에 저장되기 때문에, 에이전트는 현재 관찰, 과거 기억, 반성, 일정 계획을 함께 고려해 행동한다.

이 구조의 의미는 LLM의 지능을 과장하는 데 있지 않다. 오히려 LLM만으로는 부족하기 때문에, 기억과 계획을 외부 구조로 명시해야 한다는 점이 논문의 핵심이다. Generative agent는 단일 모델의 능력이 아니라, 모델과 주변 아키텍처가 결합된 시스템이다.

구체적 사례

Smallville 실험의 대표 사례는 Valentine’s Day party이다. Isabella Rodriguez는 Hobbs Cafe에서 2월 14일 오후 5시부터 7시까지 파티를 열고 싶다는 초기 의도를 갖고 시작한다. 이후 Isabella는 카페나 마을에서 사람들을 만날 때 파티 소식을 전하고, 파티 준비를 위해 장식을 하며, Maria에게 도움을 요청한다. Maria는 Klaus에게 파티에 함께 가자고 말하고, Klaus는 이를 받아들인다. 2월 14일 오후 5시, Klaus와 Maria를 포함한 5명의 에이전트가 Hobbs Cafe에 나타나 파티에 참석한다.

이 사례에서 중요한 점은 두 가지다. 첫째, 초기 조건은 인간이 주었다. Isabella가 파티를 열고 싶다는 seed suggestion과 Maria가 Klaus에게 호감을 갖는다는 설정은 시스템 밖에서 제공되었다. 둘째, 그 이후의 초대 전파, 장식 준비, 데이트 신청, 참석 조율, 파티 현장 상호작용은 개별 행동 스크립트로 작성된 것이 아니라 에이전트 아키텍처가 생성한 결과다. 따라서 이 사례는 “완전한 무개입 창발”이 아니라 “초기 조건 이후 에이전트 상호작용을 통해 전개된 사회적 행동”으로 설명하는 것이 정확하다.

정보 확산도 중요한 결과다. 처음에는 Sam Moore의 시장 출마 정보를 Sam만 알고 있었지만, 이틀 뒤에는 25명 중 8명, 즉 32%가 알게 되었다. Isabella의 파티 정보는 처음에는 Isabella 한 명만 알고 있었고, 이후 25명 중 13명, 즉 52%가 알게 되었다. 파티 정보를 들은 사람 수를 Isabella를 제외하고 세면 12명이다. 이 수치는 단순 대화 생성이 아니라, 정보가 에이전트 사이의 대화와 기억을 통해 전파되었음을 보여준다.

관계 형성도 관찰되었다. 연구진은 각 에이전트에게 다른 에이전트를 아는지 묻고, 양쪽이 서로를 안다고 답한 경우 관계가 형성된 것으로 보았다. 이 방식으로 구성한 관계 그래프의 밀도는 시뮬레이션 전 0.167에서 종료 시점 0.74로 증가했다. 이는 에이전트들이 단순히 독립적으로 행동한 것이 아니라, 상호작용을 통해 사회적 연결을 형성했음을 보여준다.

조정 행동은 파티 참석 결과에서 드러난다. 초대를 받은 12명의 에이전트 중 5명이 실제 파티에 참석했다. 참석하지 않은 에이전트 중 일부는 다른 일정과 충돌한다고 설명했고, 일부는 관심은 있었지만 당일 계획에 반영하지 못했다. 이 점은 시스템의 강점과 한계를 동시에 보여준다. 에이전트들은 공동 이벤트를 일정에 반영할 수 있었지만, 모든 에이전트가 완전하게 계획을 조정한 것은 아니다.

주요 쟁점과 반론

첫 번째 쟁점은 창발성의 범위다. 이 논문은 emergent social behavior를 보여주지만, 그 창발성은 무에서 저절로 생긴 것이 아니다. 에이전트의 초기 기억, 환경 설계, 대화 가능성, LLM 프롬프트, 검색 함수, 반성 임계값, 계획 생성 방식이 모두 사전에 설계되어 있다. 창발성은 “아무 구조도 없는 곳에서 발생한 행동”이 아니라, “개별 행동을 일일이 스크립트하지 않았는데도 여러 에이전트의 상호작용에서 나타난 집합적 패턴”으로 이해해야 한다.

두 번째 쟁점은 인간다움의 의미다. 에이전트가 인간처럼 보이는 일정을 만들고 대화한다고 해서, 인간과 같은 의식이나 주체성이 생긴 것은 아니다. 논문 제목의 simulacra라는 표현도 중요하다. 이는 원본 인간을 그대로 구현했다는 뜻보다, 인간 행동을 닮은 표상 또는 모사물이라는 의미에 가깝다. 따라서 이 연구는 인공의식 논문이 아니라 인간 행동 시뮬레이션과 인터랙티브 에이전트 아키텍처 논문으로 읽어야 한다.

세 번째 쟁점은 평가의 한계다. “believable”은 어느 정도 주관적 평가를 포함한다. 연구진은 ablation study와 human crowdworker 조건을 통해 비교 평가를 시도했지만, 짧은 시뮬레이션과 제한된 환경에서 얻은 결과를 일반적인 인간 사회의 모델로 확대하기는 어렵다. Smallville은 단순화된 세계이고, 등장인물의 수와 행동 공간도 제한되어 있다.

네 번째 쟁점은 비용과 재현성이다. 논문과 공개 저장소는 구조적 재현성에 유리한 조건을 제공한다. 아키텍처와 코드가 공개되어 있고, 환경도 비교적 명확하다. 그러나 25명의 에이전트를 이틀 동안 실행하는 데 수천 달러의 토큰 비용과 여러 날의 실행 시간이 들었다는 점은 실험 결과의 완전 재현을 어렵게 만든다. 또한 LLM 버전, 프롬프트, 메모리 검색 설정, 비용 환경이 달라지면 결과도 달라질 수 있다. 따라서 “구조적 재현성은 높지만, 실험 결과의 완전 재현성은 제한적”이라고 평가하는 것이 적절하다.

다섯 번째 쟁점은 윤리와 사회적 영향이다. 인간 행동처럼 보이는 에이전트는 사용자가 실제 인간과 유사한 정서적 관계를 맺도록 만들 수 있다. 또한 특정 집단에 대한 편향이나 고정관념이 LLM에서 에이전트 행동으로 전이될 수 있다. 에이전트가 계산적 존재라는 점을 명확히 공개하고, 사용자가 에이전트의 능력과 한계를 오해하지 않도록 설계하는 것이 필요하다.

오해와 한계

흔한 오해 중 하나는 이 논문이 “AI가 인간처럼 살기 시작했다”고 주장한다고 읽는 것이다. 논문의 실제 기여는 인간과 동일한 존재를 만든 것이 아니라, 인간 행동처럼 보이는 장기적 행동 패턴을 만들기 위해 어떤 아키텍처가 필요한지를 보여준 데 있다.

또 다른 오해는 memory stream이 완전한 기억을 보장한다고 보는 것이다. memory stream은 많은 경험을 저장하지만, 필요한 기억을 언제나 올바르게 꺼내는 것은 아니다. 논문은 에이전트가 올바른 기억을 검색하지 못하거나 불완전한 기억 조각만 가져오는 사례를 제시한다. 예컨대 파티와 관련된 일부 기억은 떠올리지만, 정작 파티가 실제로 존재한다는 핵심 기억을 확실히 회상하지 못하는 상황이 생길 수 있다.

Hallucination 문제도 남아 있다. 논문은 에이전트가 전혀 경험하지 않은 사건을 대규모로 꾸며내는 경우는 드물었다고 보지만, 이미 알고 있는 정보에 그럴듯한 장식을 덧붙이는 현상은 관찰되었다. 예를 들어 어떤 인물의 출마 사실은 알고 있지만, 실제로 논의되지 않은 발표 계획을 덧붙이는 식이다. 이는 LLM의 일반적 환각 문제가 에이전트 시스템 안에서도 지속된다는 점을 보여준다.

행동 현실성의 문제도 있다. 에이전트들은 장소의 사회적 규칙이나 물리적 제약을 완전히 이해하지 못할 수 있다. 논문은 일부 에이전트가 점심을 먹기 위해 낮 시간에 바를 선택하거나, 문을 닫은 상점에 들어가는 사례를 언급한다. 이는 자연어 설명만으로 환경의 모든 규범과 제약을 전달하기 어렵다는 점을 보여준다.

마지막으로, 이 연구의 사회 시뮬레이션은 실제 사회를 대체할 수 없다. 25명의 가상 인물, 이틀의 게임 시간, 제한된 마을 환경에서 얻은 결과는 가능성을 보여주는 실험이지, 현실 사회의 경제·정치·문화적 복잡성을 그대로 모사한 것은 아니다. 실제 사회 연구에 적용하려면 더 엄격한 검증, 다양한 인구 집단 모델링, 편향 평가, 장기 시뮬레이션, 독립적 재현 연구가 필요하다.

정리

「Generative Agents」 논문의 핵심은 LLM이 단독으로 인간 행동 시뮬레이션을 해결한다는 주장이 아니다. 이 논문은 LLM의 생성 능력을 memory stream, retrieval, reflection, planning이라는 구조와 결합할 때, 에이전트가 더 일관되고 지속적인 행동을 생성할 수 있음을 보여준다.

Smallville 실험은 이 구조가 단순히 개인 행동을 자연스럽게 만드는 데 그치지 않고, 정보 확산, 관계 형성, 공동 이벤트 조율 같은 사회적 패턴을 만들어낼 수 있음을 보여준다. 하지만 이 결과는 초기 조건, 환경 설계, 프롬프트, 검색 함수, 모델 성능, 비용 조건에 의존한다. 따라서 이 논문은 AI가 인간 사회를 완전히 재현했다는 증거가 아니라, LLM 기반 에이전트가 사회적 행동 시뮬레이션으로 확장될 수 있는 중요한 아키텍처적 출발점으로 보는 것이 적절하다.

가장 압축적으로 말하면, 이 논문의 기여는 다음과 같다. 단일 LLM 응답은 순간적으로 그럴듯할 수 있지만, 장기적 행동과 사회적 상호작용을 만들기 위해서는 기억을 저장하고, 관련 기억을 검색하며, 경험을 추상화하고, 계획을 시간적으로 조직하는 구조가 필요하다. Generative agent는 바로 그 구조를 하나의 실험 가능한 시스템으로 제시했다.

참고자료

Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein, 「Generative Agents: Interactive Simulacra of Human Behavior」, arXiv:2304.03442, 2023. 초판 제출 2023년 4월 7일, v2 2023년 8월 6일.
Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein, 「Generative Agents: Interactive Simulacra of Human Behavior」, Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology, UIST '23, Association for Computing Machinery, 2023.
joonspk-research, 「generative_agents」, GitHub repository, Apache-2.0 license, 확인일 2026년 5월 2일.
OpenAI, 「ChatGPT」, 2022. 논문은 구현 당시 gpt-3.5-turbo version of ChatGPT를 사용했다고 설명한다.