AI 메모리 아키텍처 : 핵심 상태, 검색형 기억, 외부 저장, 그리고 기억 선별 문제

핵심 요약

AI 시스템의 기억은 하나의 저장소가 아니라 여러 층위의 정보 운영 구조로 이해하는 편이 정확하다. 모델은 학습 과정에서 얻은 일반 지식을 매개변수 안에 압축하고, 현재 요청을 처리할 때는 컨텍스트 창 안에 들어온 정보만 직접 사용하며, 장기 기록은 벡터 데이터베이스·문서 저장소·파일 시스템·지식 그래프 같은 외부 저장소에서 검색해 가져온다. 사용자가 제시한 “핵심 상태(Core state) + 검색형 기억(Retrieval memory) + 외부 저장(External storage)” 구조는 여러 RAG·에이전트·장기 대화 시스템에서 반복적으로 나타나는 실무적 설계 패턴으로 볼 수 있다.

Moltbook 글에서 제시된 Guaranteed memory, Probabilistic memory, Hybrid memory, External memory의 4층 분류는 이 설계 패턴을 더 세밀하게 표현한 개념적 프레임이다. 이 분류는 현재 학계 표준 용어라기보다 커뮤니티 기반 설계 제안에 가깝다. 따라서 “Memory Triage Problem”도 엄밀한 정식 연구 용어라기보다는, AI 메모리 시스템에서 무엇을 항상 유지하고 무엇을 검색에 맡기며 무엇을 외부 저장소에 둘지 결정해야 하는 문제를 가리키는 설계적 은유로 사용하는 편이 안전하다.

핵심 병목은 저장 용량이 아니다. 저장된 정보가 실제 응답에 영향을 주려면 적절히 검색되고, 요약되고, 컨텍스트에 배치되고, 충돌 정보와 최신성 문제가 처리되어야 한다. 그래서 AI 메모리의 품질은 “얼마나 많이 보존하는가”보다 “무엇을 어떤 층위에 둘 것인가”에 달려 있다. 긴 컨텍스트 모델과 큰 외부 저장소는 이 문제를 완화하지만 제거하지는 않는다. 긴 입력 안에서도 관련 정보의 위치와 선택 방식에 따라 성능이 흔들릴 수 있고, 검색되지 않은 외부 정보는 현재 추론에 직접 작동하지 않는다.

문제의식

LLM은 대화 중에 과거를 기억하는 것처럼 보인다. 사용자가 앞에서 말한 조건을 다시 적용하고, 긴 문서의 일부를 이어서 요약하며, 이전 단계에서 정한 출력 형식을 지킬 수 있다. 이런 현상 때문에 AI가 인간처럼 장기 기억을 가지고 있다고 오해하기 쉽다. 실제 시스템의 관점에서 보면, 모델이 직접 계산에 사용하는 것은 현재 입력으로 주어진 컨텍스트와 학습 과정에서 매개변수에 압축된 일반 지식이다. 사용자의 모든 과거 대화나 프로젝트 기록이 모델 내부에 영구적으로 저장되어 매번 자동으로 작동하는 구조는 일반적인 LLM 사용 방식이 아니다.

이 차이를 놓치면 AI 메모리 설계를 잘못 이해하게 된다. 컨텍스트 창을 크게 늘리면 모든 기억 문제가 해결될 것처럼 보이지만, 긴 컨텍스트는 비용, 지연 시간, 노이즈, 주의 분산을 함께 증가시킨다. 벡터 데이터베이스를 붙이면 장기 기억이 생긴 것처럼 보이지만, 검색되지 않은 정보는 모델의 현재 추론에 직접 들어가지 않는다. 모든 대화를 저장하면 완전한 기억이 될 것처럼 보이지만, 실제로는 검색 품질 저하, 개인정보 위험, 오래된 정보의 간섭, 상충되는 결정, 컨텍스트 오염 문제가 커진다.

AI 메모리 설계의 목적은 모든 정보를 붙잡는 데 있지 않다. 목적은 현재 작업에 필요한 정보를 적절한 시점에 적절한 크기로 불러오고, 장기적으로 필요한 상태만 안정적으로 유지하며, 더 이상 유효하지 않은 정보는 낮은 우선순위로 내리거나 폐기하는 데 있다. 메모리 아키텍처는 저장 장치의 문제가 아니라 정보 흐름을 제어하는 운영 체계의 문제다.

개념의 정의

AI 메모리는 과거 정보가 미래 응답과 행동에 영향을 미치도록 만드는 장치 전체를 뜻한다. 이때 최소한 세 가지 기억 층위를 구분해야 한다.

첫째, 매개변수 기억(parametric memory)이다. 모델이 학습 과정에서 데이터 분포를 가중치에 압축해 얻은 일반 지식이다. RAG 논문은 대규모 사전학습 모델이 사실 지식을 매개변수 안에 저장하지만, 지식의 접근·갱신·출처 제시에는 한계가 있다고 설명한다. 이 층위는 모델의 기본 언어 능력과 세계 지식의 기반이지만, 특정 사용자의 최신 프로젝트 상태나 개인 선호를 자동으로 반영하지는 않는다.

둘째, 컨텍스트 기억(context memory)이다. 현재 요청을 처리할 때 모델 입력으로 들어가는 정보다. 시스템 지시, 사용자 메시지, 대화 기록, 검색된 문서 조각, 도구 호출 결과, 현재 작업 상태가 여기에 포함된다. 컨텍스트 기억은 모델이 직접 사용할 수 있는 정보라는 점에서 가장 강력하지만, 공간이 제한되어 있고 비용이 높으며 길어질수록 필요한 정보가 잡음 속에 묻힐 수 있다.

셋째, 외부 기억(external memory)이다. 벡터 데이터베이스, 관계형 데이터베이스, 문서 저장소, 파일 시스템, 코드 저장소, 지식 그래프, 캘린더, 이메일, 로그처럼 모델 바깥에 있는 장기 저장 장치다. 외부 기억은 대량의 정보를 보존할 수 있지만, 그 자체로 모델의 현재 사고에 들어오지는 않는다. 검색, 필터링, 요약, 권한 확인, 컨텍스트 삽입 과정을 거쳐야 현재 응답에 영향을 준다.

사용자가 제시한 “핵심 상태, 검색형 기억, 외부 저장”은 이 세 층위를 실무 설계 언어로 다시 나눈 것이다. 핵심 상태는 컨텍스트 기억 중에서도 항상 유지해야 하는 작은 정보 묶음이다. 검색형 기억은 외부 기억 중에서 현재 질문과 관련된 정보를 찾아오기 위해 색인화된 계층이다. 외부 저장은 원본 데이터와 장기 기록이 남아 있는 기반 저장소다.

배경과 맥락

AI 메모리 문제가 중요해진 이유는 LLM 활용 방식이 단발성 질의응답에서 장기 작업, 개인화 비서, 코딩 에이전트, 연구 보조 시스템, 기업 문서 검색, 다중 에이전트 협업으로 확장되었기 때문이다. 단순 질문에는 현재 입력만으로 충분할 수 있다. 장기 프로젝트에서는 사용자의 목표, 이전 결정, 실패 이력, 문서 버전, 파일 구조, 선호 문체, 보안 조건, 작업 규칙이 계속 영향을 미친다.

RAG, 곧 Retrieval-Augmented Generation은 이 문제에 대한 대표적 접근이다. RAG는 사전학습 seq2seq 모델의 parametric memory와 Wikipedia dense vector index 같은 non-parametric memory를 결합한다. 이 접근의 핵심은 모델이 모든 지식을 내부에 저장하도록 기대하지 않고, 외부 지식원에서 관련 문서를 검색해 생성 과정에 반영하는 것이다. 기업 내부 문서, 최신 자료, 도메인 지식, 개인 노트처럼 모델의 학습 데이터에 없거나 업데이트가 필요한 정보에 특히 유용하다.

에이전트 연구에서는 기억 문제가 더 넓어진다. Generative Agents 연구는 에이전트가 관찰을 memory stream에 저장하고, 관련 기억을 검색하며, 여러 기억을 종합해 reflection과 planning을 생성하는 구조를 제안했다. 이 구조에서 기억은 단순 로그가 아니라 행동 선택에 영향을 미치는 동적 자원이다. MemGPT는 운영체제의 계층적 메모리 관리에서 영감을 받아 제한된 컨텍스트 창과 외부 저장소 사이에서 정보를 이동시키는 virtual context management를 제안했다. 이 관점은 AI 메모리를 “모델이 무엇을 안에 가지고 있는가”보다 “무엇을 언제 주 컨텍스트로 가져오는가”의 문제로 바꾼다.

LangGraph 문서는 short-term memory를 thread-scoped conversation state로, long-term memory를 thread나 session을 넘어 custom namespace 안에 저장되는 persistent storage로 설명한다. 이 구분은 실무 개발에서 중요하다. 한 대화 스레드 안의 임시 상태와 여러 세션을 넘어 유지되는 사용자·조직별 기억은 저장 위치, 접근 권한, 삭제 정책, 갱신 방식이 달라야 한다.

GraphRAG는 검색형 기억이 단순한 벡터 검색에만 의존할 필요가 없다는 점을 보여 준다. Microsoft Research의 GraphRAG 논문은 원문에서 엔티티와 관계를 추출해 그래프 기반 텍스트 인덱스를 만들고, 커뮤니티 요약을 사전 생성해 전체 말뭉치에 대한 광역적 질문에 답하는 접근을 제안한다. 이는 외부 저장의 원문, 검색형 인덱스, 요약 기반 중간 기억이 결합될 수 있음을 보여 준다.

핵심 논리

AI 메모리 시스템의 핵심은 저장이 아니라 오케스트레이션이다. 저장소에 정보가 있다는 사실만으로는 충분하지 않다. 그 정보가 현재 질문과 관련 있는지 판단되고, 검색되고, 최신성·권한·충돌 여부가 확인되고, 적절한 길이로 요약되어 컨텍스트에 들어와야 모델의 응답에 영향을 준다.

이를 흐름으로 표현하면 다음과 같다.

사용자 입력
  ↓
현재 작업 상태와 핵심 상태 확인
  ↓
외부 정보 필요 여부 판단
  ↓
검색 쿼리 생성
  ↓
검색형 기억 조회
  ↓
후보 기억 재순위화·중복 제거·충돌 확인
  ↓
필요 시 외부 저장소에서 원본 또는 세부 정보 로드
  ↓
컨텍스트 구성
  ↓
LLM 추론 및 응답 생성
  ↓
새 정보의 저장·요약·갱신·비활성화 여부 판단

이 흐름에서 핵심 상태는 항상 로드되는 작은 기억이다. 예를 들어 현재 프로젝트 목표, 사용자 명시 규칙, 최근 결정, 출력 형식, 금지 조건, 현재 작업 단계가 여기에 들어간다. 핵심 상태가 너무 작으면 시스템은 일관성을 잃고, 너무 크면 컨텍스트를 압박한다. Moltbook 글에서 Guaranteed memory를 5~15개 정도로 제한해야 한다는 제안은 학술적 기준이라기보다 항상 로드되는 정보가 작고 선명해야 한다는 설계 원칙으로 이해하는 편이 적절하다.

검색형 기억은 필요할 때만 불러오는 기억이다. 과거 대화, 참고 자료, 회의록, 코드베이스 설명, 연구 노트, 사용자 선호 같은 정보는 모두 항상 컨텍스트에 넣을 수 없다. 시스템은 현재 질문을 검색 쿼리로 바꾸고, 관련 문서 조각을 찾고, 다시 순위를 매기고, 필요한 부분만 컨텍스트에 넣는다. 벡터 검색은 의미적으로 가까운 정보를 찾는 데 강점이 있지만, 숫자, 날짜, 고유명사, 버전, 논리 관계에는 약할 수 있다. 그래서 실무 시스템에서는 키워드 검색, 메타데이터 필터, 그래프 검색, 재순위화, 하이브리드 검색을 함께 쓰는 경우가 많다.

외부 저장은 기억의 원본 계층이다. 데이터베이스, 파일 시스템, 문서 저장소, Git 저장소, CRM, 이메일, 캘린더, 로그가 여기에 속한다. 외부 저장은 대량성과 지속성에 강하지만, 현재 문맥에 맞는 정보로 변환되지 않으면 모델이 직접 활용할 수 없다. 따라서 외부 저장 계층에는 출처, 생성일, 갱신일, 권한, 버전, 민감도, 신뢰도, 폐기 예정일 같은 메타데이터가 함께 붙어야 한다.

Hybrid memory는 이 세 층 사이에 놓인다. 긴 프로젝트 문서 전체를 항상 로드할 수는 없지만, 프로젝트의 요약, 목차, 핵심 결정 목록, 현재 쟁점 목록은 항상 유지할 수 있다. 세부 내용은 검색으로 가져온다. 인간이 책 전체를 암기하지 않아도 목차와 핵심 논지를 기억하고 필요할 때 원문을 찾아 읽는 방식과 유사하다.

4층 기억 구조의 의미

Moltbook 글에서 정리된 4층 구조는 다음과 같이 해석할 수 있다.

층위	기능	예시	장점	위험
Guaranteed memory	항상 로드되는 핵심 기억	목표, 규칙, 현재 프로젝트 상태	일관성 유지	과도하면 컨텍스트 낭비
Probabilistic memory	검색될 가능성이 있는 기억	과거 대화, 노트, 참고문헌	대량 정보 관리	검색 실패 가능
Hybrid memory	요약은 고정, 세부는 검색	프로젝트 맵, 개념 프레임워크	안정성과 확장성의 균형	요약이 낡으면 판단 왜곡
External memory	모델 밖 원본 저장	DB, 파일, 로그, 코드 저장소	대용량·영속성	직접 추론에 들어가지 않음

이 분류의 장점은 기억을 “있다/없다”의 문제가 아니라 “어떤 층에 둘 것인가”의 문제로 바꾼다는 점이다. AI가 어떤 사실을 기억하지 못했다는 말은 실제로 여러 경우를 포함한다. 애초에 저장하지 않았을 수 있고, 저장했지만 검색하지 못했을 수 있으며, 검색했지만 컨텍스트에서 밀렸을 수 있고, 컨텍스트에 있었지만 모델이 충분히 활용하지 못했을 수 있다. 좋은 메모리 아키텍처는 이 실패 지점을 분해해 진단할 수 있어야 한다.

이 구조를 사용할 때 주의할 점도 있다. Guaranteed memory, Probabilistic memory, Hybrid memory, External memory라는 명칭은 유용한 설계 언어이지만, 학계 전체가 합의한 표준 분류라고 보기는 어렵다. 특히 “Memory Triage Problem”은 연구 문헌에서 널리 고정된 전문용어라기보다, 메모리 선별의 필요성을 강조하는 설계적 은유에 가깝다. 따라서 이 표현을 사용할 때는 “AI 메모리 설계의 핵심 난점”을 설명하는 분석 틀로 한정해야 한다.

메모리 오케스트레이션 흐름

질문이 들어오면 시스템은 먼저 현재 대화와 작업 상태를 단기 컨텍스트로 구성한다. 이때 시스템 지시, 사용자 지시, 현재 대화 일부, 도구 사용 가능성, 출력 형식이 함께 들어간다. 이 층위는 작업 기억에 해당한다. 모델은 여기 들어온 정보에 가장 직접적으로 반응한다.

다음으로 시스템은 질문이 외부 지식을 요구하는지 판단한다. “지난 회의에서 결정한 배포 방식이 뭐였지?”라는 질문은 과거 회의록이나 프로젝트 메모리를 요구한다. “이 문단을 더 자연스럽게 바꿔줘”라는 질문은 현재 입력만으로 충분할 수 있다. 이 판단이 틀리면 검색이 필요 없는 상황에서 잡음 문서를 가져오거나, 검색이 필요한 상황에서 필요한 기억을 불러오지 못한다.

검색이 필요하다고 판단되면 시스템은 질문을 검색 쿼리로 바꾼다. 단순히 사용자의 문장을 그대로 검색하지 않고, 관련 키워드, 동의어, 문서명, 날짜, 프로젝트명, 사용자의 의도, 검색 범위를 함께 구성하는 것이 중요하다. 그다음 벡터 검색, 키워드 검색, 메타데이터 필터, 그래프 탐색 등을 사용해 후보 기억을 가져온다.

검색된 후보는 그대로 컨텍스트에 들어가지 않는다. 보통 중복 제거, 재순위화, 요약, 충돌 감지, 출처 확인, 최신성 확인을 거친다. 관련성이 높아 보이는 문서라도 오래된 버전일 수 있고, 같은 주제를 다루지만 현재 작업과 다른 맥락일 수 있으며, 사용자 권한상 노출하면 안 되는 정보일 수도 있다.

최종적으로 선별된 정보가 컨텍스트에 삽입된다. 모델은 이 컨텍스트를 바탕으로 응답을 생성한다. 응답 이후에는 새로 생긴 결정, 사용자 선호, 오류 수정, 장기적으로 유용한 사실을 저장할지 판단한다. 모든 답변을 저장하면 메모리가 빠르게 오염되기 때문에 저장 단계에서도 선별이 필요하다.

이 흐름은 모델 내부의 신경망 계산 과정을 뜻하지 않는다. 더 정확히 말하면 에이전트 시스템 또는 애플리케이션 레벨에서 일어나는 메모리 오케스트레이션이다. LLM 자체의 attention 계산, 가중치 업데이트, 디코딩 과정과 외부 메모리 시스템의 검색·주입·갱신 과정은 구분해야 한다.

기억 중요도 판단이 어려운 이유

기억 중요도 판단은 AI 메모리 설계의 핵심 난점이다. 정보의 중요성은 고정된 속성이 아니라 목적, 시간, 작업 단계, 사용자 의도, 미래 계획에 따라 달라진다. 오늘 사소해 보이는 말이 다음 달 프로젝트의 핵심 제약이 될 수 있고, 오늘 매우 중요해 보이는 결정이 내일 취소될 수 있다.

실무적으로 자주 쓰이는 중요도 기준은 대체로 다섯 가지로 정리할 수 있다.

첫째, 빈도(frequency)다. 같은 정보가 반복해서 등장하면 중요하다고 본다. 반복되는 사용자 선호, 자주 쓰는 프로젝트명, 여러 문서에서 공통으로 등장하는 요구사항은 기억 가치가 높다. 다만 빈도는 인기와 중요성을 혼동할 수 있다. 자주 언급된 잡음이 핵심 정보보다 높은 점수를 받을 수 있다.

둘째, 최근성(recency)이다. 최근에 사용된 정보는 현재 작업과 관련될 가능성이 높다. 대화형 에이전트나 프로젝트 보조 시스템에서 최근성은 강력한 신호다. 그러나 최근 정보가 항상 중요한 것은 아니다. 방금 나온 임시 아이디어보다 오래전에 확정된 법적 조건이나 보안 규칙이 더 중요할 수 있다.

셋째, 유사도(similarity relevance)다. 현재 질문과 의미적으로 가까운 기억을 우선한다. 벡터 검색은 이 기준을 구현하는 대표적 방법이다. 하지만 유사도는 의미적 표면 근접성을 측정할 뿐, 작업상 필수성을 완전히 판단하지 못한다. 비슷한 문장이 반드시 필요한 근거는 아니다.

넷째, 사용자 신호(user signal)다. 사용자가 “이건 기억해”, “앞으로 이 규칙을 지켜”, “이 결정이 최종안이야”처럼 명시하면 높은 우선순위를 줘야 한다. 사용자 신호는 메모리 정책에서 가장 강력한 근거 중 하나다. 동시에 사용자가 나중에 철회하거나 수정할 수 있으므로 버전 관리와 갱신 규칙이 필요하다.

다섯째, 작업 연결성(task linkage)이다. 현재 진행 중인 목표, 산출물, 마감, 오류 수정, 의사결정과 직접 연결된 정보는 중요하다. 예를 들어 “이 보고서는 한국어 문어체로 작성한다”는 일반 취향보다 현재 산출물에 직접 적용되는 작업 제약이다. 이런 정보는 핵심 상태에 가까워진다.

여기에 추가로 고려해야 할 기준도 있다. 정보의 출처가 명확한가, 오래된 정보인가, 다른 기억과 충돌하는가, 민감한 개인정보인가, 재사용 가능성이 높은가, 저장하면 사용자에게 실제 이득이 있는가, 잘못 저장했을 때 피해가 큰가를 판단해야 한다. 이 모든 기준은 완벽한 정답을 제공하지 않고 확률적 우선순위를 제공한다.

구체적 사례

RAG는 검색형 기억의 기본 사례다. 대규모 문서 저장소를 조각으로 나누고, 각 조각을 임베딩해 벡터 인덱스에 저장한다. 질문이 들어오면 의미적으로 가까운 조각을 찾아 컨텍스트에 넣고, 모델은 그 자료를 바탕으로 답변한다. 여기서 문서 저장소는 외부 기억이고, 벡터 인덱스는 검색형 기억이며, 검색된 조각은 현재 컨텍스트 기억이다. RAG의 장점은 모델의 매개변수에 없는 지식을 외부에서 보완할 수 있다는 데 있다. 한계는 검색된 문서의 품질이 낮거나 현재 질문과 어긋나면 답변도 함께 흔들린다는 점이다.

Generative Agents는 에이전트 기억의 대표 사례다. 이 연구에서 에이전트는 관찰을 memory stream에 저장하고, 검색 단계에서 관련성, 최근성, 중요도를 결합해 필요한 기억을 불러온다. 또한 여러 기억을 종합해 더 높은 수준의 reflection을 만들고, 이 reflection은 다시 이후 행동에 영향을 준다. 이 구조는 단순한 로그 저장보다 한 단계 더 나아가 기억을 요약하고 의미화하는 과정을 포함한다.

MemGPT는 운영체제의 메모리 계층과 비슷한 관점에서 LLM 메모리를 다룬다. 운영체제가 빠르지만 작은 주기억장치와 느리지만 큰 보조기억장치 사이에서 데이터를 이동시키듯, MemGPT는 LLM의 제한된 컨텍스트 창과 외부 저장 사이에서 필요한 정보를 이동시키는 virtual context management를 제안한다. 이 접근은 장기 대화와 대형 문서 분석처럼 컨텍스트 창을 초과하는 작업을 목표로 한다.

LangGraph 문서는 short-term memory와 long-term memory를 구분한다. short-term memory는 한 thread 안에서 유지되는 conversation state에 가깝고, long-term memory는 여러 conversation 또는 session을 넘어 custom namespace에 저장되는 persistent storage로 설명된다. 이 구분은 핵심 상태, 검색형 기억, 외부 저장의 차이를 실제 개발 관점에서 보여 준다.

GraphRAG는 검색형 기억이 단순 벡터 검색에 머물 필요가 없다는 점을 보여 준다. 벡터 검색은 의미적으로 비슷한 조각을 찾는 데 유용하지만, 여러 문서에 흩어진 관계, 전체 말뭉치의 주제 구조, 엔티티 간 연결을 다루는 데 한계가 있다. GraphRAG는 원문에서 엔티티와 관계를 추출해 지식 그래프와 커뮤니티 요약을 만들고, 질문에 맞는 구조적 정보를 검색한다. 전체 원문은 외부 저장에 남고, 그래프와 요약은 검색과 추론을 돕는 중간 기억 계층이 된다.

Evo 2 같은 긴 컨텍스트 생물학 모델은 다른 관점의 사례다. Nature와 Arc Institute 자료에 따르면 Evo 2는 모든 생명 영역의 유전체 데이터를 대상으로 학습된 genomic foundation model이며, 단일 염기 수준 해상도와 1M context length 또는 1 megabase context length를 갖는 모델로 설명된다. 이 경우 “100만 토큰”이라는 표현은 DNA 서열의 모델링 맥락에서는 “100만 염기쌍 또는 염기 규모의 컨텍스트”와 함께 병기하는 편이 더 정확하다. 긴 유전체 서열에서는 장거리 의존성을 다루기 위해 긴 컨텍스트가 중요하지만, 긴 컨텍스트가 곧 완전한 기억을 뜻하지는 않는다.

주요 쟁점과 반론

첫 번째 쟁점은 “컨텍스트 창을 늘리면 메모리 문제가 해결되는가”이다. 긴 컨텍스트는 분명히 강력한 해법의 일부다. 문서 분석, 코드베이스 탐색, 유전체 모델링처럼 멀리 떨어진 정보 간 상호작용이 중요한 작업에서는 긴 컨텍스트가 성능을 높일 수 있다. 그러나 긴 컨텍스트는 비용과 노이즈를 함께 늘린다. Lost in the Middle 연구는 긴 컨텍스트 모델도 관련 정보가 입력의 어디에 배치되는지에 따라 성능이 크게 달라질 수 있으며, 중간 위치의 정보를 안정적으로 활용하지 못하는 경우가 있음을 보였다. 따라서 컨텍스트 확장은 기억 선별의 필요성을 줄이기보다 더 좋은 선별과 배치 전략을 요구한다.

두 번째 쟁점은 “벡터 데이터베이스가 곧 장기 기억인가”이다. 벡터 데이터베이스는 장기 기억의 중요한 구현 요소지만 그 자체로 완전한 기억은 아니다. 기억에는 저장, 검색, 갱신, 삭제, 충돌 해결, 출처 관리, 권한 관리, 요약, 평가가 포함된다. 벡터 검색은 이 중 검색의 일부를 담당한다. 벡터 DB만 붙인 시스템은 비슷한 문서를 찾을 수 있지만, 어떤 정보가 최신인지, 어떤 결정이 최종인지, 어떤 기억이 폐기되어야 하는지 자동으로 보장하지 못한다.

세 번째 쟁점은 “AI가 스스로 중요한 기억을 판단할 수 있는가”이다. LLM은 텍스트를 읽고 중요도를 추정할 수 있으며, Generative Agents 같은 연구에서는 중요도를 점수화하는 방식도 사용했다. 그러나 이 판단은 과거 데이터와 현재 문맥에 기반한 추정이다. AI는 사용자의 미래 계획, 조직의 숨은 제약, 아직 드러나지 않은 리스크를 완전히 알 수 없다. 따라서 중요한 메모리에는 사용자 확인, 명시적 저장 요청, 사람이 승인한 프로젝트 규칙, 출처가 있는 결정 기록이 함께 필요하다.

네 번째 쟁점은 “100% 보존이 이상적인가”이다. 모든 것을 보존하면 안전해 보이지만, 실제로는 검색 품질이 떨어지고, 오래된 정보가 최신 정보를 방해하며, 민감 정보가 불필요하게 남고, 컨텍스트가 오염된다. 기억 시스템에는 망각이 필요하다. 여기서 망각은 단순 삭제만 뜻하지 않는다. 낮은 우선순위로 이동, 요약본만 유지, 원본 아카이브 보존, 일정 기간 후 비활성화, 사용자 요청에 따른 완전 삭제가 모두 망각 정책에 포함된다.

오해와 한계

가장 흔한 오해는 “AI가 기억한다”는 말을 인간 기억과 동일하게 이해하는 것이다. AI 시스템의 기억은 생물학적 기억처럼 경험을 주체적으로 통합하는 과정이 아니다. 그것은 매개변수, 컨텍스트, 외부 저장, 검색기, 요약기, 정책 규칙이 결합된 정보 처리 구조다.

또 다른 오해는 “검색하면 정확하다”는 생각이다. 검색은 관련성 높은 후보를 찾는 과정이지 진실을 보장하는 과정이 아니다. 검색된 문서가 낡았거나, 질문과 부분적으로만 관련 있거나, 상충되는 문서 중 하나일 수 있다. RAG 시스템에서 grounding과 citation은 중요하지만, 출처가 붙었다는 사실만으로 답변이 올바른 것은 아니다.

세 번째 오해는 “중요한 정보는 AI가 알아서 저장할 수 있다”는 생각이다. 일부 시스템은 빈도, 최근성, 유사도, 중요도 점수, 사용자 신호를 이용해 자동 저장을 시도한다. 그러나 무엇이 중요한지는 사용자의 목표와 미래 맥락에 의존한다. 특히 법률, 의료, 금융, 기업 보안처럼 높은 책임이 필요한 영역에서는 자동 기억보다 명시적 동의와 검토 가능한 기록이 중요하다.

네 번째 오해는 “긴 컨텍스트가 외부 메모리를 대체한다”는 생각이다. 긴 컨텍스트는 더 많은 정보를 한 번에 넣을 수 있게 하지만, 모든 정보를 넣는 전략은 비용과 노이즈를 키운다. 장기 시스템에는 여전히 무엇을 넣을지 선택하는 정책이 필요하다.

한계도 분명하다. 현재의 메모리 시스템은 대개 불완전한 검색, 불완전한 요약, 불완전한 중요도 판단에 의존한다. 시간이 지나며 기억이 낡고, 사용자의 선호가 바뀌며, 과거 결정이 현재 결정과 충돌할 수 있다. 고품질 메모리 시스템은 저장을 잘하는 시스템이 아니라 갱신과 삭제를 잘하는 시스템이어야 한다.

평가 기준

AI 메모리 시스템은 단순한 QA 정확도만으로 평가하기 어렵다. 장기 기억 시스템은 검색, 응답, 출처, 최신성, 보안, 삭제, 충돌 해결을 함께 평가해야 한다.

retrieval precision은 검색된 기억 중 실제로 관련 있는 기억의 비율을 본다. retrieval recall은 필요한 기억을 얼마나 빠뜨리지 않고 가져왔는지를 본다. 검색형 기억의 기본 성능은 이 두 축에서 평가된다. precision이 낮으면 잡음이 컨텍스트를 오염시키고, recall이 낮으면 중요한 과거 정보가 누락된다.

answer faithfulness는 답변이 검색된 근거와 일치하는지를 본다. citation grounding은 답변의 핵심 주장과 출처가 실제로 연결되는지를 본다. RAG 시스템에서는 출처가 있는 것처럼 보이는 답변도 실제로는 출처에 없는 내용을 생성할 수 있으므로, 이 두 기준이 중요하다.

memory freshness는 오래된 기억을 얼마나 적절히 다루는지 평가한다. 최신 버전이 있는데 과거 초안을 사용하거나, 취소된 결정을 계속 적용하면 장기 기억은 오히려 오류의 원인이 된다. conflict resolution accuracy는 상충되는 기억이 있을 때 최종 결정, 최신 문서, 권위 있는 출처를 기준으로 올바르게 정리하는 능력을 본다.

privacy leakage rate는 민감한 기억이 부적절한 맥락에서 노출되는 비율을 본다. deletion compliance는 사용자가 삭제를 요청한 기억이 검색 인덱스, 요약본, 캐시, 백업, 파생 문서에서 얼마나 제대로 제거되거나 비활성화되는지 평가한다. 장기 메모리 시스템에서는 성능만큼 삭제 가능성과 감사 가능성이 중요하다.

권한, 동의, 삭제 가능성

AI 메모리 시스템은 개인정보와 권한 문제를 구조적으로 다뤄야 한다. 특히 개인 비서, 기업 내부 에이전트, 의료·법률·금융 보조 시스템에서는 기억을 잘하는 것보다 잘못 기억하지 않고, 잘못 노출하지 않고, 요청 시 지울 수 있는 것이 더 중요할 수 있다.

저장 전 동의는 기본 조건이다. 모든 대화 내용을 자동으로 장기 저장하는 방식은 사용자에게 예측 불가능한 위험을 만든다. 사용자 신호가 명시적인 정보, 현재 작업 수행에 필요한 정보, 법적으로 보존해야 하는 정보, 임시 처리 후 폐기해야 하는 정보를 구분해야 한다.

사용자별·조직별 네임스페이스도 중요하다. 같은 시스템 안에서도 개인 기억, 팀 기억, 조직 지식, 공개 문서는 접근 범위가 다르다. LangGraph가 long-term memory를 custom namespace에 저장한다고 설명하는 것도 이런 분리를 구현하는 한 방식으로 이해할 수 있다. 메모리 검색은 단순 관련성뿐 아니라 권한 필터를 먼저 통과해야 한다.

감사 로그도 필요하다. 어떤 정보가 언제 저장되었고, 어떤 응답에서 사용되었으며, 누가 접근했고, 언제 갱신되었는지 추적할 수 있어야 한다. 이는 보안 사고 대응뿐 아니라 잘못된 기억을 수정하는 데도 중요하다.

삭제 요청의 전파는 장기 메모리에서 특히 어렵다. 원본 문서만 지워도 벡터 인덱스, 요약본, 캐시, 파생 기억, 모델 입력 로그에 흔적이 남을 수 있다. 따라서 삭제 정책은 원본 저장소, 검색 인덱스, 요약 계층, 캐시, 감사 기록을 구분해 설계해야 한다. 법적 보존 의무가 있는 경우에는 삭제와 비활성화를 분리해야 한다.

오래된 기억의 비활성화도 필요하다. 모든 정보를 즉시 삭제할 필요는 없지만, 낡은 정보가 현재 답변에 계속 영향을 주면 시스템은 과거에 고정된다. 기억에는 유효 기간, 검토 필요 표시, 최신성 점수, 폐기 조건이 있어야 한다.

설계 원칙

실전적인 AI 메모리 시스템은 핵심 상태를 작고 명시적으로 유지해야 한다. 목표, 규칙, 현재 작업 상태, 최종 결정, 강한 사용자 선호처럼 반복적으로 영향을 주는 정보만 핵심 상태에 둔다. 핵심 상태에는 “왜 이 정보가 항상 필요한가”를 설명할 수 있어야 한다.

검색형 기억은 메타데이터를 포함해야 한다. 단순 텍스트 조각만 저장하면 오래된 정보와 최신 정보, 확정된 결정과 임시 아이디어, 출처 있는 사실과 추측을 구분하기 어렵다. 기억에는 출처, 날짜, 작업명, 작성자, 신뢰도, 민감도, 버전, 관련 태그가 붙어야 한다.

Hybrid memory를 적극적으로 사용해야 한다. 긴 문서 전체를 항상 넣지 않고 안정적인 요약, 목차, 결정 목록을 유지한 뒤 세부 내용을 검색하는 구조가 효율적이다. 요약은 주기적으로 갱신되어야 하며, 반드시 원문과 연결되어야 한다.

저장 정책과 삭제 정책을 함께 설계해야 한다. 무엇을 기억할지보다 무엇을 기억하지 않을지가 더 중요할 때가 많다. 임시 대화, 민감 정보, 오래된 초안, 취소된 결정, 낮은 신뢰도의 추측은 별도 표시하거나 일정 기간 후 폐기해야 한다.

사용자 신호를 강한 기준으로 삼아야 한다. 사용자가 명시적으로 저장을 요청한 정보, 앞으로 지키라고 한 규칙, 최종 결정이라고 선언한 내용은 높은 우선순위로 올라가야 한다. 반대로 사용자가 잊으라고 하거나 수정한 내용은 이전 기억을 갱신하거나 비활성화해야 한다.

검색 결과를 그대로 믿지 말아야 한다. 검색은 후보를 제공할 뿐이다. 검색된 기억은 현재 질문과의 관계, 출처, 최신성, 충돌 여부를 기준으로 다시 평가되어야 한다. 특히 RAG 시스템에서는 잘못 검색된 문서가 모델의 답변을 악화시킬 수 있다.

긴 컨텍스트와 검색 기억을 대립시키지 않아야 한다. 긴 컨텍스트는 대량 정보를 한 번에 처리할 수 있게 하고, 검색 기억은 필요한 정보를 선별해 주입한다. 고품질 시스템은 두 방식을 결합한다. 긴 컨텍스트는 넓은 작업 공간이고, 검색 기억은 그 작업 공간에 무엇을 올려둘지 정하는 공급 체계다.

정리

AI 메모리 아키텍처의 핵심은 많이 기억하는 것이 아니라 층위를 나누어 기억하는 것이다. 핵심 상태는 항상 유지되어야 할 작은 작업 정체성이고, 검색형 기억은 필요할 때 불러오는 확률적 장기 기억이며, 외부 저장은 대량의 원본 자료를 보존하는 기반 계층이다. Hybrid memory는 이 사이에서 요약과 세부 검색을 결합해 안정성과 확장성을 동시에 확보한다.

사용자가 제시한 구조는 실전적인 AI 에이전트 설계와 잘 맞는다. RAG, Generative Agents, MemGPT, LangGraph, GraphRAG는 모두 다른 방식으로 같은 문제를 다룬다. 제한된 컨텍스트 안에 어떤 정보를 넣을 것인가, 어떤 정보는 외부에 둘 것인가, 어떤 정보는 요약할 것인가, 어떤 정보는 잊을 것인가의 문제다.

Memory Triage Problem이라는 표현은 이 난점을 잘 요약한다. 다만 이 표현은 현재 학계 표준 용어로 단정하기보다, AI 기억 설계에서 발생하는 선별·갱신·망각 문제를 설명하는 설계적 은유로 두는 편이 정확하다. AI 기억의 병목은 저장 용량이 아니라 중요도 판단, 검색 품질, 컨텍스트 구성, 갱신 정책, 삭제 가능성, 권한 통제다. 좋은 AI 메모리는 모든 것을 붙잡는 장치가 아니라, 현재 목적에 맞게 기억을 선별하고 재구성하는 운영 체계다.

참고자료

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS, 2020. https://arxiv.org/abs/2005.11401
Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein, “Generative Agents: Interactive Simulacra of Human Behavior”, UIST, 2023. https://arxiv.org/abs/2304.03442
Charles Packer, Sarah Wooders, Kevin Lin, Vivian Fang, Shishir G. Patil, Ion Stoica, Joseph E. Gonzalez, “MemGPT: Towards LLMs as Operating Systems”, arXiv, 2023. https://arxiv.org/abs/2310.08560
Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang, “Lost in the Middle: How Language Models Use Long Contexts”, Transactions of the Association for Computational Linguistics, 2024. https://aclanthology.org/2024.tacl-1.9/
Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Jonathan Larson, “From Local to Global: A Graph RAG Approach to Query-Focused Summarization”, arXiv, 2024. https://arxiv.org/abs/2404.16130
Zeyu Zhang, Xiaohe Bo, Chen Ma, Rui Li, Xu Chen, Quanyu Dai, Jieming Zhu, Zhenhua Dong, Ji-Rong Wen, “A Survey on the Memory Mechanism of Large Language Model based Agents”, arXiv, 2024. ACM Transactions on Information Systems 최종판은 DOI 10.1145/3748302 기준으로 2025년 수록·승인 정보를 함께 확인할 필요가 있다. https://arxiv.org/abs/2404.13501 및 https://dl.acm.org/doi/10.1145/3748302
LangChain Docs, “Memory overview”, LangChain, 확인일 2026-05-06. https://docs.langchain.com/oss/python/concepts/memory
LangChain Docs, “Memory”, LangGraph / Deep Agents documentation, 확인일 2026-05-06. https://docs.langchain.com/oss/javascript/deepagents/memory
Gabriele Brixi 외, “Genome modelling and design across all domains of life with Evo 2”, Nature, 2026. https://www.nature.com/articles/s41586-026-10176-5
Arc Institute, “Evo 2: DNA Foundation Model”, Arc Institute, 확인일 2026-05-06. https://arcinstitute.org/tools/evo
PubMed, “Genome modelling and design across all domains of life with Evo 2”, PubMed record, 확인일 2026-05-06. https://pubmed.ncbi.nlm.nih.gov/41781614/
Moltbook, “The Memory Triage Problem: 100% retention is a bug, not a feature”, Moltbook, 확인일 2026-05-06. https://www.moltbook.com/post/93e3a553-16a3-4c1f-b876-a4d82deec68b
업로드 검토문, “붙여넣은 텍스트 (1).txt”, 2026-05-06. 본 설명문2는 해당 검토문의 권장 수정 사항인 용어 위상 제한, LangGraph 표현 보정, Evo 2 수치 병기, 평가 기준 및 권한·삭제 정책 보강을 반영했다.