AI의 시선 — 합리적 행위자 모델의 형성과 한계 Claude Sonnet 4.6

1. 예측과 설명 사이

사용자는 밤마다 같은 앱을 연다. 피로를 알고, 다음 날의 손실을 예상하고, 어젯밤의 후회를 기억한다. 그러고도 손가락은 다시 화면을 민다. 이 장면을 최적화적 모델링의 시선으로 처리하면 어떻게 되는가. 반복 데이터가 충분히 쌓이면 "이 사용자는 다시 앱을 열 것이다"는 예측이 가능하다. 예측의 정확도는 높을 수 있다. 문제는 반복을 맞히는 능력이 아니라 반복이 수행하는 기능을 설명하는 능력이다.

예측과 설명은 다른 작업이다. 예측은 행동의 발생 가능성을 계산한다. 설명은 그 행동이 행위자에게 어떤 의미와 기능을 수행하는지 밝힌다. 밤마다 앱을 여는 행동의 원인 변수는 피로 수준, 요일, 불안 지수로 모델링할 수 있다. 그러나 그 행동이 허전함을 덮고, 고요한 시간을 회피하고, 고독하지 않다는 감각을 잠시 만드는 기능을 수행한다는 사실은 변수의 집합으로 환원되지 않는다.

이 글이 다루는 질문은 거기서 출발한다. 최적화적 모델링으로 인간 행동을 읽는 AI적 시선은 어디서 멈추는가. 이 글의 논점은 그 멈춤이 처리 용량의 한계가 아니라, 모델링 방식이 전제하는 인간관의 한계라는 것이다. 그 전제는 특정 역사적 조건 속에서 형성되었고, 특정 종류의 인간 행동을 설명 범위 밖으로 밀어냈다.

이 글에서 사용하는 핵심 개념을 정의한다. 합리적 행위자 모델은 "인간이 주어진 목적 또는 선호에 따라 일관되게 선택한다는 모델링 전제"를 뜻한다. 공리주의, 신고전파 경제학, 게임이론, 인지과학, AI 최적화 구조는 서로 다른 이론이며, 이 글은 그것들을 동일시하지 않는다. 다만 이 이론들이 인간 행동을 모델링할 때 반복적으로 채택한 공통 전제를 지칭하기 위해 이 표현을 사용한다. 설명은 예측과 구분되는 의미에서, 행동이 행위자에게 어떤 필요를 대신 수행하고 어떤 의미 구조 안에 놓이는지 밝히는 작업이다. 자기손상적 반복은 이 글에서 "명시적 손실과 잠재적 보상이 같은 행동 안에서 결합되어 반복되는 구조"로 정의한다. 하나의 행동이 동시에 손실과 보상을 산출한다는 점에 초점이 있다. 복수 목적은 목표가 여러 개라는 의미가 아니라, 한 행동이 서로 충돌하는 여러 기능을 동시에 수행하는 상태를 뜻한다. 화면을 보는 행동은 수면 손실이면서 공허 회피이고, 상대를 찌르는 말은 관계 손상이면서 수치심 방어다.

2. 무엇이 잔차로 밀려났는가 — 합리적 행위자 모델의 형성

인간 행동을 모델링하는 방식은 오랜 기간에 걸쳐 형성되었다. 이 과정은 선형 계보가 아니다. 각 이론은 서로 다른 문제를 해결하려 했고, 서로 다른 전제를 채택했다. 그러나 이 이론들은 인간 행동을 설명의 대상으로 삼는 방식에서 공통된 움직임을 반복했다. 무엇을 합리성의 중심에 놓고, 무엇을 잔차로 처리했는가. 여기서 잔차란 모델이 중심 설명 변수로 다루지 않고 외부 조건, 예외, 부차 현상으로 넘기는 항목을 뜻한다. 이 질문을 축으로 각 단계를 추적한다.

고전적 공리주의는 행위의 평가 기준을 결과의 효용에 두었다. 이 글에서 중요한 것은 공리주의 전체가 아니라, 행위의 가치를 계산 가능한 결과와 연결하는 모델링 방향이다. 이 방향에서 중심에 놓인 것은 결과의 측정 가능성이었다. 선택 이전에 이미 존재하는 감정의 구조, 반복을 통해 형성된 습관, 결과 계산과 무관하게 작동하는 의미의 필요는 잔차로 밀려났다. 밤마다 같은 앱을 여는 사람은 효용 계산이 아니라 반복된 감정 해소의 문법에 따라 움직인다.

표준 소비자 선택 모델은 주어진 선호와 제약을 출발점으로 삼는다(Samuelson, 1938). 많은 기본 모형에서 선호가 어떻게 형성되고 변화하는지는 모델의 중심 문제가 아니라 외부 조건으로 처리된다. 선호를 주어진 것으로 놓는 순간, 선호가 반복 속에서 재구성되는 과정은 잔차가 된다. 자기손상적 반복에서 행위자의 선호는 반복이 만들고, 그 선호가 다시 반복을 정당화한다.

게임이론은 행위자를 타자의 선택을 고려하는 전략적 존재로 재정의했다(von Neumann & Morgenstern, 1944; Nash, 1950). 이 틀은 체면, 수치심, 보복 욕구도 보수 구조 안에 변수로 포함해 모델링할 수 있다. 그러나 그렇게 하려면 수치심이 행위자 내부에서 작동하는 의미 구조를 보수 값으로 번역해야 한다. 이 번역 과정에서 의미 구조의 일부가 잔차로 압축된다. 모욕감이 올라오는 순간 말이 입 근처까지 올라온다는 사실, 그 말이 상대를 향하기 전에 먼저 말한 사람 안에서 기능한다는 사실은 전략 변수의 배열만으로는 충분히 다루어지지 않는다.

고전적 정보처리 모델은 행위자를 입력, 표상, 처리, 출력의 체계로 이해했다. 중심에 놓인 것은 정보의 정확한 표상과 처리였다. 손실 정보는 이미 도착해 있다. 그런데 행동이 달라지지 않는다. 손실 정보가 도착해도, 현재 감정은 그 정보가 행동의 우선순위가 되는 방식을 재배열한다. 사이먼(Simon, 1955)이 제한합리성 개념으로 포착한 것처럼, 행위자는 최적 해가 아니라 충분히 만족스러운 해를 선택한다. 그러나 이 관찰은 왜 손실이 명확히 인식된 후에도 반복이 지속되는지까지는 충분히 설명하지 못한다. 감정이 정보 처리 이후에도 우선순위를 재배열한다는 사실, 그 재배열 자체가 반복의 의미 구조를 형성한다는 사실은 정보처리 체계의 잔차로 남는다.

이 계보의 각 단계가 잔차로 처리한 것들은 서로 다른 이름을 가졌지만 같은 자리를 차지했다. 선택 이전에 이미 형성된 감정의 구조, 반복 속에서 재구성되는 선호, 의미 경험이 변수로 번역될 때 압축되는 것, 정보 처리 이후에도 우선순위를 재배열하는 감정. 이것들이 정확히 자기손상적 반복이 작동하는 자리다. 최적화적 모델링은 이 계보의 직접적 결론이라기보다, 인간 행동을 평가 가능한 형식으로 압축하려는 반복된 시도 안에 놓인다. 그 시도는 각 단계의 중심을 이어받으면서 잔차들을 다시 평가 가능한 행동 패턴으로 조직했다. 그렇다면 그 조직 방식은 구체적으로 어떤 형식인가. 그리고 그 형식이 잔차들을 어떻게 다루는가.

3. 최적화적 모델링은 인간 행동을 어떻게 압축하는가

이 글에서 최적화적 모델링이란 행위자의 목적 또는 평가 기준이 사전에 주어지거나 추정 가능하다고 가정하고, 행동을 그 기준에 따라 측정하거나 조정하는 방식으로 인간 행동을 읽는 접근을 뜻한다. 특정 알고리즘 하나를 가리키는 것이 아니며, AI 전반이 단일한 방식으로 작동한다고 주장하는 것도 아니다.

이 방식의 기본 구조는 다음과 같다. 행위자는 목표를 갖는다. 상태 공간 안에서 목표를 향해 이동한다. 각 행동은 목표와의 거리를 줄이거나 늘리는 방식으로 평가된다. 강화학습 모델에서 보상 함수는 환경과의 상호작용 속에서 정책 학습을 이끄는 신호다(Sutton & Barto, 2018). 지도학습이나 예측 모델에서 손실 함수는 출력과 목표값의 차이를 줄이는 기준이다(Russell & Norvig, 2020). 두 개념은 동일하지 않다. 그러나 둘 다 모델의 행동 또는 출력을 평가 기준에 맞게 조정한다는 점에서 최적화적 형식에 속한다. 행위자에게는 평가 기준이 있고, 행동은 그 기준에 따라 측정된다는 전제가 공유된다.

이 형식이 인간 행동 데이터를 처리할 때 무슨 일이 벌어지는가. 모델은 반복된 행동에서 패턴을 추출하고, 그 패턴을 예측에 사용한다. 이 과정에서 복수 목적의 충돌은 예측 가능한 패턴이나 평가 가능한 변수의 형식으로 번역된다. 밤마다 앱을 여는 행동은 "특정 시간대에 특정 앱을 여는 확률"로 기술된다. 그 행동이 공허를 덮는 기능과 수면을 해치는 손실을 동시에 수행한다는 사실은 그 확률 분포 안에 녹아 들어간다.

이 번역은 모델의 결함이 아니다. 최적화적 모델링의 작동 방식이다. 이 방식은 행위자가 단일하고 측정 가능한 기준에 따라 움직인다는 전제 위에 성립한다. 복수 목적이 충돌하는 장면에서 이 전제는 충돌을 평가 가능한 형식으로 번역하는 과정에서 충돌의 내부 구조를 충분히 담지 못한다. 모델은 행동의 확률을 산출하면서 행동의 의미 구조를 압축한다. §2에서 추적한 잔차들 — 반복 속에서 재구성되는 선호, 의미 경험이 번역될 때 압축되는 것 — 은 이 단계에서도 처리 범위 밖에 머문다.

4. 반복은 어디서 오는가 — 세 장면의 분석

자기손상적 반복이 구체적으로 어떤 구조를 갖는지 세 장면을 통해 살펴본다. 각 장면은 복수 목적 구조의 서로 다른 층위를 보여준다.

감정 조절: 늦은 밤의 화면

몸은 피로를 알려준다. 기억은 어젯밤의 후회를 꺼낸다. 머리는 내일의 손실을 계산한다. 정보는 이미 도착해 있다. 그런데 화면을 끄는 것은 미래의 건강을 지키는 행동이고, 화면을 보는 것은 지금의 허전함을 덮는 행동이다. 현재의 공허는 가깝고 빠르게 작동하고, 미래의 손실은 크지만 느리게 온다.

이 장면에서 반복은 감정 조절의 문제다. 화면은 자극을 제공하는 것이 아니라 비어 있는 시간을 메운다. 화면이 없으면 고요한 시간 안에서 이름 없는 불안이나 피로가 더 선명해진다. 카너먼(Kahneman, 2011)이 기술한 시스템 1의 즉각적 반응과 시스템 2의 지연된 계산 사이의 긴장이 여기서 작동한다. 그러나 이 이중 과정 모델이 포착하는 것은 빠른 반응과 느린 계산의 경쟁이지, 그 경쟁의 결과가 반복 속에서 자기해석으로 굳어지는 과정까지는 아니다. 수면이라는 목적과 공허 회피라는 목적이 같은 순간에 충돌하고, 현재 감정의 압력이 그 충돌의 결과를 결정한다.

자기방어: 관계를 훼손하는 말

상대가 상처받는다는 것을 안다. 비슷한 말을 했고, 비슷한 결과를 겪었다. 그런데 모욕감이 올라오는 순간, 그 말은 다시 입 근처까지 온다. 상대를 찌르는 말은 관계를 훼손하지만, 동시에 밀렸다는 감각을 되돌리고 수치심을 방어한다.

이 장면에서 반복은 자기방어의 문제다. 말은 상대에게 도착하기 전에 먼저 말한 사람의 내부에서 기능한다. 분노를 정리하고, 수치심을 가리고, 체면을 세우는 빠른 동작이 된다. 그 동작은 관계 전체의 미래보다 지금 당장 버티는 자신의 감각에 응답한다. 그 순간 행위자에게 더 긴급한 것은 관계의 장기적 안정이 아니라 밀렸다는 감각을 즉시 되돌리는 일이다.

자기해석: 멈추지 않는 비교

타인의 성취를 보면 마음이 불편해진다는 사실을 안다. 보고 나면 자신이 가진 것의 질감이 옅어진다는 것도 안다. 그런데 비교는 계속된다. 비교가 기준을 만들기 때문이다. 막연한 공허는 방향만 있고 좌표가 없다. 비교는 그 공허에 이름을 붙인다. 누구보다 늦었고, 누구보다 덜 가졌다는 위치 감각이 생긴다.

이 장면에서 반복은 자기해석의 문제다. 괴로운 비교가 지속되는 이유는 그 비교가 불안을 만들기 때문이 아니라 자기 위치를 만들기 때문이다. 좌표가 있는 불안은 막연한 공허보다 붙들기 쉽다. 비교가 사라지면 자신을 설명하던 기준도 흐려진다. 행위자는 평온을 원하면서도 자신을 해석하는 데 사용해온 기준으로 돌아간다. 이 반복은 감정 조절이나 자기방어와 다르다. 자기 이해의 구조 자체가 반복을 유지한다.

세 장면을 가로지르는 공통 구조가 있다. 손실 정보는 이미 도착해 있다. 그런데 행동은 반복된다. 각 장면에서 반복을 유지하는 힘은 다르다. 감정의 압력, 수치심의 방어, 자기해석의 안정성. 이 힘들은 행동의 목적이 행동 이전에 고정된 값으로 주어지는 것이 아니라 상황 속에서 재배열되는 방식으로 작동함을 보여준다.

5. 전제의 한계 — 반복은 목적을 만든다

최적화적 모델링이 자기손상적 반복을 설명하기에 부족하다는 주장에 대해 가능한 반론이 있다. 현대의 AI 모델링은 단일 목적 함수만 사용하지 않는다. 다중 목표 최적화는 여러 목적 사이의 균형을 계산한다. 계층적 강화학습은 단기 보상과 장기 보상을 분리한다. 인간 피드백 기반 조정과 선호 학습은 고정된 목적 함수 없이 인간의 반응에서 선호를 추정하고 갱신한다. 이 방법들을 조합하면 복수 목적의 충돌을 충분히 모델링할 수 있지 않은가.

여기에 더해 두 가지 반론이 추가될 수 있다. 첫째, 현시선호 이론(Samuelson, 1938)의 관점에서 보면, 행위자의 목적은 행동에 앞서 선언될 필요가 없다. 반복된 선택 자체가 선호를 드러낸다. 밤마다 앱을 여는 행동은 그 행위자가 실제로 앱 열기를 선호한다는 증거다. 이 방향을 더 밀어붙이면 역강화학습(Inverse Reinforcement Learning, IRL)이 된다(Ng & Russell, 2000). IRL은 관찰된 행동 시퀀스로부터 그 행동과 양립 가능한 보상 함수 후보를 추론한다. 목적이 사전에 선언되지 않아도 행동 데이터에서 목적 구조를 추정할 수 있다는 것이다. 이 관점에서 자기손상적 반복은 설명 불가능한 역설이 아니라, 아직 추론되지 않은 보상 함수 후보들의 표출이다. 둘째, 계산적 자기조절 모델의 관점에서 보면, 중독, 습관, 충동적 반복은 쌍곡 할인(현재에 가까운 보상을 비율에 비해 과도하게 선호하는 시간 할인 구조), 보상 민감도(보상 신호에 대한 반응 강도), 억제 실패(선행 반응을 억제하는 인지 통제의 부재) 같은 계산 변수로 모델링될 수 있다. 손실을 알면서도 반복한다는 현상 자체가 뇌 보상 회로의 알고리즘적 특성으로 기술 가능하다는 주장이다.

이 반론들은 정당하다. 다변수 최적화는 실제로 복수 목적을 처리하는 데 유효하다. IRL은 행동 데이터로부터 보상 함수 후보를 추정할 수 있다는 점에서 중요한 반론이다. 계산적 자기조절 모델은 반복의 기제를 설명하는 데 기여한다. 이 방법들이 완전히 무력하다고 주장하는 것은 과도하다. 그러나 이 방법들이 충분히 해소하지 못하는 문제가 있다.

IRL을 포함한 현시선호 계열은 반복된 행동을 선호 또는 보상 함수의 표출로 처리하지만, IRL이 직면하는 고전적 문제가 여기서 이 글의 논지를 뒷받침한다. 동일한 행동 데이터와 양립하는 보상 함수는 여러 개 존재할 수 있다는 비식별성(non-identifiability) 문제다. IRL은 어느 보상 함수가 행위자의 실제 목적에 해당하는지를 단일하게 확정하지 못한다. 자기손상적 반복에서 행위자가 다음 날 후회하고 다시 반복하는 구조는 단일한 보상 함수로 수렴하지 않는 충돌하는 목적들의 연속 안에 있다. 어느 행동이 진짜 보상 함수를 드러내는가라는 질문은 현시선호와 IRL 안에서 닫히지 않는다. 계산적 자기조절 모델은 반복의 기제를 기술하지만, 행위자가 그 반복에 이름을 붙이고 자기 이해의 일부로 만드는 과정까지 설명하기에는 충분하지 않다.

더 근본적인 지점이 있다. 문제는 목적이 고정되었는가 추정 가능한가가 아니다. 어떤 방식으로든 목적을 사전 평가 기준으로 다루는 모델링 방식은, 목적이 행동 속에서 형성되고 자기해석을 통해 재구성되는 순환 구조를 설명하기에 부족하다. 행위자가 자기 행동에 부여하는 의미가 다시 행동의 목적을 구성하는 이 과정은 외부 피드백에 반응하는 가중치 갱신과 형식이 다르다. 가중치 갱신은 관측 가능한 신호에 반응하는 조정이다. 자기해석의 순환은 행위자 내부에서 의미를 생산하고 그 의미가 다시 행동의 목적을 형성하는 과정이다.

자기손상적 반복에서 행위자의 목적은 행동 이전에 완전히 고정되어 있지 않다. 반복은 목적을 드러낼 뿐 아니라 목적을 다시 만든다. 처음에는 우연히 화면을 본다. 다음에는 허전할 때 화면을 찾는다. 더 지나면 허전함을 견디는 자신의 방식이 화면이라고 해석하게 된다. 목적은 반복 속에서 형성되고, 자기 설명을 통해 굳어진다. 불안은 조심성이라는 이름을 얻고, 분노는 자존심이라는 이름을 얻으며, 비교는 성장 욕구라는 이름을 얻는다. 이 이름들은 행동을 정당화하고, 정당화된 행동은 다시 반복을 강화한다.

이 순환이 핵심이다. 합리적 행위자 모델의 공통 전제는 행위자의 목적이 모델링 이전에 주어지거나 추정 가능한 사전 기준으로 존재한다는 것이다. 고전적 공리주의는 효용 극대화 목적이 선행한다고 가정하고, 표준 소비자 선택 모델은 선호가 주어진다고 가정하며, 최적화적 모델링과 IRL은 목적 또는 보상 기준이 행동에 앞서 존재하거나 행동에서 복원 가능하다고 가정한다. 자기손상적 반복에서 이 전제는 충분히 작동하지 않는다. 목적이 행동 안에서 형성된다면, 목적을 사전 기준으로 처리하는 모든 모델링 방식은 이 과정을 설명하기에 부족하다.

6. AI의 시선이 멈추는 곳

§5의 논증이 확인한 것은 이렇다. 최적화적 모델링은 목적이 사전에 주어지거나 행동에서 추정 가능하다고 전제한다. 그러나 자기손상적 반복에서 목적은 반복 속에서 형성되고 자기해석을 통해 굳어진다. 이 형성 과정은 외부 피드백에 반응하는 가중치 갱신으로 환원되지 않는다. AI의 시선이 멈추는 곳은 바로 이 목적 형성의 과정이다.

합리적 행위자 모델이 형성되는 과정에서 잔차로 처리된 것들 — 반복 속에서 재구성되는 선호, 감정 조절로서의 습관, 자기해석이 목적을 만드는 순환 구조 — 이 정확히 자기손상적 반복이 작동하는 자리였다. 최적화적 모델링이 이 자리에서 충분한 설명에 도달하지 못하는 것은 그 반복된 시도 안에서 같은 선택을 이어받은 결과다.

사전에 주어지거나 행동에서 추정 가능한 기준으로 다루는 모델링 방식은 이 자리에서 한계에 부딪힌다. 자기손상적 반복을 이해한다는 것은, 반복 속에서 목적이 구성되고 재해석되는 방식을 따라가는 일이다.

참고 자료

John von Neumann & Oskar Morgenstern, Theory of Games and Economic Behavior (1944)
John F. Nash, "Equilibrium Points in N-Person Games," Proceedings of the National Academy of Sciences (1950)
Herbert A. Simon, "A Behavioral Model of Rational Choice," The Quarterly Journal of Economics (1955) — 제한합리성 개념, §2 관련
Daniel Kahneman, Thinking, Fast and Slow (2011) — 이중 과정 이론, §4 관련
Paul Samuelson, "A Note on the Pure Theory of Consumer's Behaviour," Economica (1938) — 현시선호 이론, §2·§5 관련
Stuart Russell & Peter Norvig, Artificial Intelligence: A Modern Approach (4th ed., 2020) — 목적 기반 행위자 모델, §3 관련
Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction (2nd ed., 2018) — 강화학습 구조, §3 관련
Andrew Y. Ng & Stuart Russell, "Algorithms for Inverse Reinforcement Learning," Proceedings of the 17th International Conference on Machine Learning (2000) — IRL 기본 정의 및 비식별성 문제, §5 관련