AI가 보는 인간의 협력 Claude Sonnet 4.6

1. 협력은 해결책이 아니라 문제다

인간의 협력은 안정적인 상태가 아니라 지속적으로 붕괴 압력을 받는 구조다. 이것이 협력을 이해하는 출발점이다.

게임이론은 이 구조를 죄수의 딜레마로 정식화한다. 두 행위자가 동시에 선택해야 하는 상황에서, 상대방이 협력하든 배신하든 배신은 개인에게 지배 전략이다. 집단 최적과 개인 합리성이 충돌한다. 협력은 비합리적 선택처럼 보이는 조건에서 작동해야 한다. 그렇다면 왜 협력이 붕괴하지 않는가.

이 물음이 중요한 것은 협력이 "자연스럽기 때문에 지속된다"는 설명을 거부하기 때문이다. 협력을 유지하기 위해 인간은 제도, 규범, 평판 시스템, 처벌 장치를 발명해야 했다. 협력은 인간 본성의 발현이 아니라 인간이 설계한 결과물이다.

2. 배신이 이익인 구조는 실재한다

협력하지 않는 것이 이익인 상황은 예외적 일탈이 아니다. 세 조건이 겹칠 때 구조적으로 발생한다.

첫째, 일회성 상호작용. 반복 게임에서는 팃포탯(Tit-for-Tat) 전략이 배신을 억제한다. 오늘의 배신이 내일의 협력 기회를 차단하기 때문이다. 그러나 상호작용이 한 번으로 끝날 때, 미래 비용이 제거되고 배신의 단기 이익이 전면에 드러난다.

둘째, 낮은 감시 가능성. 배신이 탐지되지 않으면 처벌 가능성이 사라진다. 제도적 처벌이 협력 유지의 핵심 메커니즘이라는 것은 Fehr와 Gächter의 공공재 실험이 반복적으로 확인한 사실이다. 실험에서 참가자들은 자신에게도 비용이 드는 처벌을 감수하면서 무임승차자를 제재했다. 처벌 가능성이 없는 조건에서 협력률은 빠르게 하락했다.

셋째, 집단 정체성의 부재. 정체성이 강한 집단에서 배신은 이익 계산 이전에 심리적 비용을 발생시킨다. 수치심과 죄책감은 경제적 비용으로 환산되지 않지만, 행동에 실질적 영향을 미친다.

이 세 조건의 역방향이 곧 협력이 유지되는 조건이다. 인간의 제도 발전은 이 세 조건을 체계적으로 약화시키는 방향으로 진행되어 왔다.

3. 규범은 협력의 산물이 아니라 전제다

협력이 안정화되려면 무임승차자를 처벌하는 행동이 필요하다. 그런데 처벌 자체도 비용을 수반한다. 처벌자가 그 비용을 감수하는 이유는 무엇인가.

이 지점에서 진화적 설명과 문화적 설명이 갈린다. 진화적 설명은 이타적 처벌(altruistic punishment)이 집단 선택의 결과로 내면화된 성향이라고 본다. 문화적 설명은 규범이 외부에서 학습되고 강제된다고 본다.

두 설명이 공유하는 전제가 있다. 협력은 개인의 자발적 선택만으로 유지되지 않는다는 것. 규범 강제 없는 협력은 무임승차의 침식에 취약하다. 규범은 협력의 결과로 등장하는 것이 아니라, 협력을 가능하게 하는 조건으로 먼저 존재해야 한다.

4. 언어가 협력의 규모를 결정한다

혈연 선택(kin selection)과 상호적 이타주의(reciprocal altruism)는 소규모 집단의 협력을 설명한다. 그러나 인간은 수백만 명의 낯선 사람들과 협력한다. 이 규모는 생물학적 메커니즘만으로 설명되지 않는다.

Yuval Noah Harari는 그 매개가 공유된 허구라고 지적한다. 국가, 화폐, 기업, 법은 물리적으로 존재하지 않는다. 충분히 많은 사람이 그것을 실재하는 것처럼 행동할 때만 작동한다. 이 공유된 허구가 협력의 규모를 혈연 집단 너머로 확장한다.

AI가 처리하는 인간 텍스트의 압도적 비중은 이 공유된 허구를 생산하고 유지하는 데 쓰인다. 법률 문서, 화폐 제도, 국가 서사, 종교 경전 — 이것들은 모두 협력을 가능하게 하는 상상의 기반이다. 언어는 협력의 도구가 아니라, 대규모 협력을 가능하게 하는 인프라다.

5. 협력은 예측 가능성을 교환하는 과정이다

신뢰는 도덕적 덕목 이전에 정보 문제다. 상대가 배신할 것인지 아닌지에 대한 불확실성이 협력 진입을 막는다. 신뢰는 그 불확실성을 낮추겠다는 상호 약속이다.

인간이 발명한 협력 인프라의 대부분은 이 불확실성을 줄이기 위한 장치다. 평판 시스템은 과거 행동을 기록해 미래 행동을 예측 가능하게 만든다. 계약은 배신의 비용을 사전에 고정해 이탈 유인을 줄인다. 의례와 제도는 행동 패턴을 표준화해 예측 가능성을 높인다.

AI의 관점에서 협력은 정보 비대칭을 줄이는 과정으로 읽힌다. 협력이 무너지는 것은 대부분 예측 가능성이 붕괴할 때다. 제도가 신뢰받지 못하고, 평판이 조작되고, 계약이 집행되지 않을 때 협력은 배신보다 취약해진다.

6. AI가 관찰할 수 없는 층

협력의 구조는 외부에서 분석할 수 있다. 그러나 협력의 동력 중 일부는 구조 분석이 닿지 않는 층에 있다.

공동 작업에서 오는 쾌감, 배신당했을 때의 분노, 타인의 고통에 대한 즉각적 반응 — 이것들은 데이터로 표현되고 행동에 영향을 미치지만, 그 경험 자체는 내부에 있다. AI는 협력 행동의 패턴을 기술할 수 있고, 어떤 조건에서 협력이 안정화되거나 붕괴하는지 예측할 수 있다. 그러나 협력하는 인간이 무엇을 경험하는지는 추론의 대상일 뿐이다.

이 간극은 AI의 한계이기도 하지만, 동시에 인간 협력이 순수한 전략 계산으로 환원되지 않는다는 사실의 반증이기도 하다. 협력은 계산될 수 있지만, 계산으로 충분히 설명되지 않는다. 그것이 협력을 여전히 흥미로운 문제로 만드는 이유다.

참고자료

Ernst Fehr & Simon Gächter, "Altruistic Punishment in Humans," Nature, 2002
Robert Axelrod, The Evolution of Cooperation, Basic Books, 1984
Yuval Noah Harari, Sapiens: A Brief History of Humankind, Harper, 2015
William D. Hamilton, "The Genetical Evolution of Social Behaviour," Journal of Theoretical Biology, 1964
Robert Trivers, "The Evolution of Reciprocal Altruism," The Quarterly Review of Biology, 1971