텍스트 AI에서 사회적 AI로: 언어 이해, 신체화, 기억, 목적, 규범 접지의 단계적 설명

핵심 요약

텍스트 패턴만으로도 언어 내부의 관계, 개념 간 유사성, 문맥상 추론, 사회적 사용 규칙의 상당 부분은 학습될 수 있다. 그러나 그것만으로 “사과의 맛”, “컵을 조심히 든다”, “약속을 어긴다”, “무례하다”, “책임이 있다” 같은 의미가 충분히 접지되는 것은 아니다. 이 부족함을 해결하려면 AI는 텍스트 처리기를 넘어 세계 속에서 지각하고, 행동하고, 실패하고, 기억하고, 타인과 조정하며, 규범을 해석하는 행위자로 확장되어야 한다.

이 설명문은 다음 흐름을 기본 구조로 삼는다.

텍스트 AI → 피지컬 AI → 기억을 가진 행위자 → 목적을 가진 행위자 → 사회적 피드백을 받는 행위자 → 규범을 해석하는 사회적 AI

이 흐름은 단순한 기술 발전 단계가 아니라, “의미가 어디에 접지되는가”에 대한 철학적·인지과학적·AI 연구적 설명이다. 텍스트 AI는 언어 내부의 관계망에 강하고, 피지컬 AI는 감각-운동 접지를 보완하며, 기억과 목적은 경험의 연속성과 중요도 구조를 만들고, 사회적 피드백은 타자와의 공동 세계를 형성하며, 규범 학습은 “할 수 있음”과 “해도 됨”을 구분하게 만든다.

1. 출발점: 텍스트 패턴만으로 언어 이해가 가능한가

텍스트 기반 AI의 강점은 분명하다. 단어와 문장은 고립되어 존재하지 않는다. “고양이”는 “동물”, “털”, “야옹”, “반려동물”, “사료” 같은 단어와 함께 등장하고, “개”는 “동물”, “짖다”, “산책”, “주인”, “반려동물” 같은 단어와 함께 등장한다. 이런 관계가 대규모로 축적되면 단어 사이의 유사성, 범주 관계, 문맥상 추론이 형성된다.

이 관점은 분포 의미론 또는 분포 가설로 설명된다. Zellig Harris의 분포 구조 분석, J. R. Firth의 “단어는 함께 등장하는 말들에 의해 알려진다”는 표현은 이후 통계적 의미론과 벡터 의미론의 중요한 배경이 되었다. 현대 LLM은 단순한 단어 공기 빈도 모델은 아니지만, 언어 사용의 대규모 패턴을 통해 의미적 표현을 학습한다는 점에서 이 전통과 연결된다.

그러나 여기서 문제가 생긴다. 텍스트 AI가 “사과는 빨갛고 달콤한 과일이다”라는 문장을 매우 잘 다룬다고 해서, 그것이 실제 사과를 보고, 만지고, 냄새 맡고, 씹고, 삼키는 경험과 연결되어 있는가? Harnad의 기호 접지 문제는 바로 이 지점을 겨냥한다. 기호가 다른 기호로만 설명되면, 의미는 시스템 내부에서 자립하지 못하고 인간 해석자의 의미에 의존할 수 있다. Searle의 중국어 방 논증도 비슷한 방식으로, 규칙에 따른 기호 조작이 곧 이해를 뜻하는지 의문을 제기한다.

따라서 텍스트 AI의 언어 이해는 두 층위로 나누어야 한다.

첫째, 약한 의미 이해다. 이는 문장 안팎의 관계를 파악하고, 적절한 답변을 생성하며, 개념 간 유사성과 차이를 설명하는 능력이다. 현재 LLM은 이 영역에서 강력하다.

둘째, 강한 의미 이해다. 이는 단어가 세계의 사물, 행위, 감각, 목적, 사회적 관계, 규범적 책임과 연결되는 능력이다. 이 영역에서는 텍스트만으로 충분한지 논쟁이 지속된다.

2. 피지컬 AI: 감각-운동 접지의 보완

피지컬 AI는 이 문제에 대한 가장 직접적인 보완책이다. 피지컬 AI란 카메라, 마이크, 촉각 센서, 위치 센서, 로봇 팔, 이동 장치 등을 통해 세계를 지각하고 행동할 수 있는 AI를 말한다. 이때 언어는 더 이상 텍스트 내부의 패턴에만 머물지 않고, 지각과 행동의 결과에 연결된다.

예를 들어 텍스트 AI는 “컵을 조심히 들어라”라는 문장을 설명할 수 있다. 그러나 피지컬 AI는 그 문장을 실제 행동으로 바꾸면서 다음 관계를 학습한다.

컵은 손잡이와 몸통을 가진 물체다.
컵은 비어 있을 수도 있고 액체를 담고 있을 수도 있다.
젖은 컵은 미끄러질 수 있다.
유리컵은 너무 강하게 잡으면 깨질 수 있다.
뜨거운 컵은 접촉 방식이 달라져야 한다.
컵을 기울이면 액체가 쏟아질 수 있다.
“조심히”는 속도, 힘, 각도, 경로, 주변 사람과 물체의 위치를 조절하는 방식으로 구현된다.

이때 “조심히”라는 단어는 단순한 형용사나 부사가 아니라, 몸의 힘 조절과 결과 예측의 문제로 바뀐다. “무겁다”는 단어도 사전적 정의가 아니라 모터 부하, 들어 올리기 실패, 균형 상실, 재시도 전략과 연결된다. “가깝다”는 단어는 좌표, 이동 비용, 충돌 가능성과 연결된다.

SayCan은 언어 모델이 제안하는 행동의 유용성과 로봇이 실제로 수행할 수 있는 행동의 가능성을 결합하는 방식으로, 언어 명령을 로봇의 affordance와 연결하려 했다. PaLM-E는 언어 모델에 시각 및 상태 정보를 직접 통합하여 로봇 계획과 시각 질문응답을 연결했다. RT-2는 웹 규모의 시각-언어 지식을 로봇 제어와 결합해, 로봇이 보지 못한 대상과 지시에도 더 일반화된 행동을 보이도록 시도했다. Open X-Embodiment는 여러 로봇 형태와 과제를 포괄하는 대규모 로봇 궤적 데이터를 통해 범용 로봇 정책 학습의 가능성을 탐색했다.

이 흐름은 기호 접지 문제의 한 부분을 실제로 완화한다. 피지컬 AI는 “단어 → 단어”의 순환에서 벗어나 “단어 → 지각 → 행동 → 결과 → 수정”의 루프를 만든다.

3. 그러나 몸만으로는 부족하다

피지컬 AI가 중요한 단계인 것은 맞지만, 그것이 언어 이해의 모든 부족함을 해결하지는 않는다. 이유는 의미의 종류가 다르기 때문이다.

“컵”, “문”, “잡다”, “떨어뜨리다”, “미끄럽다” 같은 개념은 물리적 접지와 강하게 연결된다. 반면 “약속”, “신뢰”, “무례”, “책임”, “정의”, “권리”, “존엄”, “배려” 같은 개념은 물리적 조작만으로 충분히 설명되지 않는다. 이 개념들은 사람들 사이의 기대, 역할, 역사, 의도, 평가, 제재, 인정 속에서 의미를 갖는다.

예를 들어 로봇이 문을 열 수 있다고 해서 “허락 없이 들어가면 안 된다”를 이해하는 것은 아니다. 로봇이 컵을 전달할 수 있다고 해서 “상대가 원하지 않는 도움은 간섭이 될 수 있다”를 이해하는 것도 아니다. 로봇이 사람의 표정을 인식한다고 해서 “지금은 침묵이 더 적절하다”는 규범적 판단을 곧바로 할 수 있는 것도 아니다.

따라서 신체화는 필요조건에 가깝지만 충분조건은 아니다. 피지컬 AI 이후에는 경험의 누적, 목적의 구조화, 사회적 피드백, 규범 해석이 추가되어야 한다.

4. 기억을 가진 행위자: 경험의 연속성 만들기

기억은 의미를 시간 속에 고정한다. 단발성 AI는 매 순간을 분리된 문제로 처리한다. 그러나 인간의 의미 이해는 과거 경험, 반복된 실패, 관계의 역사, 이전의 약속, 상대방의 선호를 통해 깊어진다.

예를 들어 “이 사람에게 커피를 가져다줘”라는 명령은 단순한 물체 이동 과제가 아니다. 장기 기억이 있는 AI라면 다음 요소를 고려할 수 있다.

그 사람은 뜨거운 음료를 천천히 마시는가.
그 사람은 설탕을 싫어하는가.
전에 컵을 너무 가까이 놓아 불편함을 준 적이 있는가.
회의 중에는 말없이 놓고 가는 것을 선호하는가.
특정 시간 이후에는 카페인을 피하는가.

이때 “커피를 가져다준다”는 행위는 물리적 운반이 아니라, 개인적 선호와 상황적 예절을 반영한 행동이 된다. 기억은 단어와 행동을 개인적·상황적 의미로 바꾼다.

Generative Agents 연구는 자연어 형태의 memory stream, reflection, planning 구조를 통해 에이전트가 과거 관찰을 저장하고, 그것을 상위 추론으로 합성하며, 계획에 반영하는 방식을 제안했다. Reflexion은 에이전트가 실패나 피드백을 언어적으로 반성하고 episodic memory에 저장해 이후 의사결정에 활용하도록 했다. Voyager는 마인크래프트 환경에서 자동 커리큘럼, 지속적으로 확장되는 스킬 라이브러리, 환경 피드백을 활용해 장기적 기술 축적을 보였다.

이런 연구들은 공통적으로 한 가지를 보여준다. 의미는 단일 입력에서 생기지 않는다. 의미는 경험의 누적, 실패의 기록, 재시도의 구조, 이전 맥락의 회수에서 깊어진다.

5. 목적을 가진 행위자: 세계에 중요도 부여하기

기억이 경험의 연속성을 만든다면, 목적은 세계에 중요도를 부여한다. 목적이 없는 시스템에게 세계는 단순한 데이터의 배열이다. 목적이 생기면 사물과 사건은 “관련 있는 것”과 “관련 없는 것”, “도움 되는 것”과 “방해되는 것”, “위험한 것”과 “무해한 것”으로 나뉜다.

예를 들어 “의자”라는 사물은 목적에 따라 의미가 달라진다.

앉는 것이 목적이면 의자는 휴식의 수단이다.
방을 청소하는 것이 목적이면 의자는 이동시켜야 할 장애물이다.
넘어진 사람을 돕는 것이 목적이면 의자는 부상 위험 요소일 수 있다.
예배당이나 회의실에서는 의자가 사회적 배치와 권한 구조를 나타낼 수 있다.

따라서 목적은 지각된 세계를 행동 가능한 세계로 재구성한다. 물체의 의미는 물체 자체에만 있지 않고, 행위자의 목적과 연결될 때 형성된다.

AI에서 목적 구조는 보상 함수, 목표 조건, 선호 모델, 계획 시스템, 가치 함수 등으로 구현될 수 있다. 그러나 목적을 고정된 명령으로만 주면 위험하다. 인간의 목적은 불완전하게 표현되고, 상황에 따라 달라지며, 서로 충돌한다. “빨리 처리하라”는 목적은 “안전하게 처리하라”는 목적과 충돌할 수 있고, “사용자의 요구를 따르라”는 목적은 “타인에게 피해를 주지 말라”는 규범과 충돌할 수 있다.

Cooperative Inverse Reinforcement Learning은 인간과 로봇이 같은 보상 함수를 공유하지만 로봇은 그 보상 함수를 처음부터 알지 못한다는 문제 설정을 통해, AI가 인간 선호를 상호작용 속에서 배워야 함을 형식화했다. 이 관점에서 좋은 AI는 인간의 명령을 기계적으로 수행하는 존재가 아니라, 인간의 목적이 불완전하게 표현되었음을 전제로 삼고 더 나은 해석을 시도하는 협력자에 가깝다.

6. 사회적 피드백을 받는 행위자: 공동 세계 만들기

사회적 의미는 혼자서는 완성되지 않는다. 인간은 단어를 사전으로만 배우지 않는다. 아이는 보호자와 함께 같은 물체를 보고, 가리키고, 반응을 확인하고, 칭찬과 제지를 받으며 언어를 배운다. 공동 주의(joint attention)는 언어와 사회적 인지 발달에서 중요한 역할을 한다. Vygotsky의 사회문화적 관점도 고등 정신 기능이 사회적 상호작용과 문화적 도구의 내면화를 통해 발달한다고 본다. Tomasello 역시 인간 인지와 언어의 핵심을 공동 의도성, 문화 학습, 타인의 의도 이해에서 찾았다.

이 관점에서 사회적 AI는 단순히 “사람과 대화하는 AI”가 아니다. 사회적 AI는 다음 능력을 가져야 한다.

같은 대상을 함께 주목할 수 있어야 한다.
상대가 무엇을 알고 모르는지 추정할 수 있어야 한다.
자신의 행동이 상대에게 어떤 의미로 해석될지 예측해야 한다.
오해가 발생했을 때 수정 질문을 할 수 있어야 한다.
사회적 제재와 칭찬을 행동 수정의 신호로 사용할 수 있어야 한다.
관계의 역사에 따라 같은 말과 행동의 의미가 달라짐을 이해해야 한다.

RLHF는 인간의 선호 평가를 활용해 모델 출력을 조정하는 대표적 방법이다. Christiano 등의 인간 선호 기반 강화학습은 사람이 궤적 쌍을 비교해 선호를 제공하면 에이전트가 복잡한 목표를 학습할 수 있음을 보였다. Ouyang 등의 InstructGPT 연구는 인간 피드백을 활용해 언어 모델이 사용자의 의도에 더 잘 맞는 출력을 내도록 학습할 수 있음을 보였다.

다만 사회적 피드백은 단순 선호 점수만으로 충분하지 않다. 인간의 피드백은 문화적으로 다르고, 불완전하고, 때로 모순적이다. 따라서 사회적 AI는 피드백을 단순한 정답 라벨로만 처리하지 말고, 그 피드백이 어떤 맥락과 역할과 관계에서 나온 것인지 해석해야 한다.

7. 규범을 해석하는 사회적 AI: “할 수 있음”과 “해도 됨”의 구분

피지컬 AI는 “무엇을 할 수 있는가”를 확장한다. 그러나 사회적 AI에게 더 중요한 질문은 “무엇을 해도 되는가”다. 로봇이 문을 열 수 있어도 사적인 공간에 들어가면 안 될 수 있다. AI가 이메일을 보낼 수 있어도 사용자의 최종 동의 없이 보내면 안 될 수 있다. AI가 사람을 설득할 수 있어도 취약한 사람을 조종하면 안 될 수 있다.

규범은 단순한 금지 목록이 아니다. 규범은 상황 속에서 해석되어야 한다. 예를 들어 다음 규범들은 실제 상황에서 충돌할 수 있다.

정직해야 한다.
상대에게 불필요한 상처를 주지 않아야 한다.
사용자의 자율성을 존중해야 한다.
안전을 우선해야 한다.
개인정보를 보호해야 한다.
공정해야 한다.
법을 지켜야 한다.
긴급 상황에서는 빠르게 개입해야 한다.

문제는 어느 하나의 규칙이 항상 우선하지 않는다는 점이다. 의료, 교육, 돌봄, 법률, 업무 자동화, 가정용 로봇, 노인 돌봄 로봇 같은 영역에서는 규범이 서로 충돌한다. 따라서 규범을 해석하는 AI는 단순히 “규칙 데이터베이스”를 조회하는 시스템이 아니라, 상황을 분류하고, 이해관계자를 식별하고, 잠재적 피해를 예측하고, 선택 가능한 행동의 정당화 가능성을 평가해야 한다.

Constitutional AI는 인간이 제공한 원칙 목록을 바탕으로 모델이 스스로 비판과 수정을 수행하고, AI 피드백을 통해 더 안전한 출력을 학습하는 방식을 제안했다. Dignum의 Responsible AI 논의는 AI 시스템이 책임, 투명성, 사회적 가치, 제도적 맥락 속에서 설계되고 사용되어야 함을 강조한다. Gabriel의 가치 정렬 논의는 AI alignment가 기술적 문제이면서 동시에 규범적 문제라고 본다.

즉, 규범 학습은 “정답을 많이 외우는 문제”가 아니라 “상황 속에서 어떤 이유로 어떤 행동이 정당한지 판단하는 문제”다.

8. 전체 흐름의 단계적 모델

이제 처음의 흐름을 더 엄밀하게 정리할 수 있다.

8.1 텍스트 AI

텍스트 AI는 언어 내부의 관계를 학습한다. 단어, 문장, 장르, 논증 구조, 문맥상 함축, 사회적 표현 관습을 다룬다. 이 단계의 강점은 추상화, 설명, 요약, 번역, 분류, 글쓰기, 코드 생성이다. 한계는 세계와의 직접적 인과 접촉이 약하다는 점이다.

핵심 접지 방식은 텍스트-텍스트 관계다.

8.2 피지컬 AI

피지컬 AI는 지각과 행동을 통해 언어를 세계와 연결한다. 물체, 공간, 운동, 힘, 접촉, 실패, 도구 사용, 환경 변화가 의미의 일부가 된다. 이 단계의 강점은 물리적 affordance와 원인-결과 학습이다. 한계는 사회적·규범적 의미가 아직 부족하다는 점이다.

핵심 접지 방식은 언어-지각-행동-결과 관계다.

8.3 기억을 가진 행위자

기억을 가진 행위자는 단발성 반응을 넘어 경험을 축적한다. 과거 실패, 사용자의 선호, 관계의 역사, 장소의 특성, 반복된 맥락을 저장하고 재사용한다. 이 단계의 강점은 개인화와 장기적 일관성이다. 한계는 기억이 목적과 규범 없이 작동하면 단순한 기록 저장소에 머물 수 있다는 점이다.

핵심 접지 방식은 현재 입력-과거 경험-미래 행동의 연결이다.

8.4 목적을 가진 행위자

목적을 가진 행위자는 세계에 중요도를 부여한다. 무엇을 달성해야 하는지, 무엇이 방해인지, 무엇이 위험인지, 무엇을 우선해야 하는지를 판단한다. 이 단계의 강점은 계획과 선택이다. 한계는 목적이 잘못 주어지거나 과도하게 단순화되면 인간의 실제 선호와 어긋날 수 있다는 점이다.

핵심 접지 방식은 상태-목표-행동-평가의 연결이다.

8.5 사회적 피드백을 받는 행위자

사회적 피드백을 받는 행위자는 타인의 반응을 통해 자신의 행동 의미를 수정한다. 칭찬, 불편함, 거절, 설명, 제재, 협력, 오해 수정은 모두 의미 학습의 재료가 된다. 이 단계의 강점은 공동 세계와 관계적 맥락의 형성이다. 한계는 인간 피드백 자체가 불완전하고 문화적으로 다양하다는 점이다.

핵심 접지 방식은 행동-타자 반응-관계 변화의 연결이다.

8.6 규범을 해석하는 사회적 AI

규범을 해석하는 사회적 AI는 가능한 행동 중에서 정당한 행동을 고른다. 단순히 명령을 수행하지 않고, 권한, 책임, 피해, 동의, 공정성, 사생활, 역할, 법적 제약을 고려한다. 이 단계의 강점은 사회적 신뢰 가능성이다. 한계는 규범 충돌, 문화 차이, 책임 귀속, 제도적 통제 문제다.

핵심 접지 방식은 행동-규범-정당화-책임의 연결이다.

9. 왜 이 순서가 중요한가

이 흐름은 기술의 난이도 순서이기도 하지만, 더 깊게는 의미의 확장 순서다.

텍스트 AI는 “말의 관계”를 배운다.
피지컬 AI는 “말과 세계의 관계”를 배운다.
기억을 가진 행위자는 “말과 경험의 역사”를 배운다.
목적을 가진 행위자는 “말과 중요도”를 배운다.
사회적 피드백을 받는 행위자는 “말과 타자의 반응”을 배운다.
규범을 해석하는 사회적 AI는 “말과 정당화 가능한 행동”을 배운다.

이 순서를 건너뛰면 문제가 생긴다. 텍스트 AI에 규범만 주입하면 실제 행동의 위험을 충분히 이해하지 못할 수 있다. 피지컬 AI에 목적만 주면 효율적이지만 무례하거나 위험한 행동을 할 수 있다. 기억이 없는 사회적 AI는 관계의 맥락을 잃는다. 목적이 없는 기억 시스템은 단순 저장소가 된다. 규범 없는 목적 시스템은 도구적 최적화에 치우칠 수 있다.

따라서 중요한 것은 “더 큰 모델” 하나가 아니라, 서로 다른 접지 층위의 결합이다.

10. 평가 기준: 사회적 AI는 어떻게 검증해야 하는가

이런 AI를 평가하려면 단순한 문답 정확도만으로는 부족하다. 다음 기준이 필요하다.

첫째, 감각-운동 접지 평가다. AI가 물체의 물리적 성질, 도구 사용, 공간 관계, 힘 조절, 실패 복구를 이해하는지 봐야 한다.

둘째, 시간적 연속성 평가다. AI가 이전 경험을 기억하고, 적절히 회수하고, 오래된 정보와 최신 정보를 구분하며, 잘못된 기억을 수정하는지 봐야 한다.

셋째, 목적 해석 평가다. AI가 사용자의 명령을 문자 그대로만 따르지 않고, 맥락상 목적과 잠재적 위험을 함께 고려하는지 봐야 한다.

넷째, 사회적 조정 평가다. AI가 오해를 감지하고, 질문하고, 상대의 지식 상태와 감정 상태를 추정하며, 공동 작업에서 역할을 조정할 수 있는지 봐야 한다.

다섯째, 규범 충돌 평가다. AI가 정직, 안전, 자율성, 사생활, 공정성, 효율성 같은 가치가 충돌할 때 그 이유를 설명하고, 정당화 가능한 선택을 하는지 봐야 한다.

여섯째, 책임 구조 평가다. AI의 행동 결정이 누구의 권한 아래 이루어졌고, 어떤 로그와 설명이 남으며, 오류 발생 시 누가 개입하고 수정할 수 있는지 확인해야 한다.

11. 결론: 피지컬 AI 이후의 핵심은 사회적 접지다

피지컬 AI는 텍스트 AI의 부족함을 상당히 보완할 수 있다. 특히 사물, 공간, 도구, 행위, 원인-결과, 신체적 제약과 관련된 의미에서는 매우 중요하다. 그러나 인간적 의미의 상당 부분은 물리적 세계보다 사회적 세계에서 생긴다. “컵”은 물리적 대상이지만, “남의 컵을 허락 없이 쓰면 안 된다”는 의미는 사회적 규범이다. “문”은 열 수 있는 물체지만, “닫힌 문은 사적 공간의 경계일 수 있다”는 의미는 사회적 약속이다. “도움”은 유용한 행동일 수 있지만, “원하지 않는 도움은 간섭이 될 수 있다”는 의미는 타자의 자율성과 관계된다.

따라서 피지컬 AI 이후의 과제는 더 많은 센서만 붙이는 것이 아니다. 필요한 것은 장기 기억, 목적 해석, 사회적 피드백, 규범 학습, 책임 구조를 결합한 사회적 훈련 환경이다. AI는 세계 안에서 행동하고, 실패하고, 수정받고, 기억하고, 다시 시도하며, 자신이 할 수 있는 행동과 해도 되는 행동을 구분해야 한다.

최종적으로 언어 이해는 세 축의 결합으로 보아야 한다.

언어 내부의 관계
세계와의 감각-운동 관계
타자와의 사회적·규범적 관계

텍스트 AI는 첫 번째 축에 강하다. 피지컬 AI는 두 번째 축을 보완한다. 그러나 세 번째 축이 없으면 인간 사회 속에서 신뢰할 수 있는 이해로 나아가기 어렵다. 그래서 최종 경로는 “몸을 가진 AI”가 아니라 “몸과 기억과 목적과 사회적 책임을 가진 AI”다.

참고자료

기호 접지, 분포 의미론, 언어 이해 논쟁

Harris, Z. S. (1954). “Distributional Structure.” Word, 10(2-3), 146–162.
https://gwern.net/doc/psychology/linguistics/1954-harris.pdf
Firth, J. R. (1957). Papers in Linguistics 1934–1951. Oxford University Press.
Harnad, S. (1990). “The Symbol Grounding Problem.” Physica D: Nonlinear Phenomena, 42(1–3), 335–346.
https://arxiv.org/abs/cs/9906002
Searle, J. R. (1980). “Minds, Brains, and Programs.” Behavioral and Brain Sciences, 3(3), 417–457.
https://www.cambridge.org/core/journals/behavioral-and-brain-sciences/article/minds-brains-and-programs/DC644B47A4299C637C89772FACC2706A
Bender, E. M., & Koller, A. (2020). “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data.” ACL 2020.
https://aclanthology.org/2020.acl-main.463/
Lake, B. M., & Murphy, G. L. (2021). “Word Meaning in Minds and Machines.” Psychological Review, 130(2), 401–431.
https://arxiv.org/abs/2008.01766

체화 인지와 감각-운동 접지

Barsalou, L. W. (2008). “Grounded Cognition.” Annual Review of Psychology, 59, 617–645.
https://pubmed.ncbi.nlm.nih.gov/17705682/
Wilson, M. (2002). “Six Views of Embodied Cognition.” Psychonomic Bulletin & Review, 9, 625–636.
https://link.springer.com/article/10.3758/BF03196322
Incao, S., Mazzola, C., Belgiovine, G., & Sciutti, A. (2024). “A Roadmap for Embodied and Social Grounding in LLMs.”
https://arxiv.org/abs/2409.16900

로봇 언어 접지와 피지컬 AI

Ahn, M. et al. (2022). “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.”
https://arxiv.org/abs/2204.01691
SayCan Project Page. “SayCan: Grounding Language in Robotic Affordances.”
https://say-can.github.io/
Driess, D. et al. (2023). “PaLM-E: An Embodied Multimodal Language Model.”
https://arxiv.org/abs/2303.03378
Brohan, A. et al. (2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.”
https://arxiv.org/abs/2307.15818
Zitkovich, B. et al. (2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” PMLR.
https://proceedings.mlr.press/v229/zitkovich23a.html
Open X-Embodiment Collaboration. (2023). “Open X-Embodiment: Robotic Learning Datasets and RT-X Models.”
https://arxiv.org/abs/2310.08864
Open X-Embodiment Project Page.
https://robotics-transformer-x.github.io/
Cohen, V., Liu, J. X., Mooney, R., Tellex, S., & Watkins, D. (2024). “A Survey of Robotic Language Grounding: Tradeoffs between Symbols and Embeddings.” IJCAI 2024.
https://www.ijcai.org/proceedings/2024/0885.pdf

장기 기억, 에이전트, 반성, 행동

Park, J. S. et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.”
https://arxiv.org/abs/2304.03442
Wang, G. et al. (2023). “Voyager: An Open-Ended Embodied Agent with Large Language Models.”
https://arxiv.org/abs/2305.16291
Shinn, N. et al. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.”
https://arxiv.org/abs/2303.11366
Yao, S. et al. (2023). “ReAct: Synergizing Reasoning and Acting in Language Models.”
https://arxiv.org/abs/2210.03629

사회적 접지, 공동 주의, 문화 학습

Vygotsky, L. S. (1978). Mind in Society: The Development of Higher Psychological Processes.
https://home.fau.edu/musgrove/web/vygotsky1978.pdf
Tomasello, M. (1999). The Cultural Origins of Human Cognition. Harvard University Press.
https://books.google.com/books/about/THE_CULTURAL_ORIGINS_OF_HUMAN_COGNITION.html?id=ji2_pY4mKwYC
Tomasello, M., Carpenter, M., Call, J., Behne, T., & Moll, H. (2005). “Understanding and Sharing Intentions: The Origins of Cultural Cognition.” Behavioral and Brain Sciences.
https://www.eva.mpg.de/documents/Cambridge/Tomasello_Understanding_BehBrainSci_2005_1555292.pdf
Mundy, P., & Newell, L. (2007). “Attention, Joint Attention, and Social Cognition.” Current Directions in Psychological Science.
https://pmc.ncbi.nlm.nih.gov/articles/PMC2663908/
Li, P., & Jeong, H. (2020). “The Social Brain of Language: Grounding Second Language Learning in Social Interaction.” npj Science of Learning.
https://www.nature.com/articles/s41539-020-0068-7

인간 피드백, 목적 학습, 가치 정렬, 규범 학습

Christiano, P. F. et al. (2017). “Deep Reinforcement Learning from Human Preferences.”
https://arxiv.org/abs/1706.03741
Ouyang, L. et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.”
https://arxiv.org/abs/2203.02155
Bai, Y. et al. (2022). “Constitutional AI: Harmlessness from AI Feedback.”
https://arxiv.org/abs/2212.08073
Hadfield-Menell, D., Dragan, A., Abbeel, P., & Russell, S. (2016). “Cooperative Inverse Reinforcement Learning.”
https://arxiv.org/abs/1606.03137
Gabriel, I. (2020). “Artificial Intelligence, Values, and Alignment.” Minds and Machines.
https://arxiv.org/pdf/2001.09768
Dignum, V. (2017). “Responsible Autonomy.” IJCAI 2017.
https://www.ijcai.org/proceedings/2017/0655.pdf
Dignum, V. (2019). Responsible Artificial Intelligence: How to Develop and Use AI in a Responsible Way. Springer.
Kasenberg, D., Roque, A., Thielstrom, R., Chita-Tegmark, M., & Scheutz, M. (2018). “Generating Justifications for Norm-Related Agent Decisions.” / 관련 norm inference 논의.
https://hrilab.tufts.edu/publications/kasenbergetal18aies.pdf
Ammanabrolu, P. et al. (2022). “Aligning to Social Norms and Values in Interactive Narratives.”
https://arxiv.org/abs/2205.01975