Symbol Grounding Problem과 현대 AI의 Grounding 연구

핵심 요약

Symbol Grounding Problem은 기호가 다른 기호와 연결되는 것만으로 어떻게 의미를 가질 수 있는가를 묻는 문제이다. 스티븐 하너드(Stevan Harnad)는 1990년 논문 「The Symbol Grounding Problem」에서 형식 기호 체계의 의미가 사람의 머릿속 해석에 기생하지 않고, 어떻게 시스템 자체 안에서 세계와 연결될 수 있는지를 물었다. 이 문제는 흔히 “단어가 현실 세계와 어떻게 연결되는가”로 요약되지만, 실제 쟁점은 더 넓다. 기호는 감각, 범주화, 행동, 피드백, 사회적 규범, 장기적 사용 맥락과 연결될 때 더 강한 의미 구조를 갖는다.

대형 언어 모델(LLM)은 텍스트 내부의 관계를 매우 정교하게 학습한다. 이 능력은 언어적 의미, 추론적 관계, 사회적 사용 패턴의 상당 부분을 포착하게 하지만, 텍스트 학습만으로 물리 세계와 직접 상호작용하는 것은 아니다. 그래서 LLM의 grounding 논쟁은 “텍스트 패턴만으로 의미가 성립하는가”, “감각과 행동이 의미에 필수적인가”, “사회적 언어 규범을 학습하는 것만으로 충분한가”라는 철학적·기술적 문제로 이어진다.

현대 AI 연구는 이 문제를 완화하기 위해 언어를 이미지, 영상, 센서, 로봇 행동, 환경 피드백과 결합한다. CLIP은 언어와 이미지를 같은 표현 공간에 정렬했고, SayCan은 언어 모델의 고수준 계획과 로봇의 행동 가능성을 결합했으며, PaLM-E와 RT-2는 언어·시각·로봇 행동을 하나의 모델 구조 안에서 연결하려 했다. Gato는 텍스트, 게임, 이미지, 로봇 제어를 하나의 시퀀스 모델링 틀로 통합한 초기적 사례이다. 2024년 이후에는 π0 같은 VLA flow model, 2025년 이후에는 Gemini Robotics 계열 모델처럼 로봇 foundation model 흐름이 강화되었다.

이 흐름은 의미 있는 진전이지만 “Symbol Grounding Problem이 해결되었다”는 결론으로 이어지지는 않는다. 현재 AI의 grounding은 완전한 인간식 의미 이해라기보다 특정 과제와 데이터 분포 안에서 단어, 비언어적 입력, 행동 사이의 작동적 대응을 학습하는 단계에 가깝다. 따라서 가장 정밀한 결론은 현대 AI가 부분적·작동적·과제 의존적 grounding을 확장하고 있으며, 강한 grounding을 평가하려면 지각 정확도, 행동 성공, 인과적 일반화, 실패 후 자기수정, 사회적 규범 이해, 장기 환경 학습을 분리해 보아야 한다는 것이다.

문제의식

사람이 “사과”라는 단어를 이해한다고 할 때, 그 이해에는 여러 층위가 들어 있다. 사람은 “사과”를 “과일”, “빨갛다”, “먹다”, “달다”, “껍질”, “나무” 같은 다른 단어와 연결한다. 동시에 사과를 본 경험, 손에 쥔 경험, 베어 문 경험, 상점에서 고른 경험, 다른 사람에게 건넨 경험도 갖는다. 인간의 의미 이해는 언어 내부의 관계와 세계 경험이 결합된 구조이다.

AI에서는 이 결합이 자동으로 주어지지 않는다. 컴퓨터 안의 apple이라는 문자열은 특정 코드값, 토큰, 벡터 또는 기호일 뿐이다. 사람이 그것을 해석하면 사과를 뜻하는 말처럼 보인다. 문제는 시스템 내부에서 그 기호가 어떻게 실제 사물, 감각, 속성, 행동 가능성, 사회적 사용 조건과 연결될 수 있는가이다.

이 문제는 단순한 철학적 수수께끼에 그치지 않는다. AI가 의료, 로봇, 자율주행, 교육, 법률, 과학 연구, 산업 자동화에 쓰일수록 언어와 세계의 연결은 안전성과 신뢰성의 문제가 된다. 모델이 “컵을 집어라”라는 문장을 그럴듯하게 설명하는 것과 실제 장면에서 컵을 식별하고, 잡을 수 있는 위치를 계산하고, 손상 없이 들어 올리고, 실패하면 조정하는 것은 서로 다른 능력이다. 텍스트상으로 유창한 답변을 생성하는 능력과 세계 속에서 참인 판단을 내리고 안전하게 행동하는 능력은 같은 층위의 능력이 아니다.

따라서 Symbol Grounding Problem은 오늘날 AI 연구에서 다시 중요해졌다. 고전적 기호주의 AI에서는 기호 조작과 의미의 간극이 문제였다. LLM 시대에는 텍스트 패턴 학습과 세계 이해의 간극이 문제로 나타난다. 로봇 foundation model 시대에는 언어·시각·행동을 결합해도 그것이 얼마나 일반적이고 안정적인 의미 연결인지 평가해야 하는 문제가 남는다.

개념의 정의

Symbol Grounding Problem은 형식 기호가 어떻게 실제 의미를 갖는가에 관한 문제이다. 하너드의 표현을 따라 말하면, 의미 없는 기호 토큰들이 오직 형태에 따라 조작될 때 그 의미가 다른 의미 없는 기호가 아니라 무엇에 의해 grounding되는가가 핵심이다. 하너드는 이를 중국어-중국어 사전 비유로 설명했다. 중국어를 전혀 모르는 사람이 중국어 단어를 중국어 설명만으로 계속 찾아간다면, 그는 한 기호에서 다른 기호로 이동할 뿐 의미에 도달하지 못한다. 이 비유는 텍스트 내부의 순환만으로 의미가 충분히 확보될 수 있는지를 묻는다.

여기서 기호(symbol)는 단어, 문자열, 토큰, 논리식, 레이블, 명령어처럼 어떤 대상을 나타내는 표지를 뜻한다. Grounding은 그 표지가 세계의 대상, 속성, 감각, 행동, 결과, 사회적 사용 조건과 연결되는 과정을 뜻한다. 그래서 grounding은 단순한 번역이나 사전식 대응과 다르다. apple = 사과라고 연결하는 것은 영어 단어와 한국어 단어 사이의 대응이다. 강한 의미의 grounding은 apple이라는 표현이 실제 사과의 시각적 형태, 촉각적 성질, 먹을 수 있음, 떨어뜨리면 굴러감, 집어 올릴 수 있음, 시장에서 구매할 수 있음, 특정 대화 상황에서 요구하거나 건넬 수 있음 같은 층위와 연결되는 것이다.

비슷한 개념으로 reference, semantics, representation, embodiment가 있다. Reference는 표현이 무엇을 가리키는가의 문제이고, semantics는 표현의 의미 구조를 다룬다. Representation은 세계나 개념을 내부적으로 나타내는 방식이다. Embodiment는 인지가 몸, 감각, 운동, 환경 상호작용에 의해 형성된다는 관점이다. Symbol grounding은 이 개념들과 겹치지만, 특히 “기호 체계 내부의 조작이 어떻게 세계와 연결되어 의미를 갖는가”라는 질문에 초점을 둔다.

하너드의 원래 문제와 후보 해법

하너드의 논문은 문제만 제기한 글이 아니다. 그는 순수한 형식 기호 체계만으로 의미를 만들 수 없다고 보고, 기호가 비기호적 표상에 의해 아래에서부터 grounding되어야 한다는 후보 해법을 제시했다. 이때 중요한 구분이 iconic representation, categorical representation, symbolic representation이다.

Iconic representation은 감각 입력과 닮은꼴 구조를 갖는 표상이다. 예를 들어 어떤 대상을 본 시각적 패턴, 소리를 들었을 때의 청각적 패턴, 피부에 닿는 촉각적 패턴처럼 원자료에 가까운 표상이다. 이것은 세계와의 접촉면에 해당한다.

Categorical representation은 여러 감각 사례에서 공통적인 특징을 추출해 범주를 구분하는 표상이다. 사람은 수많은 개를 보면서 특정 개 한 마리의 사진을 외우는 데 그치지 않고, 다양한 개를 고양이, 늑대, 인형과 구별하는 범주적 특징을 학습한다. 범주화는 grounding의 핵심 단계이다. 단순한 감각 복사만으로는 “이것이 사과이다”, “이것은 컵이 아니다” 같은 판단을 만들기 어렵기 때문이다.

Symbolic representation은 이렇게 형성된 범주와 범주 사이의 관계를 조합하는 고차 표상이다. 예를 들어 “사과는 과일이다”, “빨간 사과는 먹을 수 있다”, “컵 안의 물은 쏟아질 수 있다” 같은 언어적·논리적 관계가 여기에 속한다. 하너드의 후보 해법에서 중요한 것은 상징적 표상이 독립적으로 떠 있는 것이 아니라, 아래쪽의 감각적·범주적 표상에 의해 지지되어야 한다는 점이다.

이 구분은 현대 AI에도 여전히 유용하다. 이미지·영상·센서 데이터는 iconic representation에 가깝고, 분류기나 표현 학습은 categorical representation의 일부를 구현한다. LLM이나 신경-상징 시스템은 symbolic relation 또는 linguistic relation을 다룬다. 현대 grounding 연구는 이 층위들을 하나의 시스템 안에서 연결하려는 시도라고 볼 수 있다.

배경과 맥락

고전적 기호주의 AI와 grounding 문제

초기 인공지능 연구의 한 축은 지능을 기호 조작으로 이해했다. 이 관점에서 지식은 논리식, 규칙, 명제, 프레임 같은 명시적 구조로 표현되고, 추론은 이 기호들을 규칙에 따라 조작하는 과정으로 설명된다. “모든 인간은 죽는다”와 “소크라테스는 인간이다”라는 명제가 있으면, 규칙에 따라 “소크라테스는 죽는다”를 도출하는 식이다.

이 방식은 수학적·논리적 문제나 명시적 규칙이 있는 영역에서는 강력하다. 그러나 실제 세계의 사물과 상황을 인식하고 행동해야 하는 문제에서는 한계가 드러난다. “컵”이라는 기호를 데이터베이스에 등록하고 “컵은 액체를 담을 수 있다”라는 규칙을 추가한다고 해서, 시스템이 다양한 조명, 각도, 재질, 부분 가림, 물리적 배치 속에서 컵을 안정적으로 인식하고 다룰 수 있는 것은 아니다. 하너드의 문제 제기는 이런 한계를 개념적으로 압축한다. 기호가 다른 기호와의 관계만으로 움직일 때, 그 기호가 세계와 연결되는 지점이 필요하다는 것이다.

LLM 시대의 문제 재등장

대형 언어 모델은 고전적 기호주의 AI와 구조가 다르다. LLM은 명시적 논리 기호를 규칙으로 조작하는 시스템이라기보다, 토큰 시퀀스의 통계적 관계를 학습한 신경망 모델이다. 내부 표현은 사람이 읽을 수 있는 논리식이 아니라 고차원 벡터와 신경망 활성값으로 구성된다. 그래서 하너드가 비판한 고전적 형식 기호 체계의 문제를 LLM에 그대로 적용할 수 있는지에 대해서는 논쟁이 있다.

그럼에도 LLM은 symbol grounding 논쟁을 다시 부각시켰다. 이유는 텍스트만으로 학습한 모델이 번역, 요약, 논증, 코드 작성, 설명, 대화, 추론에서 높은 성능을 보이기 때문이다. 이 성능은 언어 내부의 패턴만으로도 상당한 수준의 의미적 행동이 가능함을 보여준다. 동시에 텍스트 기반 모델은 세계와 직접 상호작용하지 않았기 때문에, 언어적 유창성과 세계 이해를 구별해야 한다는 비판도 강화되었다.

Bender와 Koller는 「Climbing towards NLU」에서 언어의 형식(form)과 의미(meaning)를 구분하면서, 형식만 학습한 시스템이 인간식 의미 이해에 도달했다는 결론을 경계했다. Bisk 등은 「Experience Grounds Language」에서 언어 이해가 물리 세계와 사회적 상호작용의 공유 경험에 의해 grounded된다고 주장했다. 반대로 Gubelmann은 “Pragmatic Norms Are All You Need”에서 Symbol Grounding Problem이 LLM에 직접 적용된다는 전제를 비판하고, 언어 사용 규범과 화용론적 관계를 중심으로 LLM의 의미 문제를 다시 보려 했다. 이 논쟁은 “의미란 세계 대응인가, 사용 규범인가, 지각-행동 능력인가”라는 철학적 쟁점과 맞물린다.

Grounding의 강도 기준

“이미지, 센서, 로봇 행동, 도구 사용이 결합될수록 grounding이 강해진다”는 말은 직관적으로 타당하지만, 평가 기준을 명시하지 않으면 과장될 수 있다. Grounding의 강도는 하나의 척도로 측정하기 어렵다. 적어도 다음 기준을 분리해야 한다.

기준	핵심 질문	예시
지시 대상 연결	단어가 실제 대상 또는 장면과 연결되는가	이미지 속 “개”, “빨간 공” 식별
범주 일반화	학습하지 않은 사례에도 범주를 적용하는가	새로운 품종의 개를 개로 인식
행동 가능성	표현이 실제 행동으로 이어지는가	“컵을 집어라” 명령 수행
인과적 이해	행동과 결과의 관계를 예측하는가	밀면 떨어짐, 세게 잡으면 깨짐 예측
OOD 일반화	분포 밖 상황에서도 안정적인가	낯선 조명·배치·물체에서 수행
상호작용적 수정	실패 후 피드백으로 행동을 고치는가	잡기 실패 후 위치 재조정
사회적·화용론적 적합성	표현의 규범적·대화적 의미를 이해하는가	약속, 책임, 모욕, 권리의 맥락 판단
장기 지속성	시간에 따라 기억과 환경 모델을 갱신하는가	같은 공간의 변화, 사용자 선호, 과거 실패 반영

이 기준을 적용하면 더 정밀한 결론을 얻을 수 있다. 이미지와 텍스트를 함께 학습한 모델은 지시 대상 연결과 범주 일반화에서 강해질 수 있다. 로봇 VLA 모델은 행동 가능성과 일부 인과적 제약에서 더 강한 grounding을 보일 수 있다. 장기 에이전트는 상호작용적 수정과 지속적 환경 모델 갱신을 추가할 수 있다. 사회적 의미 이해는 별도의 규범, 제도, 대화 맥락을 요구한다.

따라서 현대 AI 연구의 성과는 “완전한 의미 이해”가 아니라 “특정 과제에서 언어 표현과 세계 상태 사이의 작동적 연결이 강화되는 과정”으로 이해하는 편이 정확하다. 이 연결은 데이터 분포, 센서 범위, 행동 공간, 평가 환경, 사회적 맥락에 의해 제한된다.

핵심 논리

Symbol grounding을 이해하려면 의미를 적어도 네 층위로 나누어야 한다. 첫째는 언어 내부의 의미이다. 단어는 다른 단어와의 관계 속에서 의미를 갖는다. “사과”는 “배”, “과일”, “먹다”, “빨갛다”, “껍질”, “신선하다” 같은 단어와의 분포적 관계 속에서 언어적 위치를 갖는다. LLM이 특히 강한 층위가 여기에 있다. 대규모 텍스트에서 단어와 문장의 사용 맥락을 학습하면, 모델은 학습 데이터 분포 안에서 어떤 표현이 어떤 상황에서 쓰이는지 정교하게 예측할 수 있다.

둘째는 지각적 의미이다. 단어는 이미지, 소리, 촉감, 냄새, 운동 감각 같은 비언어적 정보와 연결된다. “개”라는 단어를 이해하는 것은 개에 관한 문장을 아는 것뿐 아니라 다양한 개의 모습을 구별하고, 고양이·늑대·인형과 구분하며, 짖는 소리를 식별하는 능력과 관련된다. CLIP 같은 멀티모달 모델은 이 층위의 일부를 구현한다. 텍스트와 이미지를 함께 학습하면 “dog”라는 표현이 실제 개 이미지들과 가까운 표현 공간에 놓이게 된다.

셋째는 행동적 의미이다. 의미는 세계 속에서 행위로 이어질 때 더 강하게 grounding된다. “컵을 집어라”라는 문장을 이해한다는 것은 컵이 무엇인지 아는 데서 끝나지 않는다. 현재 장면에서 컵을 찾고, 컵을 잡을 수 있는 방식으로 손을 움직이고, 목적에 맞게 들어 올리는 실행 능력이 필요하다. SayCan, RT-2, PaLM-E, π0, Gemini Robotics 같은 연구는 이 층위를 다룬다. 이 연구들은 언어를 로봇의 시각, 센서, 행동 가능성, 물리적 피드백과 연결하려 한다.

넷째는 사회적 의미이다. 인간 언어의 많은 표현은 단일한 감각 대상과 직접 대응하지 않는다. “약속”, “책임”, “권리”, “가격”, “모욕”, “정당성” 같은 단어는 사회적 규칙, 제도, 관습, 대화 맥락 속에서 의미를 갖는다. 이 층위에서는 비트겐슈타인(Ludwig Wittgenstein)의 언어게임(language-game), 브랜덤(Robert Brandom)의 추론주의(inferentialism), 허버트 클라크(Herbert H. Clark)의 common ground, 오스틴(J. L. Austin)과 설(John Searle)의 화행 이론이 중요한 배경이 된다. 의미는 단순히 사물을 가리키는 대응이 아니라, 어떤 발화가 어떤 규칙과 책임, 권한, 기대를 발생시키는가의 문제이기도 하다.

이 네 층위는 서로 대체 관계가 아니라 보완 관계이다. 텍스트 기반 LLM은 언어 내부의 관계와 사회적 사용 패턴의 일부를 강하게 학습한다. 멀티모달 모델은 지각적 연결을 추가한다. 로봇 모델은 행동 가능성과 물리적 피드백을 추가한다. 에이전트 시스템은 장기 목표, 계획, 도구 사용, 실패 수정, 기억 갱신을 추가한다. 현대 AI 연구는 이 층위들을 결합하는 방향으로 움직이고 있다.

주요 연구 흐름

1. 멀티모달 grounding: 언어와 지각의 연결

멀티모달 grounding은 텍스트를 이미지, 영상, 오디오 같은 감각 정보와 함께 학습하는 접근이다. 대표 사례는 OpenAI의 CLIP이다. CLIP은 인터넷에서 수집된 대규모 이미지-텍스트 쌍을 이용해 이미지와 문장을 같은 표현 공간에 정렬한다. 모델은 특정 이미지와 그 이미지에 대응하는 문장을 가깝게 만들고, 대응하지 않는 문장은 멀게 만드는 대조 학습(contrastive learning) 방식으로 학습한다.

이 방식의 핵심은 dog라는 단어를 단순히 cat, pet, bark 같은 단어와 연결하는 데서 더 나아가, 실제 개 이미지들과 연결한다는 점이다. 그래서 CLIP은 별도의 태스크별 학습 없이도 여러 이미지 분류 과제에서 zero-shot 전이를 보였다. 사용자가 “a photo of a dog”라고 입력하면, 모델은 그 문장과 가장 잘 맞는 이미지를 찾거나 분류할 수 있다.

CLIP이 보여준 것은 강한 의미의 완전한 grounding이 아니라 지각적 grounding의 일부이다. 모델은 이미지를 보고 텍스트와 대응시킬 수 있지만, 물체를 만지거나 조작하지 않는다. 인터넷 이미지와 캡션의 편향도 함께 학습한다. 사진 속 사물과 실제 사물의 물리적 성질 사이에는 차이가 있다. 따라서 CLIP은 언어-시각 대응을 강하게 학습한 모델이지, 세계와 전면적으로 상호작용하는 모델은 아니다.

2. 로봇 affordance grounding: 언어와 행동 가능성의 연결

로봇 grounding에서 중요한 개념은 affordance이다. Affordance는 어떤 환경에서 어떤 행동이 가능한지를 뜻한다. 컵은 집을 수 있고, 문은 열 수 있으며, 의자는 앉을 수 있다. 로봇에게 언어를 이해시킨다는 것은 단어를 사전적 정의와 연결하는 데 그치지 않고, 현재 환경에서 가능한 행동과 연결하는 일이다.

SayCan은 이 방향의 대표 연구이다. 이 연구는 대형 언어 모델의 고수준 의미 지식과 로봇의 저수준 행동 가능성을 결합했다. 언어 모델은 목표를 달성하기 위한 후보 행동을 제안하고, 로봇의 value function은 그 행동이 현재 환경에서 실제로 가능한지를 평가한다. 예를 들어 언어 모델이 “음료를 가져와라”라는 목표를 여러 단계 행동으로 분해하더라도, 로봇이 현재 환경에서 수행할 수 없는 행동은 선택되지 않도록 제한한다.

이 구조는 LLM의 약점을 보완한다. LLM은 “그럴듯한 다음 행동”을 언어적으로 제안할 수 있지만, 실제 로봇이 그 행동을 수행할 수 있는지는 알지 못할 수 있다. SayCan은 언어적 타당성과 물리적 실행 가능성을 함께 고려하게 함으로써, 명령어를 행동 가능성의 세계에 부분적으로 grounding한다.

3. Vision-Language-Action model: 언어·시각·행동의 통합

RT-2는 시각-언어-행동 모델(Vision-Language-Action model, VLA)의 대표 사례이다. RT-2는 웹 규모의 시각-언어 지식을 로봇 제어에 연결하려고 했다. 중요한 설계는 로봇 행동을 텍스트 토큰처럼 표현해, 자연어 응답과 로봇 행동을 같은 시퀀스 모델링 틀 안에 넣는 것이다. 이 접근은 “사과를 집어라” 같은 명령에서 언어 이해, 시각 인식, 행동 생성을 하나의 흐름으로 연결한다.

RT-2의 의미는 단순히 로봇이 명령을 수행한다는 데 있지 않다. 핵심은 인터넷 규모의 언어·시각 학습에서 얻은 지식을 실제 로봇 행동으로 전이하려 한 점이다. 로봇 학습 데이터에 충분히 등장하지 않은 물체나 속성에 대해서도, 웹에서 배운 시각-언어 지식을 활용해 어느 정도 일반화할 수 있다. 이것은 grounding의 강도 기준 중 범주 일반화와 행동 가능성의 결합을 보여준다.

다만 이 결합은 여전히 과제 의존적이다. RT-2가 새로운 물체와 명령에 일반화할 수 있다고 해도, 그것이 모든 물리 상황에서 안정적 인과 이해를 갖는다는 뜻은 아니다. 로봇의 행동 공간, 학습 데이터, 센서, 평가 환경에 의해 성능이 제한된다.

4. Embodied multimodal language model: 언어, 센서, 환경의 결합

PaLM-E는 embodied multimodal language model의 대표 사례이다. PaLM-E는 대형 언어 모델에 텍스트뿐 아니라 이미지, 로봇 상태 추정, 센서 데이터를 입력으로 넣는다. 목표는 언어 모델이 실제 환경의 연속적 관찰값을 함께 처리하도록 하는 것이다. 이 모델은 로봇 조작 계획, 시각 질의응답, 이미지 캡션 등 여러 과제를 하나의 모델 안에서 다루도록 설계되었다.

PaLM-E의 핵심은 언어 모델을 단순한 텍스트 생성기가 아니라, 다양한 관찰 양식을 입력받는 추론 시스템으로 확장한 데 있다. “초록색 병을 가져와라”라는 명령을 처리하려면 모델은 문장의 의미를 해석하고, 카메라 입력에서 초록색 병을 찾고, 로봇이 그 대상에 접근하거나 조작할 수 있는 행동 계획을 세워야 한다. 이 구조는 언어와 지각, 지각과 계획, 계획과 행동을 연결하려는 시도이다.

이런 모델도 인간적 의미 이해를 그대로 구현한 것은 아니다. 로봇이 경험하는 환경은 인간이 평생 경험하는 세계보다 훨씬 좁다. 센서 입력은 인간 감각과 다르고, 로봇의 신체 능력도 제한적이다. 학습은 특정 데이터셋과 실험 환경에 의존한다. PaLM-E는 embodied grounding의 중요한 사례이지만, 인간의 신체적·사회적 발달 과정을 대체하지는 않는다.

5. 범용 에이전트: 다양한 양식과 행동의 토큰화

Gato는 DeepMind가 제안한 generalist agent이다. 하나의 Transformer 기반 모델이 텍스트 대화, 이미지 캡션, Atari 게임, 로봇 팔 제어, 시뮬레이션 환경 행동 등을 처리하도록 학습되었다. Gato의 설계에서 중요한 점은 다양한 입력과 출력을 모두 토큰 시퀀스로 직렬화한다는 것이다. 텍스트, 이미지 패치, 버튼 입력, 로봇 관절 명령 등이 하나의 시퀀스 모델링 형식으로 들어간다.

이 접근은 AI 연구에서 중요한 발상을 보여준다. 기호, 지각, 행동을 각각 별도의 시스템으로 다루는 대신, 모두 예측 가능한 시퀀스로 통합할 수 있다는 발상이다. 이렇게 하면 언어 모델링에서 발전한 대규모 학습 방법을 행동과 환경 상호작용에도 적용할 수 있다.

Gato의 한계도 분명하다. 여러 과제를 수행한다고 해서 각 과제에서 전문 모델보다 항상 뛰어난 것은 아니며, 장기 자율성, 지속 학습, 실제 세계 적응 능력도 제한적이다. Gato는 일반 지능의 완성이 아니라, 다양한 양식과 행동을 하나의 모델 구조로 통합할 수 있음을 보여준 초기적 사례로 보는 편이 정확하다.

6. 2024–2026년 VLA와 로봇 foundation model 흐름

2024년 이후에는 VLA 모델과 로봇 foundation model 흐름이 더 강해졌다. π0는 pretrained vision-language model 위에 flow matching 기반 행동 생성 구조를 결합한 사례이다. 이 모델은 언어 지시와 시각 입력을 받아 로봇 행동을 생성하며, 단일 로봇 팔, 양팔 로봇, 모바일 매니퓰레이터 같은 다양한 embodiment에서 수집된 데이터를 활용하는 방향을 제시했다. π0가 중요한 이유는 “웹 규모 의미 지식”과 “연속적 로봇 제어”를 결합하려는 시도가 더욱 명확해졌기 때문이다.

Gemini Robotics 계열 모델은 대형 멀티모달 모델을 물리적 로봇 행동으로 확장하려는 또 다른 흐름이다. 2025년 공개된 Gemini Robotics 기술 보고서는 Gemini 2.0 기반의 VLA 모델을 통해 로봇을 직접 제어하는 방향을 제시했다. 2026년 현재 Google DeepMind의 공식 모델 페이지는 Gemini Robotics 1.5를 시각 정보와 지시를 모터 명령으로 바꾸는 VLA 모델로, Gemini Robotics-ER 1.6을 물리 세계에 대한 reasoning과 계획을 지원하는 embodied reasoning 모델로 소개한다.

이 흐름은 grounding 연구에서 두 가지 의미를 갖는다. 첫째, 언어-시각-행동을 통합하는 모델이 실험실 연구를 넘어 foundation model 형식으로 확장되고 있다. 둘째, grounding의 평가 기준이 단순 이미지 분류나 단일 명령 수행에서 장기 과제, 다중 embodiment, 도구 사용, 실패 복구, 안전성으로 넓어지고 있다. 그러나 이 역시 “완전한 grounding”의 증거라기보다, 작동적 grounding의 범위가 넓어지는 사례로 해석해야 한다.

구체적 사례

“빨간 공을 집어라”라는 명령을 생각해 보자. 텍스트 기반 LLM은 이 문장을 문법적으로 해석하고, “빨간”이 색 속성이고 “공”이 둥근 물체이며 “집어라”가 행동 명령임을 설명할 수 있다. 하지만 카메라 입력이 없다면 현재 방 안에 실제로 빨간 공이 있는지 알 수 없다. 로봇 팔이 없다면 그 공을 집을 수 없다. 촉각 센서나 힘 제어가 없다면 공을 너무 세게 눌러 떨어뜨리거나, 다른 물체를 잘못 잡을 수 있다.

멀티모달 모델은 이미지 안에서 빨간 공을 찾을 수 있다. 이때 grounding은 텍스트와 시각 정보 사이에서 이루어진다. 로봇 모델은 그 공에 접근해 집는 행동을 실행할 수 있다. 이때 grounding은 텍스트, 시각, 운동 제어 사이에서 이루어진다. 환경 상호작용 agent는 실패했을 때 다시 시도하거나, “빨간 공이 보이지 않습니다”라고 보고하거나, 다른 각도에서 탐색할 수 있다. 이때 grounding은 피드백과 계획까지 포함한다.

또 다른 예는 “깨지기 쉬운 물건을 조심해서 옮겨라”라는 명령이다. 여기에는 단순한 물체 인식보다 복잡한 의미가 들어 있다. “깨지기 쉬움”은 물체의 물리적 성질에 관한 개념이고, “조심해서”는 행동 방식에 관한 제약이며, “옮겨라”는 목표 상태를 뜻한다. 이 명령을 수행하려면 AI는 물체의 재질, 무게, 안정성, 로봇 손의 힘, 이동 경로, 장애물, 실패 가능성을 함께 고려해야 한다. 이런 사례는 grounding이 단어-이미지 대응보다 훨씬 넓은 문제임을 보여준다.

추상 개념에서는 문제가 더 복잡해진다. “정의로운 결정”, “모욕적인 표현”, “합리적 가격”, “책임 있는 행동” 같은 표현은 단일한 감각 대상과 직접 연결되지 않는다. 이들은 사회적 규범, 제도, 맥락, 화자의 의도, 청자의 해석에 의해 의미가 결정된다. 따라서 AI의 grounding 연구가 물체 인식과 로봇 행동에만 머물 경우, 인간 언어의 중요한 영역을 충분히 다루기 어렵다. 사회적 grounding, 제도적 grounding, 대화적 grounding까지 연구 범위가 확장되어야 한다.

주요 쟁점과 반론

텍스트만으로 의미를 배울 수 있는가

가장 큰 쟁점은 텍스트만으로 의미를 배울 수 있는가이다. 회의적 입장은 텍스트가 이미 인간의 세계 경험에서 나온 산물이라는 점을 강조한다. 텍스트만 학습한 모델은 인간이 세계와 상호작용하며 만든 언어적 흔적을 통계적으로 압축할 뿐, 세계 자체와 직접 연결되어 있지 않다. 이 관점에서는 LLM의 의미 능력은 파생적이고 간접적이다.

다른 입장은 언어 사용 자체가 의미의 핵심이라고 본다. 인간도 모든 단어를 직접 경험으로 배우지 않는다. 사람은 “블랙홀”, “양자장”, “로마 제국”, “주식 옵션”, “정의” 같은 개념을 상당 부분 언어와 사회적 교육을 통해 배운다. 따라서 텍스트와 사회적 사용 규범을 학습하는 것만으로도 의미의 중요한 일부를 획득할 수 있다는 주장이 가능하다. 이 입장은 의미를 대상과의 물리적 대응보다 사용과 추론 규범의 문제로 본다.

더 정밀한 결론은 양쪽을 나누어 보는 것이다. 텍스트만으로도 언어적 의미, 추론적 관계, 사회적 사용 패턴의 상당 부분은 학습 가능하다. 물리적 조작, 지각 안정성, 환경 피드백, 실제 행동 성공과 관련된 의미는 텍스트만으로는 제한적이다. 그래서 텍스트 기반 LLM은 의미를 전혀 갖지 않는다고 단정하기도 어렵고, 인간과 같은 방식으로 grounded되어 있다고 말하기도 어렵다.

고전적 symbol grounding problem이 LLM에 그대로 적용되는가

하너드의 원래 문제는 주로 형식 기호를 명시적 규칙으로 조작하는 고전적 AI를 겨냥했다. LLM은 그런 체계와 다르다. 내부 표현은 이산적 논리 기호가 아니라 연속적인 벡터 표현이고, 출력은 규칙 기반 기호 조작보다 통계적 예측에 가깝다. 그래서 일부 연구자들은 고전적 symbol grounding problem을 LLM에 그대로 적용하는 것은 부정확하다고 본다.

이 비판은 중요하다. LLM의 토큰은 입력과 출력 단위이지만, 모델 내부 의미 표현이 단순한 기호표라고 보기는 어렵다. 모델은 단어를 고정된 사전 항목처럼 처리하지 않고, 문맥 속에서 벡터 표현을 계속 바꾼다. 이런 구조는 고전적 기호주의 AI와 다르다.

그럼에도 grounding 문제의 핵심 질문은 남는다. LLM이 고전적 기호 체계가 아니더라도, 모델의 내부 표현이 세계의 대상, 속성, 행동, 사회적 규범과 어떻게 연결되는지는 여전히 설명해야 한다. 오늘날 더 적절한 질문은 “LLM이 하너드의 원래 의미에서 symbol grounding problem에 걸리는가”보다 “LLM과 멀티모달 에이전트의 표현은 어떤 방식으로 세계와 연결되는가”이다.

멀티모달 학습은 충분한 해결인가

멀티모달 학습은 grounding 문제를 크게 완화한다. 이미지와 텍스트를 함께 학습하면 언어 표현이 시각적 세계와 연결된다. 영상과 오디오를 함께 학습하면 사건, 소리, 움직임까지 포함할 수 있다. 하지만 멀티모달 학습만으로 완전한 해결이 되지는 않는다.

첫째, 이미지와 캡션의 연결은 관찰자의 관점과 데이터 수집 방식에 의존한다. 인터넷 캡션은 불완전하고 편향되어 있으며, 이미지에는 보이지 않는 속성도 많다. 둘째, 시각 정보는 물리적 조작 능력과 다르다. 컵 사진을 알아보는 능력과 컵을 안정적으로 잡는 능력은 다르다. 셋째, 감각 정보는 사회적 의미를 충분히 설명하지 못한다. “권리”, “약속”, “모욕”, “합법성” 같은 개념은 이미지와 직접 대응되지 않는다.

따라서 멀티모달 grounding은 중요한 단계지만, 전체 의미 문제의 일부를 다룬다. 강한 grounding을 평가하려면 지각, 행동, 피드백, 사회적 규범, 장기 기억, 자기 수정이 함께 고려되어야 한다.

로봇 embodiment는 인간적 이해를 만드는가

로봇 embodiment는 언어를 실제 행동과 연결한다는 점에서 강력한 grounding 방법이다. 하지만 로봇이 몸을 갖는다고 해서 곧바로 인간처럼 이해하는 것은 아니다. 인간의 몸은 생물학적 욕구, 통증, 감정, 사회적 발달, 장기 기억, 타자와의 상호작용 속에서 형성된다. 현재 로봇은 대개 제한된 센서, 제한된 작업 공간, 제한된 목표 함수 안에서 작동한다.

그래도 embodiment는 중요한 차이를 만든다. 로봇은 명령의 성공과 실패를 물리적으로 경험한다. “너무 세게 잡으면 깨진다”, “이 위치에서는 손이 닿지 않는다”, “장애물이 있으면 돌아가야 한다” 같은 제약은 텍스트만으로 배우는 것과 실제 환경 피드백을 통해 조정하는 것이 다르다. 로봇 grounding은 인간적 이해와 동일하지 않지만, 텍스트 기반 의미보다 더 강한 세계 연결을 제공한다.

실패 조건과 한계

멀티모달·로봇 grounding의 실패는 단순히 이미지-캡션 편향에만 머물지 않는다. 실제 시스템에서는 여러 종류의 실패가 겹친다.

첫째, shortcut learning이 발생할 수 있다. 모델이 대상의 본질적 특징을 학습한 것처럼 보이지만, 실제로는 배경, 조명, 위치, 자주 함께 등장하는 물체 같은 우연적 단서를 사용한다. 예를 들어 “눈밭의 개”를 늑대로 분류하거나, 특정 주방 배경에서만 컵을 안정적으로 찾는 문제가 생길 수 있다.

둘째, spurious correlation 문제가 있다. 학습 데이터에서 함께 자주 등장한 요소가 실제 인과관계인 것처럼 모델에 반영될 수 있다. 이미지-텍스트 모델은 “의사”, “간호사”, “CEO”, “범죄자” 같은 사회적 범주에서 데이터 편향을 재생산할 수 있고, 로봇 모델은 특정 물체와 특정 행동을 부적절하게 결합할 수 있다.

셋째, out-of-distribution 취약성이 있다. 모델은 학습 데이터와 유사한 환경에서는 좋은 성능을 보이지만, 조명, 카메라 각도, 물체 재질, 배치, 배경, 언어 표현이 달라지면 갑자기 실패할 수 있다. Grounding이 강하다는 것은 단순히 훈련 분포 안에서 높은 정확도를 보이는 것이 아니라, 낯선 상황에서도 안정적으로 대상과 행동을 연결하는 능력을 포함한다.

넷째, 촉각과 힘 제어의 부재가 문제다. 많은 멀티모달 모델은 시각 정보에 강하지만, 실제 조작에는 접촉, 압력, 마찰, 무게, 탄성, 균형 감각이 필요하다. “컵을 잡는다”는 행동은 컵을 보는 문제와 다르다. 로봇 손이 어느 정도 힘으로 잡아야 하는지, 미끄러지는지, 내용물이 흔들리는지, 재질이 깨지기 쉬운지 알아야 한다.

다섯째, 행동 실패 후 자기수정 능력이 제한적이다. 인간은 실패하면 손 위치를 바꾸거나, 다시 보고, 다른 도구를 사용하거나, 타인에게 질문한다. 많은 AI 시스템은 실패 상황을 감지하고 원인을 진단하며 전략을 수정하는 능력이 아직 제한적이다. Grounding은 1회성 인식이 아니라 피드백 기반 조정 능력을 포함해야 한다.

여섯째, 시뮬레이션-현실 간 격차가 있다. 로봇은 시뮬레이션에서 학습한 행동을 현실로 옮길 때 마찰, 센서 노이즈, 물체의 미세한 변형, 예측하지 못한 접촉 때문에 실패할 수 있다. 시뮬레이션에서 잘 되는 행동이 현실에서 그대로 성공한다는 보장은 없다.

일곱째, 사회적 grounding의 실패가 있다. 모델은 “정중한 말”, “모욕적인 표현”, “책임 있는 답변”, “공정한 결정” 같은 표현을 통계적으로 학습할 수 있지만, 실제 사회적 관계와 제도적 책임을 스스로 부담하지 않는다. 따라서 규범적 의미의 이해는 단순 언어 예측보다 더 복잡하다.

이 한계들은 현재 AI의 grounding이 부분적이고 조건부임을 보여준다. 특정 과제에서 좋은 성능을 내는 작동적 연결과 인간처럼 광범위하고 지속적인 의미 이해는 구분해야 한다.

오해와 조정된 결론

첫 번째 오해는 “텍스트만 학습한 모델은 아무 의미도 모른다”는 단정이다. LLM은 세계와 직접 상호작용하지 않아도, 인간이 세계 경험을 바탕으로 생산한 방대한 언어 자료를 학습한다. 그 결과 단어 간 관계, 사건 구조, 사회적 규범, 장르, 추론 패턴을 상당히 잘 포착한다. 이것을 단순한 무의미한 문자열 조작으로만 보는 것은 현재 모델의 실제 능력을 과소평가한다.

두 번째 오해는 “멀티모달 모델이면 symbol grounding이 해결된다”는 단정이다. 이미지-텍스트 연결은 grounding의 한 형태이지만, 인간 언어의 의미 전체를 포괄하지 않는다. 물리적 조작, 시간적 변화, 인과관계, 사회적 규범, 가치 판단, 자기 경험은 별도의 층위를 갖는다.

세 번째 오해는 “로봇이 행동하면 곧 인간처럼 이해한다”는 생각이다. 행동 가능성은 의미를 강하게 만든다. 하지만 현재 로봇은 경험 범위가 제한적이고, 목표는 외부에서 주어지며, 자기 보존이나 사회적 발달 같은 인간적 조건을 갖지 않는다. 로봇 grounding은 실용적으로 의미 있는 grounding이지만, 인간적 의식이나 주관적 경험의 문제까지 해결하지는 않는다.

네 번째 오해는 “Symbol Grounding Problem은 철학 문제라서 실용 AI와 무관하다”는 생각이다. 실제 AI 시스템이 세계에서 행동할수록 grounding은 성능과 안전성의 문제가 된다. 지도, 의료 영상, 금융 문서, 법률 규정, 로봇 작업, 자율주행 장면에서 언어와 세계의 연결이 어긋나면 실제 피해가 발생할 수 있다.

조정된 결론은 다음과 같다. AI는 특정 과제와 데이터 분포 안에서 단어와 비언어적 입력 사이의 작동적 대응을 학습하고 있다. 이미지, 센서, 행동, 피드백이 결합될수록 특정 과제에서 언어 표현과 세계 상태 사이의 연결은 강화된다. 하지만 이것이 곧 인간식 의미 이해, 일반적 세계 이해, 사회적 책임 능력, 주관적 경험을 뜻하지는 않는다. 현대 AI의 grounding은 “해결 완료”보다 “부분적 grounding의 단계적 확장”으로 이해하는 편이 가장 정밀하다.

정리

Symbol Grounding Problem은 기호가 현실 세계와 어떻게 연결되는가라는 질문에서 출발하지만, 그 핵심은 기호 체계가 자기 내부의 기호 순환을 넘어 감각, 범주화, 행동, 피드백, 사회적 규범과 어떻게 연결되는가에 있다. 하너드는 이 문제를 중국어-중국어 사전 비유로 설명했고, 후보 해법으로 iconic representation, categorical representation, symbolic representation의 아래로부터의 연결을 제시했다.

현대 AI는 이 문제를 여러 방식으로 다룬다. LLM은 언어 내부의 관계를 강하게 학습한다. CLIP 같은 멀티모달 모델은 언어와 시각을 연결한다. SayCan, PaLM-E, RT-2 같은 로봇·embodied 모델은 언어를 행동 가능성과 물리 환경에 연결한다. Gato는 다양한 입력과 행동을 하나의 시퀀스 구조로 통합하려 했다. π0와 Gemini Robotics 계열 모델은 VLA와 로봇 foundation model 흐름을 확장하며, 언어·시각·행동·계획을 더 밀접하게 결합하려 한다.

이 흐름은 “단어에서 세계로” 가는 중요한 기술적 진전이다. 그러나 grounding의 강도는 지각 대상 연결, 행동 성공, 인과적 일반화, 실패 후 수정, 사회적 규범 이해, 장기 기억을 분리해 평가해야 한다. 현재 AI의 grounding은 인간적 의미 이해의 완성이 아니라, 특정 과제에서 작동하는 부분적·작동적·과제 의존적 연결의 확장이다. 이 구분을 유지할 때, Symbol Grounding Problem은 AI를 과소평가하지도 과대평가하지도 않게 해 주는 핵심 개념이 된다.

참고자료

Stevan Harnad, “The Symbol Grounding Problem,” Physica D: Nonlinear Phenomena, 42(1–3), 335–346, 1990.
Stevan Harnad, “The Symbol Grounding Problem,” arXiv:cs/9906002, 1999 재게시본, 확인일: 2026-05-06.
John R. Searle, “Minds, Brains, and Programs,” Behavioral and Brain Sciences, 3(3), 417–424, 1980.
Ludwig Wittgenstein, Philosophical Investigations, Blackwell, 1953.
J. L. Austin, How to Do Things with Words, Oxford University Press, 1962.
John R. Searle, Speech Acts: An Essay in the Philosophy of Language, Cambridge University Press, 1969.
Robert B. Brandom, Making It Explicit: Reasoning, Representing, and Discursive Commitment, Harvard University Press, 1994.
Herbert H. Clark, Using Language, Cambridge University Press, 1996.
Emily M. Bender and Alexander Koller, “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian, “Experience Grounds Language,” Proceedings of EMNLP 2020, 2020.
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever, “Learning Transferable Visual Models From Natural Language Supervision,” Proceedings of ICML 2021, PMLR, 2021.
Brian Ichter et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances,” Proceedings of The 6th Conference on Robot Learning, PMLR, 2023.
Scott Reed et al., “A Generalist Agent,” Transactions on Machine Learning Research, 2022.
Danny Driess et al., “PaLM-E: An Embodied Multimodal Language Model,” Proceedings of ICML 2023, PMLR, 2023.
Brianna Zitkovich et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” Proceedings of The 7th Conference on Robot Learning, PMLR, 2023.
Elizabeth Pavlick, “Symbols and Grounding in Large Language Models,” Philosophical Transactions of the Royal Society A, 381, 20220041, 2023.
Reto Gubelmann, “Pragmatic Norms Are All You Need: Why The Symbol Grounding Problem Does Not Apply to LLMs,” Proceedings of EMNLP 2024, 2024.
Kevin Black et al., “π0: A Vision-Language-Action Flow Model for General Robot Control,” arXiv:2410.24164, 2024.
Gemini Robotics Team et al., “Gemini Robotics: Bringing AI into the Physical World,” arXiv:2503.20020, 2025.
Google DeepMind, “Gemini Robotics,” 공식 모델 페이지, 확인일: 2026-05-06.
Google AI for Developers, “Gemini Robotics-ER 1.6,” 공식 문서, 확인일: 2026-05-06.
Vanya Cohen, Jason Xinyu Liu, Raymond Mooney, Stefanie Tellex, David Watkins, “A Survey of Robotic Language Grounding: Tradeoffs between Symbols and Embeddings,” 2024.
Luc Steels, “The Symbol Grounding Problem Has Been Solved. So What’s Next?,” in Manuel de Vega, Arthur Glenberg, and Arthur Graesser (eds.), Symbols and Embodiment: Debates on Meaning and Cognition, Oxford University Press, 2008.