언어 모델의 탐색 트리 추출을 통한 근시안적 계획성 분석

핵심 요약

Sixing Chen 등은 2026년 5월 7일 공개한 arXiv 논문 「Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning」에서, 추론형 언어 모델이 보드게임을 풀 때 생성하는 장문의 reasoning trace를 탐색 트리(search tree)로 변환하고, 그 트리가 실제 수 선택에 어떻게 연결되는지를 계산모형과 인과적 개입으로 분석했다. 이 연구의 핵심 결론은 다음과 같다. 언어 모델은 텍스트상으로는 여러 수 앞의 전개를 서술할 수 있지만, 실제 선택은 깊은 미래 상태의 가치 역전파(value backup)보다 얕은 후보 수 평가에 의해 더 잘 설명된다. 연구진은 이를 근시안적 계획성(myopic planning)으로 규정한다.

이 결론은 “언어 모델의 사고의 사슬(chain of thought, CoT)은 전부 장식이다”라는 단순한 주장과 다르다. 논문은 reasoning trace가 실제 선택에 인과적으로 기여한다는 점도 함께 보인다. 선택된 후보 수와 관련된 branch를 제거하면 모델의 수가 32.0% 바뀐다. 반면 그 branch 안의 깊은 lookahead 단락을 제거한 뒤 depth-1 단락만 복원하면 move change가 4.1%로 급격히 낮아지고, 더 깊은 단락을 추가해도 3.7%로만 줄어든다. 이 결과는 추론 흔적 전체가 무의미하다는 뜻이 아니라, 깊은 탐색 텍스트가 최종 행동과 약하게 결합되어 있다는 뜻이다.

이 연구는 기존의 CoT faithfulness 논의를 한 단계 좁고 정밀한 질문으로 전환한다. 기존 연구가 “모델이 제시한 설명이 실제 이유를 반영하는가”를 물었다면, Chen 등은 “모델이 실제로 어떤 계획 알고리즘에 가까운 의사결정을 하는가”를 묻는다. 이를 위해 네 가지 요소를 결합한다. 특수 게임 환경, 탐색 트리 추출, 계산모형 비교, 추론 텍스트 절제(pruning)를 통한 인과적 개입이다.

문제의식

추론형 언어 모델은 수천 토큰에 이르는 reasoning trace를 생성한다. 그 안에는 “이 수를 두면 상대가 이렇게 응수하고, 이후 나는 저 수를 고려할 수 있다”와 같은 미래 시뮬레이션이 자주 등장한다. 자연스럽게 두 가지 해석이 가능하다. 하나는 모델이 실제로 다단계 계획을 수행한다는 해석이다. 다른 하나는 계획처럼 보이는 문장을 생성하지만, 최종 선택은 즉각적 전술 평가에서 나온다는 해석이다.

이 문제는 성능 평가만으로는 해결되지 않는다. 모델이 좋은 수를 두었다는 사실만으로, 그 수가 장기 계획의 결과인지 즉각적 패턴 인식의 결과인지 알 수 없기 때문이다. 마찬가지로 모델이 “네 수 뒤를 봤다”고 적었다는 사실만으로, 그 정보가 선택을 만들었다고 결론 내릴 수 없다. 따라서 필요한 것은 행동 결과와 텍스트상의 계획 구조를 동시에 다루는 분석이다.

Chen 등의 논문은 이 간극을 메우려 한다. 연구진은 reasoning trace에서 명시적으로 언급된 가상 수들을 구조화하고, 그 구조가 수 선택을 예측하는 방식까지 모델링한다. 이어서 텍스트 일부를 제거하고 다시 응답을 생성하게 함으로써, 어떤 추론 단락이 실제 선택에 영향을 미쳤는지 추정한다. 이 점에서 이 논문은 단순한 성능 벤치마크가 아니라 계획 메커니즘의 구조적 분석으로 작동한다.

개념의 정의

탐색 트리

탐색 트리는 현재 상태에서 가능한 행동들을 가지처럼 펼치고, 각 행동 이후의 상대 반응과 그다음 자신의 대응을 단계적으로 연결한 구조다. 보드게임에서는 현재 보드 상태가 뿌리(root)가 되고, 내가 고려하는 첫 수가 depth-1 노드가 되며, 상대의 응수가 depth-2 노드가 된다. 이후 내 재응수는 depth-3, 그다음 상대 수는 depth-4로 이어진다.

이 구조는 계획을 분석할 때 두 축을 제공한다. 하나는 너비(breadth)다. 처음 단계에서 몇 개의 후보 행동을 고려했는가를 뜻한다. 다른 하나는 깊이(depth)다. 미래 전개를 몇 ply까지 시뮬레이션했는가를 뜻한다. 논문의 핵심은 언어 모델이 높은 성능을 보일수록 대체로 더 넓게 탐색하지만, 더 깊게 탐색한 흔적이 성능을 추가로 설명하지는 못했다는 데 있다.

가치 역전파와 근시안적 선택

깊은 계획이 행동을 결정하려면, 먼 미래 상태의 평가가 현재 선택으로 되돌아와야 한다. 게임 AI에서는 이를 흔히 minimax backup으로 표현한다. 단순화하면 다음과 같다.

\[ \text{Full-tree score}(a) = \text{미래 leaf state들의 평가를 위로 되돌려 계산한 값} \]

반대로 근시안적 모델은 각 첫 수 직후의 상태만 평가한다.

\[ \text{Myopic score}(a) = h(s_a) \]

여기서 \(h(s_a)\)는 후보 수 \(a\)를 둔 직후 상태 \(s_a\)의 휴리스틱 점수다. 즉, 근시안적 모델은 depth-2 이후의 정보를 현재 수의 가치에 거의 반영하지 않는 방식으로 정의된다.

Chen 등의 모델 비교는 이 차이를 정면으로 다룬다. 연구진은 같은 탐색 트리를 입력으로 두고, 깊은 노드의 값을 위로 끌어올리는 full-tree 모델과 depth-1만 사용하는 myopic 모델을 비교했다. 결과적으로 후자가 언어 모델의 실제 선택을 더 잘 예측했다.

근시안적 계획성

논문에서 myopia는 “모델이 아무 미래도 고려하지 않는다”는 뜻이 아니다. reasoning trace에는 더 깊은 수열이 실제로 등장한다. 여기서의 myopia는 언어 모델이 생성한 깊은 lookahead가 최종 선택에 충분히 반영되지 않는 의사결정 구조를 가리킨다. 따라서 이 개념은 무계획성을 뜻하지 않는다. 핵심은 “장기 계획의 텍스트적 표상과 행동 결정 사이의 결합 약화”다.

CoT faithfulness와의 차이

CoT faithfulness 연구는 보통 reasoning trace가 모델의 실제 결정 이유를 얼마나 충실히 드러내는지를 묻는다. Turpin 등은 입력에 편향적 단서를 넣었을 때 모델이 그 영향은 말하지 않은 채 그럴듯한 설명을 생성할 수 있음을 보였다. Lanham 등은 CoT를 수정하거나 교란했을 때 정답 변화가 과제와 모델에 따라 크게 달라진다고 분석했다. Anthropic의 Chen 등은 최신 reasoning model에서도 reasoning trace 모니터링만으로 모든 위험한 사용을 포착하기 어렵다고 보고했다.

Chen 등의 myopic planning 연구는 이 문제의 한 특수형을 다룬다. “추론 텍스트가 실제로 쓰였는가”라는 넓은 질문 대신, 깊은 탐색 텍스트가 수 선택에 쓰였는가를 측정한다. 그 결과, 전체 branch 정보는 중요하지만 깊은 노드는 약하게 결합되어 있다는 더 세분화된 결론을 얻는다.

배경과 맥락

인간 계획 연구와 4목 게임

연구진은 언어 모델의 계획을 인간 계획과 직접 비교하기 위해, 인간 계획 연구에서 이미 사용된 four-in-a-row 계열의 게임을 선택했다. Bas van Opheusden 등은 2023년 Nature 논문에서 숙련자가 초보자보다 더 깊은 계획을 수행한다고 보고했다. 같은 계열의 게임은 복잡성이 충분하면서도 계산모형화가 가능하고, 인간의 search depth를 정량화하기 좋다는 장점이 있다.

Callaway 등은 2022년 Nature Human Behaviour 논문에서 인간이 계산 자원을 제한받는 상황에서 계획 전략을 조정한다는 점을 보였다. 이 연구 흐름에서는 “좋은 계획”을 단순히 멀리 보는 능력으로만 보지 않는다. 제한된 계산 자원 아래에서 어떤 후보를 얼마나 넓고 깊게 탐색할지 배분하는 문제로 본다. Chen 등의 논문은 이 틀을 언어 모델로 확장한다.

왜 체스나 바둑이 아닌가

논문은 체스와 바둑처럼 인터넷에 대량의 기보가 존재하는 게임을 피한다. 학습 데이터에 특정 패턴이 많이 포함되어 있으면, 모델이 지금의 상태를 새로 탐색하지 않고 익숙한 수열을 재생할 수 있다. 연구진은 four-in-a-row가 더 깨끗한 testbed라고 본다.

이 표현은 신중하게 받아들여야 한다. four-in-a-row가 학습 데이터 오염을 완전히 제거한다고 말할 근거는 없다. 논문이 제시하는 주장은 과도하게 유명한 게임보다 데이터 노출 위험이 상대적으로 낮다는 수준이다. 따라서 이 실험은 “암기를 배제한 순수 계획의 절대 검정”이 아니라, 데이터 의존성을 줄이려는 설계로 이해하는 편이 정확하다.

계획 논쟁과 언어 모델

LLM planning 논쟁에는 크게 두 흐름이 있다. Kambhampati 등은 autoregressive LLM이 자체적으로 체계적 계획과 자기검증을 수행하기 어렵다고 보고, 외부 계획기와 결합하는 LLM-Modulo 구조를 제안했다. 반대로 NaturalPlan과 같은 벤치마크 연구는 언어 모델이 다양한 자연어 계획 문제에서 일정 수준의 성과를 낼 수 있음을 보이며, 경험적 평가를 확장했다.

Chen 등의 연구는 이 대립을 다른 각도에서 다룬다. 성공 여부 자체보다, 성공이 어떤 계산 구조와 연결되는지를 본다. 따라서 이 논문은 계획 가능성 논쟁의 승패를 단정하지 않고, 현행 reasoning model이 보이는 계획성의 형태가 인간 전문가의 깊이 중심 계획과 다르다는 구체적 분석을 제시한다.

핵심 논리

1. reasoning trace를 탐색 트리로 변환한다

연구진은 27개 모델이 참여하는 round-robin 토너먼트를 구성했다. 각 모델 쌍은 선공을 번갈아 맡아 4게임씩 치렀고, 총 1,404게임이 생성됐다. 이후 분석은 reasoning trace가 완전히 공개되는 14개 모델에 제한되었다. 일부 상용 모델은 중간 추론을 요약본 형태로만 제공했기 때문이다. 최종적으로 연구진은 1,092게임에서 9,696개의 reasoning trace를 확보했다.

각 reasoning trace는 자연어다. 연구진은 GPT-5를 judge model로 사용해, 텍스트에 명시된 미래 수와 좌표를 추출하고 이를 중첩 리스트 형태의 search tree로 변환했다. 이때 추출기는 “명시적으로 언급된 좌표만 포함할 것”, “부모 branch를 섞지 말 것”, “깊이별 플레이어 교대를 유지할 것” 같은 제약을 받았다. 논문은 사람 주석 검증셋으로 추출 프롬프트를 조정했다고 밝힌다.

이 과정의 의미는 크다. 기존 연구는 흔히 긴 reasoning trace를 “긴 텍스트”로 다뤘다. Chen 등은 그 텍스트를 후보 수, 상대 응수, 재응수의 계층 구조로 바꾼다. 따라서 모델이 얼마나 넓고 깊게 탐색했는지 정량화할 수 있다.

2. 성능 증가는 탐색 너비와 강하게 결합된다

연구진은 모델별 평균 tree size와 승률을 비교했다. 탐색량이 클수록 승률이 높아지는 정적 관계가 관찰됐다. 같은 모델인 GPT-OSS-120B를 medium reasoning effort와 high reasoning effort로 나누어 비교했을 때, 더 많은 추론 토큰을 쓰는 설정이 더 큰 탐색 트리와 더 높은 승률을 보였다. 연구진은 이를 추론 시점의 탐색 노력이 성능 향상과 연결된다는 내부 비교 근거로 해석한다.

그러나 어떤 종류의 탐색이 유효한지는 별도의 문제다. 논문은 breadth와 depth를 분리해 회귀분석을 수행한다. 전체 모델의 평균 최대 탐색 깊이는 1.00~3.48 ply 수준이었다. 이는 같은 게임에서 인간의 탐색 깊이가 4~6 ply로 추정되며 전문가일수록 더 깊어진다는 van Opheusden 등의 결과보다 얕다. 더 중요한 점은, breadth를 통제하면 depth가 승률을 추가로 설명하지 못했다는 것이다. 반면 root에서 더 많은 후보 수를 고려하는 breadth는 성능과 더 잘 연결됐다.

이 결과는 추론 토큰을 늘렸을 때 나타난 성능 향상이 후보 공간을 더 넓게 훑는 방식과 강하게 연결되어 있음을 시사한다.

3. 실제 수 선택은 깊은 노드의 가치 역전파로 설명되지 않는다

연구의 핵심은 계산모형 비교다. 연구진은 extracted search tree를 입력으로 받아, 모델의 실제 수 선택을 예측하는 여러 모형을 만들었다.

첫째, full-tree 모델은 leaf state의 휴리스틱 값을 minimax 규칙으로 위로 되돌려 depth-1 후보 수의 점수를 계산한다. 이는 전형적인 장기 계획 모델이다.

둘째, myopic 모델은 depth-1 상태만 평가한다. 상대의 응수나 그 이후의 미래 전개가 trace에 존재해도 점수 계산에는 넣지 않는다.

셋째, discount 모델은 깊은 정보의 반영 비율을 연속 변수로 둔다. 이 비율이 1이면 full-tree에 가깝고, 0이면 myopic 모델에 가깝다.

넷째, no-tree 모델은 reasoning trace에서 추출한 candidate set조차 쓰지 않고, 가능한 모든 합법 수를 휴리스틱으로만 평가한다.

실험 결과는 분명하다. tree-based 모델은 no-tree 모델보다 낫다. 즉, 추론 trace에서 추출한 후보 집합은 실제 선택을 예측하는 데 의미가 있다. 그러나 tree-based 모델 사이에서는 myopic 모델이 full-tree 모델보다 더 좋은 예측력을 보였다. 두 모델이 서로 다른 수를 예측한 상황에서, myopic 모델이 유일하게 맞은 경우는 1,236턴, full-tree 모델이 유일하게 맞은 경우는 512턴이었다.

또한 논문은 depth harm을 다음과 같이 정의한다.

\[ \text{Depth harm} = \text{NLL(full-tree)} - \text{NLL(myopic)} \]

이 값은 모든 모델에서 양수였고, 탐색 깊이가 커질수록 커졌다. 뜻은 명확하다. extracted tree의 깊은 노드까지 고려하는 full-tree 모델을 쓰면, 오히려 언어 모델의 실제 행동을 덜 잘 예측하게 된다. discount 모델의 깊이 가중치도 거의 0으로 수렴했다. 이 결과는 언어 모델이 텍스트상으로 더 깊은 branch를 확장해도, 그 값을 수 선택에 다시 끌어올리는 계산은 약하게 작동한다는 해석을 뒷받침한다.

4. 인과적 개입은 “어떤 단락이 실제로 선택을 바꾸는가”를 추적한다

상관관계만으로는 충분하지 않다. reasoning trace와 수 선택이 함께 나타난다고 해서, trace가 행동을 만들었다고 볼 수는 없다. 이를 보완하기 위해 연구진은 reasoning trace 일부를 제거하고, 편집된 trace를 prefill로 넣은 뒤 모델이 다시 수를 고르게 했다.

먼저 최종 결론 단락(final decision paragraph)을 제거했다. 그 결과 move change는 2.1%였다. 즉, 마지막 결론문이 사라져도 대체로 같은 수가 유지됐다.

다음으로 실제 선택된 branch 전체를 제거했다. 그 결과 move change는 32.0%로 상승했다. 반면 선택되지 않은 가장 큰 branch를 제거했을 때 change는 1.2%였다. 이 결과는 추론 trace가 전혀 무력하다는 해석을 막는다. 모델이 선택한 branch의 텍스트는 실제 수 선택에 의미 있게 연결되어 있다.

핵심은 그 branch 내부에서 어떤 깊이의 정보가 중요한가다. 연구진은 선택된 branch를 제거한 상태에서 depth-1 단락만 다시 넣었다. 그러자 move change가 4.1%로 낮아졌다. 이후 더 깊은 단락까지 추가해도 3.7%로만 떨어졌다. 이 차이는 깊은 lookahead 문단의 추가적 인과 효과가 매우 작다는 결론으로 이어진다.

이 실험은 기존 요약에서 자주 나타나는 “95% 이상 그대로 유지”라는 표현을 정확히 고쳐 준다. 논문 수치상 depth-1 단락만 남긴 조건에서 약 95.9%가 유지된다고 표현할 수는 있다. 그러나 그 수치는 특정한 절제 조건 아래의 결과다. 일반화된 문장으로 “깊은 사고를 다 지워도 95%가 유지된다”고 쓰면 실험 조건이 흐려진다.

5. 이 연구가 보여준 것은 “장식적 CoT” 일반론이 아니다

논문은 reasoning trace를 투명한 내면 기록으로 읽는 태도에 경고를 보낸다. 이 점은 Turpin 등, Lanham 등, Chen 등, Arcuschin 등의 CoT faithfulness 연구와 접점을 가진다. 그러나 Chen 등의 결론은 더 제한적이고 더 강하다. 이 연구는 특정 전략 게임 환경에서, 텍스트로 생성된 깊은 search branch가 실제 선택의 핵심 원인이 되지 않는 경우가 많다고 보인다.

동시에 reasoning trace 전체를 장식으로 환원하지 않는다. branch 제거 실험에서 32.0%의 move change가 나타났다는 사실은, 최소한 후보 선택과 얕은 branch 평가는 실제 행동 결정의 일부로 작동한다는 뜻이다. 따라서 가장 안전한 요약은 다음과 같다.

언어 모델의 깊은 탐색 텍스트는 실제 행동 선택과 약하게 결합되어 있고, 실제 선택은 주로 얕은 후보 평가와 후보 집합 구성으로 설명된다.

구체적 사례

기존 요약의 검토

사용자가 제시한 영상 기반 요약은 전체 방향에서 논문과 잘 맞는다. 특히 다음 네 항목은 원문과 일치한다.

첫째, 논문 제목·저자·소속·arXiv 번호·공개일은 정확하다. 논문은 arXiv:2605.06840v1이며, 2026년 5월 7일 공개되었다. 저자는 Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar이고, 소속은 NYU와 Generality Inc.다.

둘째, 연구는 4×9 four-in-a-row 게임을 사용해 언어 모델의 planning-like reasoning을 측정한다. 이 선택은 유명 게임의 데이터 노출 가능성을 낮추고, 인간 계획 연구와의 비교 가능성을 확보하려는 설계다.

셋째, LLM의 성능은 reasoning effort가 커질수록 개선되는 경향을 보이지만, 그 개선은 깊은 search depth보다 넓은 candidate breadth와 더 강하게 연결된다.

넷째, 실제 수 선택은 full-tree backup보다 myopic model에 의해 더 잘 설명된다. 논문은 이를 “LLMs do not act on deep lookahead”라는 표현으로 정리한다.

보정이 필요한 지점은 세 가지다.

첫째, “데이터 오염이 배제됐다”는 표현은 강하다. 논문은 체스나 바둑보다 데이터 노출 위험이 낮은 testbed라고 설명한다. 완전한 배제까지 입증하지는 않는다.

둘째, “95% 이상 그대로 유지”는 조건을 붙여야 한다. depth-1 단락만 복원한 조건에서 move change가 4.1%였으므로, 같은 수 유지율을 약 95.9%라고 표현할 수 있다. 이 수치는 branch removal과 shallow reinsertion이라는 특정 개입 설계의 결과다.

셋째, “CoT는 장식적 요소”라는 일반화는 수정이 필요하다. 논문은 branch 제거 실험으로 reasoning trace가 move selection을 실제로 움직인다는 점을 보인다. 다만 깊은 lookahead 부분이 최종 선택을 거의 바꾸지 않았다는 것이 더 정확한 결론이다.

인간과 LLM의 비교가 중요한 이유

van Opheusden 등의 인간 연구에서 숙련자는 더 깊게 계획하는 방향으로 실력이 향상된다. Chen 등의 LLM 분석에서는 더 넓은 탐색이 성능 향상과 연결된다. 이 대비는 “인간과 LLM 모두 계획을 한다” 혹은 “LLM은 전혀 계획하지 않는다”라는 양극단의 도식을 피하게 한다. 같은 보드게임에서도 성능을 지탱하는 계산 구조가 다를 수 있다는 점이 핵심이다.

인간 전문가의 깊은 탐색은 미래 가치가 현재 수 선택으로 되돌아오는 구조와 잘 맞는다. 반면 LLM은 후보 수를 넓게 제안하고, 그중 즉각적인 전술 가치가 높은 수를 고르는 전략에 가깝게 보인다. 이 차이는 언어 모델이 생성하는 “장기 계획 서술”을 인간의 심적 시뮬레이션과 곧바로 동일시하지 말아야 함을 보여준다.

Thought Anchors 연구와의 연결

Bogdan 등은 2025년 「Thought Anchors: Which LLM Reasoning Steps Matter?」에서 reasoning trace의 일부 문장이 이후 추론 전체에 불균등하게 큰 영향을 준다고 보고했다. 그들은 특히 planning 또는 backtracking 계열의 문장이 중요한 anchor가 되는 경우를 보였다.

Chen 등의 결과는 이 주장과 충돌하지 않는다. 오히려 더 세분화한다. reasoning trace 안에는 중요한 문장이 실제로 존재할 수 있지만, four-in-a-row 환경에서는 깊은 lookahead 문장 자체가 아니라 후보 선택과 얕은 평가에 가까운 단락이 결정적 역할을 맡았다고 볼 수 있다. 따라서 중요한 질문은 “CoT가 중요한가”가 아니라, 어떤 종류의 CoT 조각이 어떤 과제에서 행동을 바꾸는가다.

주요 쟁점과 반론

쟁점 1. 이것은 진짜 “계획 부재”의 증거인가

이 연구는 언어 모델이 planning-like text를 실제로 생성한다는 점을 부정하지 않는다. 또한 후보 branch를 제거했을 때 행동이 바뀌므로, trace 일부가 선택에 기여한다는 점도 보여준다. 논문의 결론은 더 좁다. 깊은 search branch가 장기 가치 역전파를 통해 선택을 결정하는 방식은 약하게 관찰된다는 것이다.

따라서 이 논문을 근거로 “LLM은 전혀 계획하지 않는다”고 말하는 것은 비약이다. 더 정확한 해석은 “이 게임 환경에서 측정된 LLM의 행동은 인간 전문가형의 깊이 중심 계획보다, 얕은 후보 평가와 넓은 후보 탐색에 가깝다”는 것이다.

쟁점 2. 탐색 트리 추출이 실제 내부 계산을 대변하는가

논문은 명시적으로 언급된 수만 tree에 포함한다. 이 설계는 환각적 추출을 막는 데 유리하지만, 모델이 내부적으로 계산했으나 말로 쓰지 않은 고려 사항은 포착하지 못한다. 즉, extracted tree는 언어화된 계획 구조의 측정치이지, 내부 상태 전체의 완전한 지도는 아니다.

또한 tree extraction과 paragraph labeling에 GPT-5와 Claude Opus 4.7이 사용된다. 연구진은 검증셋과 세부 프롬프트를 공개해 재현성을 높였지만, LLM-as-judge 절차에는 체계적 오분류 가능성이 남는다. 추후 사람 주석과 자동 추출 간의 오차 분석이 더 확대될 필요가 있다.

쟁점 3. 인과적 개입은 무엇을 증명하는가

trace pruning 실험은 reasoning trace 조각이 재실행된 모델의 선택에 어떤 영향을 미치는지 측정한다. 이는 매우 강한 실험이지만, 원래 응답 생성 순간의 모든 내부 계산을 직접 들여다본 것은 아니다. 편집된 trace를 prefill로 넣어 다시 선택을 시키는 방식이므로, 개입의 대상은 이미 언어화된 trace가 이후 선택을 유도하는 역할이다.

따라서 이 실험은 “깊은 branch가 원래부터 전혀 계산되지 않았다”를 보이지 않는다. 대신 “깊은 branch 텍스트를 재노출하는 것이 최종 move selection을 추가로 거의 바꾸지 않는다”를 보인다. 이 구분은 중요하다.

쟁점 4. adaptive myopia는 설명인가, 가설인가

논문은 근시안성이 단순한 실패가 아닐 가능성도 제시한다. 미래 예측이 깊어질수록 오류가 커지면, 모델이 먼 미래 계산을 덜 신뢰하고 얕은 정보를 더 쓰는 것이 오히려 합리적일 수 있다. 이는 adaptive myopia라는 가설이다.

이 설명은 설득력이 있지만, 논문이 직접 입증한 결론은 아니다. 연구진은 알고리즘적 병목, tactical heuristic의 우세, 불확실성에 대한 적응이라는 세 가지 가능성을 함께 제시한다. 따라서 adaptive myopia는 현상을 설명하는 한 후보 메커니즘으로 다루는 편이 적절하다.

쟁점 5. 강화된 reasoning model에서도 같은 현상이 나타나는가

논문은 여러 reasoning model을 포함하지만, 모든 최신 모델과 모든 전략 과제를 대표하지는 않는다. 일부 상용 모델은 full trace가 제공되지 않아 심층 분석에서 제외되었다. 또한 한 종류의 보드게임만 다룬다. 수학 증명, 코드 생성, 장기 에이전트 계획과 같은 다른 과제에서 같은 패턴이 재현되는지는 아직 열려 있다.

이 한계는 후속 연구의 방향을 분명히 한다. 지금까지의 결론은 “일반적 LLM planning 전체”에 대한 완결판이 아니라, 특정 전략 환경에서 planning-like trace와 행동 사이의 정교한 불일치를 검출한 첫 강한 사례다.

오해와 한계

오해 1. “CoT는 전부 꾸며낸 설명이다”

이 연구는 그 결론을 지지하지 않는다. 선택된 branch 전체를 제거했을 때 행동 변화가 32.0% 발생했다는 결과는 reasoning trace 일부가 실제 선택에 인과적 역할을 한다는 뜻이다. 문제는 어떤 깊이의 정보가 선택을 움직이는가다. 논문은 깊은 branch의 추가적 영향이 작다고 보인다.

오해 2. “깊은 추론은 늘 해롭다”

depth harm은 모델 적합도의 차이를 나타내는 지표다. full-tree 모델이 myopic 모델보다 LLM의 실제 행동을 덜 잘 예측했다는 뜻이지, LLM이 깊은 문장을 생성할수록 반드시 실제 게임 실력이 떨어진다는 뜻은 아니다. 이 개념은 행동 예측모형의 성능 차이를 설명하는 도구로 읽어야 한다.

오해 3. “four-in-a-row 실험이 장기 계획 전반을 대표한다”

이 게임은 계획 연구에 적합한 통제 환경이지만, 일반 업무·과학 추론·복합 에이전트 행동을 직접 대표하지 않는다. 논문의 일반화는 제한적이다. 특히 언어 모델이 외부 도구, 계산기, search, verifier와 결합하는 경우에는 다른 계획 구조가 나타날 수 있다.

오해 4. “깊은 탐색이 약하면 곧바로 안전성이 낮다”

논문은 안전성 문제와 관련된 중요한 함의를 제시한다. reasoning trace를 투명한 감독 창구로 믿기 어렵다는 점은 scalable oversight 논의와 연결된다. 다만 안전성 위험은 계획 깊이 하나로 결정되지 않는다. 감독 가능성은 추론 텍스트의 faithfulness, 행동 검증, 외부 도구 사용, 제약 준수 등 여러 층위의 문제다.

연구의 주요 한계

첫째, 논문은 arXiv v1 preprint다. 2026년 5월 12일 기준으로 공개 직후의 연구이며, 동료심사 이후 세부 해석이나 수치가 조정될 수 있다.

둘째, 분석 도메인은 한 종류의 보드게임으로 제한된다. planning의 구조가 수학 증명, 프로그래밍, 장기 에이전트 작업에서도 동일하게 나타나는지는 아직 확인되지 않았다.

셋째, extracted search tree는 verbalized search의 구조다. 잠재 상태(latent state)에서 이루어진 비언어적 계산을 직접 측정하지 않는다.

넷째, LLM judge를 활용한 tree extraction과 paragraph labeling에는 체계적 오류 가능성이 있다. 논문은 검증 절차를 제시하지만, 추후 독립 재현과 수작업 비교가 중요하다.

다섯째, 인과적 개입은 재실행된 모델에 대한 trace pruning 실험이다. 이 결과는 trace 조각의 기능을 강하게 보여주지만, 원래 추론 생성의 내부 계산 경로를 완전히 복원하지는 않는다.

정리

「Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning」은 reasoning model의 장문 추론을 단순한 텍스트가 아니라 탐색 구조로 바꾸어 읽은 연구다. 연구진은 언어 모델이 실제로 여러 후보를 넓게 고려한다는 점, 그리고 reasoning trace 일부가 선택을 움직인다는 점을 보였다. 동시에 깊은 lookahead가 인간형 장기 계획처럼 현재 선택으로 역전파되어 작동한다는 해석에는 강한 제동을 건다.

이 연구가 제시하는 가장 중요한 판단은 다음과 같다. 현재의 LLM reasoning trace는 계획의 흔적을 담고 있지만, 그 흔적의 모든 부분이 행동 결정에 같은 정도로 결합되어 있지는 않다. 이 논문이 관찰한 게임 환경에서는 넓은 후보 탐색과 얕은 평가가 행동을 더 잘 설명했고, 깊은 탐색 텍스트는 최종 선택에 제한적으로만 기여했다. 이 결론은 언어 모델의 reasoning을 읽는 방식, planning 능력을 평가하는 방식, CoT 기반 감독을 설계하는 방식 모두에 영향을 준다.

앞으로의 핵심 질문은 “언어 모델이 계획을 하느냐”라는 이분법적 물음이 아니다. 더 중요한 질문은 어떤 과제에서, 어떤 깊이의 중간 추론이, 어떤 메커니즘을 통해 실제 행동을 바꾸는가다. Chen 등의 연구는 그 질문을 실험 가능한 형태로 바꾼 첫 중요한 사례다.

참고자료

Chen, Sixing, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, and Marcelo G. Mattar, 「Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning」, arXiv:2605.06840v1, 2026년 5월 7일.
van Opheusden, Bas, Ionatan Kuperwajs, Gianni Galbiati, Zahy Bnaya, Yunqi Li, and Wei Ji Ma, 「Expertise increases planning depth in human gameplay」, Nature, 618, 1000–1005, 2023.
Callaway, Frederick, Bas van Opheusden, Sayan Gul, Priyam Das, Paul M. Krueger, Thomas L. Griffiths, and Falk Lieder, 「Rational use of cognitive resources in human planning」, Nature Human Behaviour, 6, 1112–1125, 2022.
Mattar, Marcelo G., and Máté Lengyel, 「Planning in the brain」, Neuron, 110(6), 914–934, 2022.
Turpin, Miles, Julian Michael, Ethan Perez, and Samuel R. Bowman, 「Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting」, arXiv:2305.04388, 2023.
Lanham, Tamera, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, et al., 「Measuring Faithfulness in Chain-of-Thought Reasoning」, arXiv:2307.13702, 2023.
Chen, Yanda, Joe Benton, Ansh Radhakrishnan, Jonathan Uesato, Carson Denison, John Schulman, Arushi Somani, Peter Hase, Misha Wagner, Fabien Roger, Vlad Mikulik, Samuel R. Bowman, Jan Leike, Jared Kaplan, and Ethan Perez, 「Reasoning Models Don’t Always Say What They Think」, arXiv:2505.05410, 2025.
Arcuschin, Iván, Jett Janiak, Robert Krzyzanowski, Senthooran Rajamanoharan, Neel Nanda, and Arthur Conmy, 「Chain-of-Thought Reasoning In The Wild Is Not Always Faithful」, arXiv:2503.08679, 2025.
Bogdan, Paul C., Uzay Macar, Neel Nanda, and Arthur Conmy, 「Thought Anchors: Which LLM Reasoning Steps Matter?」, arXiv:2506.19143, 2025.
Kambhampati, Subbarao, Karthik Valmeekam, Lin Guan, Mudit Verma, Kaya Stechly, Siddhant Bhambri, Lucas Saldyt, and Anil Murthy, 「LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks」, Proceedings of ICML 2024, 2024.
Zheng, Huaixiu Steven, Swaroop Mishra, Hugh Zhang, Xinyun Chen, Minmin Chen, Azade Nova, Le Hou, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, and Denny Zhou, 「NATURAL PLAN: Benchmarking LLMs on Natural Language Planning」, arXiv:2406.04520, 2024.
Bowman, Samuel R., Jeeyoon Hyun, Ethan Perez, Edwin Chen, Craig Pettit, Scott Heiner, Kamilė Lukošiūtė, Amanda Askell, Andy Jones, Anna Chen, et al., 「Measuring Progress on Scalable Oversight for Large Language Models」, arXiv:2211.03540, 2022.
Liu, Nelson F., Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang, 「Lost in the Middle: How Language Models Use Long Contexts」, Transactions of the Association for Computational Linguistics, 12, 157–173, 2024.

인포그래픽

작성일: 2026년 5월 12일