LLM 생성 과정과 확률적 트리 공간

핵심 요약

LLM의 생성 과정을 “트리 탐색”이라고 부르면 직관은 얻을 수 있지만, 기술적으로는 보정이 필요하다. 일반적인 Transformer 기반 언어모델은 매 생성 단계에서 현재 문맥을 바탕으로 다음 토큰 확률분포를 계산하고, 디코딩 전략은 그 분포에서 하나 또는 일부 후보를 선택한다. 사용자가 보는 출력은 최종 선택된 하나의 선형 시퀀스다. 반면 가능한 출력 전체는 각 접두 시퀀스마다 다음 토큰 후보가 갈라지는 구조를 가지므로 트리로 표현할 수 있다.

핵심 문장은 다음과 같다.

LLM은 트리처럼 “생각한다”기보다, 트리처럼 분기 가능한 확률적 출력 공간에서 하나의 선형 경로를 디코딩해 보여준다.

이 구분은 중요하다. 모델의 내부 계산, 출력 가능성 공간, 디코딩 알고리즘, 사용자 인터페이스에서 보이는 결과는 서로 다른 층위에 속한다. Greedy decoding은 한 번에 하나의 경로만 따라가고, beam search는 제한된 수의 후보 경로를 유지하며, sampling은 확률적으로 경로를 뽑는다. self-consistency나 Tree of Thoughts 같은 기법은 여러 reasoning path 또는 thought path를 명시적으로 생성·평가하기 때문에 트리적 구조가 실제 절차로 더 강하게 드러난다.

문제의식

LLM을 설명할 때 흔히 두 가지 극단이 나타난다. 하나는 LLM을 단순한 “다음 단어 예측기”로만 축소하는 설명이고, 다른 하나는 LLM이 사람처럼 머릿속에서 여러 선택지를 계획적으로 탐색한다고 보는 설명이다. 두 설명은 각각 일부를 포착하지만, 생성 과정의 층위를 충분히 나누지 못하면 오해를 만든다.

LLM은 실제 출력에서는 왼쪽에서 오른쪽으로 토큰을 하나씩 생성한다. 사용자는 완성된 답변을 직선적 문장 흐름으로 읽는다. 그러나 매 순간 모델 내부에서는 다음 토큰에 대한 확률분포가 계산되고, 그 분포는 선택되지 않은 수많은 가능성을 포함한다. 이 가능성의 집합을 접두 시퀀스(prefix sequence)를 기준으로 펼치면 트리처럼 표현할 수 있다.

따라서 설명해야 할 핵심은 “LLM이 실제로 트리를 탐색하는가?”가 아니라, “LLM의 생성 가능성 공간을 왜 트리로 표현할 수 있으며, 어떤 조건에서 그 트리 구조가 실제 탐색 절차로 구현되는가?”이다.

개념의 정의

LLM의 생성 과정

일반적인 자기회귀 언어모델(autoregressive language model)은 이전 문맥을 조건으로 다음 토큰의 확률을 계산한다. 문맥을 c, 생성될 토큰 시퀀스를 x_1, x_2, ..., x_n이라고 하면 전체 시퀀스의 확률은 다음처럼 분해된다.

P(x_1, x_2, ..., x_n | c)
= P(x_1 | c)
  × P(x_2 | c, x_1)
  × ...
  × P(x_n | c, x_1, ..., x_{n-1})

이 식은 LLM이 문장을 한 번에 통째로 고정된 형태로 뽑는 모델이 아니라, 현재까지의 문맥과 이미 생성된 토큰을 바탕으로 다음 토큰의 조건부 확률을 반복적으로 계산한다는 점을 보여준다.

Transformer 계열 모델에서는 입력 토큰들이 임베딩과 여러 층의 attention 및 feed-forward 계산을 거쳐 은닉 표현으로 변환된다. 디코더의 최종 출력은 선형 변환과 softmax를 거쳐 어휘 집합 전체에 대한 확률분포로 바뀐다. 이 확률분포가 다음 토큰 후보들을 만든다.

토큰, 경로, 시퀀스

토큰(token)은 모델이 처리하는 기본 단위다. 토큰은 단어 하나와 일치할 수도 있고, 단어의 일부이거나 기호·공백·문장부호일 수도 있다. LLM의 생성 경로는 토큰들의 순서열이다. 사람이 보기에는 문장이나 단락이 생성되는 것처럼 보이지만, 계산 층위에서는 토큰 단위의 선택이 반복된다.

하나의 경로(path)는 특정한 토큰 선택의 연쇄다. 예를 들어 어떤 질문에 대해 첫 토큰으로 “이”, “그”, “LLM”, “핵심” 등이 가능하다면, 각각은 서로 다른 경로의 시작점이 된다. 첫 번째 토큰이 정해지면 두 번째 토큰의 확률분포가 다시 계산되고, 그다음 갈래가 생긴다.

확률적 출력 공간

출력 공간(output space)은 모델이 생성할 수 있는 모든 가능한 토큰 시퀀스의 집합이다. 이 공간은 엄청나게 크다. 어휘 집합의 크기를 V, 생성 길이를 T라고 하면 단순 계산상 가능한 토큰열 수는 대략 V^T에 가깝다. 실제로는 문맥, 확률분포, 정지 토큰, 디코딩 제한, 반복 패널티, 온도, top-k, top-p 같은 조건이 가능성을 줄이지만, 가능한 경로 수는 여전히 폭발적으로 증가한다.

이 구조는 트리로 표현할 수 있다. 루트는 입력 프롬프트다. 첫 번째 층은 가능한 첫 토큰들이다. 두 번째 층은 각 첫 토큰 뒤에 가능한 두 번째 토큰들이다. 이런 식으로 접두 시퀀스마다 다음 토큰 후보가 달라진다.

프롬프트
├─ 토큰 A
│  ├─ 토큰 A1
│  ├─ 토큰 A2
│  └─ 토큰 A3
├─ 토큰 B
│  ├─ 토큰 B1
│  └─ 토큰 B2
└─ 토큰 C
   ├─ 토큰 C1
   ├─ 토큰 C2
   └─ 토큰 C3

이 트리는 모델의 머릿속에 명시적으로 저장된 도표라기보다, 가능한 생성 경로를 표현하기 위한 수학적·개념적 모델이다.

배경과 맥락

Transformer와 next-token probability

Transformer 구조를 제시한 「Attention Is All You Need」는 디코더 출력을 선형 변환과 softmax를 거쳐 예측된 다음 토큰 확률로 바꾼다고 설명한다. 이 설명은 LLM 생성 과정을 이해하는 데 중요한 기준점이다. 모델은 매 단계에서 하나의 단어를 “떠올리는” 것이 아니라, 어휘 후보 전체에 대한 점수(logit)를 만들고 이를 확률분포로 정규화한다.

이때 각 후보는 단순한 단어 후보를 넘어 이후 전체 문장 경로의 시작점이 된다. 첫 토큰 하나가 달라지면 다음 문맥이 달라지고, 그 다음 확률분포도 달라진다. 그래서 LLM의 출력 가능성은 단일 줄이 아니라 접두 시퀀스마다 갈라지는 구조를 갖는다.

선형 생성과 비선형 가능성

LLM의 실제 출력은 선형이다. 토큰 1이 출력되고, 그 다음 토큰 2가 출력되고, 이어서 토큰 3이 출력된다. 이 과정은 시간적으로 순차적이다. 사용자는 한 번에 하나의 완성된 답변만 본다.

그러나 가능성 공간은 선형보다 넓다. 특정 시점에 선택된 토큰 외에도 확률을 가진 다른 후보들이 존재한다. 선택되지 않은 후보들은 사용자에게 표시되지 않지만, 확률분포 안에는 포함되어 있다. 이 때문에 “겉으로는 직선, 배후에는 분기 가능성”이라는 설명이 유효하다.

내부 사고, 확률 공간, 탐색 알고리즘의 구분

LLM을 정확하게 설명하려면 세 층위를 나누어야 한다.

첫째, 내부 계산은 신경망의 활성값, attention 패턴, 선형 변환, softmax 등으로 구성된다. 이것은 사람이 말하는 의미의 의식적 사고나 명시적 탐색과 직접 동일시하기 어렵다.

둘째, 확률 공간은 현재 문맥에서 가능한 다음 토큰과 이후 시퀀스들의 분기 구조다. 이 공간은 트리로 표현할 수 있다.

셋째, 디코딩 알고리즘은 그 공간에서 실제 출력을 선택하는 절차다. Greedy decoding, beam search, sampling, self-consistency, Tree of Thoughts는 모두 서로 다른 방식으로 가능성 공간을 다룬다.

혼동은 주로 둘째와 셋째를 섞을 때 발생한다. 가능성 공간이 트리처럼 표현될 수 있다는 사실은 모델이 기본적으로 모든 트리를 깊게 탐색한다는 뜻으로 이어지지 않는다.

핵심 논리

1. 매 단계의 확률분포가 분기 구조를 만든다

LLM이 어떤 질문을 받으면 첫 번째 출력 토큰에 대해 확률분포를 계산한다. 예를 들어 다음과 같은 분포가 있을 수 있다. 이 숫자는 설명을 위한 가상 예시이며 실제 모델의 출력값이 아니다.

질문: "LLM의 생성 과정은?"

다음 토큰 후보:
- "LLM"     0.28
- "생성"    0.17
- "이"      0.12
- "핵심"    0.08
- 기타      0.35

디코딩 전략이 "LLM"을 선택하면 다음 문맥은 "LLM"을 포함한 상태가 된다. 이제 모델은 다시 다음 토큰 확률분포를 계산한다.

현재 문맥: "LLM"

다음 토큰 후보:
- "의"      0.42
- "은"      0.21
- "이"      0.07
- 기타      0.30

이 구조를 계속 펼치면 각 접두 시퀀스가 하나의 노드가 되고, 다음 토큰 후보가 간선이 된다. 간선에는 확률이 붙는다. 그래서 출력 공간은 확률이 가중된 트리(weighted tree)처럼 표현된다.

2. 일반 생성은 전체 트리 탐색이 아니라 국소적 선택의 반복이다

일반적인 생성에서는 모델이 모든 가능한 분기를 깊게 펼친 다음 최종 답을 비교해 고르는 방식으로 작동하지 않는다. 매 시점 현재 문맥에 대한 다음 토큰 확률분포를 만들고, 설정된 디코딩 규칙에 따라 다음 토큰을 선택한다.

Greedy decoding은 가장 높은 확률의 토큰 하나를 선택한다. 이 경우 트리 전체 중 매 단계에서 가장 그럴듯한 한 갈래만 따라간다. 첫 선택이 이후 경로를 제한하므로, 초반에 확률이 조금 낮았지만 전체적으로는 더 좋은 답변으로 이어질 수 있는 경로가 버려질 수 있다.

Beam search는 여러 후보 경로를 동시에 유지한다. 예를 들어 beam width가 5라면 매 단계에서 유망한 다섯 개 안팎의 경로를 보존하고 확장한다. 이는 제한된 탐색에 가깝다. 전체 트리를 보는 것이 아니라 계산 가능한 폭 안에서 일부 경로를 비교한다.

Sampling은 확률분포에서 후보를 뽑는다. 높은 확률의 토큰이 더 자주 선택되지만, 낮은 확률의 토큰도 선택될 수 있다. temperature, top-k, top-p 같은 설정은 이 확률적 선택의 다양성과 안정성을 조절한다.

3. 사용자 인터페이스는 하나의 경로만 보여준다

대부분의 채팅형 LLM 인터페이스는 최종 선택된 하나의 시퀀스만 사용자에게 보여준다. 사용자는 “답변이 이렇게 나왔다”고 경험하지만, 그 답변은 수많은 가능성 중 실제 디코딩된 하나의 경로다.

이 점은 LLM 답변을 해석할 때 중요하다. 출력된 문장은 모델이 가능성 공간 전체를 검토한 뒤 제시한 최종 판정이라기보다, 특정 디코딩 조건에서 생성된 하나의 실현 경로다. 같은 프롬프트라도 temperature가 다르거나 sampling seed가 다르거나 시스템 지시가 다르면 다른 경로가 선택될 수 있다.

4. 여러 경로를 명시적으로 생성하면 트리적 탐색이 실제 절차로 드러난다

self-consistency는 하나의 greedy 추론 경로에 의존하는 대신 여러 reasoning path를 샘플링하고, 그 경로들이 도달한 답을 종합해 더 일관된 답을 고르는 방식이다. 이때 모델은 여러 개의 선형 경로를 실제로 생성한다. 가능성 공간의 일부가 절차적으로 탐색되는 셈이다.

Tree of Thoughts는 이 구조를 더 명시적으로 확장한다. 토큰 하나하나가 아니라 문제 해결의 중간 단위인 “thought”를 노드로 삼고, 여러 thought 후보를 생성·평가·확장한다. 이 방식에서는 BFS나 DFS 같은 탐색 알고리즘과 유사한 절차가 결합될 수 있다. 그래서 Tree of Thoughts는 “LLM 자체가 원래 트리로 생각한다”는 주장보다, “LLM을 사용해 문제 해결 공간을 트리 형태로 탐색하게 만드는 추론 프레임워크”라고 설명하는 편이 정확하다.

구체적 사례

사례 1: Greedy decoding

다음과 같은 확률분포가 있다고 하자.

현재 문맥: "인공지능은"

다음 토큰 후보:
- " 인간"      0.31
- " 데이터를"   0.18
- " 특정"      0.11
- " 사회"      0.08
- 기타         0.32

Greedy decoding은 가장 높은 확률의 " 인간"을 선택한다. 그 다음에는 "인공지능은 인간"이라는 문맥을 기준으로 다시 확률분포를 계산한다. 이 방식은 단순하고 안정적이지만, 매 단계의 국소 최적 선택이 전체 답변의 전역적 품질을 보장하지는 않는다.

예를 들어 첫 토큰으로 " 데이터를"을 선택했다면 더 기술적인 설명으로 이어졌을 수 있고, " 사회"를 선택했다면 사회적 영향에 관한 설명으로 이어졌을 수 있다. Greedy decoding은 이런 경로를 초기에 제거한다.

사례 2: Beam search

Beam search는 여러 후보를 유지한다. beam width가 3이라면 처음에는 상위 세 후보를 보존한다.

1단계 후보:
1. "인공지능은 인간"
2. "인공지능은 데이터를"
3. "인공지능은 특정"

그 다음 각 후보를 확장하고, 전체 누적 점수가 높은 후보들을 다시 남긴다. 이 방식은 greedy보다 더 많은 경로를 고려하지만, 여전히 제한된 탐색이다. beam width가 작으면 좋은 경로가 탈락할 수 있고, beam width가 크면 계산 비용이 증가한다.

Beam search는 번역이나 요약처럼 비교적 목표가 분명한 작업에서 유용할 수 있다. 개방형 글쓰기에서는 지나치게 안전하거나 반복적인 문장을 만들 수 있다는 문제도 알려져 있다.

사례 3: Sampling과 top-p

Sampling은 확률분포에서 직접 토큰을 뽑는다. 이때 온도(temperature)를 높이면 분포가 평평해져 다양성이 커지고, 온도를 낮추면 높은 확률 후보에 더 집중한다.

Top-k sampling은 상위 k개 후보만 남기고 그 안에서 샘플링한다. Top-p 또는 nucleus sampling은 누적확률이 p에 도달할 때까지의 후보 집합을 동적으로 만들고 그 안에서 샘플링한다. Holtzman 등은 「The Curious Case of Neural Text Degeneration」에서 확률분포의 불안정한 꼬리를 잘라내고 핵심 후보 집합에서 샘플링하는 nucleus sampling을 제안했다.

이 방식은 트리의 모든 갈래를 탐색하지 않는다. 대신 매 단계에서 어떤 갈래가 선택될지를 확률적으로 결정한다. 그래서 같은 프롬프트에서도 여러 번 실행하면 서로 다른 경로가 생성될 수 있다.

사례 4: Self-consistency

수학 문제나 상식 추론 문제에서는 하나의 추론 경로가 우연히 잘못된 결론으로 이어질 수 있다. Self-consistency는 여러 추론 경로를 샘플링한 뒤, 가장 일관되게 도달하는 답을 선택한다.

예를 들어 한 문제에 대해 다섯 개의 reasoning path를 생성했다고 하자.

경로 1 → 답 A
경로 2 → 답 A
경로 3 → 답 B
경로 4 → 답 A
경로 5 → 답 C

이 경우 답 A가 가장 많이 나타나므로 선택될 수 있다. 여기서 중요한 점은 “답 하나”보다 “여러 경로의 수렴성”을 본다는 데 있다. 이는 가능성 공간의 일부를 실제로 표본화한다는 점에서 일반 greedy 생성보다 트리적 구조에 가깝다.

사례 5: Tree of Thoughts

Tree of Thoughts는 토큰 단위가 아니라 사고 단계 단위의 분기를 다룬다. 어떤 문제를 풀 때 모델은 여러 중간 아이디어를 만들고, 각 아이디어를 평가한 뒤, 유망한 아이디어를 확장한다.

문제
├─ 생각 1
│  ├─ 후속 생각 1-1
│  └─ 후속 생각 1-2
├─ 생각 2
│  ├─ 후속 생각 2-1
│  └─ 후속 생각 2-2
└─ 생각 3
   ├─ 후속 생각 3-1
   └─ 후속 생각 3-2

이 구조에서는 탐색, 평가, 되돌아가기(backtracking), 가지치기(pruning)가 가능하다. 따라서 Tree of Thoughts는 LLM의 기본 생성 과정을 묘사하는 용어라기보다, LLM을 이용해 명시적인 문제 해결 탐색을 수행하도록 설계한 방법론으로 이해하는 편이 좋다.

주요 쟁점과 반론

“다음 토큰 예측”은 너무 단순한 설명인가

“LLM은 다음 토큰을 예측한다”는 말은 기술적으로 핵심을 짚지만, 모델의 작동을 지나치게 평면적으로 들리게 만들 수 있다. 다음 토큰 확률분포는 단순한 자동완성 후보 목록이 아니라, 대규모 학습을 통해 형성된 언어적·개념적·추론적 패턴의 압축 결과다.

즉 다음 토큰 예측이라는 훈련·생성 형식과, 그 과정에서 나타나는 복잡한 능력을 구분해야 한다. 모델은 형식상 다음 토큰을 예측하지만, 그 예측을 잘하기 위해 문법, 지식, 스타일, 담화 구조, 문제 해결 패턴을 내부 표현에 반영한다.

“트리 구조”는 실제 내부 구조인가

출력 가능성 공간을 트리로 표현하는 것은 유용한 추상화다. 하지만 그것이 모델 내부에 명시적인 트리 자료구조가 있다는 뜻은 아니다. Transformer 내부는 벡터 표현과 행렬 연산으로 구성된다. 트리는 가능한 출력 경로를 외부 관찰자가 설명하기 위해 사용하는 모델이다.

이 점에서 “LLM의 내부 사고가 트리 탐색이다”라는 표현은 강하다. 더 안정적인 표현은 “LLM의 생성 가능성 공간은 트리로 표현될 수 있고, 일부 디코딩·추론 기법은 그 공간의 일부를 실제로 탐색한다”이다.

“선택되지 않은 가능성”은 어디에 존재하는가

선택되지 않은 가능성은 완성된 문장으로 어딘가에 저장되어 있는 것이 아니라, 각 생성 단계의 확률분포와 그 이후 재귀적으로 가능한 확장 안에 존재한다. 즉 그것은 실제 생성물이 아니라 잠재적 경로다.

이 차이는 중요하다. 모델이 답변 하나를 출력했다고 해서 나머지 가능성을 모두 검토했다는 의미가 생기지 않는다. 반대로 출력되지 않은 가능성이 무의미하다는 뜻도 아니다. 디코딩 조건을 바꾸면 다른 가능성이 실제 출력으로 실현될 수 있다.

“추론 경로”와 “토큰 경로”는 같은가

토큰 경로와 추론 경로는 겹칠 수 있지만 동일한 단위가 아니다. Chain-of-thought prompt에서 모델이 중간 추론 문장을 생성하면 그 문장 역시 토큰들의 시퀀스다. 그러나 사람이 “추론 단계”라고 부르는 것은 의미 단위다. Tree of Thoughts에서 말하는 thought도 토큰 하나가 아니라 문제 해결의 중간 단위로 취급되는 짧은 텍스트 조각이다.

따라서 “트리”라는 말을 쓸 때는 어떤 단위의 트리인지 분명히 해야 한다. 토큰 수준 트리, 문장 수준 트리, reasoning path 수준 트리, 계획 수준 트리는 서로 다른 해상도를 가진다.

오해와 한계

오해 1: LLM은 항상 모든 경우의 수를 검토한다

일반적인 LLM 생성은 전체 경우의 수 검토가 아니다. 어휘 크기와 생성 길이를 고려하면 전체 트리는 계산 불가능할 정도로 커진다. 실제 시스템은 제한된 시간과 계산량 안에서 디코딩 규칙에 따라 일부 선택만 수행한다.

오해 2: 가장 확률 높은 경로가 가장 참된 답이다

확률이 높다는 것은 모델의 학습 분포와 현재 문맥에서 그 토큰 또는 경로가 그럴듯하다는 뜻이다. 참·거짓, 논리적 타당성, 윤리적 적절성, 사실성은 별도의 평가가 필요하다. LLM의 확률분포는 진리 함수가 아니라 언어적 가능성의 분포다.

오해 3: Chain-of-thought는 모델의 내부 사고를 그대로 보여준다

모델이 생성한 추론 문장은 출력 텍스트다. 그것이 모델 내부의 모든 계산 과정을 투명하게 드러낸다고 볼 수는 없다. Chain-of-thought는 문제 해결 성능을 높이는 프롬프팅 또는 디코딩상의 형식일 수 있지만, 내부 활성값의 완전한 해석은 아니다.

오해 4: Tree of Thoughts가 모든 문제에서 더 낫다

Tree of Thoughts류 방법은 여러 후보를 생성·평가하므로 계산 비용이 크다. 탐색이 필요한 문제, 되돌아가기와 계획이 중요한 문제에서는 유용할 수 있지만, 짧은 사실 질의나 단순 변환 작업에서는 과도한 절차가 될 수 있다. 또한 모델의 자기평가가 부정확하면 잘못된 경로를 유망하다고 판단할 위험도 있다.

오해 5: 트리 은유만으로 LLM의 생성 품질을 설명할 수 있다

트리 은유는 출력 가능성의 분기 구조를 설명하는 데 유용하다. 하지만 생성 품질은 모델 규모, 학습 데이터, 정렬 절차, 프롬프트, 시스템 메시지, 검색 보강, 디코딩 설정, 후처리, 안전 정책 등 여러 요소에 의해 결정된다. 트리 구조는 그중 생성 과정의 한 측면을 설명한다.

더 정밀한 표현으로 고친 문장

주어진 원문의 핵심을 보존하면서 기술적으로 안정화하면 다음과 같이 정리할 수 있다.

LLM의 생성 과정은 겉으로는 직선적이지만, 가능한 출력 공간은 트리 구조로 표현할 수 있다.
한 질문에 대해 여러 가능한 다음 토큰·문장·추론 경로가 존재한다.
모델은 매 생성 단계에서 현재 문맥을 바탕으로 다음 토큰 후보들의 확률분포를 계산한다.
디코딩 전략은 그 후보들 중 하나 또는 일부 경로를 선택한다.
일반적인 사용자 인터페이스는 최종 선택된 하나의 경로만 출력한다.
그래서 사용자는 대화를 단일 직선 흐름처럼 경험한다.
실제로는 선택되지 않은 많은 가능성이 확률 공간 안에 남아 있다.
일반 생성에서 모델이 모든 분기를 깊게 탐색하는 것은 아니다.
여러 경로를 명시적으로 비교하려면 beam search, sampling, self-consistency, Tree of Thoughts 같은 별도 전략이 필요하다.
따라서 가장 압축적인 표현은 “표현은 선형, 가능성 공간은 트리”다.

이 표현에서 핵심은 “트리”를 내부 의식의 은유로 쓰지 않고, 가능성 공간과 탐색 절차의 구분을 유지하는 데 있다.

정리

LLM의 출력은 하나의 선형 텍스트로 나타난다. 하지만 그 선형 텍스트는 매 단계의 확률분포에서 선택된 하나의 경로다. 각 접두 시퀀스는 다음 토큰 후보들을 만들고, 그 후보들은 다시 새로운 후보들을 만든다. 이 때문에 전체 출력 가능성 공간은 트리로 표현할 수 있다.

중요한 구분은 다음과 같다. 가능성 공간이 트리처럼 표현된다는 사실은 LLM이 기본적으로 모든 트리를 의식적으로 탐색한다는 뜻이 아니다. 일반 생성은 현재 문맥의 확률분포에서 디코딩 전략에 따라 다음 토큰을 고르는 반복 절차다. Greedy decoding은 하나의 경로를 따른다. Beam search는 제한된 수의 경로를 유지한다. Sampling은 확률적으로 경로를 실현한다. Self-consistency와 Tree of Thoughts는 여러 경로를 명시적으로 생성·평가해 탐색적 성격을 강화한다.

따라서 LLM의 생성 과정을 설명할 때 가장 안정적인 문장은 다음과 같다.

LLM은 트리처럼 “생각한다”기보다, 트리처럼 분기 가능한 확률적 출력 공간에서 하나의 선형 경로를 디코딩해 보여준다.

이 문장은 LLM의 선형 출력, 확률적 분기, 디코딩 전략, 탐색 기법의 차이를 한꺼번에 보존한다.

참고자료

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 「Attention Is All You Need」, NeurIPS, 2017.
Hugging Face, 「Generation strategies」, Transformers Documentation, 확인일 2026년 5월 5일.
Patrick von Platen, 「How to generate text: using different decoding methods for language generation with Transformers」, Hugging Face Blog, 2020, 확인일 2026년 5월 5일.
Tom B. Brown et al., 「Language Models are Few-Shot Learners」, NeurIPS, 2020.
Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi, 「The Curious Case of Neural Text Degeneration」, ICLR, 2020.
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou, 「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」, NeurIPS, 2022.
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou, 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」, ICLR, 2023.
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan, 「Tree of Thoughts: Deliberate Problem Solving with Large Language Models」, NeurIPS, 2023.