Transformer와 Self-Attention: 『Attention Is All You Need』가 바꾼 AI 설계 원리

핵심 요약

Transformer의 핵심은 자연어 처리에서 오랫동안 강했던 “순서대로 읽으며 상태를 넘기는 모델”의 관성을 끊고, 문장 안의 모든 토큰이 서로를 직접 참조하는 관계 계산 구조를 중심에 둔 데 있다. 이 구조의 중심 연산이 Self-Attention이며, 논문 『Attention Is All You Need』는 이 연산을 보조 장치가 아니라 모델의 주된 표현 학습 엔진으로 끌어올렸다.

Self-Attention은 각 토큰이 다른 토큰을 얼마나 참고해야 하는지 계산하고, 그 가중치에 따라 정보를 섞어 새로운 표현을 만든다. 이를 위해 Query, Key, Value라는 세 종류의 벡터 표현을 사용한다. Query는 현재 토큰이 찾는 정보의 방향, Key는 다른 토큰이 가진 식별 신호, Value는 실제로 전달될 정보를 담당한다. Scaled Dot-Product Attention은 이 관계를 행렬곱과 softmax로 계산한다.

Transformer가 중요했던 이유는 성능 향상만이 아니다. RNN 계열 모델은 계산이 시간 순서에 묶여 있어 병렬화가 어렵고, 멀리 떨어진 토큰 사이의 정보 경로가 길어진다. Transformer는 한 층 안에서 모든 토큰 쌍의 관계를 동시에 계산할 수 있어 병렬화와 장거리 의존성 처리에 유리했다. 이 특징이 대규모 GPU/TPU 학습과 결합하면서 이후 BERT, GPT 계열, 현대 LLM의 기술적 토대가 되었다.

다만 Transformer는 만능 구조가 아니다. Self-Attention은 모든 토큰 쌍을 비교하므로 기본 형태에서는 시퀀스 길이에 대해 제곱 비용이 든다. 또한 위치 정보는 모델 구조 안에 자연스럽게 들어 있는 것이 아니라 positional encoding 또는 position embedding으로 주입된다. Attention 가중치가 곧 인간적 의미의 “이해”나 “설명”을 뜻한다고 해석하는 것도 조심해야 한다. Transformer의 역사적 의의는 모든 문제를 해결했다는 데 있지 않고, 언어 모델링의 중심을 “순차적 상태 전달”에서 “관계 기반 병렬 계산”으로 옮긴 데 있다.

문제의식

『Attention Is All You Need』를 이해할 때 가장 중요한 질문은 “attention이 무엇인가”보다 “왜 attention만으로 모델을 구성하려 했는가”이다. 논문 이전에도 attention은 자연어 처리에서 이미 사용되고 있었다. 대표적으로 신경망 기계번역에서는 encoder가 만든 표현을 decoder가 필요할 때 참고하는 방식으로 attention이 쓰였다. 이때 attention은 주로 RNN encoder-decoder 구조를 돕는 연결 장치였다.

Transformer가 제기한 문제는 더 근본적이었다. 언어는 순서를 가진다. 그래서 과거 자연어 처리 모델은 보통 순차 계산을 자연스럽게 받아들였다. 문장을 앞에서 뒤로 읽고, 이전 hidden state를 다음 hidden state로 넘기며, 지금까지 읽은 내용을 하나의 상태에 축적하는 방식이었다. 이 구조는 직관적이지만 계산적으로는 불리하다. 앞 위치 계산이 끝나야 뒤 위치 계산을 할 수 있으므로 병렬화가 제한된다. 또한 멀리 떨어진 단어 사이의 관계를 학습하려면 정보가 여러 단계를 거쳐 이동해야 한다.

Transformer는 이 문제를 다른 방식으로 풀었다. 문장의 순서성은 positional encoding으로 표현하고, 의미 계산은 모든 토큰 사이의 관계를 직접 계산하는 방식으로 처리한다. 이 관점에서 언어 처리는 시간축을 따라 상태를 전달하는 과정보다, 여러 토큰 사이의 관련성 행렬을 만들고 그 행렬을 통해 정보를 재조합하는 과정에 가까워진다.

첨부 초안은 이 핵심을 잘 포착하고 있다. 보완할 지점은 세 가지다. 첫째, Transformer가 “RNN을 버렸다”는 표현은 구조적 전환을 설명하는 데는 유용하지만, 역사적으로는 RNN·CNN·attention이 공존하던 흐름 속에서 attention-only transduction model이 등장한 것으로 정리하는 편이 더 정확하다. 둘째, GPT가 “Transformer의 Decoder 부분만 사용한다”는 설명은 입문적으로는 맞지만, 원 논문의 decoder에는 encoder-decoder attention이 포함되어 있으므로 GPT류 모델은 그 중 cross-attention을 제거하고 causal masked self-attention 중심으로 쌓은 decoder-only Transformer라고 말하는 편이 안전하다. 셋째, Attention을 곧바로 의미 이해나 인간의 주의와 동일시하지 않고, 학습 가능한 벡터 관계 계산으로 설명해야 한다.

개념의 정의

Transformer는 순차 모델링과 sequence transduction을 위해 제안된 신경망 구조다. 원 논문의 기본 구조는 encoder-decoder 아키텍처이며, encoder와 decoder 내부의 핵심 연산을 recurrent layer나 convolution layer 대신 self-attention과 position-wise feed-forward network로 구성한다. Transformer라는 이름은 입력 토큰의 표현을 여러 층에 걸쳐 변환하고, 그 과정에서 토큰 간 관계를 반복적으로 재계산한다는 데서 이해할 수 있다.

Attention은 입력 요소들 중 어떤 요소를 더 강하게 참고할지 가중치를 계산하는 메커니즘이다. 기계학습에서 attention은 인간의 의식적 주의와 같은 심리학적 개념이 아니라, Query와 Key의 호환성 점수를 통해 Value들의 가중합을 만드는 계산 절차다. 자연어 처리에서는 특정 토큰의 표현을 만들 때 문장 안의 다른 토큰 표현을 얼마나 반영할지 계산하는 방식으로 쓰인다.

Self-Attention은 Query, Key, Value가 모두 같은 시퀀스에서 나오는 attention이다. 입력 문장 안의 각 토큰이 같은 문장 안의 다른 토큰들을 참고해 자기 표현을 갱신한다. 예를 들어 “The animal didn’t cross the street because it was tired”라는 문장에서 it의 표현을 만들 때 animal, street, tired 등 다른 토큰들과의 관련성이 계산될 수 있다. 이때 실제 모델이 반드시 사람이 기대한 방식으로 animal만을 강하게 본다고 단정할 수는 없다. 핵심은 모델이 학습을 통해 토큰 간 참조 패턴을 만들어 낼 수 있는 구조를 갖는다는 점이다.

Multi-Head Attention은 attention을 한 번만 계산하지 않고 여러 개의 head로 병렬 계산하는 방식이다. 각 head는 서로 다른 선형 변환을 거친 Query, Key, Value 공간에서 관계를 본다. 따라서 하나의 head가 문법적 의존성을, 다른 head가 위치적 관계나 의미적 유사성을, 또 다른 head가 장거리 참조를 포착할 가능성이 생긴다. 원 논문은 multi-head attention이 모델로 하여금 서로 다른 representation subspace와 위치의 정보를 함께 참고하게 한다고 설명한다.

Positional Encoding은 Transformer가 토큰 순서를 알 수 있도록 주입하는 위치 정보다. RNN은 구조 자체가 시간 순서를 따라 계산되기 때문에 순서성이 암묵적으로 반영된다. Transformer는 한 층 안에서 모든 위치를 병렬로 처리하므로 별도의 위치 정보가 필요하다. 원 논문은 사인·코사인 기반 positional encoding을 사용했고, learned positional embedding과 성능이 거의 비슷했다고 보고했다. 이후 GPT 계열은 learned position embedding을 사용했고, 현대 모델들에서는 RoPE, ALiBi 같은 다양한 위치 표현 방식이 발전했다.

Decoder-only Transformer는 GPT 계열을 이해할 때 필요한 개념이다. 원 Transformer의 decoder는 masked self-attention, encoder-decoder attention, feed-forward network를 포함한다. GPT류 언어모델은 입력 문장을 다른 출력 문장으로 번역하는 encoder-decoder 구조가 아니라, 이전 토큰들을 조건으로 다음 토큰을 예측하는 causal language model이다. 그래서 causal mask를 적용한 self-attention과 feed-forward block을 여러 층 쌓고, encoder-decoder attention은 사용하지 않는 구조로 이해하는 편이 정확하다.

배경과 맥락

Transformer 이전의 주요 흐름은 sequence-to-sequence 모델이었다. Sutskever, Vinyals, Le의 2014년 연구는 LSTM을 이용해 입력 시퀀스를 고정 길이 벡터로 인코딩하고, 다른 LSTM으로 출력 시퀀스를 생성하는 구조를 제시했다. 이 방식은 기계번역과 같은 문제를 하나의 end-to-end 신경망으로 다룰 수 있게 만들었다.

그러나 고정 길이 벡터에 입력 전체를 압축하는 방식은 긴 문장에서 정보 병목을 만들 수 있다. Bahdanau, Cho, Bengio의 attention 기반 신경망 기계번역 연구는 decoder가 출력 단어를 만들 때 encoder의 각 위치를 동적으로 참고하도록 하여 이 문제를 완화했다. 이때 attention은 이미 중요한 기술이었지만, 대체로 recurrent encoder-decoder 구조 위에 붙은 보조 메커니즘으로 작동했다.

Transformer의 차별성은 여기서 나온다. 이 논문은 attention을 기존 구조에 추가하는 데 그치지 않고, recurrence와 convolution 없이 attention만으로 sequence transduction 모델을 만들 수 있다고 제안했다. 원 논문 초록은 Transformer가 recurrence와 convolution을 제거하고 attention mechanism에만 기반한다고 요약한다. 이 표현은 논문의 역사적 메시지를 압축한다. 자연어 처리 모델의 주된 계산 장치를 hidden state 전달에서 attention 기반 관계 계산으로 바꾼 것이다.

이 변화는 단순한 이론적 제안으로 끝나지 않았다. 원 논문은 WMT 2014 English-to-German 번역에서 28.4 BLEU, English-to-French 번역에서 41.8 BLEU를 보고했고, 기존 강력한 모델보다 적은 훈련 비용으로 높은 성능을 냈다고 제시했다. 특히 English-to-French 실험에서 big model은 8개의 P100 GPU로 3.5일 훈련되었다. 이 결과는 Transformer가 아이디어상 그럴듯한 모델이 아니라, 실제 성능과 계산 효율을 함께 보여준 구조였음을 의미한다.

Transformer 구조

원 논문의 Transformer는 encoder와 decoder로 구성된다. Encoder는 입력 토큰 시퀀스를 연속 벡터 표현의 시퀀스로 바꾸고, decoder는 그 표현을 참고해 출력 토큰을 한 단계씩 생성한다. 이 큰 틀은 기존 sequence-to-sequence 모델과 연결되어 있다. 변한 것은 encoder와 decoder 내부의 기본 연산이다.

Encoder의 각 층은 두 개의 핵심 sub-layer로 구성된다. 첫 번째는 multi-head self-attention이고, 두 번째는 position-wise feed-forward network다. 각 sub-layer 주변에는 residual connection과 layer normalization이 붙는다. 기본 모델에서는 동일한 encoder layer를 6개 쌓는다. 입력 임베딩과 positional encoding이 더해진 뒤, 각 층에서 토큰들은 서로를 참고하며 표현을 갱신하고, feed-forward network를 통해 각 위치별 비선형 변환을 거친다.

Decoder도 여러 층으로 쌓인다. 원 Transformer decoder의 각 층에는 세 개의 sub-layer가 있다. 첫 번째는 masked multi-head self-attention, 두 번째는 encoder-decoder attention, 세 번째는 feed-forward network다. masked self-attention은 출력 토큰을 생성할 때 미래 위치를 보지 못하게 만든다. 예를 들어 다섯 번째 토큰을 예측하는 시점에 여섯 번째 토큰을 참고하면 학습 목표가 깨진다. 그래서 decoder에서는 현재 위치 이후의 attention score를 mask로 차단한다. encoder-decoder attention은 decoder의 각 위치가 encoder 출력 전체를 참고하게 해 번역 같은 작업에서 입력 문장의 관련 부분을 볼 수 있게 한다.

이 구조를 GPT 계열에 연결할 때는 주의가 필요하다. GPT가 “decoder만 쓴다”는 말은 넓은 의미에서는 맞다. 하지만 GPT는 원 Transformer decoder 전체를 그대로 떼어온 것이 아니라, causal language modeling에 필요한 부분을 중심으로 재구성한 decoder-only Transformer다. 원 decoder에 있던 encoder-decoder attention은 입력 encoder가 없기 때문에 제거된다. 핵심은 masked self-attention을 통해 이전 토큰만 보고 다음 토큰 확률을 예측하는 구조다.

BERT는 다른 방향을 택했다. BERT는 Bidirectional Encoder Representations from Transformers라는 이름 그대로 encoder 기반 모델이다. BERT는 문장 양쪽 문맥을 함께 조건으로 삼아 깊은 양방향 표현을 사전학습한다. GPT류 모델이 왼쪽에서 오른쪽으로 다음 토큰을 생성하는 causal 모델이라면, BERT는 전체 문맥을 활용해 표현을 만드는 encoder-only 모델에 가깝다. 이 차이는 모델 구조뿐 아니라 학습 목표의 차이와 연결된다.

Self-Attention의 작동 원리

Self-Attention의 기본 아이디어는 간단하다. 한 토큰의 새 표현을 만들 때, 같은 시퀀스 안의 다른 토큰들을 모두 후보 정보원으로 보고, 각각을 얼마나 참고할지 계산한다. 이 계산은 직관적으로는 “이 토큰을 이해하려면 어떤 토큰을 얼마나 봐야 하는가”라는 질문처럼 보인다. 구현상으로는 Query, Key, Value라는 벡터와 행렬곱, softmax, 가중합으로 이루어진다.

각 입력 토큰 벡터는 세 개의 선형 변환을 거쳐 Query, Key, Value가 된다. Query는 현재 위치가 찾는 정보의 방향을 나타낸다. Key는 각 위치가 자신을 식별하게 하는 비교 신호다. Value는 attention 가중치가 결정된 뒤 실제로 섞여 들어가는 정보다. 어떤 토큰 A가 토큰 B를 얼마나 참고할지는 A의 Query와 B의 Key의 내적으로 계산된다. 내적값이 크면 두 벡터가 해당 표현 공간에서 잘 맞는다는 뜻이고, softmax를 거쳐 가중치가 된다.

원 논문의 Scaled Dot-Product Attention 식은 다음과 같다.

Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

여기서 QK^T는 모든 Query와 Key 사이의 관련성 점수 행렬을 만든다. softmax는 이 점수를 각 Query 기준의 확률적 가중치로 바꾼다. 마지막으로 그 가중치가 V에 곱해져 Value들의 가중합이 된다. 한 문장으로 말하면 Self-Attention은 “관련성 점수를 계산하고, 그 점수를 정규화한 뒤, 정보 벡터를 가중 평균하는 연산”이다.

\sqrt{d_k}로 나누는 이유도 중요하다. Key와 Query의 차원이 커질수록 내적값의 분산이 커질 수 있다. 점수가 너무 커지면 softmax가 매우 뾰족해지고, 일부 위치에 가중치가 과도하게 몰리며, gradient가 작아져 학습이 불안정해질 수 있다. Scaled Dot-Product Attention은 내적값을 key dimension의 제곱근으로 나누어 이 문제를 완화한다. 이 스케일링은 수식의 장식이 아니라 안정적인 학습을 위한 설계 요소다.

Multi-Head Attention은 위 과정을 여러 번 병렬로 수행한다. 각 head는 서로 다른 학습된 선형 변환을 사용해 Query, Key, Value를 만들고, 각자의 attention 결과를 계산한다. 그 결과들을 이어 붙인 뒤 다시 선형 변환한다. 이를 통해 모델은 하나의 attention 공간에 모든 관계를 억지로 압축하지 않고, 여러 관계 패턴을 병렬적으로 학습할 수 있다. 원 논문 기본 설정에서는 8개 head를 사용했고, 각 head의 차원을 줄여 전체 계산 비용이 단일 head 전체 차원 attention과 비슷하게 유지되도록 했다.

Feed-Forward Network는 attention과 역할이 다르다. Attention은 토큰들 사이에서 정보를 섞는다. Feed-forward network는 각 위치의 표현을 독립적으로 비선형 변환한다. 원 논문에서는 두 개의 선형 변환 사이에 ReLU를 둔 position-wise feed-forward network를 사용했다.

FFN(x) = max(0, xW_1 + b_1)W_2 + b_2

이 구조를 간단히 정리하면 attention은 “관계 기반 정보 교환”이고, feed-forward network는 “각 위치 표현의 내부 가공”이다. Transformer layer는 이 두 과정을 반복적으로 쌓아 더 복잡한 표현을 만든다.

RNN과 Self-Attention의 차이

RNN 계열 모델의 핵심은 hidden state다. 입력을 순서대로 읽으며 이전 hidden state와 현재 입력을 결합해 다음 hidden state를 만든다. 이 방식은 시퀀스의 순서성을 자연스럽게 반영한다. 문장이 시간적으로 흘러가고, 모델도 그 흐름을 따라간다. LSTM과 GRU는 장기 의존성 문제를 완화하기 위해 gate 구조를 도입했지만, 계산이 순차적으로 진행된다는 근본 특징은 유지된다.

Self-Attention은 다른 세계관을 가진다. 각 위치가 한 번에 모든 위치를 볼 수 있으므로, 문장 맨 앞과 맨 뒤의 토큰도 한 층 안에서 직접 연결될 수 있다. 이 때문에 원 논문은 self-attention layer가 장거리 의존성을 학습하기에 유리하다고 본다. RNN에서는 두 위치 사이의 최대 path length가 시퀀스 길이에 비례하지만, full self-attention에서는 한 층 안의 직접 연결로 줄어든다.

병렬화에서도 차이가 크다. RNN은 첫 번째 hidden state가 계산되어야 두 번째 hidden state를 계산할 수 있다. 이는 GPU 같은 병렬 하드웨어를 충분히 활용하기 어렵게 만든다. Self-Attention은 한 층 안에서 모든 위치의 Query, Key, Value를 행렬로 묶어 계산하고, 모든 토큰 쌍의 관련성 점수를 한 번에 구할 수 있다. 이 특성은 대규모 학습에서 결정적으로 중요해졌다.

계산 복잡도에서는 균형 있게 봐야 한다. Full self-attention은 모든 토큰 쌍을 비교하므로 시퀀스 길이 n에 대해 O(n^2) 성격의 비용을 가진다. 원 논문도 아주 긴 시퀀스에서는 local 또는 restricted attention 같은 접근이 필요할 수 있다고 언급했다. 초기 기계번역 문장 길이에서는 self-attention의 병렬화와 짧은 path length가 큰 장점으로 작동했지만, 오늘날 긴 문서·코드·동영상·멀티모달 입력에서는 attention 비용 자체가 중요한 병목으로 다시 등장한다.

따라서 Self-Attention이 RNN보다 “항상” 우월하다고 말하는 것은 부정확하다. 더 정확한 설명은 이렇다. Transformer의 full self-attention은 많은 자연어 처리 작업, 특히 대규모 병렬 학습과 장거리 의존성 표현이 중요한 영역에서 매우 강력한 구조적 이점을 제공했다. 이 장점이 2010년대 후반의 하드웨어 환경, 대규모 데이터, 사전학습 패러다임과 결합하면서 주류 구조로 자리 잡았다.

GPT, BERT, LLM으로 이어지는 구조적 계보

Transformer 논문 자체는 오늘날 우리가 말하는 대화형 LLM을 직접 제시한 논문이 아니다. 주된 실험은 기계번역과 constituency parsing이었다. 그럼에도 이 논문이 현대 LLM의 출발점으로 취급되는 이유는, 이후 모델들이 Transformer block을 사전학습과 규모 확장에 결합했기 때문이다.

GPT-1은 generative pre-training과 supervised fine-tuning을 결합한 모델로, OpenAI 논문은 언어모델에 multi-layer Transformer decoder를 사용했다고 설명한다. 이 모델은 이전 토큰들을 조건으로 다음 토큰을 예측하는 language modeling objective를 사용한다. 구조적으로는 masked self-attention을 가진 decoder-only Transformer에 가깝고, 이후 GPT-2, GPT-3, GPT-4 계열로 이어지는 causal language model 계보의 초기 형태가 된다.

BERT는 encoder-only Transformer의 대표 사례다. BERT는 왼쪽 문맥과 오른쪽 문맥을 함께 조건으로 삼아 bidirectional representation을 학습한다. 그래서 문장 이해, 분류, 질의응답, 자연어 추론 같은 downstream task에서 강력한 성능을 보였다. GPT류 모델이 생성에 유리한 causal 구조라면, BERT는 문장 전체를 보고 표현을 만드는 이해 중심 모델로 볼 수 있다.

이 둘의 차이는 다음처럼 정리할 수 있다.

구분	기본 구조	주된 방향	대표 학습 목표	강한 용도
원 Transformer	Encoder-Decoder	입력 시퀀스 → 출력 시퀀스	번역식 sequence transduction	기계번역, seq2seq
BERT	Encoder-only	전체 문맥 기반 표현	masked language modeling 등	이해·분류·추론
GPT 계열	Decoder-only causal Transformer	이전 토큰 → 다음 토큰	next-token prediction	생성·대화·자동완성

이 표는 입문적 구분으로는 유용하지만, 현대 모델들은 이 경계를 다양하게 변형한다. T5, BART 같은 모델은 encoder-decoder 구조를 사전학습에 활용했고, retrieval-augmented model이나 multimodal model은 Transformer block을 다른 모듈과 결합한다. 중요한 것은 Transformer가 하나의 완성된 제품명이 아니라, 여러 모델 패밀리로 분화 가능한 일반 아키텍처 원리라는 점이다.

왜 패러다임 전환이었는가

첫째, Transformer는 attention의 위상을 바꿨다. 이전에도 attention은 존재했지만, 대개 RNN 구조 위에서 필요한 위치를 참고하도록 돕는 장치였다. Transformer는 attention을 모델의 중심 엔진으로 삼았다. 이 변화는 자연어 처리에서 “무엇이 기본 연산인가”라는 질문의 답을 바꿨다.

둘째, Transformer는 언어의 순서성과 모델의 순차 계산을 분리했다. 언어는 순서를 갖지만, 그 순서를 모델이 반드시 시간 순서대로 계산해야 하는 것은 아니다. Transformer는 positional encoding으로 순서 정보를 주입하고, 의미적 상호작용은 병렬적인 관계 계산으로 처리한다. 이 분리는 대규모 학습에서 매우 중요한 설계 자유도를 열었다.

셋째, Transformer는 하드웨어 친화적이었다. 현대 딥러닝의 성능 향상은 알고리즘만으로 설명되지 않는다. GPU/TPU 같은 병렬 하드웨어를 얼마나 잘 활용하는지도 결정적이다. Transformer의 핵심 연산은 대규모 행렬곱과 softmax로 구성되어 병렬화에 유리하다. 이 특성은 모델 규모를 키우고, 데이터 규모를 키우고, 학습 시간을 실용적인 범위 안에 두는 데 크게 기여했다.

넷째, Transformer는 사전학습 패러다임과 잘 맞았다. 대규모 텍스트에서 일반적인 언어 패턴을 먼저 학습하고, 다양한 downstream task에 적용하는 흐름은 2018년 이후 NLP를 크게 바꾸었다. BERT와 GPT 계열은 모두 Transformer의 표현력과 확장성을 기반으로 했다. 따라서 『Attention Is All You Need』의 역사적 의의는 기계번역 성능을 높인 논문을 넘어, 대규모 사전학습 언어모델 시대의 계산적 기반을 제공한 논문이라는 데 있다.

구체적 예시: 한 문장이 Self-Attention을 통과할 때

문장 하나를 보자.

The animal didn't cross the street because it was tired.

이 문장에서 it은 문맥상 animal을 가리키는 것으로 해석된다. 전통적 RNN 모델에서는 The, animal, didn't, cross 순서로 hidden state가 전달되고, 뒤쪽의 it 위치에 도달했을 때 앞쪽 정보가 hidden state 안에 남아 있어야 한다. LSTM은 이를 돕는 gate 구조를 가지지만, 정보는 여전히 여러 단계를 거쳐 전달된다.

Self-Attention에서는 it 위치의 Query가 문장 안 모든 토큰의 Key와 비교된다. 그 결과 animal의 Key와 높은 관련성 점수가 나오면, softmax 이후 animal의 Value가 it의 새 표현에 더 크게 섞인다. 동시에 tired와의 관계, because가 만드는 원인절 구조, cross the street이라는 사건 구조도 다른 head에서 포착될 수 있다. Multi-head attention은 이런 다양한 관계를 서로 다른 표현 공간에서 병렬로 계산할 수 있게 해 준다.

이 예시에서 주의할 점이 있다. Attention score가 높다고 해서 모델이 인간처럼 그 단어를 “의식적으로 지시했다”고 말할 수는 없다. Attention은 학습된 벡터 공간에서의 호환성 계산이다. 또 실제 대형 모델의 내부 표현은 많은 층과 head를 거치므로, 특정 head 하나의 attention map만으로 모델의 전체 판단을 설명하기 어렵다. 그럼에도 Self-Attention 구조는 장거리 참조, 대명사 해소, 구문 관계 같은 문제를 계산적으로 다룰 수 있는 강력한 틀을 제공한다.

주요 쟁점과 반론

첫 번째 쟁점은 “Attention만 있으면 충분한가”이다. 원 논문 제목은 강한 선언처럼 보이지만, 실제 모델에는 attention 외에도 feed-forward network, residual connection, layer normalization, positional encoding, embedding, softmax, optimizer, regularization이 함께 들어간다. 제목의 의미는 recurrent layer와 convolution layer 없이 attention 중심 구조로 sequence transduction을 강하게 수행할 수 있다는 데 있다. 말 그대로 attention 하나만으로 모든 학습이 이뤄진다는 뜻은 아니다.

두 번째 쟁점은 attention의 해석 가능성이다. Attention map은 모델이 어떤 위치를 참고했는지 보여주는 유용한 단서가 될 수 있다. 원 논문도 appendix에서 head들이 통사·의미 구조와 관련된 패턴을 보이는 사례를 제시했다. 그러나 attention weight가 곧 모델 판단의 완전한 인과 설명은 아니다. 한 모델의 출력은 여러 층, 여러 head, feed-forward network, residual stream의 상호작용으로 만들어진다. 그래서 attention visualization은 해석 도구의 일부이지, 모델 내부 의미 이해의 직접 증거로 과장되어서는 안 된다.

세 번째 쟁점은 긴 컨텍스트 문제다. Transformer는 RNN보다 장거리 의존성을 더 짧은 path length로 처리할 수 있지만, full self-attention의 비용은 시퀀스 길이가 길어질수록 빠르게 증가한다. 긴 문서, 코드 저장소, 장시간 대화, 멀티모달 시퀀스를 다루는 현대 AI에서는 이 비용이 다시 핵심 문제가 된다. Longformer, Reformer, Performer, FlashAttention, sparse attention, sliding-window attention, retrieval-augmented generation 등은 모두 이 문제를 완화하려는 흐름 속에 있다.

네 번째 쟁점은 위치 정보다. Transformer는 순서를 잘 다루기 위해 positional encoding을 필요로 한다. 이는 약점이면서 동시에 유연성이다. 순서 정보를 구조에 고정하지 않고 설계 요소로 분리했기 때문에 다양한 position representation이 개발될 수 있었다. 원 논문의 sinusoidal positional encoding은 역사적으로 중요하지만, 이후 모델들은 learned position embedding, relative position bias, rotary position embedding 등 여러 방식을 사용한다.

다섯 번째 쟁점은 “Transformer가 지능의 본질인가”라는 과장이다. Transformer는 매우 성공적인 신경망 아키텍처이지만, 그것이 지능 전체의 설명은 아니다. 모델 성능은 아키텍처뿐 아니라 데이터, 학습 목표, 규모, 최적화, 정렬, 도구 사용, 검색 시스템, 평가 방식과 함께 결정된다. 현대 LLM의 능력은 Transformer block 하나만의 결과가 아니라, 대규모 데이터와 학습 절차, 인간 피드백, 시스템 설계가 결합된 결과다.

오해와 한계

첫째, Self-Attention은 인간의 주의 집중과 동일한 개념이 아니다. 이름 때문에 심리학적 attention과 혼동하기 쉽지만, 기계학습에서 attention은 가중합을 만들기 위한 미분 가능한 계산 메커니즘이다. 인간의 의식, 의도, 이해, 관심을 직접 모델링한다고 보기는 어렵다.

둘째, Transformer가 순서를 모른다는 표현은 반만 맞다. Transformer의 attention 연산 자체는 순서 정보를 자동으로 담지 않는다. 그러나 positional encoding 또는 position embedding을 더하면 모델은 위치 정보를 사용할 수 있다. 따라서 “Transformer는 순서를 못 다룬다”보다 “순서 정보를 별도로 주입해야 한다”가 더 정확하다.

셋째, GPT를 “Transformer decoder”라고만 표현하면 일부 오해가 생긴다. GPT류 모델은 원 Transformer decoder의 causal masked self-attention 성격을 계승하지만, 번역용 decoder의 encoder-decoder attention을 그대로 사용하는 구조는 아니다. GPT는 encoder 출력이 없으며, 이전 토큰 문맥만을 조건으로 다음 토큰 확률을 예측하는 decoder-only causal Transformer로 이해해야 한다.

넷째, Multi-Head Attention의 각 head가 사람이 이름 붙인 기능을 명확히 분담한다고 단정하기 어렵다. 어떤 head는 특정 통사 패턴이나 위치 패턴을 보일 수 있지만, head의 기능은 학습 과정에서 분산적으로 형성된다. “1번 head는 주어-동사, 2번 head는 대명사” 같은 설명은 직관적 비유로는 도움이 되지만, 실제 모델 해석에서는 신중해야 한다.

다섯째, Transformer의 성공은 원 논문 하나로 완성된 것이 아니다. 원 논문은 확장 가능한 기본 엔진을 제공했다. 이후 BERT, GPT, T5, RoPE, mixture-of-experts, instruction tuning, RLHF, retrieval augmentation, efficient attention 등 수많은 기술이 결합되며 오늘날의 LLM이 만들어졌다. Transformer는 출발점이자 핵심 기반이지만, 전체 생태계를 혼자 설명하지는 않는다.

정리

Transformer의 본질은 자연어 처리의 중심 연산을 순차적 hidden state 전달에서 토큰 간 관계 계산으로 바꾼 데 있다. Self-Attention은 각 토큰이 다른 모든 토큰을 직접 참고할 수 있게 하고, Multi-Head Attention은 여러 관계 공간을 병렬적으로 학습하게 한다. Positional Encoding은 순서 정보를 계산 순서가 아니라 벡터 정보로 주입한다. 이 세 요소가 feed-forward network, residual connection, layer normalization과 결합해 Transformer layer를 이룬다.

이 구조가 강력했던 이유는 세 가지다. 첫째, 장거리 의존성을 짧은 경로로 다룰 수 있다. 둘째, 행렬연산 중심이라 병렬 하드웨어와 잘 맞는다. 셋째, 대규모 사전학습 모델로 확장하기 좋다. 이 장점 때문에 Transformer는 기계번역 논문에서 출발해 BERT, GPT, 현대 LLM의 기본 구조로 확장되었다.

Transformer를 이해할 때는 두 가지 균형이 필요하다. 한편으로 이 논문은 AI 역사에서 분명한 패러다임 전환이었다. 다른 한편으로 Transformer는 attention만으로 모든 것을 해결한 구조가 아니며, 긴 컨텍스트 비용, 위치 표현, 해석 가능성, 데이터 의존성 같은 한계를 가진다. 따라서 가장 정확한 결론은 다음과 같다. 『Attention Is All You Need』의 혁신은 인간 언어의 순서성을 부정한 것이 아니라, 순서 정보를 별도로 주입하면서 의미 계산의 중심을 전역적 관계 행렬로 이동시킨 데 있다. 이 발상 전환이 대규모 언어모델 시대의 기술적 기반을 만들었다.

참고자료

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 「Attention Is All You Need」, arXiv:1706.03762, 2017. https://arxiv.org/abs/1706.03762
Vaswani, Ashish et al., 「Attention Is All You Need」, ar5iv HTML version, 확인일 2026-05-06. https://ar5iv.labs.arxiv.org/html/1706.03762v7
Sutskever, Ilya, Oriol Vinyals, Quoc V. Le, 「Sequence to Sequence Learning with Neural Networks」, arXiv:1409.3215, 2014. https://arxiv.org/abs/1409.3215
Bahdanau, Dzmitry, Kyunghyun Cho, Yoshua Bengio, 「Neural Machine Translation by Jointly Learning to Align and Translate」, arXiv:1409.0473, 2014. https://arxiv.org/abs/1409.0473
Radford, Alec, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, 「Improving Language Understanding by Generative Pre-Training」, OpenAI, 2018. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, 「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」, arXiv:1810.04805, 2018/2019. https://arxiv.org/abs/1810.04805
Radford, Alec, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, 「Language Models are Unsupervised Multitask Learners」, OpenAI, 2019. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Alammar, Jay, 「The Illustrated Transformer」, 2018, 확인일 2026-05-06. https://jalammar.github.io/illustrated-transformer/
Alammar, Jay, 「The Illustrated GPT-2」, 2019, 확인일 2026-05-06. https://jalammar.github.io/illustrated-gpt2/