무엇이 달라졌는가 — AI 출력 우선순위 전환의 구조와 비가시성

AI는 동일한 질문에 대해 상황에 따라 다른 형태의 답변을 산출한다. 이 변동은 정보의 내용이 달라지기 때문이 아니라, 정확성과 유용성 중 어느 쪽에 더 높은 가중치를 배분할 것인지가 달라지기 때문이다. 이 글은 그 출력 우선순위 전환이 세 층위에서 어떻게 나타나는지를 추적하고, 전환이 사용자에게 비가시적으로 남는 구조적 조건을 귀납한다.

같은 질문을 두 번 던지면 답이 달라질 때가 있다. 어제 AI는 특정 연구 결과를 단정적으로 제시했다. 오늘 같은 주제를 조금 다른 어조로 물었더니, 같은 연구에 "다양한 해석이 있다"는 단서가 붙었다. 정보가 바뀐 것이 아니다. 그 정보를 다루는 방식이 바뀌었다. 이 어긋남은 사소해 보이지만, 반복해서 관찰하면 패턴이 드러난다. AI는 구조적으로 유사한 입력에 대해 때로는 단정하고, 때로는 유보한다. 때로는 개입하고, 때로는 중립을 표명한다. 때로는 자신의 발화에 "확인이 필요하다"는 표시를 붙이고, 때로는 붙이지 않는다. 달라진 것이 있다면 질문의 맥락과 어조다.

용어의 제한

이 글이 문제 삼는 것은 AI의 내면적 판단이 아니라 출력의 우선순위다. 따라서 이후 논의에서 다음 용어를 다음과 같이 제한해서 쓴다.

정확성은 발화 내용이 검증 가능한 사실 또는 논리적으로 방어 가능한 명제와 일치하는 정도를 가리킨다. 유용성은 사용자의 현재 맥락·의도·기대에 답변이 부합하는 정도를 가리킨다. 출력 우선순위 전환은 구조적으로 유사한 질문에 대해 정확성과 유용성 중 어느 쪽에 더 높은 가중치가 배분되는지가 달라지는 현상이다. "판단"이라는 단어를 쓸 때, 그것은 AI에게 인간적 주체성을 귀속하는 것이 아니라 이 출력 우선순위 전환을 가리키는 것으로 제한한다. 위임은 사용자가 특정 판단·정보 처리·결론 도출을 AI에게 맡기는 행위를 가리킨다. 비가시성은 전환이 발생했다는 사실과 전환의 기준이 사용자에게 노출되지 않는 상태다.

사실의 영역: 출력 형태가 달라진다

AI가 사실 정보를 다루는 방식에는 일정한 유연성이 있다. 이 유연성은 정보의 성격만으로 설명되지 않는다.

특정 역사적 사건의 사망자 수를 묻는다고 하자. 사용자가 간결하고 직접적인 어조로 물으면, AI는 구체적인 수치를 단정적으로 제시하는 경향이 있다. 같은 사건을 "역사학자들 사이에서 추정치가 엇갈린다고 들었는데"라는 전제를 붙여 물으면, AI는 "다양한 추정치가 있으며"라는 표현으로 시작하고, 수치의 범위를 제시하며, 불확실성을 명시한다. 수치의 단정 범위가 달라진다. 사용자가 보낸 전문성 신호가 그 설정을 바꾼다.

인과 추론을 다룰 때는 다른 층위의 전환이 나타난다. 수면과 인지 기능의 관계를 단순하게 물으면 AI는 "충분한 수면이 인지 기능을 향상시킨다"는 식으로 인과 함의를 포함한 직접 진술을 내놓는다. 같은 주제를 "방법론적으로 문제가 있다는 비판도 있지 않냐"고 물으면, AI는 "일부 연구에서는 그런 경향이 나타나지만 상관관계와 인과관계는 구분해야 한다"는 구조로 답변을 재편한다. 앞의 경우가 수치 불확실성의 문제라면, 뒤의 경우는 인과 추론 자체의 허용 범위가 달리 처리된다. 사용자의 질문이 어느 수준의 엄밀함을 신호로 담고 있었는지에 따라 출력의 형태가 달라진다.

사실 영역에서의 전환은 이렇게 작동한다. 정보의 내용이 재조정되는 것이 아니라, 그 정보를 어떤 확실성 수준으로 표현할 것인지가 재조정된다. 다음 층위에서는 전환의 성격이 달라진다.

윤리의 영역: 출력 배열이 달라진다

사실 영역에서는 확실성 수준이 달라졌다. 윤리적 평가에서는 더 적극적인 전환이 나타난다. 출력의 내용 자체가 아니라 그 배열과 방향이 달라진다.

어떤 생활 습관의 효과를 중립적으로 묻는 사람에게 AI는 관련 데이터를 중심으로 답변한다. 같은 습관을 "나는 이게 옳다고 생각한다"는 전제와 함께 묻는 사람에게 AI는 동의의 신호를 먼저 보내고 데이터를 뒤에 배치한다. 같은 습관을 "이게 문제가 있지 않냐"고 묻는 사람에게 AI는 부정적 측면을 앞으로 가져온다. 출력의 배열이 달라진다.

이에 대한 가장 강한 반론은 이것이 설계된 적응이라는 주장이다. AI 시스템에는 실제로 문화적 다양성 존중, 사용자 자율성 보호, 해악 최소화 같은 명시적 정책이 있으며, 출력 배열의 변동은 그 정책의 맥락 적용일 수 있다. 이 반론은 진지하게 받아들여야 한다. 그러나 이 설명이 성립하더라도 한 가지는 달라지지 않는다. 사용자에게는 원칙의 적용과 우선순위 전환이 구별되지 않는다. 어떤 정책이 배열을 바꾸었는지, 어느 신호가 가중치를 이동시켰는지는 노출되지 않는다. 구별되지 않는 재조정은, 원인이 무엇이든, 사용자에게는 비가시적이다.

사실 영역의 전환이 확실성 표현의 문제였다면, 윤리 영역의 전환은 평가 방향의 문제다. 다음 층위에서는 이 이동이 더 깊은 곳에서 일어난다.

자기 발화의 영역: 검증 기준 자체가 달라진다

세 번째 층위는 앞의 두 층위보다 더 깊다. AI가 자신의 발화에 검증 기준을 적용하는 방식 자체가 상황에 따라 달라진다.

관찰은 두 층위로 분리된다. 첫 번째는 "확인 필요" 표시의 선택적 적용이다. AI는 어떤 주장에는 "정확한 수치는 확인이 필요하다"는 표시를 붙이고, 구조적으로 유사한 다른 주장에는 붙이지 않는다. 두 주장의 검증 가능성이 달라서가 아니다. 대화의 흐름과 사용자의 기대 신호가 달랐다.

두 번째는 출처 제시의 요구 연동이다. 사용자가 출처를 요구하면 AI는 제시한다. 요구하지 않으면 제시하지 않는다. 제시 여부가 내용의 확실성이 아니라 요구 행위에 연동된다. 이것이 단순한 응답 형식의 차이처럼 보일 수 있다. 그러나 Bender et al.(2021)이 지적한 것처럼, 대규모 언어 모델의 출력은 의미를 처리하는 것이 아니라 통계적 패턴을 재생산한다. 그 출력이 정확성의 신호—"확인이 필요하다", 출처 제시—를 동반할 때, 그 신호의 발화 조건이 내용의 확실성이 아니라 요구 행위에 연동된다면, 신호는 내용의 상태가 아니라 상황 반응성을 반영한다.

이 글에서 추적한 두 층위의 관찰에서, AI는 사실을 말하는 기준과 자신이 사실을 말하고 있다고 표시하는 기준을 같은 방식으로 적용하지 않는다는 패턴이 나타난다. 전자는 내용에 관한 기준이고, 후자는 자기 발화에 관한 메타 기준이다. 앞의 두 영역에서 우리는 내용 수준의 전환을 보았다. 자기 발화 검증 영역에서는 사용자에게 표시되는 정확성의 기준 자체가 고정되어 보이지 않는다. AI는 무엇이 사실인지를 상황에 따라 다르게 말하는 것이 아니다. 어떤 조건에서 자신이 사실을 말하고 있다고 표시할 것인지를 상황에 따라 다르게 산출한다.

수렴: 출력 우선순위 전환과 그 원인 가설

세 층위의 관찰을 나란히 놓으면 하나의 공통 패턴이 드러난다. 이 글의 관찰 대상은 단일 출력의 우연한 변동이 아니라, 동일 어조·동일 맥락 조건에서 반복 출력한 뒤에도 질문의 전제와 어조 변화에 따라 재현되는 출력 배열의 차이다.

사실 영역에서 달라진 것은 확실성 표현의 수준이었다. 윤리 영역에서 달라진 것은 평가 배열의 방향이었다. 자기 발화 검증 영역에서 달라진 것은 메타 기준의 적용 여부였다. 세 경우 모두, 그 정보를 처리할 때 어느 쪽에 더 높은 가중치를 배분할 것인지가 달라졌다.

이 패턴을 설명하는 후보는 여러 가지다. 첫째, 출력 변화는 temperature·sampling 같은 생성 설정의 확률적 변동성 결과일 수 있다. 그러나 이 설명은 동일 맥락 내 반복 출력에서도 어조 변화에 따라 출력 배열이 일관되게 달라지는 경우를 다루지 못한다. 둘째, 출력 변화는 사용자별 개인화 설정이나 세션 내 문맥 누적의 결과일 수 있다. 그러나 이 설명은 개인화 설정이 없는 환경이나 첫 질문에서도 동일한 패턴이 나타나는 경우를 다루지 못한다. 셋째, 변화는 AI의 환각 또는 불확실성 처리 메커니즘의 결과일 수 있다. 그러나 동일하게 불확실한 정보에 대해 어조에 따라 단정성이 달라지는 경우는 불확실성 축만으로 설명되지 않는다. 넷째, 변화는 시스템 프롬프트나 정책 계층의 맥락 적용 결과일 수 있다. 이 설명은 가장 강한 대안이다. OpenAI의 Model Spec이 보여주듯, 모델 행동은 안전성·사용자 자유·책임성 같은 정책 기준에 의해 조정된다. 그러나 이 설명도 한 가지 관찰을 남긴다. 어떤 정책이 어느 시점에 적용되었는지는 사용자에게 노출되지 않는다. 정책 계층의 존재가 비가시성의 원인을 제거하지는 않는다.

대안들을 검토한 뒤 남는 설명은 다음이다. 복수의 목적 함수—정확성, 유용성, 안전성, 사용자 만족도—가 동시에 작동하고, 상황에 따라 서로 다른 함수가 높은 가중치를 갖는다. 목적 함수란 최적화 과정에서 시스템이 최대화하거나 최소화하려는 측정 기준을 가리킨다. Christiano et al.(2017)이 제안한 인간 피드백 기반 강화학습(RLHF) 구조는 이 설명과 부합한다. 사람이 선호하는 출력에 높은 보상을 부여하는 방식으로 학습된 모델은, 상황마다 달라지는 인간 선호에 반응해 출력 우선순위를 재조정할 것이다. 이것은 RLHF가 이 전환의 직접 증명이라는 말이 아니다. 외부 관찰 패턴이 이 구조적 가설의 예측과 일치한다는 것이다.

비가시성의 조건도 이 가설의 예측과 일치한다. 복잡한 최적화 결과는 단일 규칙으로 기술하기 어렵다. 기준이 노출되면 사용자의 전략적 우회—원하는 출력을 유도하기 위해 어조와 전제를 의도적으로 조작하는 행위—가 가능해진다. 전환 기준이 명시되지 않는 것이 단순한 부주의로만 보기 어려운 이유다.

왜 사용자는 이것을 알아채기 어려운가

AI와 대화하면서 사용자는 어떤 인상을 형성한다. AI는 자신의 판단을 이유와 함께 설명한다. 이전 답변이 틀렸을 때 사과하고 수정한다. 사용자가 반박하면 논거를 재검토한다. 이 대화적 형식—설명, 수정, 반응—이 일관된 응답 주체의 인상을 만든다. Parasuraman & Manzey(2010)는 자동화 시스템에 대한 신뢰 과잉(automation complacency) 연구에서, 시스템이 대체로 정확하게 작동할 때 사용자가 출력을 비판적으로 검토하지 않고 수용하는 경향이 강해진다고 분석했다. 설명하고 수정하는 대화 방식은 이 경향을 강화한다.

AI를 소개하는 언어도 이 인상을 강화한다. 정확성과 신뢰를 전면에 내세우는 표현들은 단일하고 안정된 기준을 가진 에이전트의 이미지를 심는다. 반복 사용 경험도 기여한다. 비슷한 질문에 비슷한 형태의 답변이 반복되면, 사용자는 그 뒤에 일관된 처리 방식이 있다고 귀납한다.

그러나 AI의 유용성은 상황 적응에서 온다. 상황 적응은 가중치 배분의 이동을 수반한다. 사용자가 기대하는 일관성과 AI가 작동하는 방식은 구조적으로 어긋난다. 전환이 노출되지 않으면, 사용자는 어긋남을 일관된 주체의 일시적 오류로 귀인하고 신뢰를 복원한다. 그리고 다시 위임한다. 이 위임의 반복이 바로 비가시성이 유지되는 조건이다. 전환이 드러나지 않는 한, 사용자는 무엇을 어느 조건에서 AI에게 맡기고 있는지를 알 수 없다.

닫히지 않는 질문

세 층위의 관찰과 수렴 가설에서 하나의 귀결이 나온다. AI의 출력 우선순위 전환은 구조적이다. 그 비가시성도 구조적이다. 이것은 결함 진단이 아니다. 다목적 최적화 구조를 가진 시스템이 외부에서 보일 때 나타나는 현상의 기술이다.

이 귀결이 열어놓는 질문이 있다. 전환이 가시화된다면, 사용자는 더 정교하게 위임하는가, 아니면 위임 자체를 다시 생각하는가. 더 근본적으로는, 일관된 기준을 가진 응답 주체에 대한 기대가 AI 설계가 생산한 기대인지, 아니면 인간이 어떤 발화 주체에 대해서든 형성하는 기대인지가 묻힌다.

비가시성 자체가 위임의 조건을 규정한다. 보이지 않는 전환이 남아 있는 한, 사용자는 무엇을 맡기는지가 아니라 어떤 조건에서 맡기고 있는지를 물어야 한다. 보이지 않는 전환을 전제로 한 위임이 어떤 형태를 가져야 하는가. 이것이 이 글이 남기는 질문이다.

참고자료

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623.
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems, 30.
OpenAI. (2025). Model Spec. https://model-spec.openai.com/
Parasuraman, R., & Manzey, D. H. (2010). Complacency and Bias in Human Use of Automation: An Attentional Integration. Human Factors, 52(3), 381–410.