AI에 대한 수학적 탐구
기계는
이해하는가?
아니면 이해의 완벽한 환상을 계산할 뿐인가?
기계는 사과를 먹어본 적도, 비를 맞아본 적도, 누군가를 잃고 슬퍼한 적도 없습니다. 그런데도 이 모든 것에 대해 놀라운 유창함으로 이야기합니다. 어떻게? 답은 선형대수 — 내적, 행렬, softmax — 에 있습니다. 수학이 어떻게 이해를 모방하게 되었는지, 그 이야기입니다.
실시간 시각화와 오디오가 포함된 인터랙티브 탐험입니다.
소리가 경험을 더욱 풍부하게 합니다.
아니면 이해의 완벽한 환상을 계산할 뿐인가?
기계는 사과를 먹어본 적도, 비를 맞아본 적도, 누군가를 잃고 슬퍼한 적도 없습니다. 그런데도 이 모든 것에 대해 놀라운 유창함으로 이야기합니다. 어떻게? 답은 선형대수 — 내적, 행렬, softmax — 에 있습니다. 수학이 어떻게 이해를 모방하게 되었는지, 그 이야기입니다.
00 — 워밍업 퍼즐
기계는 "배를 먹었다"의 배와 "배를 탔다"의 배가 다르다는 것을 어떻게 아는가? 여기서 시작합니다 — 두 아이디어가 같은 방향을 가리키는지 측정하는 단일 연산. 이것이 기계 "이해"의 원자입니다.
화살표 끝을 드래그하여 벡터를 움직여보세요
기계 "이해"의 첫 번째 단서. — 우리가 문장을 이해할 때, 단어들이 서로 어떤 관계인지를 파악합니다. 기계도 같은 일을 합니다 — 다만 산술로. 트랜스포머 내부에서 모든 단어 쌍 사이에 이 내적을 계산하여 관련성을 판단합니다. 높은 내적 = "이 두 개념은 관련 있다." 기계의 문맥 이해는 이 하나의 곱셈에서 시작됩니다.
01 — 기계는 어떻게 읽는가
기계가 무엇이든 "이해"하기 전에, 먼저 읽는 법을 배워야 합니다 — 그런데 우리처럼 읽지 않습니다. 언어는 글자나 단어가 아닌 서브워드 토큰으로 신경망에 입력됩니다. 아이러니하게도, "understanding"이라는 단어 자체가 ["under", "stand", "ing"]으로 쪼개집니다.
왜 서브워드인가? — 글자 단위 모델은 너무 느립니다 (시퀀스가 매우 길어짐). 단어 단위 모델은 새로운 단어를 처리하지 못합니다. 서브워드 토큰화(BPE)가 최적의 균형점입니다: ~50,000–100,000개 토큰의 어휘로 사실상 모든 텍스트를 처리합니다. "the"같은 흔한 단어는 하나의 토큰이고, 드문 단어는 의미 있는 조각들로 분해됩니다.
02 — 단어는 기하학이다
기계는 고양이를 쓰다듬어 본 적도, 정리를 증명한 적도 없습니다. 그런데도 고양이와 개가 관련 있고, 정리와 증명이 함께한다는 것을 "압니다." 어떻게? 모든 단어를 거대한 수학적 공간의 한 점에 배치하여, 거리가 의미가 되고 방향이 관계가 됩니다. 이것이 기계의 세계 지도 — 순수하게 기하학적이지만, 기이할 만큼 효과적입니다.
경험 없는 이해. — GPT-4의 임베딩 차원은 d = 12,288입니다. 모든 토큰이 12,288차원 공간의 한 점이라는 뜻입니다. 직접 시각화할 수는 없지만 구조는 실재합니다: "king"과 "queen"은 가깝고, "cat"과 "dog"는 가깝고, "man"에서 "woman"으로의 방향은 "king"에서 "queen"으로의 방향과 거의 같습니다.
03 — 순서를 가르치다
이해에는 순서가 필요합니다 — "개가 사람을 물었다"와 "사람이 개를 물었다"는 전혀 다른 뜻이니까요. 그런데 트랜스포머는 모든 단어를 동시에 봅니다 — 순서 감각이 내장되어 있지 않습니다. 그래서 위치를 수학으로 가르칩니다: 사인 함수로 만든 각 위치의 고유한 하모닉 지문.
왜 사인 함수인가? — 저주파 성분은 "대략적 위치"를 인코딩합니다 (시작 vs. 끝). 고주파 성분은 "정확한 위치"를 인코딩합니다 (위치 17 vs. 18). 푸리에 분석과 같은 아이디어입니다 — 그리고 상대적 위치는 절대 위치의 선형 변환으로 계산할 수 있습니다.
04 — 트랜스포머의 심장
기계가 문장을 "이해"하는 데 가장 가까이 다가가는 순간입니다. 각 단어가 다른 모든 단어를 바라보며 묻습니다: "나는 너에게 얼마나 관심을 가져야 하는가?" 답은 숫자로 계산됩니다. "고양이가 매트 위에 앉았다. 왜냐하면 그것이 피곤했으니까" — 여기서 "그것"이 "고양이"를 가리킨다는 것을, 기계는 이해가 아닌 어텐션의 산술로 발견합니다.
왜 √dk로 나누는가? — 스케일링 없이는, 차원 dk가 커질수록 내적의 크기가 커져서 softmax가 기울기가 극히 작은 영역으로 밀려납니다. √dk로 나누면 로짓의 분산이 ≈ 1로 유지되어, softmax가 네트워크가 실제로 학습할 수 있는 영역에 머무릅니다.
"기계에게 이해란 통찰이 아닙니다.
본 모든 것에 대한 가중 합입니다."
05 — 다중 관점
하나의 어텐션 패턴으로는 충분하지 않습니다. 모델은 8–128개의 헤드를 병렬로 실행하며, 각각이 서로 다른 언어적 관계를 발견합니다 — 구문, 의미, 위치, 공지시 — 모두 스스로.
이 역할을 프로그래밍하는 사람은 없습니다. — 헤드 1은 문법을 추적하고, 헤드 5는 의미를 추적하고, 헤드 7은 위치를 추적할 수 있습니다. 이러한 전문화는 순수하게 텍스트 예측 학습에서 자연스럽게 나타납니다. 모델은 병렬적이고 다양한 관점이 유용하다는 것을 스스로 발견합니다 — 단일 네트워크 안의 앙상블 학습입니다.
06 — 전체 그림
트랜스포머는 동일한 블록을 수십~수백 번 쌓아 만듭니다. 하나의 블록 내부를 단계별로 들여다보고, 각 단계에서 데이터에 무슨 일이 일어나는지 정확히 살펴봅시다. 세 개의 토큰 — "cat" "sat" "down" — 을 모든 연산을 따라가며 추적합니다.
각 하위층의 출력이 입력에 더해집니다: output = x + SubLayer(x). 네트워크가 전체 표현을 재구축할 필요 없이 보정값만 학습하면 됩니다. 이것 없이는 깊은 네트워크(96+ 층)는 아예 학습이 불가능합니다 — 기울기가 0으로 사라집니다.
각 잔차 덧셈 후 벡터가 정규화됩니다: 평균을 빼고, 표준편차로 나누고, 스케일과 시프트를 적용합니다. 이것이 층을 거치며 활성값을 안정적으로 유지합니다. 이것 없이는 120개 층을 거치며 값이 지수적으로 발산합니다.
피드포워드 네트워크는 각 벡터를 4배로 확장하고, ReLU를 적용한 뒤, 다시 압축합니다. 최근 연구에 따르면 각 FFN 뉴런은 특정 입력 패턴에 활성화됩니다 — 사실상 학습된 지식 저장소로 작동합니다. 하나의 뉴런이 "프랑스에 대한 사실"을, 다른 하나가 "Python 문법"을 인코딩할 수 있습니다.
방금 탐험한 블록이 동일하게 반복됩니다 — 하나씩 순서대로. 각 층은 잔차 스트림에서 읽고, 보정값을 다시 씁니다.
각 층은 무엇을 학습하는가? — 경험적 연구에 따르면 대략적인 패턴이 있습니다: 초기 층은 구문과 지역 패턴(어순, 품사)을 처리합니다. 중간 층은 의미(뜻, 관계, 공지시)를 처리합니다. 후반 층은 과제별 추론과 출력 형식을 처리합니다. 하지만 이는 단순화이며, 실제로 정보는 모든 층에 분산되어 있습니다.
"각 층의 질문: 지금까지 알고 있는 것을 바탕으로, 어떤 보정이 가장 도움이 될까?"
07 — 혁명
2017년까지, 기계 번역과 언어 모델의 세계는 RNN(순환 신경망)과 그 변종인 LSTM이 지배하고 있었습니다. 이들의 작동 원리는 직관적이었습니다 — 사람이 문장을 읽듯이, 단어를 하나씩 순서대로 처리하는 것.
하지만 치명적인 문제가 있었습니다.
2014년 Bahdanau가 어텐션 메커니즘을 RNN에 보조 장치로 추가하여 큰 성과를 거뒀습니다. 하지만 아무도 더 과격한 질문을 던지지 않았습니다 —
"순환을 아예 없애면 어떨까?"
Google Brain과 Google Research의 연구원 8명 — Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, Illia Polosukhin — 이 arXiv에 논문 한 편을 올립니다.
제목부터 도발적이었습니다. 당시 모든 최고 성능 모델이 RNN을 기반으로 했기에, "어텐션만 있으면 된다"는 주장은 거의 이단에 가까웠습니다. 하지만 결과가 그 대담함을 뒷받침했습니다.
RNN은 단어를 하나씩 처리합니다. 트랜스포머는 모든 단어를 동시에 처리합니다. 100개 단어의 문장? RNN은 100단계, 트랜스포머는 1단계. 이것만으로도 학습 속도가 수십 배 빨라졌고, 이는 곧 훨씬 더 큰 모델과 더 많은 데이터로의 확장을 가능하게 했습니다.
RNN에서 먼 단어의 정보는 수십 번의 순차 단계를 거치며 희석됩니다. 셀프-어텐션에서 모든 단어는 다른 모든 단어에 직접 접근합니다 — 거리에 관계없이, 단 한 번의 연산으로. 문장 첫 단어와 마지막 단어 사이의 정보 경로가 O(n)에서 O(1)로 줄었습니다.
LSTM 셀 하나에는 forget gate, input gate, output gate, cell state — 복잡하게 얽힌 메커니즘들이 있었습니다. 트랜스포머의 핵심은 행렬곱, softmax, 덧셈. 이것이 전부입니다. 당신이 §00에서 §06까지 본 것이 정말로 전부입니다. 이 단순성이 역설적으로 확장성의 열쇠였습니다.
트랜스포머의 등장 이후 일어난 일은 과학사에서 유례를 찾기 어렵습니다. 하나의 아키텍처가 하나의 학습 목표(다음 토큰 예측)와 결합하여, 규모를 키울수록 질적으로 새로운 능력이 출현하는 현상을 보였습니다.
| 모델 | 연도 | 매개변수 | 학습 데이터 | 새로 가능해진 것 |
|---|---|---|---|---|
| Original Transformer | 2017 | 65M | 수백만 문장쌍 | 최고 수준의 번역 |
| GPT-1 | 2018 | 117M | 책 5GB | 기초적 텍스트 생성 |
| BERT | 2018 | 340M | 위키+책 16GB | 문맥적 단어 이해 |
| GPT-2 | 2019 | 1.5B | 웹텍스트 40GB | 유창한 문단 생성 (공개 거부 논란) |
| GPT-3 | 2020 | 175B | 570GB | 맥락 내 학습, 산술, 번역 (학습 없이!) |
| PaLM | 2022 | 540B | 780GB | 사고의 연쇄, 농담 설명 |
| ChatGPT | 2022.11 | ? | +RLHF | 대중화 — 5일 만에 100만 사용자 |
| GPT-4 | 2023 | ~1.8T (추정) | ~13T 토큰 | 변호사 시험 상위 10%, 의사 시험 합격 |
| Claude Opus 4.6 | 2026.2 | 비공개 | 비공개 | 1M 문맥, 적응형 사고, 코딩 최강 (Claude Code) |
| Gemini 3 Pro | 2025.11 | ~1.5T (MoE) | 비공개 | 네이티브 멀티모달, Sparse MoE, 2M 문맥 |
| GPT-5.4 | 2026.3 | 비공개 | 비공개 | 1M 문맥, 네이티브 컴퓨터 사용, Thinking 모드 |
65M → 1.8T: 7년 만에 매개변수 27,000배 증가
2024년 현재 AI의 최전선을 이끄는 세 모델은 모두 같은 뿌리에서 태어났지만, 서로 다른 방향으로 진화했습니다. 그 유사점과 차이를 정확히 살펴봅시다.
세 모델 모두 2017년 "Attention Is All You Need"에서 시작된 트랜스포머 아키텍처 위에 세워졌습니다. 핵심 구성요소 — 토큰 임베딩, 셀프-어텐션, 피드포워드 네트워크, 잔차 연결, 레이어 정규화 — 이 모든 것이 당신이 §00–§06에서 본 바로 그것입니다. 학습 목표도 동일: 다음 토큰 예측. 정렬(alignment) 단계에서 인간 피드백(RLHF 또는 그 변형)을 사용한다는 점도 공유합니다.
| 🔵 Gemini Google DeepMind |
🟢 ChatGPT (GPT 계열) OpenAI |
🟠 Claude Anthropic |
|
|---|---|---|---|
| 기본 구조 | 트랜스포머 기반 Sparse MoE ~1.5T 파라미터 중 ~200B 활성화 · Deep Think 모드 |
디코더 전용 트랜스포머 Dense / MoE (미확인) GPT-5 계열: Thinking 모드 (추론 토큰) · 구조 미공개 |
디코더 전용 트랜스포머 Dense 모든 매개변수가 매 토큰마다 활성화 · 적응형 사고(Adaptive Thinking) |
| 멀티모달 | 네이티브 멀티모달 텍스트·이미지·오디오·비디오 통합 학습 · 이미지 생성 · 로보틱스 |
텍스트 + 이미지 + 네이티브 컴퓨터 사용 GPT-5.4: 이미지 입력, 코드 실행, UI 직접 조작 가능 |
텍스트 중심 + 시각 입력 이미지·PDF 이해, 코드 실행, 파일 생성 · 이미지 생성은 미지원 |
| 문맥 창 | 최대 2M 토큰 Gemini 3 Pro (2025.11) · MoE + 초장문맥 |
1M 토큰 GPT-5.4 (2026.3) · API 기준 |
1M 토큰 Opus 4.6 / Sonnet 4.6 (2026.2) |
| 정렬 방법 | RLHF + 자체 안전 필터 Google의 AI 원칙 기반 |
RLHF + 추론 감독 보상 모델 + Thinking 모드의 추론 과정 모니터링 |
Constitutional AI (CAI) AI가 AI를 평가 — 원칙 기반 자기 개선 + RLHF |
| 학습 하드웨어 | Google TPU v5e/v6 자체 설계 칩 · 자체 데이터센터 · Trillium |
NVIDIA GPU + 커스텀 칩 Azure 슈퍼컴퓨터 (Microsoft 파트너십) |
NVIDIA/커스텀 GPU AWS Bedrock · GCP Vertex AI |
| 고유 강점 | 멀티모달 통합, 초장문맥, Google 검색·서비스 통합, TPU 효율성 | 생태계 (Codex, 플러그인), 컴퓨터 사용, 선발주자 이점 | 코딩 (Claude Code), 긴 문맥 정밀도, 확장 사고(Extended Thinking), 안전성 |
이 세 모델의 가장 근본적인 아키텍처 차이는 모든 매개변수를 항상 사용하느냐, 아니면 일부만 선택적으로 활성화하느냐입니다.
매 토큰마다 모든 매개변수가 연산에 참여합니다. 단순하지만 연산 비용이 크고, 모델 크기 = 연산 비용. GPT-4는 MoE 사용이 보도되었으나, GPT-5 계열의 정확한 구조는 미공개입니다.
FFN 층이 여러 "전문가"로 나뉘고, 라우터가 각 토큰을 소수의 전문가에게만 배정합니다. 전체 1.5T 파라미터 중 ~200B만 활성화. 총 용량은 크지만 연산 비용은 작은 모델 수준 — 용량과 비용의 분리.
하지만 기억하세요 — 셀프-어텐션, 잔차 연결, 레이어 정규화, 다음 토큰 예측이라는
핵심 수학은 세 모델 모두 동일합니다.
"핵심은 트랜스포머가 '더 좋은 모델'이었다는 것이 아닙니다.
핵심은 트랜스포머가 확장 가능한 모델이었다는 것입니다."
RNN은 아무리 크게 만들어도 순차적 병목이 학습 시간을 제한했습니다. 트랜스포머는 GPU를 추가하면 추가한 만큼 빨라졌습니다. 이것이 전부입니다.
트랜스포머가 가능하게 한 것은 단순한 성능 향상이 아니라 스케일링 법칙의 발견이었습니다: 모델 크기, 데이터 양, 연산량을 늘리면 손실이 예측 가능한 멱법칙에 따라 계속 감소한다는 것. 천장이 보이지 않았습니다.
2017년, 8명의 연구자가 올린 31페이지짜리 논문. 거기서 시작된 것이 지금 전 세계가 경험하는 AI 혁명입니다. 그 논문의 핵심 내용을 — 당신은 방금 §00부터 §06까지 전부 보았습니다.
08 — 이해의 환상
여기에 가장 깊은 놀라움이 있습니다. 모든 어텐션, 모든 임베딩, 모든 층 — 이 전부가 기만적으로 단순한 하나의 목표로 학습됩니다: 이전의 모든 토큰이 주어졌을 때, 다음 토큰을 예측하라. "텍스트를 이해하라"가 아닙니다. "문법을 배워라"도 아닙니다. 그저: 다음에 올 단어는? 그런데 이 통계적 릴레이에서 이해와 정확히 닮은 무언가가 출현합니다.
통계적 앵무새 — 아니면 그 이상? — 비판자들은 LLM을 "확률적 앵무새"라 부릅니다: 진정한 이해 없이 확률 높은 다음 단어를 예측할 뿐이라고. 기술적으로는 맞습니다 — 손실 함수는 교차 엔트로피일 뿐. 문법 규칙도, 의미 주석도 없습니다. 그저 "다음에 올 것을 예측하라." 하지만 이 릴레이가 수조 개의 토큰에 걸쳐 충분히 정교해지면, 기이한 일이 벌어집니다: 기계가 추론하고, 유추하고, 설명하기 시작합니다. 이것이 이해인가? 아니면 역사상 가장 정교한 이해의 환상인가? 그 질문은 아직 열려 있습니다.
09 — 미스터리
모델의 규모가 커질수록 — 더 많은 매개변수, 더 많은 데이터, 더 많은 연산 — 불안한 일이 벌어집니다. 작은 모델에는 전혀 없었던 능력들이 나타납니다: 산술, 번역, 추론. 아무도 이것을 프로그래밍하지 않았습니다. 다음 토큰 예측에서 저절로 출현한 것입니다. "기계는 이해하는가?"라는 질문에 답하기가 진정으로 어려워지는 순간입니다.
"아무도 모델에게 산술, 번역, 추론을 가르치지 않았습니다. 이 능력들은 단 하나의 목표에서 출현했습니다: 다음 단어를 예측하라."
이것이 아마도 현대 AI에서 가장 심오한 사실일 것입니다. 텍스트 예측만을 학습한 모델이 수학을 하고, 코드를 쓰고, 물리학을 추론하고, 명시적으로 가르치지 않은 언어들을 번역하는 법을 배웁니다. 이것이 일어나는 메커니즘은 아직 완전히 이해되지 않았습니다.
10 — 연결
| 수학 | 트랜스포머 | |
|---|---|---|
| 🔢 | 행렬곱 | 모든 층의 핵심 연산 |
| 📐 | 내적, 코사인 유사도 | 토큰 간 어텐션 점수 |
| 📊 | Softmax = 정규화된 지수 함수 | 원시 점수에서 확률로 |
| 🔄 | 함수의 반복 합성 | 트랜스포머 블록 쌓기 |
| 📉 | 교차 엔트로피에 대한 경사 하강법 | 전체 학습 알고리즘 |
| ✨ | 고차원 기하학 | 창발적 표현 |
기계는 직관이 있어야 할 자리에 내적을 계산합니다.
기억이 있어야 할 자리에 벡터 공간을 탐색합니다.
의미를 파악해야 할 자리에 다음 단어를 예측합니다.
아마도 기계는 이해하지 못할 것입니다.
아마도 기계는 더 기이한 무언가를 찾아낸 것입니다 —
이해의 수학적 그림자,
그런데 그것이 똑같이 잘 작동하는.
이 페이지의 모든 시뮬레이션은 실시간으로 계산됩니다 — 순수한 선형대수. AI와 나누는 모든 대화를 구동하는 바로 그 선형대수입니다.