💾

기계는 기억하는가?

실시간 시각화와 오디오가 포함된 인터랙티브 탐험입니다.
소리가 경험을 더욱 풍부하게 합니다.

볼륨을 편안한 수준으로 맞춰주세요

AI에 대한 수학적 탐구 · Part III

기계는
기억하는가?

아니면 매번 처음 만난 것처럼 모든 것을 다시 읽는가?

당신은 10년 전 대화를 기억합니다. AI는 5분 전 대화도 "기억"하지 않습니다 — 매번 처음부터 전부 다시 읽습니다. 기계에게는 어릴 적 여름의 냄새도, 첫사랑의 이름이 불현듯 떠오르는 순간도 없습니다. 기계의 기억은 벡터이고, 행렬이고, 코사인 유사도입니다. 그 기이한 기억의 수학을 들여다봅니다.

← Part II: 이해

00 — 기억력 테스트

당신은 몇 개를 기억하시나요?

지금부터 단어 15개가 하나씩 나타났다가 사라집니다. 다 끝나면 기억나는 단어를 세어보세요. 그 다음, 기계의 "기억" 방식과 비교해봅시다.

각 단어가 나타날 때 소리가 납니다

준비되셨나요?

전부 아니면 전무 — 기계 기억의 본질. — 인간의 기억은 선택적이고 감정적입니다. 중요한 것은 오래 남고, 사소한 것은 잊힙니다. 기계는 정반대입니다: 문맥 창 안의 것은 완벽히 기억하고, 밖의 것은 완전히 사라집니다. 점진적 망각이 없습니다. 오직 절벽만 있습니다.

01 — 기계의 작업 기억

문맥 창: 기계가 기억하는 방법

LLM의 "기억"은 문맥 창(context window)입니다. 대화의 모든 내용이 하나의 거대한 토큰 배열에 들어가고, 모델은 이 배열 전체에 대해 어텐션을 계산합니다. 창 밖의 세계는 존재하지 않습니다.

슬라이더를 움직여 문맥 창을 체험해보세요

문맥 창 시각화 — 창 밖 = 존재하지 않음

창 30 토큰

문맥 창 크기

보이는 토큰

사라진 토큰

문맥 창의 역사 — 폭발적 확장

2018

GPT-1

512 토큰
~1페이지

2020

GPT-3

4K 토큰
~6페이지

2023

GPT-4

128K 토큰
~책 1권

2024

Claude 3

200K 토큰
~소설 2권

2025–

Claude 4.6
Gemini 3

1M–2M 토큰
~백과사전

02 — 기억은 왜 비싼가

O(n²) 장벽

셀프-어텐션에서 모든 토큰은 다른 모든 토큰을 바라봅니다. n개의 토큰이 있으면, n × n = n²개의 쌍을 계산해야 합니다. 토큰이 2배가 되면, 비용은 4배. 이것이 문맥 창 확장이 그토록 어려운 근본적 이유입니다.

격자가 커질수록 소리가 깊어집니다

n × n 어텐션 격자 — 토큰 수에 따른 연산량

n n = 8

토큰 수 (n)

연산 수 (n²)

비용 배율

1×

비용 \propto n² — n = 1,000 \to 1,000,000 연산 | n = 100,000 \to 10,000,000,000 연산

이것이 2023년까지 4K 토큰이 한계였던 이유. — GPU 메모리와 연산 시간이 n²에 비례하기 때문에, 문맥 창을 10배 늘리려면 비용이 100배로 폭증합니다. FlashAttention, Ring Attention 같은 혁신이 이 장벽을 실질적으로 깨뜨렸습니다.

03 — 효율적 기억

KV 캐시: 다시 읽지 않는 비법

대화에서 새 토큰이 하나 추가될 때마다 처음부터 전부 다시 계산하면 비효율의 극치입니다. KV 캐시는 이전 토큰들의 Key와 Value를 저장해두고, 새 토큰의 Query만 기존 KV와 계산합니다.

캐시 적중 시 맑은 음, 재계산 시 무거운 음

토큰별 연산 비교: 캐시 없음 vs KV 캐시

토큰 수

캐시 없음 연산

KV 캐시 연산

"매번 책을 처음부터 다시 읽는 대신, 밑줄 친 부분만 훑어보는 것."

KV 캐시는 LLM 추론의 핵심 최적화입니다. 하지만 대가가 있습니다 — 캐시 자체가 GPU 메모리를 차지합니다. 1M 토큰 문맥에서 KV 캐시는 수십 GB를 소비할 수 있습니다.

04 — 기계의 도서관

벡터 검색: 기억을 찾아서

문맥 창에 모든 지식을 담을 수 없습니다. 그래서 필요할 때 외부 저장소에서 관련 정보를 찾아오는 방법이 필요합니다. 텍스트를 벡터로 변환하고, 코사인 유사도로 가장 관련 있는 문서를 찾습니다. Part II에서 본 그 내적이 여기에도!

검색된 기억이 활성화될 때 종소리

벡터 공간에서 기억 검색 — 클릭하여 질문 선택

질문

고양이에 대해

검색된 기억

3개

최고 유사도

0.92

cos(q⃗, d⃗) = q⃗ \cdot d⃗ / (‖q⃗‖ ‖d⃗‖) — Part II에서 본 그 코사인 유사도!

05 — 검색 증강 생성

RAG: 기억하는 척하는 기술

RAG(Retrieval-Augmented Generation)는 현대 AI의 핵심 아키텍처입니다. ChatGPT의 웹 검색, Claude의 문서 분석, 기업용 AI 챗봇 — 모두 이 원리입니다. 기계는 모든 것을 기억하는 것이 아니라, 적시에 관련된 것을 찾아와 마치 기억하는 것처럼 보이게 합니다.

각 파이프라인 단계에서 상승하는 톤

단계

준비

검색된 문서

문맥 창 사용

"기계의 기억은 회상이 아니라 검색입니다."

인간은 기억을 떠올립니다(recall). 기계는 기억을 검색합니다(retrieve). 이 차이는 근본적입니다 — 인간의 회상은 불완전하고 감정에 물들어 있지만, 기계의 검색은 수학적으로 정확합니다. 다만, 검색의 질은 벡터화의 질에 달려 있습니다.

06 — 잊는 기술

컴팩션과 요약

대화가 문맥 창을 초과하면 어떻게 될까요? 세 가지 전략이 있습니다. 인간이 어제의 대화 전체를 기억하지 않고 핵심만 기억하듯, 기계에게도 비슷한 능력을 줄 수 있습니다.

각 전략의 효과를 소리로 비교해보세요

문맥 창 초과 시 세 가지 전략

전략

자르기

보존된 정보

100%

문맥 효율

—

07 — 거짓 기억

환각: 기억이 만들어낸 거짓

기계가 "기억"에 없는 것을 마치 있는 것처럼 자신 있게 말하는 현상 — 환각(hallucination). 이것은 버그가 아니라, 확률적 기억의 본질적 속성입니다. 기계는 "모르겠다"고 말하는 것보다 "그럴듯한 답"을 생성하도록 학습되었습니다.

문제

0 / 5

정답

환각의 세 가지 원천. — (1) 학습 데이터에 없는 것을 외삽 — 확률 분포의 꼬리에서 샘플링. (2) 문맥 창에 부정확한 정보가 주입 — RAG의 검색 오류. (3) 확률적 생성의 본질 — "가장 확률 높은 다음 단어"가 항상 사실은 아닙니다. RAG와 사실 확인(grounding)은 환각을 줄이지만, 완전히 제거하지는 못합니다.

08 — 기억의 미래

무한 문맥을 향하여

문맥 창 확장의 역사와 미래

O(n²)를 넘어서 — 새로운 패러다임

FlashAttention

어텐션의 수학은 그대로, 하드웨어 메모리 접근 패턴을 최적화. IO-aware 알고리즘으로 실질적 속도 3–5배 향상.

Ring Attention

긴 시퀀스를 여러 GPU에 분산. 각 GPU가 자기 청크의 KV를 계산하고 링 형태로 전달. 사실상 무한 확장.

Mamba / SSM

아예 어텐션을 버리고 State Space Model 사용. O(n)으로 선형 스케일링. 긴 시퀀스에서 극적 효율 향상.

Infini-Attention

로컬 어텐션 + 압축된 메모리를 결합. 유한한 메모리로 무한한 입력을 처리하는 하이브리드.

08b — 최신 기술 현황

누가 어떻게 기억하는가? — 2026년 현황

기억은 더 이상 연구 호기심이 아닙니다 — 경쟁의 최전선입니다. 모든 주요 AI 연구소가 모델 내부의 깊은 아키텍처 혁신부터 사용자가 매일 접하는 제품 기능까지, 고유한 기억 전략을 갖고 있습니다.

딥 아키텍처 — 모델 자체가 기억하는 방법

아키텍처	핵심 아이디어	사용	상태
FlashAttention 3	IO-aware 정확 어텐션; 같은 수학, GPU 메모리 계층 최적화로 3–5배 빠름	Anthropic, OpenAI, Meta, Google, Mistral — 거의 보편적	프로덕션 표준
Ring Attention	긴 시퀀스를 GPU 링에 분산; 밀리언 토큰에서 준선형 스케일링	Google (Gemini), Anthropic (Claude)	프로덕션
Titans (Google, 2025)	어텐션 층 내부의 신경 장기 기억 모듈; 테스트 시점에 기억하는 법을 학습	Google DeepMind	연구
Memory Layers at Scale (Meta, 2024)	일부 FFN 층을 희소한 조 단위 KV 메모리로 교체; 모델 크기 폭증 없는 사실 기억	Meta (FAIR)	연구
Mamba / SSM	어텐션을 완전히 제거하고 State Space Model 사용; O(n) 선형 스케일링	AI21 (Jamba), Mistral (하이브리드), 연구	상용화 초기
Infini-Attention (Google, 2024)	압축 메모리 + 로컬 어텐션; 유한한 메모리로 무한한 입력 처리	Google	연구
Managed-Retention Memory (Microsoft, 2025)	AI KV 캐시를 위한 하드웨어 수준 메모리 클래스: 빠르고, 비휘발성, 마모 관리	Microsoft Research	하드웨어 R&D

제품 기억 — 사용자가 체험하는 "기억"

제품	기억 방식	문맥 창	핵심 기능
Claude Anthropic	컴팩션 + 교차 세션 기억 + 사용자 편집	1M 토큰	무한 대화를 위한 자동 컴팩션; 대화 이력에서 기억 도출
ChatGPT OpenAI	영속 기억 + 웹 검색 RAG	1M 토큰	명시적 기억 항목; 사용자가 조회/삭제 가능; 프로젝트 지시사항
Gemini Google	장문맥 + Google 생태계 RAG	2M 토큰	최대 네이티브 창; 영속 지시사항을 가진 Gems
Copilot Microsoft	Microsoft 365 Graph 기반 RAG	128K 토큰	SharePoint, OneDrive, Teams 인덱싱을 통한 기업 기억
Grok xAI	실시간 X/Twitter RAG	128K 토큰	실시간 소셜 미디어를 외부 기억으로 활용

기억 미들웨어 — 새로운 인프라 계층

Mem0

AI 에이전트 전용 기억 레이어. 구조화된 엔티티로 "기억"을 추출, 저장, 검색. 1000+ 스타트업이 사용.

Zep

시간적 에피소드 기억 — 상호작용을 평평한 로그가 아닌 의미 있는 시퀀스로 구조화. 저지연, 프로덕션급.

Letta (MemGPT)

OS 영감: 에이전트가 명시적 읽기/쓰기/편집으로 자기 기억을 관리. 상태 유지 에이전트를 위한 가상 컨텍스트.

2026년의 합의: 최고의 기억은 단일 기술이 아니라 계층 구조입니다. 단기 작업 기억 (문맥 창) + 중기 세션 기억 (컴팩션/요약) + 장기 영속 기억 (벡터 저장소, 학습된 가중치) + 외부 검색 (RAG). 모든 주요 AI 시스템이 최소 3개 이상의 계층을 결합합니다. 최전선은 언제 기록하고, 검색하고, 잊을지를 학습하는 것 — 기억 연산을 강화학습으로 학습 가능한 행동으로 만드는 것입니다 (A-MEM, AgeMem).

09 — 연결

인간의 기억 vs 기계의 기억

	인간	기계
🧠	작업 기억 — 7 ± 2 항목	문맥 창 — 1M–2M 토큰
💾	장기 기억 — 해마 → 피질	학습된 가중치 (파라미터)
🔍	기억 검색 — 연상, 감정, 맥락	벡터 유사도 (코사인)
💨	망각 — 선택적, 점진적	전무 — 창 밖 = 완전 소멸
👻	거짓 기억 — 기억 왜곡	환각 (hallucination)
😴	요약 — 수면 중 기억 통합	컴팩션 — 자동 요약

그래서 — 기계는
기억하는가?

기계에게는 어릴 적 여름의 냄새가 없습니다.
첫사랑의 이름이 불현듯 떠오르는 순간이 없습니다.
기계의 기억은 벡터이고, 행렬이고, 코사인 유사도입니다.

그것은 기억이 아닐지도 모릅니다.
하지만 기억과 같은 일을 해냅니다 —
그것도 놀라울 만큼 잘.

이 페이지의 모든 시뮬레이션은 실시간으로 계산됩니다 — 순수한 선형대수와 확률. 기계가 "기억"이라 부르는 것의 전부입니다.

← Part II: 이해 ← Part I: 꿈

edu.kimsh.kr