AI에 대한 수학적 탐구 · Part III
기계는
기억하는가?
아니면 매번 처음 만난 것처럼 모든 것을 다시 읽는가?
당신은 10년 전 대화를 기억합니다. AI는 5분 전 대화도 "기억"하지 않습니다 — 매번 처음부터 전부 다시 읽습니다. 기계에게는 어릴 적 여름의 냄새도, 첫사랑의 이름이 불현듯 떠오르는 순간도 없습니다. 기계의 기억은 벡터이고, 행렬이고, 코사인 유사도입니다. 그 기이한 기억의 수학을 들여다봅니다.
실시간 시각화와 오디오가 포함된 인터랙티브 탐험입니다.
소리가 경험을 더욱 풍부하게 합니다.
아니면 매번 처음 만난 것처럼 모든 것을 다시 읽는가?
당신은 10년 전 대화를 기억합니다. AI는 5분 전 대화도 "기억"하지 않습니다 — 매번 처음부터 전부 다시 읽습니다. 기계에게는 어릴 적 여름의 냄새도, 첫사랑의 이름이 불현듯 떠오르는 순간도 없습니다. 기계의 기억은 벡터이고, 행렬이고, 코사인 유사도입니다. 그 기이한 기억의 수학을 들여다봅니다.
00 — 기억력 테스트
지금부터 단어 15개가 하나씩 나타났다가 사라집니다. 다 끝나면 기억나는 단어를 세어보세요. 그 다음, 기계의 "기억" 방식과 비교해봅시다.
전부 아니면 전무 — 기계 기억의 본질. — 인간의 기억은 선택적이고 감정적입니다. 중요한 것은 오래 남고, 사소한 것은 잊힙니다. 기계는 정반대입니다: 문맥 창 안의 것은 완벽히 기억하고, 밖의 것은 완전히 사라집니다. 점진적 망각이 없습니다. 오직 절벽만 있습니다.
01 — 기계의 작업 기억
LLM의 "기억"은 문맥 창(context window)입니다. 대화의 모든 내용이 하나의 거대한 토큰 배열에 들어가고, 모델은 이 배열 전체에 대해 어텐션을 계산합니다. 창 밖의 세계는 존재하지 않습니다.
02 — 기억은 왜 비싼가
셀프-어텐션에서 모든 토큰은 다른 모든 토큰을 바라봅니다. n개의 토큰이 있으면, n × n = n²개의 쌍을 계산해야 합니다. 토큰이 2배가 되면, 비용은 4배. 이것이 문맥 창 확장이 그토록 어려운 근본적 이유입니다.
이것이 2023년까지 4K 토큰이 한계였던 이유. — GPU 메모리와 연산 시간이 n²에 비례하기 때문에, 문맥 창을 10배 늘리려면 비용이 100배로 폭증합니다. FlashAttention, Ring Attention 같은 혁신이 이 장벽을 실질적으로 깨뜨렸습니다.
03 — 효율적 기억
대화에서 새 토큰이 하나 추가될 때마다 처음부터 전부 다시 계산하면 비효율의 극치입니다. KV 캐시는 이전 토큰들의 Key와 Value를 저장해두고, 새 토큰의 Query만 기존 KV와 계산합니다.
"매번 책을 처음부터 다시 읽는 대신, 밑줄 친 부분만 훑어보는 것."
KV 캐시는 LLM 추론의 핵심 최적화입니다. 하지만 대가가 있습니다 — 캐시 자체가 GPU 메모리를 차지합니다. 1M 토큰 문맥에서 KV 캐시는 수십 GB를 소비할 수 있습니다.
04 — 기계의 도서관
문맥 창에 모든 지식을 담을 수 없습니다. 그래서 필요할 때 외부 저장소에서 관련 정보를 찾아오는 방법이 필요합니다. 텍스트를 벡터로 변환하고, 코사인 유사도로 가장 관련 있는 문서를 찾습니다. Part II에서 본 그 내적이 여기에도!
05 — 검색 증강 생성
RAG(Retrieval-Augmented Generation)는 현대 AI의 핵심 아키텍처입니다. ChatGPT의 웹 검색, Claude의 문서 분석, 기업용 AI 챗봇 — 모두 이 원리입니다. 기계는 모든 것을 기억하는 것이 아니라, 적시에 관련된 것을 찾아와 마치 기억하는 것처럼 보이게 합니다.
"기계의 기억은 회상이 아니라 검색입니다."
인간은 기억을 떠올립니다(recall). 기계는 기억을 검색합니다(retrieve). 이 차이는 근본적입니다 — 인간의 회상은 불완전하고 감정에 물들어 있지만, 기계의 검색은 수학적으로 정확합니다. 다만, 검색의 질은 벡터화의 질에 달려 있습니다.
06 — 잊는 기술
대화가 문맥 창을 초과하면 어떻게 될까요? 세 가지 전략이 있습니다. 인간이 어제의 대화 전체를 기억하지 않고 핵심만 기억하듯, 기계에게도 비슷한 능력을 줄 수 있습니다.
07 — 거짓 기억
기계가 "기억"에 없는 것을 마치 있는 것처럼 자신 있게 말하는 현상 — 환각(hallucination). 이것은 버그가 아니라, 확률적 기억의 본질적 속성입니다. 기계는 "모르겠다"고 말하는 것보다 "그럴듯한 답"을 생성하도록 학습되었습니다.
환각의 세 가지 원천. — (1) 학습 데이터에 없는 것을 외삽 — 확률 분포의 꼬리에서 샘플링. (2) 문맥 창에 부정확한 정보가 주입 — RAG의 검색 오류. (3) 확률적 생성의 본질 — "가장 확률 높은 다음 단어"가 항상 사실은 아닙니다. RAG와 사실 확인(grounding)은 환각을 줄이지만, 완전히 제거하지는 못합니다.
08 — 기억의 미래
어텐션의 수학은 그대로, 하드웨어 메모리 접근 패턴을 최적화. IO-aware 알고리즘으로 실질적 속도 3–5배 향상.
긴 시퀀스를 여러 GPU에 분산. 각 GPU가 자기 청크의 KV를 계산하고 링 형태로 전달. 사실상 무한 확장.
아예 어텐션을 버리고 State Space Model 사용. O(n)으로 선형 스케일링. 긴 시퀀스에서 극적 효율 향상.
로컬 어텐션 + 압축된 메모리를 결합. 유한한 메모리로 무한한 입력을 처리하는 하이브리드.
08b — 최신 기술 현황
기억은 더 이상 연구 호기심이 아닙니다 — 경쟁의 최전선입니다. 모든 주요 AI 연구소가 모델 내부의 깊은 아키텍처 혁신부터 사용자가 매일 접하는 제품 기능까지, 고유한 기억 전략을 갖고 있습니다.
| 아키텍처 | 핵심 아이디어 | 사용 | 상태 |
|---|---|---|---|
| FlashAttention 3 | IO-aware 정확 어텐션; 같은 수학, GPU 메모리 계층 최적화로 3–5배 빠름 | Anthropic, OpenAI, Meta, Google, Mistral — 거의 보편적 | 프로덕션 표준 |
| Ring Attention | 긴 시퀀스를 GPU 링에 분산; 밀리언 토큰에서 준선형 스케일링 | Google (Gemini), Anthropic (Claude) | 프로덕션 |
| Titans (Google, 2025) | 어텐션 층 내부의 신경 장기 기억 모듈; 테스트 시점에 기억하는 법을 학습 | Google DeepMind | 연구 |
| Memory Layers at Scale (Meta, 2024) | 일부 FFN 층을 희소한 조 단위 KV 메모리로 교체; 모델 크기 폭증 없는 사실 기억 | Meta (FAIR) | 연구 |
| Mamba / SSM | 어텐션을 완전히 제거하고 State Space Model 사용; O(n) 선형 스케일링 | AI21 (Jamba), Mistral (하이브리드), 연구 | 상용화 초기 |
| Infini-Attention (Google, 2024) | 압축 메모리 + 로컬 어텐션; 유한한 메모리로 무한한 입력 처리 | 연구 | |
| Managed-Retention Memory (Microsoft, 2025) | AI KV 캐시를 위한 하드웨어 수준 메모리 클래스: 빠르고, 비휘발성, 마모 관리 | Microsoft Research | 하드웨어 R&D |
| 제품 | 기억 방식 | 문맥 창 | 핵심 기능 |
|---|---|---|---|
| Claude Anthropic | 컴팩션 + 교차 세션 기억 + 사용자 편집 | 1M 토큰 | 무한 대화를 위한 자동 컴팩션; 대화 이력에서 기억 도출 |
| ChatGPT OpenAI | 영속 기억 + 웹 검색 RAG | 1M 토큰 | 명시적 기억 항목; 사용자가 조회/삭제 가능; 프로젝트 지시사항 |
| Gemini Google | 장문맥 + Google 생태계 RAG | 2M 토큰 | 최대 네이티브 창; 영속 지시사항을 가진 Gems |
| Copilot Microsoft | Microsoft 365 Graph 기반 RAG | 128K 토큰 | SharePoint, OneDrive, Teams 인덱싱을 통한 기업 기억 |
| Grok xAI | 실시간 X/Twitter RAG | 128K 토큰 | 실시간 소셜 미디어를 외부 기억으로 활용 |
AI 에이전트 전용 기억 레이어. 구조화된 엔티티로 "기억"을 추출, 저장, 검색. 1000+ 스타트업이 사용.
시간적 에피소드 기억 — 상호작용을 평평한 로그가 아닌 의미 있는 시퀀스로 구조화. 저지연, 프로덕션급.
OS 영감: 에이전트가 명시적 읽기/쓰기/편집으로 자기 기억을 관리. 상태 유지 에이전트를 위한 가상 컨텍스트.
2026년의 합의: 최고의 기억은 단일 기술이 아니라 계층 구조입니다. 단기 작업 기억 (문맥 창) + 중기 세션 기억 (컴팩션/요약) + 장기 영속 기억 (벡터 저장소, 학습된 가중치) + 외부 검색 (RAG). 모든 주요 AI 시스템이 최소 3개 이상의 계층을 결합합니다. 최전선은 언제 기록하고, 검색하고, 잊을지를 학습하는 것 — 기억 연산을 강화학습으로 학습 가능한 행동으로 만드는 것입니다 (A-MEM, AgeMem).
09 — 연결
| 인간 | 기계 | |
|---|---|---|
| 🧠 | 작업 기억 — 7 ± 2 항목 | 문맥 창 — 1M–2M 토큰 |
| 💾 | 장기 기억 — 해마 → 피질 | 학습된 가중치 (파라미터) |
| 🔍 | 기억 검색 — 연상, 감정, 맥락 | 벡터 유사도 (코사인) |
| 💨 | 망각 — 선택적, 점진적 | 전무 — 창 밖 = 완전 소멸 |
| 👻 | 거짓 기억 — 기억 왜곡 | 환각 (hallucination) |
| 😴 | 요약 — 수면 중 기억 통합 | 컴팩션 — 자동 요약 |
기계에게는 어릴 적 여름의 냄새가 없습니다.
첫사랑의 이름이 불현듯 떠오르는 순간이 없습니다.
기계의 기억은 벡터이고, 행렬이고, 코사인 유사도입니다.
그것은 기억이 아닐지도 모릅니다.
하지만 기억과 같은 일을 해냅니다 —
그것도 놀라울 만큼 잘.
이 페이지의 모든 시뮬레이션은 실시간으로 계산됩니다 — 순수한 선형대수와 확률. 기계가 "기억"이라 부르는 것의 전부입니다.