연산의 시대에서 메모리의 시대로 [이승현의 AI 네이티브]
||2026.01.27
||2026.01.27
지난 10여 년간 인공지능의 성장 공식은 단순했다. 더 큰 모델, 더 많은 파라미터, 더 높은 FLOPs(모델 학습에 투입되는 연산량)를 추구했다. 그래픽처리장치(GPU)를 얼마나 확보했는지가 곧 경쟁력으로 받아들여졌고, 국가 전략 역시 GPU 확보와 같은 연산 자원 선점에 집중되어 왔다. 그런데 최근 연구 흐름과 시스템 아키텍처를 살펴보면, 인공지능(AI)이 다음 단계로 도약하기 위해 풀어야 할 핵심 과제가 연산(Compute)에서 메모리(Memory)로 이동하고 있음을 확인할 수 있다. 이제 승부는 “얼마나 빨리 계산하느냐”가 아니라 “무엇을, 어떤 형태로, 어디에 기억하고, 어떻게 꺼내 쓰느냐”로 바뀌고 있는 것이다.
사실 대형언어모델(LLM)이 커지면 커질수록 실제 성능과 비용을 좌우하는 요소는 연산량보다 데이터 이동이다. 가중치, 추론 과정에서 생성되는 캐시, 중간 상태들이 메모리 계층을 오가며 발생시키는 지연이 전체 성능을 결정하기 때문인데, 연산 자원을 아무리 늘려도 필요한 데이터가 제때 공급되지 않으면 성능은 곧바로 한계에 부딪힌다. 이른바 메모리 장벽(memory wall)이다. 특히 긴 문맥 추론, 다중 세션, 에이전트 기반 상호작용처럼 ‘기억을 오래 유지하고 반복적으로 활용하는’ 작업이 늘수록 메모리의 중요성은 더 커진다.
이런 배경에서 최근 AI 연구들은 공통된 결론에 도달하고 있다. 더 계산하기보다, 더 잘 기억하자는 것이다. 이를 상징적으로 보여주는 사례가 지난 1월 12일 발표된 딥시크의 엔그램(Engram) 연구다. 이 연구에서는 대규모 언어모델이 이미 여러 번 등장한 정적 지식과 패턴까지 GPU에서 반복 계산하는 구조가 비효율적이라고 지적한다. Engram은 자주 쓰이는 정보를 반복해서 처음부터 다시 연산하지 않고, 해시 기반 메모리에 저장해 두었다가 필요할 때 바로 불러오는 방식을 제안한다. 반복적이고 예측 가능한 정보는 메모리가 처리하고, GPU는 새로운 입력에 대한 동적 추론에 집중하도록 역할을 재배치하는 것이다. 중요한 부분은 GPU를 더 쌓지 않고도 메모리를 전략적으로 활용해 시스템 효율을 높일 수 있음을 보여주고 있다는 점이다.
이와 함께 작년말 발표된 구글의 중첩학습(Nested Learning) 연구는 기억을 단순히 단기와 장기로 나누는 기존 관점을 넘어, 연속체 메모리 시스템(Continuum Memory System, CMS)이라는 개념을 제시한다. 즉시적인 작업 맥락은 빠르게 사라지는 단기 기억으로 처리하고, 반복적으로 활용되는 정보는 중기 기억으로 유지하며, 중요도가 검증된 지식만을 장기 기억으로 응축·저장하는 구조다. 기억을 시간 축에 따라 관리함으로써, 모델은 매번 모든 것을 계산하지 않고도 과거 경험을 활용해 점점 더 효율적으로 동작할 수 있다. Engram이 ‘정적 지식을 바로 불러오는 구조’를 제시했다면, CMS는 그 기억을 시간에 따라 어떻게 관리하고 진화시킬 것인가를 제시하고 있는 것이다.
이 메모리 중심 전환은 소프트웨어에만 머물지 않는다. 오히려 하드웨어에서 더 분명하게 드러난다. 오늘날 AI 시스템의 체감 성능은 연산 유닛의 피크 성능보다 메모리 대역폭과 데이터 이동 비용에 의해 좌우되는 경우가 많다. 이 때문에 우리나라가 90%이상을 차지하고 있는 HBM과 같은 고대역폭 메모리가 핵심 자원으로 부상했고, 더 나아가 플래시 기반 스토리지 계층을 메모리처럼 활용하려는 시도, 이른바 HBF 계열의 접근도 함께 논의되고 있다. 메모리를 DRAM이나 HBM에만 한정하지 않고, 용량과 비용이 유리한 저장 계층까지 포함해 시스템 전체를 하나의 연속적인 메모리 구조로 재구성하려는 흐름이다.
에이전트 기술 역시 같은 방향을 가리킨다. 에이전트는 단발성 응답을 생성하는 데서 그치지 않고, 상호작용을 누적하며 과거 경험을 기억하고 이를 바탕으로 다음 행동을 결정한다. 에이전트가 진정으로 ‘에이전트다워지는’ 순간은 말을 더 유창하게 할 때가 아니라, 기억이 생기고 행동의 일관성과 학습성이 나타날 때다. 에이전트 연구 전반이 메모리를 지능의 핵심 모듈로 전제하는 이유다.
이쯤 오면 큰 그림은 분명해진다. AI의 다음 단계는 더 큰 연산을 넘어서는, 더 정교한 기억이다. 인간 지능의 작동 방식과도 닮아 있다. 인간은 초고속 연산으로 사고하지 않고, 경험을 기억하고, 맥락에 따라 호출하며, 중요한 지식을 장기 기억으로 응축해 재사용한다. AI 역시 지능이 작동하기 위한 물리적·경제적 조건을 따라가다 보니 인간과 닮은 기억이 중심으로 떠오르고 있는 것이다.
그렇다면 이 메모리의 시대는 우리 대한민국에게 어떤 기회일까. 지금까지 한국은 HBM을 포함한 메모리 제조 경쟁력으로 세계적인 위치를 확보해왔다. 그러나 메모리 중심 AI로의 전환은 단순한 공급자를 넘어, 차세대 인공지능 아키텍처를 함께 설계하는 공동 설계자의 역할을 요구한다. 이제 중요한 것은 무엇을 만들어 파느냐보다, 다음 세대 AI에서 어떤 기억 구조가 필요하고 어디서 병목이 발생하는지를 정의하는 능력이다. 단기·중기·장기 메모리를 하드웨어(HW) 계층에 어떻게 매핑할지, 이를 뒷받침할 소프트웨어(SW) 정책과 평가 기준을 어떻게 설계할지까지 포함해, 문제는 HW-SW 공동 설계(Co-design)의 영역으로 이동하고 있다.
연산의 시대가 끝난다는 말은 연산이 중요하지 않다는 뜻이 아니다. 다만 앞으로의 경쟁은 연산을 얼마나 더 쌓느냐가 아니라, 기억을 얼마나 정교하게 설계하느냐에서 갈린다는 말이다. 메모리의 시대는 이미 시작됐다. 그리고 전환기마다 주도권은 다시 배분된다. 우리나라가 단순한 ‘좋은 부품을 만드는 나라’에 머무를지, 아니면 AI 아키텍처를 함께 정의하는 공동 설계자로 도약할지는 지금의 선택에 달려 있다.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
이승현 포티투마루 부사장은 스타트업 창업가 출신의 AI 전문가다. 디지털플랫폼정부위원회 인공지능플랫폼혁신국장으로서 재직하면서 대한민국 공공 AI의 초석을 닦았으며, 현재는 법무법인 린의 공공AX 고문을 겸하며 기술과 정책의 가교 역할을 하고 있다. 이론에 머물지 않는 현장형 전략가로서 국가 전반의 AI 네이티브 전환을 이끌고 있다.
고객님만을 위한 맞춤 차량
