엔비디아 ‘슈퍼칩’ 놀라운 성능 이면의 변화는 ‘메모리 연결’ [AI 메모리 시대 ①]
||2025.07.01
||2025.07.01
생성형 인공지능(AI)의 등장과 함께 컴퓨팅 인프라 시장도 GPU(그래픽처리장치)와 가속기 중심으로 바뀌고 있다. 하지만 현재 인프라의 변화는 단순히 CPU(중앙처리장치) 중심에서 GPU 중심으로 바뀐다는 것만으로는 제대로 설명할 수 없고, 시스템 구조 전반을 살펴야 기술 변화의 의미를 짐작할 수 있다. 한국이 주도하는 메모리 관련 기술들이 실제 AI 시대 컴퓨팅 구조에서 어떤 변화를 가져올지 의미를 살펴본다 [편집자주]
‘챗GPT’로 상징되는 생성형 인공지능(AI)의 등장은 컴퓨팅 업계에도 큰 변화의 계기를 만들었다. 특히 생성형 AI는 더 많은 컴퓨팅 자원과 데이터가 성능 향상으로 직결된 만큼, 컴퓨팅 자원에 대한 새로운 대규모 수요를 만들었다. 이러한 새로운 컴퓨팅 자원 수요의 중심은 병렬 분산 처리와 행렬 연산에 뛰어난 그래픽처리장치(GPU)였고, 지난 몇 년간 우리는 특정 제조사의 GPU 생산량 문제가 업계 전반에 미치는 영향을 몸소 겪은 바 있다.
흔히 말하는 ‘AI 인프라’로의 변화라 하면 연산 능력의 중심이 전통적인 프로세서에서 GPU로 바뀌는 정도라 생각할 수 있지만, 실제로는 그 이상으로 근본적인 변화가 나타나고 있다. 시스템 내에서 GPU의 위상이 바뀌면서, 시스템을 구성하는 핵심 구성 요소들의 연결 공식 자체가 바뀌고 있기 때문이다. 이 과정에서 기존의 구조에서는 쉽게 할 수 없었던 규모의 작업에 도전하기 위해 새로운 메모리 기술과 이들을 연결하는 기술들이 대거 등장했다.
최신 시스템의 구조 변화에서도 이러한 시대의 변화를 엿볼 수 있다. 더 많은 메모리가 필요한 더 큰 규모의 모델을 합리적으로 쓸 수 있도록, 지금까지는 분리돼 있던 시스템의 주 메모리와 그래픽 메모리간 경계는 점점 가까워지고 있다. 예전에는 여러 물리적 한계로 시도하기 어려웠던 ‘공유 통합 메모리’ 구성도 이제 주류로 등장하고 있다. 이런 변화의 핵심은 어떻게 더 효율적으로 더 큰 용량의 실용적 메모리 구성을 얻을 수 있을지다.
점점 크고 빨라지는 GPU 메모리의 고민
최근 몇 년새 새로운 GPU에 장착되는 메모리 용량은 기하급수적으로 커졌다. 계기는 단연 ‘생성형 AI’의 등장이 꼽힌다. ‘챗GPT’가 등장한 이후, 생성형 AI를 위한 인프라에서 큰 영향력을 가진 엔비디아의 데이터센터용 GPU의 메모리 용량은 세대별로 두 배 가까이 커지고 있다. 2020년 등장했던 A100의 메모리는 40기가바이트(GB)였지만 2022년 등장한 H100은 80GB, 2024년의 H200은 141GB, B200은 192GB, 올해 발표된 B300에서는 GPU당 288GB까지 용량이 늘었다. AMD또한 최신 MI350 시리즈에서 GPU당 288GB 메모리를 제공하며 메모리 용량 증가 추세에 발맞추고 있다.
이렇게 세대별로 GPU 메모리가 크게 늘어나는 이유는 여러 가지가 있지만, 가장 큰 이유는 ‘필요해서’다. AI 업계에서 이야기되는 ‘스케일링 법칙’은 모델의 크기가 커질수록 더 성능 좋고 정교한 모델을 구현할 수 있다는 것이고, 덕분에 모델 크기가 커지면서 이를 다루기 위한 GPU 메모리 요구 사항도 커진 것이다. 32비트 정밀도에서 10억(1B) 파라미터의 모델을 불러오는 데 GPU 메모리 4GB가 필요하며, 학습 시에는 메모리 크기 요구 사항이 몇 배 더 커진다. 또한 ‘라마 3.1’ 4050억 파라미터(405B) 모델을 16비트 정밀도로 쓸 때도 H100 11장에 해당되는 810GB 그래픽 메모리가 필요하다고 알려진 바 있다.
이러한 AI 모델의 GPU 메모리 요구는 GPU 시장에서 몇 가지 주목할 만한 모습을 보여줬다. 먼저, 같은 GPU라도 실제 수요가 몰린 것은 메모리 용량이 큰 ‘데이터센터용 GPU’에 국한됐다는 점이다. 상대적으로 메모리 용량이 작고 메모리 에러 보정 등이 빠진 일반 소비자용 그래픽카드는 가상화폐 채굴 대란 당시와 달리 거의 영향을 받지 않았다. 그 이유는 일반 소비자용 그래픽카드가 거대 AI 연구개발 환경에서 그리 효율적이지 않았기 때문이다. 일반 소비자용 GPU를 여러 개 장착하는 것은 개별 메모리 용량도 작고 장착 갯수도 제한적이며, 여러 개를 장착해도 제 효율이 나오지 않았다.
이렇게 개별 GPU의 메모리 용량과 성능이 중요한 영향을 미치게 된 것은 현재 시스템의 구조적 특징에도 이유가 있다. 지금까지 거의 모든 GPU는 범용 프로세서, 메모리와 PCIe(PCI Express) 인터페이스로 연결되는데, 메모리에 비해 속도가 턱없이 모자란다. 현재 최신 규격인 PCIe 5.0의 16레인 구성에서 최대 전송 속도는 128GB/s 정도로 수백 GB/s에서 수 TB/s에 이르는 그래픽 메모리의 전송 성능과는 큰 차이가 있다. 이에 그래픽 메모리가 모자랄 때 시스템 메모리를 끌어 쓴다는 발상이 어렵고, 모델 크기를 늘리려면 그래픽 메모리를 늘려야 하는 상황에 놓이게 됐다.
AI 워크로드에서의 높은 메모리 성능 의존성도 주목할 만한 부분이다. 일반적으로는 AI 모델이 GPU에서 데이터를 다룰 때, 많은 데이터를 GPU 메모리에서 읽어들인 뒤 처리한다. 이에 실제 GPU 로직 코어의 활용 대비 메모리 시스템의 부하가 매우 높다. 이런 이유로 AI 워크로드를 주로 다루는 데이터센터용 GPU들은 높은 성능의 HBM(High Bandwidth Memory)을 사용해 이 특성을 맞췄다. 엔비디아의 중국 수출용 H20 같이 연산 성능이 크게 제한된 GPU라도 메모리 성능이 거의 그대로 살아 있으면, 이러한 극단적인 워크로드 특성에 부합해 나름의 효용성이 생긴다.
한편, GPU 메모리의 중요성이 높아지고 있지만 GPU 메모리를 마냥 늘리기도 부담스러운 상황이다. GPU 메모리는 설계 단계에서부터 GPU와 긴밀하게 결합돼, 메모리 용량만 늘린 변형 모델도 나오기 쉽지 않은 특징이 있다. 또한 설계 단계부터 메모리를 크게 늘리기에는 물리적인 제조 비용과 설계 난이도 문제 등에 직면하게 된다. 제품 기획에서 발표까지 몇 년의 기간동안 시장의 움직임이 빠르게 바뀌는 것도 부담스러울 부분이다. 그리고 대용량 GPU 메모리는 향후의 변화에 대한 유연성이 떨어지는 점도 고민이다.
AI 시대 새롭게 조명되는 ‘공유 메모리’ 구조
GPU 메모리 확장의 고민 중 하나가 앞으로의 추세에 대한 ‘유연성’이라면, ‘공유 메모리’는 이러한 유연성에 대한 고민에 대한 나름의 해결책이 된다. 프로세서와 GPU가 같은 메모리 하드웨어를 논리적으로 나눠 쓰는 공유 메모리 구조는 필요에 따라 메모리를 동적으로 할당해 활용 효율을 높이고 유연성을 극대화할 수 있다는 장점이 있다. 지금까지 이러한 공유 메모리 구조가 잘 사용되지 않았던 이유도 분명 있었지만, 이제는 기존의 한계를 극복할 수 있을 새로운 기술들이 함께 등장한 상황이다.
범용 프로세서와 GPU가 같은 메모리를 공유하는 발상은 이미 클라이언트 단에서는 수십 년간 사용돼 온 바 있다. 우리가 사용하고 있는 스마트폰이나 태블릿 PC, 별도 외장 GPU가 없는 PC들은 거의 이 ‘공유 메모리’ 구조를 사용하고 있다. 공유 메모리 구조는 기본적으로 같은 메모리 구조에서 논리적으로 영역을 나누어 활용하지만, 이 또한 구현 방법에 따라서는 하나의 풀에서 동적 할당할 수 있다. 또한 프로세서와 GPU가 같은 메모리 영역과 데이터를 공유할 수도 있어, CPU-GPU간 메모리 복사와 이동 작업에 대한 부담을 크게 줄일 수도 있다.
이 ‘공유 메모리’ 구조에 대한 편견 중 하나는 ‘성능’인데, 이런 편견이 발생한 이유는 사실 한 가지만이 아니다. 공유 메모리 구조를 사용하려면 일단 프로세서와 GPU가 같은 칩에 내장되는 수준까지 근접해야 하는데, 지금까지는 이 때 같이 조합할 수 있는 CPU, GPU 코어 규모에 현실적인 한계가 있었다. 칩이 너무 커지면 소비전력과 발열, 수율에 문제가 생기고, 칩을 줄이면 절대 성능이 부족해진다. 물리적인 메모리 컨트롤러 구성 역시 일반적인 ‘128비트 폭’ 구성으로는 외장 그래픽들과 성능 격차가 크고, 컨트롤러 구성을 늘리면 전체적인 시스템 구성 복잡성과 비용이 제법 올라간다.
최근에는 이러한 한계를 극복하고 공유 메모리 구조를 사용하는 주목할 만한 제품들이 등장하고 있다. 이러한 제품들이 등장하게 된 배경에는 개선된 반도체 공정과 패키징 기술이 모두 있다. 이제는 대형 단일 다이의 수율 부담을 감수하고도 제법 큰 CPU, GPU 코어의 결합 구조를 만들 수 있게 됐고, 아예 모든 다이를 따로 만들어 결합하는 패키징도 충분히 가능해졌다. 메모리 컨트롤러 또한 고속 메모리 규격의 활용과 함께 쿼드 채널 이상으로 확장하면서 CPU, GPU 모두에 충분히 납득할 만한 성능을 제공할 수 있게 됐다.
최근 이러한 공유 메모리 구성을 사용한 주목할 만한 제품으로는 엔비디아의 ‘GB10 슈퍼칩’을 사용한 ‘DGX 스파크(DGX Spark)’, AMD의 코드명 ‘스트릭스 헤일로(Strix Halo)’로 알려진 ‘라이젠 AI 맥스’ 시리즈가 있다. 이 두 제품은 구성과 성능 특성이 제법 비슷하다. ‘GB10 슈퍼칩’은 20코어 Arm 프로세서와 블랙웰 기반 GPU로 1페타플롭스(1PFlops) 급 AI 성능을 내고, 메모리 구성은 256비트 폭의 LPDDR5x 메모리로 273GB/s 성능이다. ‘라이젠 AI 맥스’ 역시 최대 16코어 ‘젠 5’ 기반 프로세서와 40CU(Compute Unit) 구성의 GPU, 메모리는 256비트 폭의 LPDDR5x로 256GB/s 대역폭을 제공한다.
두 제품 모두 이론적인 GPU 성능은 대략 미드레인지 급 데스크톱 PC나 워크스테이션용 GPU 정도고, 메모리 대역폭 역시 미드레인지 급 외장 그래픽 수준으로 확장됐다. 이 구성의 가장 큰 장점은 손색없는 성능에서 쓸 수 있는 메모리 용량이 동급 외장 그래픽카드 대비 매우 크다는 것이다. AMD ‘라이젠 AI 맥스’ 시리즈는 최대 128GB 시스템 메모리 중 96GB를 GPU에 할당할 수 있는데, 외장 그래픽 카드에서 이 정도 용량을 찾으려면 장당 수천만원을 호가하는 데이터센터용 고성능 카드가 필요하다. 공유 메모리 구성을 사용하는 이들 제품은 AI 모델의 개발과 조정 등에서 대규모 모델에 대한 접근성을 높일 수 있는 좋은 방향이 된다.
이러한 방향성에서 주목할 만한 또 다른 제품은 애플의 ‘M3 울트라’ 칩이다. 최신 ‘맥 스튜디오’에도 탑재된 이 칩은 최대 32코어 CPU와 80개 그래픽 코어, 800GB/s 이상 메모리 대역폭과 최대 512GB의 공유 메모리 용량을 제공한다고 발표된 바 있다. 이를 최대한 활용하면 AI에서도 6000억개 파라미터 급의 LLM(거대언어모델)을 구동할 수 있다. 애플의 GPU 활용 효율이 확실치 않지만 메모리 성능이나 용량 면에서는 잠재력이 매우 크다. 향후 AI를 위한 워크스테이션이나 서비스 인프라에서는 이러한 통합 칩과 공유 메모리 구성이 좋은 대안으로 고려될 것으로 보인다.
엔비디아 ‘슈퍼칩’ 핵심, 메모리 연결하는 인터커넥트
최근 AI 인프라 시장에서 가장 주목받는 제품이라면 엔비디아의 ‘슈퍼칩’을 꼽을 수 있다. 엔비디아의 ‘GH200’이나 ‘GB200’ 같은 슈퍼칩 제품군은 엄밀히 말하면 칩이라기보다는 ‘모듈’의 모습이다. GH200이나 GB200 모두 실제로는 하나의 보드 모듈에 ‘그레이스’ CPU와 ‘호퍼’ 혹은 ‘블랙웰’ GPU를 NV링크(NVlink)로 연결한 것이지, 이 모두를 하나의 칩으로 통합한 것은 아니기 때문이다. 이에 이론적으로는 분명 칩 경계를 넘어가는 데서 오는 한계가 분명하지만, 고속 NV링크 연결로 약점을 최소화하고 장점을 극대화한 것이 현재 시장에서 각광받는 이유가 아닌가 싶다.
엔비디아 ‘슈퍼칩’의 장점은 GPU에 장착된 메모리 용량 이상을 사용하는 경우에도 성능에 대한 영향이 최소화됐다는 점이다. GB200을 예로 들면, GB200의 각 GPU에는 8TB/s 대역폭의 192GB HBM3e가 있고 CPU에는 512GB/s 대역폭의 480GB LPDDR5x 메모리가 있다. 그리고 각 칩간 연결은 900GB/s 대역폭의 NV링크-C2C로 연결돼 있다. 지금까지 거의 모든 멀티칩 솔루션의 한계가 칩간 연결 대역폭 부족에서 나왔지만, GB200 슈퍼칩은 최소한 메모리 대역폭에서는 GPU가 CPU에 있는 메모리까지 거의 성능 손해 없이 바로 쓸 수 있는 구성이다. 또한 ‘NVL72’에서는 랙 내의 GPU와 메모리에 대한 직접 연결로 장점이 극대화된다.
엔비디아의 GPU를 사용한 시스템이라도 ‘슈퍼칩’ 기반과 일반적인 ‘DGX’, ‘HGX’ 시스템과의 차이도 여기서 온다. DGX 시스템 디자인은 8개의 GPU가 NV링크로 고속 연결돼 서로의 HBM 메모리 공간을 공유하지만, CPU와는 PCIe로 연결돼 있어 시스템 메모리까지 활용하기에는 여의치 않은 점이 차이점이다. 국내외 많은 기업들이 최신 GPU 서버 도입에서 기존의 ‘DGX’ 기반 시스템보다 ‘슈퍼칩’ 기반 ‘NVL72’ 등을 고려하는 것도 이러한 이유로 보인다. 현재 고성능 GPU 기반의 시스템 구조에서 성능에 발목을 잡는 가장 큰 요인은 PCIe 지만, 당장 대안은 마땅치 않다.
AMD는 ‘인스팅트 MI300A’에서 다소 다른 방향에서의 독특한 시스템 디자인을 선보인 바 있다. MI300 시리즈는 칩렛 구조를 기반으로 베이스 다이 위에 여러 구성 요소를 올리는데, MI300X가 총 8개의 GPU 다이를 올리는 구성이라면 MI300A는 GPU다이 6개에 CPU다이 두 개를 올려 CPU와 GPU가 고속 패브릭 위에서 HBM을 공유하는 독특한 구성을 사용한다. 칩당 128GB의 HBM3 메모리를 제공하며 별도 외부 메모리 확장성은 없고, 4개의 MI300A를 인피니티 패브릭으로 연결해 시스템 전체에서 512GB 메모리를 공유할 수 있다.
MI300A는 외부 연결을 위해 칩당 8개의 128GB/s 인피니티 패브릭 인터페이스를 제공하며, 4개 칩 구성에서 각 칩을 연결하는 데 칩당 두 개씩의 인터페이스를, 그리고 PCIe 등 외부 확장성을 위해 두 개를 할당하는 구성이 보편적이다. 엔비디아의 슈퍼칩에 비하면 연결성에서 조금 아쉽지만, 실질적인 활용 사례에서는 그리 크게 뒤지지는 않는다. 이 MI300A는 현재 전 세계 슈퍼컴퓨터 톱500 순위 1위인 미국 로렌스 리버모어 국립연구소의 ‘엘 캐피탄’ 슈퍼컴퓨터에 사용되기도 했다.
인텔 또한 4세대 제온 스케일러블 ‘사파이어 래피즈’를 기반으로 한 ‘제온 CPU 맥스 시리즈’에서 HBM을 탑재한 바 있다. 제온 CPU 맥스 시리즈는 탑재된 HBM만으로의 단독 구동도 가능했고 기존 DDR5 메모리를 함께 사용한 계층형 메모리 구성이 가능했던 점이 MI300A와는 다른 부분이다. 고성능의 HBM과 비용 효율이 높은 DDR5 메모리를 계층형 구성해서 캐시로 활용하는 등으로 메모리 성능 전반을 높일 수도 있었다. 이 프로세서는 현재 전 세계 슈퍼컴퓨터 톱500 순위 3위에 오른 미국 아르곤 국립연구소에 설치된 ‘오로라’ 슈퍼컴퓨터에 활용된 바 있다.
권용만 기자
yongman.kwon@chosunbiz.com
고객님만을 위한 맞춤 차량