“에이전틱 AI 시대, 데이터센터 전 구성요소 필요… AMD는 준비 완료” [AMD AAI 2025]
||2025.06.14
||2025.06.14
“에이전틱 AI 환경을 구현하는 것은 절대 단순하지 않다. 에이전틱 AI에는 데이터센터의 모든 부분이 필요하다.”
포레스트 노로드(Forrest Norrod) AMD 데이터센터 솔루션 비즈니스 그룹 수석부사장은 12일(현지시각) 미국 캘리포니아주 새너제이에서 열린 ‘AMD 어드밴싱 AI 2025’ 행사에서 AMD의 플랫폼 전략을 소개하며 이와 같이 밝혔다.
AMD는 인공지능(AI) 인프라를 위해 필요한 주요 플랫폼 구성 요소를 모두 갖추고 있다. 특히 네트워크에서는 ‘공개 표준’ 규격인 ‘UA링크(UALink)’와 ‘울트라 이더넷(Ultra Ethernet)’ 표준을 사용해 스케일 업, 스케일 아웃 형태로의 유연한 확장성을 확보하는 점이 돋보인다. AMD는 플랫폼을 구성하는 주요 기술들에 표준 기술을 활용하는 ‘열린 생태계’라는 점을 강조한다.
포레스트 노로드 AMD 데이터센터 솔루션 비즈니스 그룹 수석부사장은 “에이전틱 AI의 핵심은 거대언어모델(LLM)을 비즈니스와 주직, 애플리케이션에 연결하고 복잡한 작업을 사람과 함께 수행할 수 있게 한다”며 “이를 구현하는 것은 절대 단순하지 않다”고 지적했다. 이어 “에이전틱 AI에는 GPU 뿐만 아니라 CPU도 중요한 역할을 한다”며 “에이전틱 AI에는 데이터센터의 모든 부분이 필요하다”고 강조했다.
AMD는 이러한 ‘에이전틱 AI’ 시대의 데이터센터 인프라를 구현하기 위한 모든 핵심 기술을 갖추고 있다. 컴퓨팅의 기본이 되는 ‘프로세서’로는 데이터센터용 ‘에픽(EPYC)’ 프로세서가 있고, AI 연산을 위한 GPU에는 ‘인스팅트’ GPU 제품군이 있다. 네트워크 연결에서는 프론트엔드 네트워크에 펜산도(Pensando) 제품군이 있고, 인프라의 스케일업에는 ‘UA링크(UALink: Ultra Accelerator Link)’ 기술을, 스케일아웃 네트워크에는 ‘울트라 이더넷(Ultra Ethernet)’ 기술을 제시했다.
포레스트 노르드 수석부사장은 AMD가 갖춘 이러한 기술적 구성에 대해 “우리는 개방형 표준 기술을 기반으로 한다”고 강조했다. 또한 “AI는 빠르게 발전하고 있고, 전통적인 고정 기능 기반 하드웨어로 접근하는 데는 한계가 있다”며 프로그래밍 가능한 디자인이 필요하다고 언급했다. 이 외에도 데이터센터 인프라는 신뢰성과 지속성, 성능 등을 보장할 수 있는 자연스러운 통합이 필요하다고 덧붙였다.
AI 데이터센터라 하면 ‘GPU’의 중요성이 절대적이라 여겨지지만 AI 애플리케이션 처리의 상당 부분은 CPU 성능에도 영향을 받는다. AMD가 제시한 테스트 결과에 따르면, 같은 MI300X GPU를 사용하는 환경에서 프로세서를 인텔 제온 플래티넘 8592+ 프로세서에서 AMD 에픽 9575F 프로세서로 바꾸면 라마 3.1 700억 파라미터 모델에서 11%, 믹스트랄(Mixtral) 700억 파라미터 모델에서는 17% 성능 향상이 나타났다. 포레스트 노르드 수석부사장은 “더 고성능 프로세서를 사용해 AI 성능을 최적화할 수 있는 만큼, 적절한 조합이 필요하다”고 언급했다.
여러 대의 GPU와 서버들이 연결되는 대규모 데이터센터 환경에서 성능의 핵심은 ‘네트워크’다. 이 부분에서 AMD는 GPU간 연결에 ‘인피니티 패브릭’을, 랙과 데이터센터 단위에서의 스케일 업 연결에는 ‘UA링크’를, 스케일아웃 형태의 연결에는 ‘울트라 이더넷’을 사용한다는 전략이다. 엔비디아의 경우는 이러한 상황에서 스케일 업 연결에 ‘NV링크(NVLink)’를, 스케일아웃 연결에는 ‘인피니밴드(Infiniband)’를 주로 사용한다.
AMD는 공개 표준으로 제안된 UA링크 기술이 엔비디아의 ‘NV링크 퓨전’ 대비 동급 성능에 더 높은 확장성을 갖고 있고, 엔비디아의 하드웨어 뿐만 아니라 모든 브랜드의 하드웨어가 연결 가능한 점이 특징이라고 강조했다. 이 UA링크 연결을 활용하면 랙 단위 연결을 넘어 데이터센터 전체의 GPU와 메모리를 연결해 하나의 GPU처럼 활용할 수 있게 한다. 이 ‘UA링크’ 기술은 차세대 AI 랙 솔루션 ‘헬리오스(Helios)’부터 적용될 것으로 알려졌다.
AMD 펜산도(Pensando) 폴라라(Pollara) 400 AI NIC(네트워크 인터페이스 카드)는 이제 막 1.0 규격이 발표된 울트라 이더넷을 지원한다. AMD는 이 ‘폴라라 400’이 엔비디아나 브로드컴의 경쟁 제품 대비 20%까지 더 높은 RDMA(Remote Direct Memory Access) 전송 성능을 제공하며, 울트라 이더넷 지원을 통해 기존 RoCE(RDMA over Converged Ethernet)v2 대비 25% 높은 성능을 얻을 수 있다고 제시했다. 또한 인피니밴드 대비 GPU 클러스터 확장성은 20배 높고, 8000개 GPU 구성의 클러스터에서 비용은 16% 낮다.
이 ‘폴라라 400’ NIC는 전송 성능 뿐만 아니라 연산 성능 최적화 측면에서도 도움이 된다. 기존에는 프로세서와 GPU에서 연산 이외의 연결이나 전송, 동기화 작업들이 수행돼야 했지만, ‘폴라라 400’은 시스템 수준에서 진행되던 이러한 작업들을 NIC에서 처리할 수 있다. 이 덕분에 프로세서와 GPU가 사용자가 의도하지 않은 작업에 자원을 소비하는 것을 최소화해 인프라 효율을 극대화할 수 있게 돕는다.
한편, 이번 행사에서 발표된 인스팅트 MI350 기반 랙 단위 통합 구성에도 이 ‘폴라라 400’이 사용된다. MI350 기반 랙 단위 통합 구성은 수랭 구성 사용시 랙당 최대 128개 GPU와 36TB 용량의 HBM3E 메모리를 탑재하고, 2.6EF(엑사플롭스) FP4 연산 성능을 얻을 수 있다. AMD는 이 구성에 ‘풀라라 400’ NIC를 조합해 OCP 표준과 울트라 이더넷 표준 기반의 ‘오픈 플랫폼’을 구현했다.
새너제이=권용만 기자
yongman.kwon@chosunbiz.com
고객님만을 위한 맞춤 차량