MLPerf v6.0 벤치마크 공개...AI 추론 데이터센터 반도체 성능 경쟁 본격화
||2026.04.02
||2026.04.02
[디지털투데이 석대건 기자] ML커먼스(MLCommons)가 MLPerf 추론 v6.0 벤치마크 결과를 1일(현지시간) 발표했다. 23개 기업이 451건의 결과를 제출했으며, 엔비디아와 AMD, 인텔 등 주요 반도체 기업의 데이터센터용 가속기 성능이 직접 비교됐다.
이번 라운드에는 딥시크(DeepSeek)-R1, 라마(Llama) 3.1 405B 등 대규모 생성형 AI 모델이 신규 벤치마크로 추가됐다. 또 데이터센터 추론 벤치마크의 범위가 텍스트 생성을 넘어 영상·멀티모달 영역으로 확대되는 추세를 반영해 비디오 생성 모델인 쿠웬(Qwen)3-VL 235B, 완(Wan) 2.2도 처음 포함됐다.
엔비디아는 블랙웰 아키텍처 기반 GB300과 B300 가속기를 앞세워 다수 벤치마크에서 상위 성적을 기록했다. 딥시크-R1 서버 시나리오에서는 GB300을 72노드(노드당 4개, 총 288개)로 구성해 초당 155만 토큰을 처리했다. 단일 노드(B300 8개) 기준으로는 라마2 70B 서버 시나리오에서 초당 10만7317 토큰, 딥시크-R1에서 초당 4만2721 토큰을 달성했다. 시스코와 에이수스텍 등 파트너사들도 B300 기반 시스템으로 라마2 70B에서 초당 10만~11만 토큰대 성능을 제출했다.
AMD는 인스팅트(Instinct) MI355X GPU를 11노드(노드당 8개, 총 87개)로 구성한 클러스터를 투입했다. 라마2 70B 서버 시나리오에서 초당 101만6375 토큰을 기록했다. 단일 노드(MI355X 8개) 기준으로도 초당 10만282 토큰을 달성해 엔비디아 B300 단일 노드와 비등한 수준을 보였다. 델, HPE, 기가컴퓨팅, 슈퍼마이크로, 오라클 등이 MI355X 기반 시스템으로 참가해 초당 9만3000~9만8000 토큰대 성과를 냈다. 시스코와 미텍(MiTAC)은 MI350X 기반으로 초당 7만6000~7만7000 토큰을 기록했다.
AMD 관계자는 "AMD 인스팅트(Instinct) MI355X GPU가 새로운 생성형 AI 워크로드에서 초당 100만 토큰 이상의 성능을 달성하고 확장 가능한 추론 성능을 입증했다"며 "특히 이번 결과는 처리량 측면에서 세대 간 큰 도약을 강조하며, 라마(Llama) 2 70B와 같은 주요 LLM에서 단일 GPU 기준 폭넓은 경쟁력을 입증했다"고 밝혔다. 이어 "또한 델(Dell), HPE, 시스코(Cisco) 등 강력한 파트너 생태계를 기반으로 안정적인 멀티 노드 확장성도 검증됐다"고 덧붙였다.
인텔은 제온(Xeon) 6 프로세서와 아크 프로(Arc Pro) B시리즈 GPU를 조합한 결과를 제출했다. 아크 프로 B60 4개 기반 시스템은 라마2 70B 서버 시나리오에서 초당 1106 토큰, 아크 프로 B70 4개 구성에서는 초당 1698 토큰을 기록했다. GPU 전용 가속기 대비 처리량은 낮지만, CPU 기반 추론 시장을 겨냥한 포트폴리오 확대 차원의 참가로 풀이된다. 참고로 인텔은 제온 6980P 프로세서 단독으로도 라마 3.1 8B 오프라인 시나리오에서 초당 9.6 토큰을 처리하는 결과를 제출했다.
아닐 난두리(Anil Nanduri) 인텔 데이터센터 그룹 AI 제품 및 GTM 총괄은 "인텔 제온 6와 인텔의 아크 프로 B시리즈 GPU의 조합은 고객의 선택지와 가치를 확대하기 위한 인텔의 투자"라며, "전 세계 그래픽 전문가와 AI 개발자들에게 대규모언어모델(LLM)부터 전통적인 머신러닝(ML) 워크로드까지 해결할 수 있는 실질적인 솔루션과 최상의 성능 및 가치를 제공한다"고 설명했다.
고객님만을 위한 맞춤 차량
