‘스펙에서 효율로’…엔비디아, AI 반도체 승부처 전환
||2026.04.21
||2026.04.21
[디지털투데이 석대건 기자] 엔비디아가 AI 반도체 경쟁 축을 칩 스펙에서 엔드투엔드 효율로 옮기겠다고 선언했다. 블랙웰 기반 GPU가 이전 세대 호퍼 대비 혼합전문가(MoE) 추론 속도에서 55배 빠르다는 실측값도 처음 공개됐다.
브라이언 카탄자로 엔비디아 응용 딥러닝 연구 부문 부사장은 21일 서울에서 열린 '네모트론 디벨로퍼 데이즈 서울 2026'에서 "컴퓨트가 곧 지능(Compute is intelligence)"이라며 "더 빠른 모델이 더 똑똑한 모델"이라고 밝혔다. 이날 메시지는 향후 AI 우위가 단일 칩 성능 경쟁이 아닌, 사전학습·후학습·추론·에이전트 네 단계를 아우르는 시스템 효율이 결정한다는 데 맞춰졌다.
수치 면에서 눈에 띄는 대목은 블랙웰의 MoE 추론 성능이다. 카탄자로 부사장은 "젠슨 황 최고경영자(CEO)가 GTC에서 블랙웰이 호퍼 대비 30배 빠를 것이라고 약속했는데, 최근 대회 결과 실제로는 55배 빠른 것으로 나왔다"고 말했다. 이 성능 격차는 MoE 모델의 병목이 연산이 아닌 인터커넥트에 있다는 판단 아래, 엔비디아가 수년 전부터 저지연·고대역 GPU 간 통신 스위치 'NVL72'를 설계해온 결과라고 설명했다.
효율화는 수치 연산 차원에서도 이뤄지고 있다. 블랙웰에는 수치 하나당 4.75비트를 사용하는 신규 포맷 'NDFP4'가 도입됐으며, 현재 개발 중인 네모트론 3 슈퍼·울트라는 4비트 산술 연산만으로 사전학습을 진행하고 있다고 카탄자로 부사장은 강조하며, "세계 수준의 모델을 이토록 작은 수치로 구축하는 것은 매우 도전적인 시도"라고 설명했다.
◆엔비디아 네모트론3, 30B 모델로 IMO 금메달급 달성
소프트웨어 측면에서도 효율 개선이 뚜렷하다. 엔비디아의 최신 사전학습 데이터셋은 동일 하드웨어 기준으로 이전 버전 대비 학습 시간을 4분의 1로 줄였다. 후학습 기법 'PivotLM'은 모델 추론 경로의 핵심 분기점에 집중적으로 롤아웃 예산을 배분하는 방식으로 후학습 효율을 약 5배 개선했다고 카탄자로 부사장은 전했다.
커리큘럼 기반 후학습 프로젝트 '네모트론 캐스케이드'도 공개됐다. 300억(30B) 파라미터 규모의 네모트론 3 나노 모델에 이 기법을 적용한 결과, 2025년 국제수학올림피아드(IMO)·국제정보올림피아드(IOI)·국제대학생프로그래밍경시대회(ICPC) 세계 결선에서 금메달급 성능을 달성했다. 같은 수준을 달성한 오픈소스 모델은 01.AI의 6710억(671B) 파라미터 모델이 유일하다. 파라미터 수 차이만큼 효율 격차가 드러난 셈이다.
국내 파트너십도 확대되고 있다. 엔비디아는 크래프톤, LG, 네이버, SK텔레콤 등 국내 AI 기업들이 네모트론을 기반으로 개발에 참여하고 있다고 밝혔다. 한국어 특화 합성 데이터셋 '네모트론 페르소나 코리아'도 이번 행사에서 공개됐다. 해당 셋은 한국 인구·언어·문화 통계를 기반으로 생성된 700만 개의 완전 합성 페르소나를 담고 있으며, 개인식별정보(PII)를 포함하지 않는다.
고객님만을 위한 맞춤 차량
