엔비디아, 추론 AI 서빙 소프트웨어 ‘다이나모’ 오픈소스로 공개
||2025.03.19
||2025.03.19
[디지털투데이 황치규 기자]AI 컴퓨팅 기술 기업 엔비디아는 18일(현지시간) 미국 새너제이에서 개최한 연례 개발자 컨퍼런스 GTC에서 오픈소스 추론 소프트웨어인 엔비디아 다이나모(NVIDIA Dynamo)를 공개했다.
회사 측에 따르면 엔비디아 트리톤 추론 서버(Triton Inference Server) 후속 제품인 엔비디아 다이나모는 추론형 AI 모델을 배포하는 AI 기업들이 토큰 수익을 늘리도록 지원하는 AI 추론 서빙(serving) 소프트웨어다. 수천 개 GPU에서 추론 통신을 조정, 가속한 뒤 분리 서빙 방식을 통해 거대 언어 모델(Large Language Model, LLM) 처리와 생성 단계들을 서로 다른 GPU에 분리한다.
이를 통해 각 단계에서 특정 요구 사항에 맞춰 독립적인 최적화가 가능하고, GPU 리소스 활용을 강화할 수 있다는게 회사측 설명이다.
다이나모는 같은 수 GPU를 사용해 엔비디아 호퍼(Hopper) 플랫폼에서 라마(Llama) 모델을 지원하는 AI 팩토리 성능과 수익을 두 배로 증가시킨다. GB200 NVL72 랙으로 구성된 대형 클러스터에서 딥시크(DeepSeek)-R1 모델을 구동할 경우, 엔비디아 다이나모 지능형 추론 최적화를 통해 GPU당 생성되는 토큰 수가 30배 이상 증가한다.
엔비디아 다이나모는 추론 시스템이 이전 요청을 처리하면서 메모리에 저장한 지식(KV 캐시)을 잠재적으로 수천 개 GPU에 매핑한다. 그런 다음 새로운 추론 요청을 가장 적합한 지식이 저장된 GPU로 라우팅해 비용이 많이 드는 재계산을 피하고, 향후 요청에 응답할 GPU도 확보할 수 있도록 지원한다.
퍼플렉시티 AI CTO인 데니스 야라츠(Denis Yarats)는 “매월 수억 건 요청을 처리해야 하는 상황에서, 퍼플렉시티는 엔비디아 GPU와 추론 소프트웨어를 활용해 성능과 신뢰성을 높이면서 업무와 사용자 수요에 부응하고 있다. 보다 향상된 분리 서빙 기능을 제공하는 다이나모를 활용해 추론 서빙 효율을 높이고 새로운 AI 추론 모델 컴퓨팅 요구 조건들을 만족시킬 수 있기를 기대한다”고 말했다.
AI 제공업체 코히어는 엔비디아 다이나모를 활용해 자사 모델 시리즈인 커맨드(Command) 에이전틱 AI(Agentic AI) 기능을 강화할 계획이다. 코히어 엔지니어링 부문 수석 부사장인 사우라브 바지는 “고급 AI 모델을 확장하려면 정교한 GPU 스케줄링과 빈틈없는 조율, 메모리와 스토리지 전반에서 추론 컨텍스트를 원활히 전송해줄 저지연 통신 라이브러리가 필요하다. 엔비디아 다이나모 도움으로 코히어 고객들에게 우수한 사용자 경험을 제공할 수 있기를 기대한다”고 말했다.
엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “전세계 산업계가 AI 모델 사고와 학습에 필요한 학습 방식을 다양화함에 따라 모델도 보다 정교해지고 있다. 엔비디아 다이나모는 추론 맞춤형 AI를 구현하기 위해 모델에 대한 대규모 서빙을 지원한다. 이를 통해 AI 팩토리 전반에서 비용을 절감하고 효율을 높인다”고 말했다.
고객님만을 위한 맞춤 차량