애플-엔비디아 맞손…LLM 성능 가속화 기술 공개
||2024.12.19
||2024.12.19
[디지털투데이 AI리포터] 애플과 엔비디아가 거대언어모델(LLM)에서 더 빠른 텍스트 생성 성능을 구현하는 방법에 대한 세부 정보를 공개했다.
18일(현지시간) IT매체 나인투파이브맥에 따르면 애플은 올해 초 리커런트 드래프터(ReDrafter) 기술을 공개하고 오픈 소스로 제공했다. 이 기술은 최첨단 성능을 달성하는 LLM으로 텍스트를 생성하는 새로운 방법으로, 경험적 검색 알고리즘인 빔 탐색(Beam search)과 트리 동적계획법(Dynamic Tree DP)이라는 두 가지 기술을 결합한 것이다.
애플은 해당 기술의 성능을 입증한 후 엔비디아와 협력, 리드래프터 기술을 엔비디아 그래픽처리장치(GPU)에 적용했다. 이는 엔비디아 GPU에서 LLM 성능을 더 빠르게 실행하는 데 도움이 되는 소프트웨어인 엔비디아 텐서RP-LLM(NVIDIA TensorRT-LLM)에 리드래프터 기술을 통합하는 방식이다.
텐서RT-LLM은 텐서RT 딥러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU 및 멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공하는 것으로 알려졌다.
애플에 따르면 리드래프터 기술을 이용하면 오픈소스 모델의 생성 단계당 최대 3.5개의 토큰으로 LLM 토큰 생성을 가속화해 이전 디코딩 기술의 성능을 능가한다.
애플의 머신 러닝 연구원들은 "LLM은 프로덕션 애플리케이션을 구동하는 데 점점 더 많이 사용되고 있으며, 추론 효율성을 개선하면 계산 비용과 사용자의 지연 시간을 모두 줄일 수 있다"라고 밝혔다.
한편 이 작업에 대한 자세한 내용은 애플과 엔비디아의 웹사이트에서 확인할 수 있다.