올거나이즈, LLM 에이전트 역량 평가하는 ‘올인원 벤치마크’ 공개

[디지털투데이 황치규 기자]LLM 솔루션 기업 올거나이즈는 거대 언어 모델(LLM) 에이전트 역량을 평가하는 ‘All-in-One Benchmark(올인원 벤치마크)’를 공개한다고 3일 밝혔다.

회사 측에 따르면 올인원 벤치마크는 LLM 에이전트 성능을 종합적으로 평가하는 플랫폼으로, 수요 기업은 이를 통해 에이전트 역할을 수행하기에 가장 적합한 LLM을 선택할 수 있다.

LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식뿐 아니라 문제 해결을 위한 tool(툴)을 선택 및 활용할 수 있는 능력, 대화 맥락 이해, 수집된 정보 활용 등 다양한 능력이 요구된다.

사용자는 플랫폼 내에서 올거나이즈 자체 소형언어모델(sLLM)을 비롯해 챗GPT, 엑사원, 큐웬, 딥시크, 등 12개 LLM에 대한 평가 결과를 확인할 수 있다. 올거나이즈는 올인원 벤치마크를 통해 최근 오픈소스로 공개된 딥시크 ‘V3’ 에이전트 성능을 평가했으며, ‘GPT-4o 미니’와 유사한 결과를 확인했다고 전했다.

이창수 올거나이즈 대표는 “기업이 생산성 향상을 위해 AI 모델을 도입하는 데 도움이 되는 LLM 평가 플랫폼을 지속적으로 업데이트해 나갈 예정”이라며 “나아가 에이전트 역할을 제대로 수행하는 LLM을 개발하기 위해 기존 LLM 에이전트 성능을 확인하고 이를 향상시키기 위한 학습 방법을 심도 있게 연구하고 있다”고 말했다.