디노티시아, LLM 문맥 성능 평가도구 공개
||2025.10.02
||2025.10.02
[디지털투데이 석대건 기자] 디노티시아가 LLM 대용량 문맥 처리 성능 평가 도구를 공개했다. 장기기억 인공지능(AI) 및 반도체 통합 솔루션 기업 디노티시아는 대규모 언어모델(LLM)의 대용량 문맥 처리 성능을 평가하는 오픈소스 프레임워크 'Dnotitia NIAH(Needles in a Haystack)'를 깃허브(GitHub)에 공개했다고 2일 밝혔다. 디노티시아는 이번 공개로 모델, 데이터, 프레임워크에 이어 평가 도구까지 오픈소스로 개방했다.
'Dnotitia NIAH'는 '건초더미 속 바늘 찾기' 방식으로 긴 문맥 속에서 특정 정보를 정확히 찾아내는 능력을 평가한다. 최근 출시된 LLM들은 100만 토큰(Token) 이상의 문맥을 지원한다고 밝히지만, 긴 문맥에서 필요한 정보를 정확히 찾는 성능은 검증되지 않았다. 정답 문장이 텍스트 후반부에 위치할 경우 모델 성능이 저하되는 사례가 많아, 문맥 길이 확대만으로는 실질적 성능 개선이 어렵다는 지적이 있었다.
디노티시아는 'Dnotitia NIAH'를 활용해 공개된 대규모 언어모델을 평가했다. 초기 버전은 문맥 후반부에서 정확도가 떨어졌지만, 개선된 버전은 전 구간에서 고른 성능을 확인했다. 예를 들어 "맛있는 김치를 만드는 데 어떤 재료가 필요한가요?"라는 질문에 대해 수천 줄의 문장 속에서 "배추는 맛있는 김치를 만드는 데 필요한 재료입니다."라는 문장을 식별하고 정답 '배추'를 제시해야 통과하는 방식이다.
이번 평가 도구는 입력 토큰 길이 확인을 넘어 모델이 긴 문맥에서 정보를 찾아낼 수 있는지를 검증한다. 연구자와 개발자들이 장문 성능을 측정하고 개선하는 데 활용할 수 있다고 회사는 설명했다.
정무경 대표는 "디노티시아는 LLM 모델, 학습 데이터, 개발을 위한 자동화 프레임워크 등 오픈소스를 공개하며 생태계 발전에 기여해왔다"며 "이번 'Dnotitia NIAH' 공개 역시 이러한 흐름의 연장선으로, 모델뿐 아니라 평가 도구까지 개방함으로써 우리나라 AI 발전에 기여하겠다"고 말했다.
고객님만을 위한 맞춤 차량
