엔비디아, 유럽어권 AI 번역 혁신…‘그래너리’ 공개
||2025.08.18
||2025.08.18
[디지털투데이 AI리포터] 엔비디아가 유럽어권 인공지능(AI) 번역을 위한 대규모 데이터셋과 모델을 발표했다고 15일(현지시간) 실리콘앵글이 전했다.
엔비디아의 새로운 데이터셋 '그래너리'(Granary)는 100만 시간 이상의 음성 인식과 65만 시간 이상의 음성 번역을 포함하며, 총 35만 시간 분량의 음성 번역 데이터를 제공한다. 엔비디아는 카네기멜런대 및 브루노 케슬러 재단(Fondazione Bruno Kessler)과 협력해 비정형 오디오 데이터를 AI 학습에 적합한 형태로 변환했다. 해당 데이터셋은 깃허브(GitHub)를 통해 무료로 공개된다.
그래너리는 유럽연합 24개 공용어를 포함해 25개 언어를 지원하며, 크로아티아어, 에스토니아어, 몰타어 등 데이터가 부족한 언어도 포함됐다. 이를 통해 AI 번역 기술의 포괄성을 높이고, 적은 학습 데이터로도 높은 정확도를 달성할 수 있도록 설계했다.
엔비디아는 그레이너'와 함께 카나리(Canary)와 패러킷(Parkeet) 모델도 공개했다. '카나리-1b-v2'(Canary-1b-v2)는 복잡한 번역 작업을 위한 고정밀 모델이며, '패러킷-tdt-0.6b-v6'(Parkeet-tdt-0.6b-v6)는 저지연 번역 및 전사 작업을 위한 경량 모델이다.
카나리는 기존 모델 대비 3배 작은 크기로 동등한 번역 품질을 제공하며, 10배 빠른 추론 속도를 자랑한다. 10억개 파라미터 규모로, 차세대 스마트폰에서 실시간 음성 번역이 가능하다. 패러킷은 24분 분량의 오디오를 한 번에 처리하며, 추가 프롬프트 없이도 오디오 언어를 감지할 수 있다. 카나리와 패러킷은 모두 문장부호, 대문자 처리, 단어 단위 타임스탬프 기능을 제공하며, AI 번역 및 전사 기술의 정밀도를 한층 높였다.
고객님만을 위한 맞춤 차량
