현존 최고 정확…일레븐랩스, 음성 인식 모델 ‘스크라이브’ 발표
||2025.02.27
||2025.02.27
[디지털투데이 AI리포터] 음성 인공지능(AI) 스타트업 일레븐랩스가 자동음성인식(ASR) 모델 '스크라이브'(Scribe)를 발표했다.
27일 온라인 매체 기가진에 따르면 스크라이브는 일레븐랩스의 첫 번째 자동음성인식 모델로, 세계에서 가장 정확한 문자 변환 모델로 평가받고 있다. 스크라이브는 현실 세계의 음성 예측 불가능성을 해결하기 위해 설계됐고, 단어 수준의 타임스탬프, 화자 구분, 오디오 이벤트 태그 등의 기능을 제공하며, 99개의 언어로 음성을 문자로 변환할 수 있다.
스크라이브는 FLEURS 및 커먼 보이스(Common Voice)와 같은 데이터셋을 기준으로 한 벤치마크 테스트에서 구글의 제미나이 2.0 플래시, 오픈AI의 위스퍼 라지 V3, 딥그램의 노바-3 등 경쟁 모델을 초과하는 성능을 보였다.
또한 이탈리아어(98.7%), 영어(96.7%)를 포함한 99개 언어에서 가장 낮은 단어 오류율을 기록하고, 25개 이상의 언어에서 우수한 정확도(단어 오류율 5% 미만)를 달성했다.
특히 스크라이브는 기존 모델들이 대응하지 못했던 세르비아어, 광둥어, 말라얄람어 등에서의 단어 오류율을 크게 감소시켰다. 스크라이브를 사용한 음성 문자 변환은 시간당 0.40달러(약 576원)에 이용할 수 있다.