“‘AI 음성 더빙’으로 언어장벽 허문다”… 일레븐랩스, 韓 시장 진출
||2025.11.21
||2025.11.21
“궁극적으로 미래의 ‘인공지능(AI) 오디오’는 언어의 장벽을 완전히 허물어 모든 음성과 콘텐츠가 실시간 번역과 완벽한 더빙을 통해 전 세계 어디서나 접근할 수 있게 할 것입니다.”
마티 스타니셰프스키(Mati Staniszewski) 일레븐랩스(ElevenLabs) 공동 창업자 겸 최고경영자(CEO)는 21일 서울 서초구 JW메리어트호텔에서 열린 ‘일레븐랩스 한국시장 진출 기자간담회’에 참석해 “기업들은 (자사 AI 음성 기술을 통해) 고객이 휴대전화나 로봇, 컴퓨터 등 어떤 디바이스와 상호작용을 하든 고객 경험을 수집할 수 있다”며 이같이 밝혔다.
일레븐랩스는 영국에 본사를 둔 인공지능(AI) 오디오 연구 및 개발 전문기업으로, AI를 통해 전통적인 더빙 방식의 한계를 극복하기 위해 설립됐다. 현재 5000만명 이상의 월간 활성 이용자 수(MAU), 66억달러(약 10조원)의 기업 가치, 포춘 500대 기업 중 75%의 활성 고객사를 보유하고 있다. 국내 기업 중 네이버, LG유플러스 등의 투자를 받았으며 이들과 긴밀한 협업을 논의 중이다.
스타니셰프스키 CEO는 “일레븐랩스의 기반 모델은 음성 합성, 오디오, 제어 가능성, 인간과 유사한 상호작용에 관한 최첨단 연구를 바탕으로 만들어졌다”며 “TTS(텍스트-음성 변환), STT(음성-텍스트 변환), AI 더빙, 보이스 클로닝(음성 복제), 사운드 효과, 음성 분리, 일레븐 뮤직, 에이전트 오케스트레이션 등 독보적 음성 제품들이 일레븐랩스의 경쟁력”이라고 설명했다.
스타니셰프스키 CEO는 이날 주력 서비스인 ‘AI 에이전트 플랫폼’도 소개했다. AI 에이전트 플랫폼은 0.5초 미만의 지연 속도로 인간 수준의 자연스러움, 7000개 이상의 보이스와 32개 언어를 지원한다. 또한 CRM, 고객지원, 결제, 전화 시스템 등 다양한 워크플로를 연결해 문제를 해결하고 전환율 향상과 매출 창출을 지원한다.
특히 일레븐랩스는 성공적인 한국 시장 진출을 위해 준비를 마쳤다고 자신했다. 스타니셰프스키 CEO는 “한국어에 최적화되고 현지화된 모델들을 개발하고 있다”며 “특히 한국어 발음과 억양을 제대로 구현하기 위해서 지난해 많은 인력을 한국어 개발에 투입했다”고 말했다. 현재 일레븐랩스의 마켓플레이스에는 방언, 연령, 성별 등 다양한 400여건의 한국어 음성이 제공되고 있다.
일레븐랩스는 AI 기반 TTS(텍스트-음성 변환) 및 음성 복제 기술인 ‘보이스’가 복잡한 기술의 주요 인터페이스가 될 것으로 기대하고 있다. 스타니셰프스키 CEO는 “억양은 인간이 소통하는 가장 원시적이고 최초의 방식”이라며 “다양한 콘텐츠를 현지 음성과 억양으로 이해할 수 있기 때문에, 언어장벽이 완전히 무너지게 될 것”이라고 말했다.
이어진 발표에서 홍상원 일레븐랩스 한국지사장은 “한국은 혁신을 가장 빠르게 수용하는 시장”이라고 말했다. 그는 “대기업의 65.1%가 이미 AI를 도입했고, 근로자의 63.5%가 생성형 AI를 일상적으로 활용한다”며 “정부는 2026년 AI 분야에 10조1000억원이라는 전례 없는 예산을 편성하며 ‘AI 3대 강국 도약’을 선언했으며, 99.98%의 모바일 인터넷 보급률, 세계 1위 5G 인프라 등을 보유 중”이라고 설명했다.
그는 이어 “K-팝과 K-드라마로 입증된 글로벌 콘텐츠 파워, 세계에서 가장 까다로운 서비스 기준이 ‘한국에서 통하면 어디서든 통한다’는 기준을 만들었다”며 “한국에서의 성공은 곧 글로벌 성공의 지표기 때문에 일레븐랩스는 한국을 아시아 진출의 핵심 거점으로 선택했다”고 밝혔다.
홍상원 지사장은 한국 시장에 집중할 두 가지 핵심 영역으로 ▲K-콘텐츠의 진정한 글로벌화 ▲고객 경험의 완전한 재창조를 제시했다. 그는 “K-콘텐츠가 세계를 사로잡았지만 언어 장벽은 여전했다”며 “전통 더빙 방식 대비 비용은 최대 95%까지 절감되고 시간은 60% 단축돼 더 많은 언어로 더 빠르게 (콘텐츠를) 확장할 수 있다”고 말했다.
일레븐랩스에 따르면 TTS 모델 ‘일레븐 v3(Eleven v3)’는 70개 이상 언어를 지원하면서도 원작의 감정과 뉘앙스를 거의 완벽히 재현한다. 단순 통역이 아니라 웃음, 한숨, 감탄사, 숨소리까지 그대로 전달한다. 이날 현장에서도 ‘inhales deeply(깊게 숨을 들이쉬며)’, ‘whisper(속삭이며)’, ‘chuckles(싱긋 웃는다)’ 등의 비언어적 표현 지시어가 포함된 예시문으로 제작된 AI 음성을 시연했다.
일레븐 v3는 화자 자동 분리, 타임라인 편집, API를 통한 대량 처리로 더빙 시간을 극적으로 단축한다. 홍 지사장은 “초저지연 음성 에이전트가 24시간 다국어로 응대하며 인간을 대체하는 것이 아니라 인간과 시너지를 낸다”며 “AI가 반복 문의의 70%를 처리하는 동안, 상담사는 공감과 창의성이 필요한 복잡한 케이스(문의)에 집중할 수 있다”고 설명했다.
아울러 일레븐랩스는 딥페이크 악용, 저작권 침해, 출처 불명, 불공정 이용 등의 우려를 방지하고 차단하기 위해 ▲Consent(동의) ▲Control(통제) ▲Compensation(보상) 등 3C 프레임워크를 발표했다. 동의는 시작부터 철저한 검증 단계이며 통제는 완벽한 추적과 차단 시스템, 보상은 공정한 수익 창출 생태계 구축이다.
마지막으로 AI 오디오의 미래에 대해 스타니셰프스키 CEO는 “웨어러블에서부터 자동차에 이르기까지 모든 디바이스가 우리가 무엇을 말하는지, 그리고 어떻게 말하는지를 이해할 수 있는 것이 AI 오디오의 미래”라며 “미래는 오디오를 넘어, 이미지와 영상까지 아우르는 완전한 옴니 크리에이티브 경험이 제공될 것이고, 맥락을 이해하고 감정에 반응하는 에이전트가 모든 접점에서 일관되고 매끄러운 상호작용을 가능하게 할 것”이라고 전망했다.
김경아 기자
kimka@chosunbiz.com
고객님만을 위한 맞춤 차량
