"빠른 응답, 자연스러운 대화" 생성형AI 경쟁, 텍스트에서 음성으로 확대
||2024.09.29
||2024.09.29
생성형 인공지능(AI) 경쟁이 텍스트에서 음성으로 진화하고 있다. 구글과 오픈AI, 메타 등 주요 글로벌 빅테크는 고도화된 음성 버전의 생성형AI를 잇따라 선보이며 치열한 경쟁을 벌이고 있다.
주요 빅테크가 음성AI 고도화에 공을 들이는 이유는 음성이 빠르고 자연스러운 대화가 가능한 유일하고 적절한 수단이기 때문이다. 기존 텍스트 기반 AI 챗봇은 이용자 질문을 전달하는데 속도가 느리고 질문의 의도를 정확히 입력해야 했다.
반면 음성 AI는 사람과 대화하는 것 같은 효과를 낼 수 있어 좀더 자연스러운 대답 유도가 가능하다. 다만 음성AI는 그만큼 기술 난이도가 높다. 생성형AI 주도권 경쟁이 점차 치열해지는 상황에서 음성AI 고도화는 기업에 경쟁력 강화룰 위한 필수 요소다.
글로벌 시장조사기관 리서치앤드마켓은 글로벌 음성인식 시장 규모는 2024년 167억만달러(약 22조원) 수준에서 연평균 19.1% 성장해 오는 2030년 560억7000만달러(약75조원) 규모에 이를 것으로 전망했다.
오픈AI는 최근 생성형 AI 챗봇 챗GPT에 '고급 음성 모드(AVM)'를 도입했다. 올해 5월 출시한 실시간 음성대화가 가능한 AI 모델 'GPT-4o' 기술을 고도화한 버전이다. 신규 기능은 영어뿐 아니라 한국어, 일본어 등 50개 언어의 사용이 개선된다. 언어 소통 능력이 보다 강화됐다는 것이 회사 측 설명이다.
말하는 사람의 감정을 읽고 응답할 수 있으며 속도, 어조, 강세, 사투리까지 식별할 수 있다고 회사 측은 덧붙였다. 또 오픈AI는 향후 챗GPT에 비디오 및 화면 공유 기능을 넣는 멀티모달 기능을 개발 중이다.
구글은 올해 5월 음성AI 비서 '제미나이 라이브'를 출시했다. 제미나이 라이브는 실시간 음성으로 대화하듯 지시를 내리고 소통할 수 있는 기능을 갖췄다. 구글은 자사 거대언어모델(LLM) 제미나이에 대화기능을 추가해 업그레이드했다.
신규 기능에선 AI가 대화의 맥락을 기억한다. 이야기를 잠시 중단하더라도 다시 이어서 대화를 할 수 있다. 다른 앱을 사용하거나 또는 휴대폰이 잠긴 상태에서도 계속 말할 수 있다. 다만 현재까진 영어로만 소통이 가능하다. 구글은 추후 다양한 언어로 안드로이드 뿐 아니라 iOS(애플 운영체제)에서도 이 기능을 확대 제공할 방침이다.
메타는 오픈소스 AI 모델인 라마의 최신 버전인 라마 3.2를 공개했다. 이미지, 영상, 음성 데이터 등을 두루 처리하는 멀티모달 AI다. 페이스북과 인스타그램 등 메타가 소유한 SNS 등에서 한층 자연스러운 대화가 가능하다.
네이버는 텍스트 데이터와 음성 데이터를 결합해 자연스러운 음성을 생성하는 스피치 X를 개발 중이다. 스피치X는 네이버의 초거대AI 하이퍼클로바X를 기반으로 자연스러운 대화가 가능한 개인화 음성 서비스다. 사용자 말을 문맥에 맞게 인식하고 이해한다. 또한 입력된 텍스트를 인간의 음성과 유사한 자연스러운 음성으로 변환도 가능하다.
이선율 기자 melody@chosunbiz.com