오픈AI, 고급 음성 모드 업글...실시간 비디오도 이해한다
||2024.12.13
||2024.12.13
[디지털투데이 황치규 기자]오픈AI가 7개월 전 데모로 보여줬떤 실시간 비디오를 이해하는 역량을 챗GPT에서 공개했다고 블룸버그통신, 테크크런치 등 외신들이 12일(현지시간) 보도했다.
오픈AI는 고급 음성 모드(Advanced Voice Mode)에 시각을 지원하는 비전(vision) 기능을 추가했다. 챗GPT 플러스, 챗GPT 팀, 챗GPT 프로 등 챗GPT 유료 사용자들은 휴대폰으로 사물을 가리키면 실시간에 가깝게 응답을 받을 수 있다.
고급 음성 모드 비전 기능은 스마트폰 카메라를 통해 사물을 인식하고 화면에 뭐가 있는지 말로 답변할한다. 예를 들면 사용자는 열려 있는 앱에서 메시지에 답하는 데 도움을 요청하거나 커피를 끓이는 방법에 대한 실시간 설명도 얻을 수 있다.
고급 음성 모드 비전 기능은 스크린 공유를 통해 기기에 표시되는 것들을 이해해 다양한 메뉴를 설명하거나 수학 문제에 대한 제안도 할 수 있다고 테크크런치는 전했다.
오픈AI 외에 구글, 메타도 자사 챗봇에 유사한 기능을 개발하고 있다. 구글은 실시간, 비디오 분석 대화형 AI 기능을 프로젝트 아스트라에 구현했다. 프로젝트 아스트라는 현재 일부 테스트 그룹들에게만 제공되고 있다.