음성 AI도 ‘속도전’…오픈AI API, 배속 처리로 더 저렴하게 쓴다
||2025.06.27
||2025.06.27
[디지털투데이 AI리포터] 오픈AI는 다양한 인공지능(AI) 기능을 API로 제공하며, 음성 데이터를 텍스트로 변환하는 API도 포함돼 있다. 27일(현지시간) 온라인 매체 기가진은 소프트웨어 엔지니어 조지 맨디스(George Mandis)가 음성 데이터를 2~3배속으로 처리하면 품질을 유지하면서 비용을 절감할 수 있다고 밝혔음을 전했다.
오픈AI 음성 API 요금은 입력 토큰 수에 따라 결정되며, gpt-4o-transcribe는 100만 토큰당 6달러, gpt-4o-mini-transcribe는 3달러다. 1분당 추정 비용은 각각 0.006달러, 0.003달러로, 음성 재생 시간이 짧아질수록 비용이 감소한다.
위스퍼(Whisper) API는 시간당 요금이 적용되며, 1분당 0.006달러로 책정돼 있어 배속 처리 시 비용 절감 효과가 크다. 맨디스는 약 40분 분량의 강연을 1배속에서 처리하려 했으나 토큰 한도를 초과해 실패했고, 영상 인코딩 소프트웨어인 ffmpeg를 사용해 2배속으로 변환한 결과 저렴하면서도 고품질의 텍스트 변환이 가능하다는 점을 확인했다.
단, 2배속과 3배속에서는 품질이 유지됐지만, 4배속에서는 텍스트 품질이 급격히 저하됐다. 이를 통해 맨디스는 오픈AI 음성 API를 사용할 때 2~3배속으로 처리하면 비용 절감과 품질을 동시에 확보할 수 있다고 결론지었다.
고객님만을 위한 맞춤 차량