애플, AI 음성 모델 분석 강화…사람처럼 감정까지 분석
||2025.06.09
||2025.06.09
[디지털투데이 AI리포터] 애플이 음성 모델 연구의 일환으로 단순히 무엇을 말했는지를 인식하는 것이 아니라 어떻게 말했는지를 분석하는 새로운 연구를 발표했다.
지난 6일(현지시간) IT매체 나인투파이브맥에 따르면 관련 논문에서 연구원들은 '음질 차원'(Voice Quality Dimensions, VQDs)이라는 프레임워크를 소개했다. 이는 이해도, 거친 정도, 숨소리, 단조로운 음정 등 7가지 요소로 해석 가능한 음성을 분석하는 방법이다.
이러한 요소들은 신경학적 질환이나 발음 장애가 있는 사람들의 음성을 평가할 때 사용되는 방법과 유사하다. 애플은 경량 모델을 활용해 파킨슨병, 루게릭병, 뇌성마비 환자들의 음성을 분석하고, 기존 AI 모델이 단순한 음성 인식을 넘어 음질을 감지할 수 있도록 훈련했다.
이 기술의 핵심은 AI가 단순히 텍스트로 변환하는 것이 아니라, 목소리의 감정과 특성을 이해하도록 만드는 것이다. 연구진은 감정이 담긴 음성을 테스트한 결과, AI 모델이 훈련 없이도 직관적인 예측을 내놓는 것을 확인했다. 예를 들어, 화난 목소리는 단조로움이 낮고, 차분한 목소리는 거친 정도가 낮으며, 슬픈 목소리는 단조로움이 높게 평가됐다.
이는 애플의 AI 음성 비서 시리(Siri)가 사용자의 감정이나 정신 상태에 따라 말투와 톤을 조절할 가능성을 열어준다는 평가다. 전체 연구는 아카이브(arXiv)에서 확인할 수 있다.
고객님만을 위한 맞춤 차량