플리토, 아랍어 음성 데이터 수집 착수…AI 언어 격차 해소

디지털투데이|손슬기 기자|2026.02.10

플리토 아랍어 음성 데이터 수집 프로젝트 [사진: 플리토]
플리토 아랍어 음성 데이터 수집 프로젝트 [사진: 플리토]

[디지털투데이 손슬기 기자] 인공지능(AI) 데이터 기업 플리토는 인공지능(AI) 모델의 다국어 인식률을 높이기 위해 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다.

최근 글로벌 빅테크 기업의 다국어 음성 데이터 수요가 늘어남에 따라 이번 프로젝트를 추진하게 됐다.

아랍어는 표준어(MSA) 외에도 30가지 이상 방언이 존재하며, 구어체에서 이를 섞어 쓰는 '코드 스위칭' 현상이 빈번해 AI 학습 데이터 구축이 까다로운 언어로 꼽힌다. 플리토는 자사 앱 내 '아케이드' 기능을 활용해 실제 사용자들 참여를 유도하고 데이터를 수집한다.

참여자가 제시된 문장을 읽고 녹음하면 AI 시스템이 방언 유형을 자동 판별하는 방식이다. 분석 결과가 불확실할 경우 추가 문장을 제시해 재참여를 유도함으로써 데이터 정확도를 높이는 구조다. 

이번 프로젝트는 단순 음성 수집을 넘어 발화자의 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 정교한 학습용 데이터 구축을 목표로 한다. 이를 통해 언어 자원 편차에 따른 AI 학습 편향을 완화하고 실사용 환경에서 높은 인식률을 구현할 방침이다.

이정수 플리토 대표는 "아랍어는 4억명 이상이 사용하지만 AI 학습용 데이터가 부족한 저자원 언어"라며 "아랍어 고유의 특성을 체계적으로 반영한 데이터 구축으로 글로벌 AI 모델의 인식 품질을 한층 끌어올리는 데 기여하겠다"고 말했다.

본 서비스는 패스트뷰에서 제공합니다.