카카오, 통합 멀티모달 언어모델 ‘Kanana-o’ 성능 공개
||2025.05.01
||2025.05.01
[디지털투데이 황치규 기자]카카오는 공식 테크블로그를 통해 통합 멀티모달 언어모델 카나나-o(Kanana-o)와 오디오 언어모델 카나나-a(Kanana-a) 성능과 개발 후기를 공개했다.
통합 멀티모달 언어모델인 ‘Kanana-o’는 텍스트와 음성, 이미지 정보를 동시에 이해하고 처리할 수 있는 모델이다.
카카오는 ‘모델 병합(Model Merging)’ 기술을 기반으로 이미지 처리에 특화된 모델 ‘Kanana-v’와 오디오 이해 및 생성에 특화된‘Kanana-a’ 모델을 통합, ‘Kanana-o’를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는‘병합 학습(Joint Training)’을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다.
회사 측에 따르면 ‘Kanana-o’는 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성한다.
대규모 한국어 데이터셋을 활용해 특수한 한국어 발화 구조, 억양, 어미 변화 등을 반영했다고 카카오는 강조했다.
특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다고 덧붙였다.
카카오는 현재 독자적인 한국어 음성 토크나이저(Tokenizer, 오디오 신호를 일정 단위로 작게 분해하는 도구) 개발도 진행 중이다.
카카오는 향후 ‘Kanana-o’를 통해 ▲다중 턴(Multi-turn) 대화 처리 ▲Full-duplex(양방향 데이터 동시 송수신 기술) 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다.
카카오 김병학 카나나 성과리더는 “카나나 모델은 복합적인 형태 정보를 통합적으로 처리함으로써 기존 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다”고 말했다.
카카오는 지난해 자체 개발 AI 모델 ‘카나나(Kanana)’ 라인업을 공개했으며, 공식테크 블로그를 통해 언어모델, 멀티모달 언어모델, 비주얼 생성모델 등의 성능과 개발기를 공개해왔다.
고객님만을 위한 맞춤 차량