카카오, ‘카나나-o’로 멀티모달 AI 진입...주요 모델과 정면 승부

2025.05.01 22:46:28

[무료등록] 한국미쓰비기전기오토에이션이 제안하는 제6회 e-F@ctory Alliance Partner Summit (3/18)

카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다.

카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다.

특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다.

카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을 제시했다.

카나나-a는 오디오 이해와 음성 생성에 특화된 오디오 전용 언어모델이다. 음성 감정 분석, 발화 구조 이해, 억양 자연화 등에서 고도화된 성능을 입증하며 향후 통화, 상담, 내비게이션, AR/VR 콘텐츠 등 음성 기반 서비스 확장에도 활용도가 높을 것으로 기대된다.

김병학 카카오 카나나 성과 리더는 “카카오는 독자적인 멀티모달 기술을 바탕으로 AI 기술 경쟁력을 강화하고 있으며, 앞으로도 기술 공유를 통해 국내 AI 생태계 발전에 기여하겠다”고 밝혔다. 카카오는 향후 카나나 모델을 기반으로 다양한 AI 서비스를 고도화하고, 한국어 중심의 글로벌 대응형 AI 시스템으로 발전시켜 나갈 계획이다.

헬로티 서재창 기자 |

서재창 기자 의 전체기사 보기