
알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다.
Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다.
이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다.
알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개하며 기술 생태계를 확대해왔다.
Qwen2.5-Omni-7B의 기술적 핵심은 멀티모달 간 간섭을 최소화한 독자적 아키텍처에 있다. 텍스트 생성과 음성 합성 기능을 분리한 ‘Thinker-Talker 아키텍처’, 비디오와 오디오 간 정밀 동기화를 위한 ‘TMRoPE(Position-aligned Multimodal RoPE)’, 저지연 음성 응답을 위한 ‘블록와이즈 스트리밍 처리(Block-wise Streaming Processing)’ 기술이 대표적이다.
이미지, 텍스트, 음성, 영상 등 다양한 데이터셋을 기반으로 사전 학습된 이 모델은 텍스트 중심 모델에 필적하는 수준의 성능을 구현하며, 복잡한 멀티모달 처리 능력을 측정하는 벤치마크인 ‘OmniBench’에서도 높은 점수를 기록했다. 특히 인컨텍스트 러닝(In-context learning)을 통해 문맥 인식력과 응답 자연도를 높였고, 강화학습 기반 최적화로 발음 오류나 정지 현상을 크게 줄였다.
앞서 알리바바 클라우드는 지난해 9월 Qwen2.5 시리즈를 첫 공개한 이후, 올 1월에는 상위 모델 ‘Qwen2.5-Max’를 출시해 Chatbot Arena 기준 성능 상위권에 올랐으며, 장문 입력과 시각 이해 특화 모델도 순차적으로 오픈소스로 공개해왔다.
이번 Qwen2.5-Omni-7B는 경량성과 고성능을 모두 갖춘 멀티모달 AI 모델로, 엣지 디바이스 환경에서도 실질적인 활용이 가능한 수준의 완성도를 보여주고 있다는 평가다.
헬로티 서재창 기자 |