Qwen 2.5에 방대한 한국어 데이터를 추가 학습시킴으로써 국내 환경에 최적화 SK텔레콤(이하 SKT)이 세계 최고 수준의 한국어 특화 대규모 언어모델(LLM) ‘A.X(에이닷 엑스) 4.0’을 오픈소스로 공개했다. 7월 3일 SK텔레콤은 글로벌 오픈소스 플랫폼 허깅페이스를 통해 720억 개(72B)의 파라미터를 가진 표준 모델과 70억 개(7B)의 경량 모델 등 두 가지 버전을 동시에 공개했다. A.X 4.0은 오픈소스 기반 모델인 Qwen 2.5에 방대한 한국어 데이터를 추가 학습시켜 국내 환경에 최적화한 성능을 구현한 것이 특징이다. 특히 SK텔레콤이 자체 설계한 토크나이저를 탑재해 동일한 한국어 문장 입력 시 GPT-4o보다 약 33% 높은 토큰 효율을 기록했다. 이는 정보 처리량 증가와 함께 운영 비용 절감이라는 두 마리 토끼를 잡을 수 있는 기술적 진보로 평가된다. 벤치마크 테스트에서도 성과가 두드러졌다. 한국어 능력 평가 지표인 KMMLU에서는 78.3점을 기록하며 GPT-4o(72.5점)를 웃돌았고, 한국 문화 이해도 평가인 CLIcK에서도 83.5점으로 GPT-4o(80.2점)를 앞질렀다. 이를 통해 A.X 4.0은 한국어와 한국 문화에 최
알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다. Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다. 이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고,
알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다. Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다. 이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다. 알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로