알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다.
Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다.

이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고, 특수효과, 교육 콘텐츠 등 다양한 실무 영역에 손쉽게 적용 가능하다.
Wan2.1-VACE는 오픈소스로 제공되어 누구나 무료로 사용할 수 있다. 모델은 두 가지 버전(파라미터 수 기준 14억·1.3억)으로 제공되며 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드의 모델스코프(ModelScope)를 통해 다운로드 가능하다. 알리바바는 지난 2월에도 Wan2.1 시리즈 4종을 공개한 데 이어 이번 모델을 통해 영상 생성 AI 기술의 오픈소스화를 지속하고 있다. 지금까지 Wan2.1 시리즈는 330만 회 이상의 누적 다운로드를 기록 중이다.
헬로티 구서경 기자 |