AI 알리바바, 디지털 휴먼 영상 생성 모델 ‘Wan2.2-S2V’ 공개
알리바바가 디지털 휴먼 영상 제작을 위한 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 공개했다. 이 모델은 인물 사진과 음성 파일만으로 실제 같은 아바타 영상을 구현해, 대화·노래·연기까지 가능한 디지털 캐릭터 제작을 지원한다. ‘Wan2.2-S2V’는 알리바바의 영상 생성 시리즈 ‘Wan2.2’에 포함된 모델로, 단일 이미지 기반으로 고품질 애니메이션을 제작할 수 있다. 얼굴 클로즈업뿐 아니라 상반신, 전신 구도의 영상까지 구현할 수 있으며 프롬프트 지시에 따라 동작과 배경을 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 반영한다. 이번 모델은 음성 기반 애니메이션 기술을 강화해 자연스러운 대화와 음악 공연까지 표현 가능하며 한 장면에서 여러 캐릭터를 동시에 처리할 수 있다. 음성 녹음을 사실적인 동작으로 변환할 수 있어 현실감 있는 캐릭터 연출이 가능하며 만화풍·동물·스타일화된 캐릭터까지 폭넓게 지원한다. 해상도는 480P와 720P를 지원해 전문 제작 환경에서도 활용할 수 있으며 소셜미디어 콘텐츠부터 프레젠테이션 영상까지 다양한 용도로 적용 가능하다. 기술적 혁신도 두드러진다. ‘Wan2.2-S2V’는 텍스트 기반