Wan2.1-FLF2V-14B, 텍스트와 이미지 입력으로 고품질 이미지 및 영상 생성 알리바바 클라우드가 시작 프레임과 종료 프레임을 기반으로 영상의 흐름을 정교하게 생성할 수 있는 AI 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 오픈소스로 공개했다. 해당 모델은 숏폼 콘텐츠 제작자와 개발자들이 직관적이고 정밀한 영상 콘텐츠를 효율적으로 제작하도록 돕는 데 초점을 맞췄다. ‘Wan2.1-FLF2V-14B’는 알리바바 클라우드의 파운데이션 모델 시리즈 ‘Wan2.1’의 일부로, 텍스트와 이미지 입력을 통해 고품질의 이미지 및 영상을 생성하는 데 최적화해 있다. 특히 이번 모델은 영상의 시작과 끝 장면을 입력값으로 받아, 두 장면 사이의 시각적 일관성을 유지하면서 자연스러운 전환을 생성하는 ‘제어 조정 메커니즘(Control Adjustment Mechanism)’을 핵심 기술로 채택했다. 이 메커니즘은 사용자가 제공한 프레임에 담긴 의미 정보를 분석해, 중간 프레임의 스타일과 구조를 정밀하게 조정한다. 그 결과 복잡한 동작도 부드럽게 이어지며, 사실적이고 몰입감 있는 영상 결과물을 생성할 수 있다. 현재 해당 모델은 허깅페이스(Hugging Face)
알리바바 클라우드는 자체 개발한 거대언어모델(LLM) '통이치엔원(Tongyi Qianwen)'의 720억 개 파라미터 버전 '큐원(Qwen)-72B'와 18억 개 파라미터 버전인 '큐원-1.8B'을 자사AI 모델 커뮤니티 '모델스코프'와 협업 AI 플랫폼 '허깅페이스'에 오픈소스로 공개했다고 5일 밝혔다. 징런 저우알리바바 클라우드 CTO는 "오픈소스 생태계를 구축하는 것은 LLM 및 AI 애플리케이션 개발에 매우 핵심적인 일"이라며 "알리바바 클라우드는 가장 개방적인 클라우드로서 모든 사람이 생성형 AI 역량을 활용할 수 있도록 하는 것을 목표로 한다"고 말했다. 그는 이어 "이러한 목표를 달성하기 위해 자사의 최첨단 기술을 공유하고 파트너들과 함께 오픈소스 커뮤니티의 발전을 촉진해 나갈 것"이라고 밝혔다. 큐원-72B은 3조 개 이상의 토큰으로 사전 학습돼 주요 오픈소스 모델들을 10가지 벤치마크 부문에서 초월한다. 대표적으로 앞선 벤치마크 부문은 대규모 다중작업 언어이해(MMLU, Massive Multi-task Language Understanding), 코드 개발 역량 테스트인 휴먼이발(HumanEval) 및 수학 문제를 푸는 GSM8K 등이 있
서버리스 클라우드 제품 통한 온디멘드 기술 제공 주력…비용 절감 및 의사결정 효율성 제고 알리바바그룹의 디지털 기술 및 인텔리전스 중추 알리바바 클라우드가 연례행사 '2022 압사라 컨퍼런스'에서 AI 개발자를 위한 오픈소스 플랫폼 '모델스코프'와 차세대 서버리스 데이터베이스 제품군, 데이터 분석·지능형 컴퓨팅 플랫폼 등 네이티브 클라우드 혁신 제품을 발표했다고 9일 밝혔다. 알리바바 클라우드는 지난 5년간 알리바바 다모 아카데미에서 연구 개발해 온 300개 이상의 AI 모델을 오픈소스로 제공하는 MaaS 플랫폼 모델스코프를 출시했다. 모델스코프 플랫폼은 컴퓨터비전, 자연어 처리(MLP), 오디오 등 다양한 분야에 적용될 수 있으며 약 150개 이상의 SOTA(State-of-the-Art) AI 모델을 제공한다. 50억 개 매개변수를 지원하는 텍스트투이미지 모델 '통이'와 이미지 캡션 생성이나 VQA(Visual Question Answering) 등의 OFA(One For All) 사전학습 모델 등이 포함된다. 연구원과 개발자들은 모델스코프를 통해 무료로 AI 모델을 테스트할 수 있으며 수 분 내에 테스트 결과를 확인할 수 있다. 또한, 플랫폼 상에서 기