패러닷이 구글 딥마인드의 최신 영상 생성 모델 ‘Veo 2’를 정식 도입하고, 국내 기업 중 처음으로 서비스에 적용했다. Veo 2는 고도화된 물리 기반 이해와 정밀한 프롬프트 처리 능력을 바탕으로, 보다 사실적이고 자연스러운 고품질 영상을 생성하는 차세대 모델로 주목받고 있다. Veo 2는 기존 AI 영상 생성 모델과 비교해 인물 동작, 공간 구성, 카메라 움직임 등에서 탁월한 표현력을 갖춘 것이 특징이다. 다양한 렌즈 효과와 영화적 기법도 자연스럽게 반영할 수 있어, 크리에이터의 창의성을 영상에 그대로 녹여낼 수 있는 점이 강점이다. 사용자의 프롬프트를 충실하게 반영하는 응답 성능 또한 향상돼 정교한 영상 콘텐츠 제작이 가능해졌다. 캐럿은 구글의 정식 승인을 받아 현재 Veo 2를 클로즈드 베타 형태로 일부 기업 고객에게 우선 제공하고 있다. 현재는 5초 길이의 720p 해상도 영상 생성이 가능하며, 향후 4K 화질과 최대 2분 길이까지 확장할 계획이다. Veo 2 도입을 기념해 오는 7일까지 해당 기능에 대해 30% 할인 프로모션도 진행 중이다. 장진욱 패러닷 대표는 “캐럿이 국내 대표 AI 영상 플랫폼으로서 글로벌 최고 수준의 모델을 빠르게 탑재할 수
알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다. Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다. 이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다. 알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로
챗GPT 내에서 다양한 형태의 비주얼 콘텐츠 제작 가능해져 오픈AI가 최근 공개한 새로운 이미지 생성 인공지능(AI) 기능이 출시 직후부터 폭발적인 인기를 끌며 서버 과부하를 일으켰다. 샘 올트먼 오픈AI CEO는 27일(현지시간) 자신의 SNS 계정을 통해 “이미지 모델을 사람들이 이렇게 좋아하는 걸 보니 기쁘다”면서, “GPU가 녹아내릴 정도로 사용량이 급증해 일시적으로 사용을 제한할 수밖에 없다”고 밝혔다. 이번에 공개된 ‘챗GPT-4o 이미지 생성’ 기능은 오픈AI의 멀티모달 모델 GPT-4o에 이미지 생성 기능을 통합한 최초의 모델이다. 사용자는 복잡한 프롬프트를 일일이 작성하지 않아도, 의도만 전달하면 AI가 이를 해석해 이미지를 생성해 준다. 단순한 그림부터 다이어그램, 인포그래픽, 로고, 명함, 카툰, 반려동물 일러스트, 프로필 사진 편집까지 다양한 형태의 비주얼 콘텐츠 제작이 가능하다. 특히 새롭게 개선된 기능 중 주목할 만한 부분은 텍스트 인식과 배치 정확도다. 예를 들어 ‘여러 종류의 고래를 보여주는 포스터를 만들어 달라’는 요청을 하면, 고래의 모습과 종류 이름을 정확히 매칭해 시각적으로 구성할 수 있다. 이는 기존 이미지 생성 모델이
개선된 성능과 비용 효율성 갖춰...교차 리전 추론으로 지연시간 최소화 아마존웹서비스(AWS)가 차세대 생성형 AI 기반 파운데이션 모델(FM)인 '아마존 노바(Amazon Nova)'를 아시아태평양 및 유럽연합(EU) 지역에 출시했다고 7일 밝혔다. 이번 출시를 통해 서울, 도쿄, 뭄바이, 싱가포르, 시드니 등 아태 지역과 스톡홀름, 프랑크푸르트, 파리 등 유럽 주요 리전에서 해당 모델을 이용할 수 있게 됐다. 아마존 노바는 AWS가 자체 개발한 최첨단 AI 모델로, 개선된 성능과 비용 효율성을 갖춘 것이 특징이다. 특히 이번 모델은 여러 리전에 걸쳐 사용자의 요청을 자동으로 라우팅하는 ‘교차 리전 추론(Cross-Region Inference)’을 지원하며, 이를 통해 지연시간을 최소화하고 불필요한 비용 발생을 방지했다. 이번에 출시된 아마존 노바 모델은 총 세 가지다. 텍스트 전용의 초저비용 모델 '노바 마이크로(Nova Micro)', 이미지와 비디오를 포함한 멀티모달 입력을 처리하는 경제적인 모델 '노바 라이트(Nova Lite)', 그리고 다양한 업무에서 높은 정확성과 속도를 제공하는 고성능 모델 '노바 프로(Nova Pro)'다. 세 가지 모델