AI 트웰브랩스, 영상 이해 모델 ‘마렝고 3.0’ 공개…업계 최초 복합 이미지 검색 지원
글로벌 영상 이해 기반 멀티모달 AI 기업 트웰브랩스가 차세대 비디오 파운데이션 모델(Video Foundation Model) ‘마렝고 3.0’을 공식 공개했다. 트웰브랩스는 2일, 영상 속 텍스트·음성·동작·상황 맥락을 통합적으로 분석해 인간 수준의 이해 능력을 구현하는 마렝고 3.0을 출시하며 영상 분석 기술의 새로운 기준을 제시했다고 밝혔다. 이번 신모델은 영상을 프레임 단위로 처리하는 기존 방식에서 벗어나 시간·공간적 흐름을 통합적으로 파악하는 네이티브 파운데이션 구조가 핵심이다. 마렝고 3.0은 대사·장면·행동의 연속적 관계를 스스로 해석할 수 있으며, 몇 분 후 등장하는 장면과 동작을 연결해 분석하는 등 보다 자연스러운 영상 이해 능력을 갖췄다. 가장 주목되는 기능은 업계 최초로 도입된 ‘복합 이미지 검색’과 ‘고유명사 검색’이다. 복합 이미지 검색은 이미지와 텍스트를 결합해 검색할 수 있는 기능으로, 예를 들어 특정 배경 위 특정 인물이 등장하는 장면을 이미지 조합으로 요청할 수 있다. 고유명사 검색은 ‘사람’이나 ‘제품’을 개별 엔티티로 등록해 이름처럼 검색할 수 있는 기능으로, 방송·스포츠·보안 분야에서 활용도가 높다. 또한 트웰브랩스는 마