크라우드웍스가 과학기술정보통신부와 한국전파진흥협회가 추진하는 ‘방송영상 AI 학습용 데이터 구축 사업’을 수주했다. 이번 사업은 국내 방송영상 원본을 기반으로, 방송영상 특화 AI 모델 개발에 필요한 고품질 학습 데이터를 구축·검증하는 것을 목표로 한다.
과기부와 한국전파진흥협회는 총 4개 컨소시엄을 선정했으며, 각 컨소시엄에 48억3천만 원씩, 총 193억2천만 원을 지원한다. 크라우드웍스는 MBC를 주축으로 iMBC, 데이터메이커, LG경영개발원 AI연구원 등과 컨소시엄을 구성해 총 5,000시간 규모의 AI 학습용 데이터셋을 구축할 예정이다.
이번 프로젝트에서 크라우드웍스는 한국 문화와 시대적 특성을 반영한 방송영상 이해 데이터셋 구축에 주력한다. 특히 AI가 영상의 맥락을 보다 정밀하게 이해할 수 있도록 데이터를 설계하고 가공하는 역할을 맡는다. 이를 위해 영상 속 주요 객체와 행동, 장면 등을 동시에 분석하는 다중 라벨링 방식을 적용해 시청각 정보를 기반으로 의미를 추론할 수 있는 데이터셋을 구현한다.
멀티모달 AI 학습을 위한 데이터셋 구축도 핵심 과제다. 영상, 이미지, 자연어 등 다양한 정보를 복합적으로 구성해 AI가 영상 내용을 정확하게 인식하고 핵심 장면을 자동으로 추출할 수 있도록 지원한다. 이는 향후 방송영상뿐 아니라 다양한 산업 분야에서 멀티모달 AI 기술을 적용할 수 있는 기반이 된다.
크라우드웍스는 다양한 산업 분야에서 쌓아온 데이터 설계·가공·구축 경험과 품질관리 역량을 활용해, 한국 사회의 언어·문화·공간적 특성은 물론 정서적 맥락까지 반영한 고품질 멀티모달 데이터셋을 제공할 계획이다. 이를 통해 멀티모달 AI 데이터 구축 분야에서 선도적인 기술력을 입증하고, 산업 전반의 AI 개발 수요에 선제적으로 대응한다는 전략이다.
김우승 크라우드웍스 대표는 “영상 데이터는 다양한 객체와 복잡한 맥락이 얽혀 있어, AI 학습용으로 가공하기 위해서는 매우 높은 수준의 역량이 필요하다”며 “이번 사업을 통해 국내 방송영상 콘텐츠의 가치와 활용 가능성을 한층 높이겠다”고 말했다.
헬로티 서재창 기자 |