닫기
배너

디노티시아, 韓 문화 맥락 담은 데이터셋으로 ACM 멀티미디어 채택

URL복사

디노티시아가 한국 문화유산을 반영한 멀티모달 데이터셋 연구 성과로 세계 학계의 주목을 받았다.

 

회사가 참여한 데이터셋 구축 연구가 멀티미디어 분야 최고 권위 학회 중 하나인 ‘ACM International Conference on Multimedia 2025’의 Dataset Track에 논문으로 채택된 것이다. 매년 수천 편의 논문이 제출되지만 낮은 채택률로 경쟁이 치열한 이 학회에서 한국 문화 기반 데이터셋이 인정받은 것은 의미가 크다. 올해 학회는 오는 10월 27일부터 31일까지 아일랜드 더블린에서 개최된다. 

 

논문은 한국어 영상 이해 데이터셋인 ‘HAN(Heritage Augmented Narrative)’을 다루고 있다. HAN은 한국의 문화유산과 언어적 맥락을 반영해 구축된 멀티모달 데이터셋으로, 단순히 이미지를 설명하는 수준을 넘어 사회적·정서적 맥락과 문화적 배경을 담아낸 것이 특징이다. 이를 통해 기존 이미지-텍스트 기반 학습 데이터에서 발생하던 편향 문제를 완화하고, 다문화 환경에서도 일반화 가능한 시각-언어 모델 개발을 가능하게 한다.

 

HAN 데이터셋은 한국 방송 영상 7,822편에서 추출한 4만 1천 장의 이미지와 41만 개의 한·영 내러티브 캡션으로 구성됐다. 기존 영어 중심 데이터셋이 가진 언어적 불균형과 문화적 편향 문제를 보완했으며, 저자원 언어인 한국어를 포함한 다국어·다문화 기반 학습을 지원한다. 특히 내러티브 방식의 캡션을 적용해 문화유산의 맥락을 풍부하게 설명하도록 설계해, 학문적 기여뿐 아니라 실제 산업적 응용 가능성까지 입증했다.

 

연구진은 데이터셋의 실효성을 검증하기 위해 후속 연구도 수행했다. 내러티브 캡션의 다양성을 활용한 학습 결과 기존 모델 대비 유의미한 성능 향상이 나타났으며, 이는 HAN이 단순 구축을 넘어 실제 AI 연구와 응용 단계에서도 효과적으로 활용될 수 있음을 보여준다.

 

HAN은 멀티모달 인공지능, 자연어 처리, 문화유산 디지털 아카이빙 등 다양한 분야에서 활용될 수 있는 기반 데이터로 평가된다. 글로벌 AI 연구 생태계에서 한국어와 한국문화를 반영한 데이터셋의 부족이 꾸준히 지적돼 온 상황에서, HAN은 이러한 한계를 극복하는 새로운 대안으로 주목받는다.

 

정무경 디노티시아 대표는 “K-pop과 K-drama가 세계인의 일상에 스며든 것처럼, 이제는 AI 모델에도 한국문화가 반영될 때”라며 “HAN 데이터셋은 한국문화가 글로벌 AI 모델에 담길 수 있는 첫걸음이자, AI 생태계에서 데이터 다양성을 보장하고 편향을 줄이는 데 기여할 것”이라고 밝혔다.

 

디노티시아는 이번 성과를 기반으로 과학기술정보통신부와 한국지능정보화사회진흥원(NIA)의 지원을 받아 진행 중인 ‘한국적 영상 이해 데이터’ 구축 과제를 확장해 나갈 계획이다. 앞으로도 한국 문화유산과 언어적 다양성을 반영한 멀티모달 AI 학습 데이터를 지속적으로 확대해, 기술 발전과 함께 포용적이고 공정한 AI 생태계 조성에 기여한다는 전략이다.

 

헬로티 서재창 기자 |













배너



배너


주요파트너/추천기업