무하유가 2년 연속 ‘국회도서관 융복합서비스 데이터셋 구축 사업’의 주관사업자로 선정됐다고 25일 밝혔다.
무하유는 국회도서관에서 제공 중인 AI 의정분석 서비스 ‘아르고스’에 정책 이슈, 통계용어, 뉴스기사·법률명 매핑 데이터셋 등을 구축함으로써 아르고스의 뉴스 분석 서비스를 지원할 예정이다.
구축 데이터셋의 종류는 정책 이슈 모니터링, 뉴스 기사 문맥에 따른 긍·부정 반응, 통계 및 일반용어, 법률 및 이슈 연혁, 표·그림 등이다. 법률에 해당하는 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등도 구축할 계획이다.
무하유는 데이터셋 구축 전문 플랫폼인 ‘데이터 팩토리’를 운영하고 있다. 지난 13년간 AI 표절검사 서비스 카피킬러, AI 채용 서비스 프리즘, AI 면접 서비스 몬스터 등을 개발 및 운영하며 구축해 온 노하우가 집약됐다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다.
데이터 팩토리는 법학·문헌정보학·언어학·사회과학 등 인문학적 지식을 가진 숙련 인력으로 구성돼 있다. 이로 인해 편향성 없는 정책 키워드를 추출하고, 각종 기사에 대한 긍·부정 반응을 보다 정확하게 라벨링할 수 있다. 유효한 통계 용어를 추출하거나 시의성 있는 이슈 키워드를 선정하는 등의 라벨링 작업에 있어 보다 높은 퀄리티를 보장한다.
무하유는 13년간 축적한 문서 데이터와 한국어 자연어 이해(NLU) 노하우를 토대로 한 ‘빅데이터 자동화 처리 기술’을 보유 중이다. 데이터 팩토리를 통해 AI 적용 솔루션을 운영하는 과정에서 필요한 데이터를 자체적으로 구축한 후 정제 및 가공하기 때문에 데이터 구축과 품질관리가 용이하고 고품질의 학습 데이터셋 구축이 가능하다.
특히 기술로 공정의 효율화를 높이고 인력으로 데이터의 품질을 높이는 ‘휴먼인더루프(Human In The Loop)’ 프로세스를 통해 업무 자동화를 혁신하고 있다. AI를 활용해 추출한 데이터를 사람이 직접 검증하고 수정할 수 있는 시스템을 추가해 학습 데이터의 품질을 보장한다. 대량으로 생성해야 하는 데이터는 AI가 담당하고 생성된 데이터의 품질을 고도화하는 건 사람이 담당해 시간을 단축하고 품질을 제고하는 식이다.
신동호 무하유 대표는 “공공부문 데이터베이스 구축 사업에 진출, 무하유만의 기술 및 인적 노하우를 적용해 성공사례를 늘려가고 있다”며 “검증된 AI 기술에 기반한 데이터셋 제작 역량으로 다양한 분야에 진출할 예정”이라고 전했다.
헬로티 이창현 기자 |