
숙련 인력 빠르게 확보하고, 자동화 기반의 검수 도구로 정합성과 신뢰도 높여
크라우드웍스가 자사 공식 블로그를 통해 최근 수행한 고난도 LLM(대규모 언어모델) 학습 데이터 구축 사례를 공개하며, ‘AI 레디 데이터’ 공급 역량을 선보였다.
이번에 소개된 사례는 인포그래픽 기반 텍스트 매칭 데이터셋, 텍스트 기반 SQL 파인튜닝용 학습 데이터, 전문 의학지식 질의응답 데이터 등 고난도 정제 작업이 요구되는 과업으로, 단순 수집이나 라벨링을 넘어 복합적 언어 구조 분석과 도메인 지식 기반 설계 역량이 핵심이다.
특히 인포그래픽 데이터셋 구축은 복잡한 시각 요소가 포함된 문서 이미지에서 컴포넌트와 노드를 식별하고, 이에 대한 자연어 설명을 생성하는 고난이도 작업이었다. 크라우드웍스는 VLM(Vision-Language Model)을 기반으로 설명문 자동화 기능을 구현하고, JSON 시각화 툴을 자체 개발해 검수 프로세스를 최적화했다. 이를 통해 프로젝트를 당초 예상보다 한 달 앞당긴 3개월 만에 마무리하며 기술력과 운영 효율성을 동시에 입증했다.
이와 같은 프로젝트는 평균 데이터 단가가 일반 과업 대비 20~30% 이상 높고, 고급 인력과 품질 관리 체계가 필수다. 크라우드웍스는 자체 전문가 인증 시스템을 활용해 숙련 인력을 빠르게 확보하고, 자동화 기반의 검수 도구를 적용해 정합성과 신뢰도를 높였다. 또한, 고객사의 데이터 활용 목적과 모델 구조에 대한 깊은 이해를 바탕으로 데이터 설계 컨설팅까지 함께 제공하고 있다.
크라우드웍스 김우승 대표는 “AI 모델이 점점 유사한 성능을 보이는 가운데, 데이터를 통해 진짜 차별화가 이뤄지는 시대”라며 “산업 맞춤형 고난도 데이터를 통해 기업들의 AI 경쟁력을 뒷받침하겠다”고 강조했다.
헬로티 서재창 기자 |