같은 AI 기술을 기반으로 개발됐더라도, 사용자 경험은 전혀 다르다. 어떤 챗봇은 감정을 이해하며 대화를 이어가는 반면, 어떤 챗봇은 질문 의도를 제대로 파악하지 못한다. 이 같은 차이를 만들어내는 핵심 요인은 무엇일까? 산업 전문가들은 입을 모아 "결국 성능을 좌우하는 건 학습데이터의 질"이라고 말한다. AI가 세상을 이해하는 방식은 인간이 설계한 데이터로부터 출발한다. 최근 AI 업계는 단순히 많은 데이터를 확보하는 것에서 벗어나, 현실성과 정밀도가 높은 데이터 설계에 집중하고 있다. 특히 감정, 언어, 문화, 맥락 등 사람 중심의 복합 요소를 반영한 데이터가 AI 성능 향상에 핵심 역할을 한다는 인식이 확산되고 있다. 이런 흐름 속에서 판티마는 텍스트, 음성, 이미지 등 멀티모달 학습 데이터를 실제 사용 환경에 맞춰 설계하고, 고객 맞춤형으로 수집·가공·납품하는 전 과정을 직접 수행하고 있다. 최근에는 글로벌 게임사와 협력해 혐오 발언 및 감정 인식이 가능한 AI 모델 개발을 위한 다국어 음성 데이터셋을 구축 중이다. 이는 AI가 실제 환경에서 악성 행위를 얼마나 정확히 인지하고 대응할 수 있는지를 좌우하는 기반 기술이다. 판티마의 데이터 전략은 ‘1사
숙련 인력 빠르게 확보하고, 자동화 기반의 검수 도구로 정합성과 신뢰도 높여 크라우드웍스가 자사 공식 블로그를 통해 최근 수행한 고난도 LLM(대규모 언어모델) 학습 데이터 구축 사례를 공개하며, ‘AI 레디 데이터’ 공급 역량을 선보였다. 이번에 소개된 사례는 인포그래픽 기반 텍스트 매칭 데이터셋, 텍스트 기반 SQL 파인튜닝용 학습 데이터, 전문 의학지식 질의응답 데이터 등 고난도 정제 작업이 요구되는 과업으로, 단순 수집이나 라벨링을 넘어 복합적 언어 구조 분석과 도메인 지식 기반 설계 역량이 핵심이다. 특히 인포그래픽 데이터셋 구축은 복잡한 시각 요소가 포함된 문서 이미지에서 컴포넌트와 노드를 식별하고, 이에 대한 자연어 설명을 생성하는 고난이도 작업이었다. 크라우드웍스는 VLM(Vision-Language Model)을 기반으로 설명문 자동화 기능을 구현하고, JSON 시각화 툴을 자체 개발해 검수 프로세스를 최적화했다. 이를 통해 프로젝트를 당초 예상보다 한 달 앞당긴 3개월 만에 마무리하며 기술력과 운영 효율성을 동시에 입증했다. 이와 같은 프로젝트는 평균 데이터 단가가 일반 과업 대비 20~30% 이상 높고, 고급 인력과 품질 관리 체계가 필수