
비정형 데이터 전처리 과정에서 발생하는 효율성 문제 해결하기 위해 개발
인공지능(AI) 기술이 기업 문서 처리의 효율성을 좌우하는 시대, 문서의 구조적 복잡도를 자동으로 분석해 전처리 전략을 결정하는 기술이 등장했다. 크라우드웍스는 자사의 데이터 전처리 솔루션 '알피 널리지 컴파일러(Alpy Knowledge Compiler)'에 적용된 문서 복잡도 분석 기반 자동화 기술에 대해 특허를 출원했다고 22일 밝혔다.
이 기술은 최근 RAG(Retrieval-Augmented Generation) 기반 AI 에이전트 개발에 필수로 자리잡은 비정형 데이터 전처리 과정에서 발생하는 효율성 문제를 해결하기 위한 것이다. 특히 문서의 구조가 복잡한 경우, 단순 자동화만으로는 전처리 품질이 크게 떨어진다는 점에 착안해 개발됐다.
크라우드웍스에 따르면, 이번 기술은 수십만 페이지에 이르는 대규모 문서 처리 환경에서도 문서별 복잡도를 사전에 분석해 자동화 여부를 결정할 수 있도록 설계됐다. 정량적 기준에 따라 문서를 네 단계(Class 1~4)로 분류한 뒤, 단순 문서는 자동처리를 우선 적용하고 복잡한 문서는 전문가 검토를 병행하는 방식이다. 이를 통해 오류 가능성을 예측하고 인력, 예산, 일정 등 전처리 리소스를 효율적으로 배분한다.
이 기술은 현재 크라우드웍스가 자체 개발한 솔루션 '알피 널리지 컴파일러'에 적용돼 운영 중이다. 이 솔루션은 문서의 광학 문자 인식(OCR), 파싱, 청킹 등 전처리 기능을 통합 제공하며, AI가 이해 가능한 형태의 데이터로 변환하는 역할을 수행한다. MS 오피스 기반 문서는 물론이고 국내 기업에서 많이 사용하는 HWP, HWPX 포맷도 지원하며, 테이블 안의 테이블, 차트 등 다양한 복합 요소까지 인식하는 정밀 파싱 기술이 핵심이다.
또한, 대형 언어모델(LLM)을 활용해 시각 요소에 대한 메타데이터를 생성하고, 비전 언어모델(VLM) 기반 기능도 준비 중이다. 이를 통해 텍스트 기반이 아닌 다양한 형태의 비정형 문서도 AI가 처리 가능한 자산으로 전환할 수 있도록 한다.
최근 기업이 내부 데이터를 AI로 활용하려는 수요가 급증하면서, 비정형 문서를 체계적으로 처리하는 솔루션의 중요성이 커지고 있다. 크라우드웍스는 이번 기술을 통해 고정된 자동화 방식의 한계를 보완하고, 보다 유연하고 정확한 AI 문서 처리 환경을 제공하겠다는 방침이다.
김우승 크라우드웍스 대표는 "문서 복잡도 기반 자동화 기술은 단순한 전처리 기능을 넘어, AI 도입의 전략적 효율성을 극대화하는 수단이 될 수 있다"며 "이미 다수 기업으로부터 기술 도입에 대한 문의가 이어지고 있다"고 밝혔다.
업계에서는 이번 특허 출원이 문서 전처리 자동화 기술이 단순 편의 기능에서 전략적 인프라로 진화하고 있음을 보여주는 사례로 평가하고 있다. 향후 RAG, 검색 기반 LLM 시스템, 기업용 AI 솔루션 등 다양한 영역에서 해당 기술이 적용될 수 있을 것으로 전망된다.
헬로티 서재창 기자 |