플리토가 글로벌 AI 모델의 다국어 인식률 향상을 위해 ‘아랍어 음성 데이터 수집 프로젝트’를 시작했다. 이번 프로젝트는 음성인식 모델의 취약 언어로 꼽히는 아랍어의 낮은 인식률을 개선하고 실제 사용 환경을 반영한 고품질 학습 데이터를 구축하는 데 목적이 있다. 아랍어는 표준어인 Modern Standard Arabic 외에도 30개 이상의 방언이 존재하며 구어체에서는 표준어와 방언을 혼용하는 코드 스위칭 현상이 빈번하다. 이러한 언어적 특성으로 인해 AI 학습 데이터 구축 난이도가 높은 언어로 분류된다. 플리토는 방언 차이를 체계적으로 반영한 음성 데이터를 수집해 언어 자원 편차로 인한 AI 학습 한계를 개선한다는 방침이다. 플리토는 자사 모바일 애플리케이션의 음성 데이터 수집 기능 ‘아케이드(Arcade)’를 통해 아랍어 음성 데이터 수집 이벤트를 운영한다. 참여자가 제시된 문장을 읽고 발음을 녹음하면 AI 시스템이 이를 분석해 방언 유형을 자동 판별한다. 방언 유형이 불확실한 경우에는 추가 문장을 제시해 재참여를 유도하는 방식으로 데이터 정확도를 높인다. 업체는 글로벌 빅테크 기업의 다국어 음성 데이터 수요가 증가함에 따라 실제 프로젝트 요청이 확대되고
부산외대의 언어·지역학 전문성과 크라우드웍스 AI 데이터 기술력 결합해 언어 데이터 구축 크라우드웍스가 부산외국어대학교와 손잡고 고품질 다국어 AI 데이터 구축 및 전문 인재 양성에 나선다. 양측은 7일 포괄적 업무협약(MOU)을 체결하고, 언어 기반 AI 기술력 고도화와 저자원 언어 지원 확대를 위한 실질적 협력을 본격화한다고 밝혔다. 이번 협약은 부산외대가 보유한 언어·지역학 전문성과 크라우드웍스의 AI 데이터 기술력을 결합해 다양한 언어 데이터를 공동 구축하고 이를 활용할 수 있는 AI 솔루션을 함께 개발하는 것이 핵심이다. 특히 저자원 언어 데이터를 포함한 고품질 AI 학습용 데이터셋 확보와 이를 기반으로 한 언어 AI 서비스 고도화를 추진한다는 점에서 의미가 크다. 양측은 다국어 데이터 수집 및 가공, AI 학습용 데이터셋 구축, 언어 기반 AI 솔루션 공동 개발 등의 분야에서 협력할 예정이다. 부산외대의 글로벌 언어 교수진과 해외 네트워크, 그리고 크라우드웍스의 ‘워크스테이지(Workstage)’, ‘알피 날리지 컴파일러(Alpy Knowledge Compiler)’와 같은 데이터 구축 솔루션을 접목해 효율성과 정확성을 높일 계획이다. 이뿐 아니라