일반화 성능을 기존 대비 5.2%에서 11.5%까지 향상시켜
디플리가 신호처리 분야 국제학술대회 ‘ICASSP 2024’에 논문을 게재했다고 밝혔다.
해당 논문에는 디플리가 소리 분석 AI 완성도를 높인 성과가 담겼다. 동일한 소리라도 녹음 장치에 따른 주파수 특성 차이로 분석 정확도가 저하되는 문제에 대한 해결책이다. 독자 개발한 음향 변환 기술을 통해 데이터를 생성하고, 이를 AI 엔진에 학습시킴으로써 일반화 성능(AI가 새로운 데이터를 분석하는 능력)을 기존 대비 5.2%에서 11.5%까지 향상시켰다.
논문에서 소개한 음향 변환 모델은 이미지, 소리, 텍스트 등 콘텐츠가 가진 속성을 변경하는 딥러닝 알고리즘, ‘사이클갠(CycleGAN)’ 기법이 중심이다. 여기에 독자적인 데이터 증강 기술을 적용해 정교성을 더했다. 디플리는 해당 모델에 다수 녹음 장치의 음향 특성을 학습시키고, 이를 바탕으로 보유한 소리 데이터에 서로 다른 주파수 패턴을 부여했다. 같은 소리라도 다양한 장치에서 녹음한 듯 데이터를 변조하는 것이다. 디플리 소리 분석 AI 엔진은 생성된 데이터를 기반으로 고도화 작업을 거쳐 새로운 환경에서도 높은 정확도를 유지한다.
국제 전기전자공학협회가(IEEE)가 매년 세계 각국에서 주최하는 ICASSP는 세계 최대 음성, 영상, 통신 및 신호처리분야 국제학술대회로 인정받고 있다. 49회를 맞이하는 올해 대한민국에서 처음으로 개최했으며, 애플, 구글, 현대차 등 세계적 기업과 4000여 연구자들이 참석해 최신 AI 기술을 공유했다.
디플리 이수지 대표는 “디플리의 소리 분석 AI 엔진은 정확도가 세계 최고 수준”이라며, “이번 논문 성과 이후에도 꾸준한 기술 개발을 통해 사회 다양한 곳에서 역할을 다할 수 있는 소리 분석 솔루션 기업으로서 지속 성장하겠다”고 말했다.
디플리는 2017년 설립 당시부터 소리 분석 AI 엔진만을 전문적으로 개발하고 있다. 자체 개발한 AI 모델에 소리 데이터를 5만 시간 이상 학습시켜 높은 정확도가 강점이다. 특히 미세한 소리까지 분석할 수 있는 성능에 힘입어, 침입자 감지가 필요한 방범·보안 분야에서 각광받고 있으며, 제조 업계에서는 설비 이상 및 제품 불량 탐지 솔루션으로 활용하고 있다.
헬로티 서재창 기자 |