일반화 성능을 기존 대비 5.2%에서 11.5%까지 향상시켜 디플리가 신호처리 분야 국제학술대회 ‘ICASSP 2024’에 논문을 게재했다고 밝혔다. 해당 논문에는 디플리가 소리 분석 AI 완성도를 높인 성과가 담겼다. 동일한 소리라도 녹음 장치에 따른 주파수 특성 차이로 분석 정확도가 저하되는 문제에 대한 해결책이다. 독자 개발한 음향 변환 기술을 통해 데이터를 생성하고, 이를 AI 엔진에 학습시킴으로써 일반화 성능(AI가 새로운 데이터를 분석하는 능력)을 기존 대비 5.2%에서 11.5%까지 향상시켰다. 논문에서 소개한 음향 변환 모델은 이미지, 소리, 텍스트 등 콘텐츠가 가진 속성을 변경하는 딥러닝 알고리즘, ‘사이클갠(CycleGAN)’ 기법이 중심이다. 여기에 독자적인 데이터 증강 기술을 적용해 정교성을 더했다. 디플리는 해당 모델에 다수 녹음 장치의 음향 특성을 학습시키고, 이를 바탕으로 보유한 소리 데이터에 서로 다른 주파수 패턴을 부여했다. 같은 소리라도 다양한 장치에서 녹음한 듯 데이터를 변조하는 것이다. 디플리 소리 분석 AI 엔진은 생성된 데이터를 기반으로 고도화 작업을 거쳐 새로운 환경에서도 높은 정확도를 유지한다. 국제 전기전자공학협회
라인은 세계 최대 규모의 음성∙음향∙신호처리 학술대회인 ICASSP 2023에서 논문 8편이 채택됐다고 밝혔다. 올해로 48회차를 맞이하는 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음성∙음향∙신호처리 분야 내 세계 최대 규모의 국제학회다. 채택된 논문 8편 중 6편은 라인이 주저자로, 해당 학회에 채택된 라인이 주저자인 논문 수는 지난해 3편에서 두 배 늘어나는 성과를 거뒀다. 2편은 다른 저자와 공동 집필한 논문이며, 모두 학회 개최 기간인 6월 4일부터 10일 중 발표된다. 이번 ICASSP 2023에서 채택된 논문에는 감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에서 음성 피치 정보(음성 높이)를 이용하는 엔드투엔드 모델에 관한 제안이 소개됐다. 기존 모델은 보다 풍부한 표현을 필요로 하는 감정 음성 합성 시 자연스러운 음성을 합성하기 어려운 사례가 많았으나, 변환 과정을 단일 모델로 수행하는 엔드투엔드 모델은 양질의 음성을 생성할 수 있다. 제안