유아이패스가 구글 제미나이(Gemini) 모델을 기반으로 한 음성 대화형 에이전트(UiPath Conversational Agent)를 출시했다. 이번 신기능은 구글 클라우드의 버텍스 AI(Vertex AI) 플랫폼을 활용해 사용자가 자연어 음성 명령만으로 자동화를 실행·구축·관리할 수 있도록 지원한다. 이를 통해 유아이패스 고객은 복잡한 코딩이나 수동 설정 없이도 손쉽게 에이전틱 자동화를 비즈니스 프로세스에 적용할 수 있게 됐다. 기존 텍스트 기반 AI 상호작용은 데이터 분석, 공식 문서 작성 등 정밀성을 요구하는 업무에 적합했으나 예측 불가능한 실시간 대화나 즉흥적 상황 대응에는 한계가 있었다. 이에 유아이패스는 음성 상호작용을 도입해 사용자의 언어적 뉘앙스와 맥락을 이해하고 협업 기반 문제 해결력을 강화하는 방향으로 기술을 발전시켰다. AI 에이전트는 음성 인식 정확도(ASR)가 높고 다국어를 지원하며 사용자의 명령 의도를 파악해 적합한 자동화 도구를 신속히 호출한다. 이번 대화형 에이전트는 감정 인식 기반 대화 기능과 능동형 오디오 기능(모델이 특정 입력에 대한 응답 여부를 스스로 판단하는 기능)을 지원한다. 이를 통해 AI 에이전트는 사용자와 자연스
헬로티 서재창 기자 | 엔비디아의 모델들은 은행과 소매업계의 음성 자동화 고객 서비스 라인을 지원하고 비디오 게임과 소설 속 캐릭터에 생동감을 불어넣는 한편, 디지털 아바타용 실시간 음성 합성을 지원한다. 엔비디아 크리에이티브 팀은 AI의 위력을 다루는 비디오 시리즈에 삽입돼 풍부한 표현력을 자랑하는 내레이션에도 음성 합성 기술을 사용하고 있다. 표현적 음성 합성은 엔비디아 연구진이 대화형 AI 분야에서 진행 중인 여러 연구의 일부다. 대화형 AI는 음성 합성외에도 자연어 처리, 자동 음성 인식, 키워드 검출, 오디오 개선 등 여러 요소를 포함한다. 엔비디아 GPU에서 효율적으로 실행되도록 최적화된 최첨단 연구의 일부는 엔비디아 NeMo 툴킷을 통해 오픈소스로 제작됐으며, 엔비디아의 NGC 컨테이너 허브와 기타 소프트웨어에서 제공된다. 엔비디아 연구진과 크리에이티브 전문가들은 음성 합성 기술을 실제 사례에 접목해 대화형 AI의 위력을 증명하고 있다. 그 일환으로 엔비디아는 ‘아이엠 AI’의 제작에 혁신적 음성 합성 모델을 사용한다. 아이엠 AI는 산업 전반을 재편하는 세계적 혁신을 소개하는 비디오 시리즈다. 얼마 전까지만 해도 해당 영상의 내레이션은 사람이