텍스트-오디오 조합으로 프롬프트에 설명된 음악·음성·사운드의 모든 조합을 생성 및 변형 엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다고 밝혔다. 엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다. 푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있다. 멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 최첨단 스타트업을 위한 엔비디아 인셉션 프로그램의 회원사인 원 테이크 오디오의 공동 설립자다. 그는 “이 기술은 정말 대단하다. 사운드는 내 영감의 원천이다. 그것이 내가 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일이다”고 말했다. 라파엘 발레(R
최근 빅테크는 단순한 텍스트 기반 AI에서 한 걸음 나아가 사용자의 다양한 요구를 만족시키기 위해 음성과 영상을 포함하는 멀티모달 AI 개발에 박차를 가하고 있다. 이러한 기술 진화는 텍스트에서 멀티미디어로 정보를 처리하는 방식의 전환을 의미하며, 사용자 인터페이스와 디지털 커뮤니케이션의 패러다임을 재정립하고 있다. 멀티모달 AI의 발전은 기계가 인간의 다양한 커뮤니케이션 방식을 이해하는 능력을 한층 향상시키고 있다. 멀티모달 기술로 혁신하는 커뮤니케이션 멀티모달 AI는 텍스트를 포함해 음성, 이미지, 비디오 등 다양한 유형의 정보 입력을 통합해 처리하고, 이를 바탕으로 정교한 출력을 제공하는 AI 기술이다. 이 기술은 각기 다른 데이터 소스에서 정보를 수집하고 해석함으로써 사용자에게 자연스러운 상호작용을 가능하게 하며, 다양한 상황에 맞는 응답을 생성한다. 현대인은 디지털 컨텐츠 소비의 변화와 사용자 경험의 향상을 추구한다. 이 과정에서 자연스러운 커뮤니케이션을 원한다는 특징이 있다. 한 예로, 음성인식 기능은 이제 일상생활에서 어렵지 않게 찾아볼 수 있다. 이러한 수요에 부응해 빅테크 기업들은 AI의 음성 인식 및 처리 능력을 강화하는 추세다. 또한, 비
부적절한 콘텐츠 제재 자동화함으로써 사용자 안전 개선할 수 있어 지코어는 오디오, 텍스트 및 사용자 제작 동영상 콘텐츠를 실시간으로 탐지하고 관리하도록 돕는 ‘지코어 AI 콘텐츠 모더레이션 솔루션’을 출시했다. 이를 통해 온라인 서비스 제공업체는 인공지능(AI) 또는 머신러닝(ML) 경험이 없이도 부적절한 콘텐츠에 대한 제재를 자동화함으로써 사용자 안전을 개선하고 EU의 디지털 서비스법이나 영국의 온라인 안전법안 등과 같은 국가별 규정을 준수할 수 있다. 짧은 댓글에서부터 롱폼 동영상에 이르기까지, 어린이가 접근할 수 있는 콘텐츠를 호스팅하는 모든 플랫폼은 사용자가 생성하는 콘텐츠를 모더레이션(탐지/관리)해 폭력적이거나 불법적이고, 연령에 부적절한 콘텐츠로부터 시청자를 보호할 수 있어야 한다. 사용자를 유해한 콘텐츠에 노출시킨 기업에는 명예 훼손, 법적 조사, 서비스 정지, 운영 금지, 벌금 등이 부과될 수 있다. 하지만 사용자 제작 동영상 콘텐츠의 기하급수적 증가로 사람이 유해하고 불법적인 콘텐츠를 직접 식별해 내기는 어렵다. 모더레이터가 따라가지 못 할만큼의 많은 양으로 과부하가 걸리거나, 비용이 과도하게 발생하거나, 비효율적인 운영으로 인해 위반사항을
이용자와 실시간 음성 대화를 진행함으로써 질문 및 답변 요청할 수 있어 오픈AI가 13일(현지시간) 보고 듣고 말하는 새로운 AI 모델을 공개했다. 오픈AI의 미라 무라티 최고기술책임자(CTO)는 이날 라이브 행사를 통해 'GPT-4o(GPT-포오)'라는 이름의 이 새 AI 모델을 공개하고, 시연을 선보였다. GPT-4o는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있는 AI 모델이다. 새 모델의 'o'는 모든 것이라는 '옴니(omni)'를 뜻한다. 이 모델은 텍스트는 물론, 청각과 시각으로도 추론하고 이를 말하는 한층 똑똑해진 음성 어시스턴트다. 특히, 이용자 질문에 곧바로 답이 제공된다. GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초로, 이는 인간의 응답시간과 비슷하다고 오픈AI는 설명했다. 이전 모델인 GPT-3.5는 평균 2.8초, GPT-4가 응답에 5.4초가 걸렸다. GPT-4o는 사람처럼 대화가 가능하고, 답 제공 중에 끼어들어도 대화는 계속 이어진다. 이날 시연에서 휴대전화로 '내가 좀 긴장한 상태인데 어떻게 진정할 수 있을까'라고 묻자, '숨을 깊이 들
에이수스가 21일 오전 1시(한국시간)에 진행된 글로벌 온라인 신제품 론칭 행사 ‘Thincredible’에서 OLED 디스플레이를 탑재한 초슬림 및 초경량 프리미엄 컨슈머 노트북 5종을 공개했다. 행사에서 공개된 신제품은 △젠북 S 13 OLED △젠북 15 OLED △비보북 S 15/14 OLED △비보북 S 15 OLED 베이프 에디션 등 총 5종이다. 세계에서 가장 얇은 13인치 노트북 ‘젠북 S 13 OLED’는 1cm의 초슬림 두께 및 1kg의 초경량 바디로 극강의 휴대성을 자랑한다. 재활용 플라스틱 등의 친환경적인 소재를 활용해 제작됐으며, 특히 상판에 사용된 플라스마 세라믹 알루미늄 소재는 100% 재활용이 가능할 뿐만 아니라 뛰어난 내구성도 갖췄다. 또한 미국 전자제품 친환경 인증 제도 ‘EPEAT’의 가장 높은 골드 등급을 취득했고, 미국 환경보호청(EPA)에서 친환경 제품에게 부여하는 ‘에너지 스타’ 인증을 받았다. 여기에 인텔의 고성능, 고효율 노트북 인증 제도인 ‘인텔 이보(EVO)’의 강력한 성능도 겸비했다. 최대 인텔 13세대 i7-1355U와 인텔 아이리스 Xe 그래픽을 탑재했고, 디스플레이로는 에이수스의 혁신적인 기술을 집약한
임베디드 시장은 전력 소비에 효율적인 엣지에 배치하는 고성능 저전력 인공지능(AI) 솔루션을 필요로 한다. AI 솔루션에는 일반적으로 고성능 멀티 코어 마이크로프로세서(MPU)에서만 볼 수 있는 고급 이미징 및 오디오 기능이 필요한 경우가 많은데, 이러한 기능은 많은 전력을 소비한다. 마이크로칩테크놀로지(이하 마이크로칩)는 개발자가 적은 전력 소비로도 고성능 주변장치를 구동하며 최대 1GHz로 동작하는 SAMA7G54 Arm Cortex A7 기반 MPU를 출시했다. SAMA7G54는 MIPI CSI-2 카메라 인터페이스 및 기존의 병렬 카메라 인터페이스가 모두 포함돼 있어 개발자가 정확한 기능 구현으로 저전력 스테레오 비전 애플리케이션 설계가 가능하다. 마이크로칩은 시장에서 전력 소비가 가장 낮은 MPU 포트폴리오를 유지하는 데 최선을 다하고 있다. SAMA7G54는 전압 및 주파수 스케일링뿐 아니라 유연한 저전력 모드를 제공함으로써 이러한 저전력 구현을 리눅스 지원 MPU의 1GHz 성능 등급으로 확장한다. 임베디드 개발자는 해당 MPU를 마이크로칩의 새로운 전력 관리 IC(PMIC)인 MCP16502와 결합해 최고의 전력 소비량 대비 성능을 위해 최종
‘오늘부터 갓생 1일’ 챌린지...최대 15,000원 갓생 지원금 지급 플로가 새해를 맞아, 오디오 콘텐츠와 함께 지식, 멘탈 관리, 재미까지 챙기며 바르고 성실하게 살기에 도전하는 ‘오늘부터 갓생 1일’ 챌린지를 진행한다. ‘갓생’은 신을 뜻하는 갓(GOD)과 인생을 뜻하는 생이 합쳐진 신조어로 타의 모범이 될만한 성실하고 부지런한 삶을 뜻한다. MZ세대 사이에서는 운동, 공부, 취미 등 다양한 영역에서 계획을 세우고 이를 실천하는 삶에 도전하는 이른바 ‘갓생 챌린지’까지 유행하며 새로운 라이프스타일로 떠올랐다. 플로는 이런 트렌드에서 착안해 지식, 어학, 멘탈 관리 등 다양한 영역의 오디오 콘텐츠를 들으며 갓생살기에 도전하는 챌린지를 준비했다. 플로 오늘부터 갓생 1일 챌린지는 1월 27일부터 2월 16일까지 3주간, 플로의 오디오 콘텐츠를 청취한 이용자를 대상으로 최대 15,000원의 갓생 지원금을 제공하는 행사다. 플로에서 음원을 제외한 오디오 콘텐츠를 하루 10분 이상 청취한 이용자에게 1일 1개의 스탬프를 발급하며, 이벤트 기간 중 총 획득 수에 따라 카카오페이 포인트로 최대 15,000원의 갓생 지원금을 지급한다. 또한 스탬프 14개 이상을 수집
[헬로티] 제이엘케이는 자율주행에 필요한 데이터의 수집, 관리, 가공, 검수까지 한 번에 진행할 수 있는 '헬로데이터(Hello Data)'가 정확하고 신속한 AI 어노테이션(Annotation)을 통해 시장을 선도하고 있다고 1일 밝혔다. (출처 : 제이엘케이) 제이엘케이는 지난해 글로벌 회사로부터 자율주행 분야 프로젝트를 수주했으며 인텔(Intel), 마이크로소프트(MS) 등 글로벌 기업들과의 협업을 통해 의료 데이터를 넘어 본격적인 자율주행 사업 분야에 나서고 있다. 인공지능 토털 데이터 매니지먼트 플랫폼 헬로데이터는 빠르고 정확한 AI 어노테이션을 기반으로 자율주행 빅데이터 가공 기술을 꾸준히 축적해왔으며, 고품질의 자율주행 데이터를 제공한다고 제이엘케이는 밝혔다. 자율주행 학습 데이터를 만들기 위해 빅데이터를 수집하고 데이터 라벨링(labeling) 가공부터 저장, 관리할 수 있으며 인공지능이 자동으로 가공하는 기술이 핵심인데 필요한 객체를 인공지능이 자동으로 검출해 라벨링하며 이미지, 비디오, 3D 등 여러 종류의 자율주행 학습 데이터를 가공할 수 있다는 것이다. 추가로, 인공지능을 위해 가공된 데이터는 오토머신러닝(AutoML)을 통하여 자동 학
[헬로티] 퀄컴 테크날러지 인터내셔널(Qualcomm Technologies International, Ltd.)은 금일 퀄컴 스냅드래곤 사운드(Qualcomm Snapdragon Sound) 기술을 발표했다고 밝혔다. ▲출처 : 퀄컴 테크날러지 인터내셔널 이는 스마트폰, 무선 이어버드, 헤드셋 등 기기에서 끊김 없는 몰입도 높은 오디오를 구현하도록 오디오 혁신에 최적화돼 설계된 기술이다. 스냅드래곤 사운드는 소비자가 음악 스트리밍, 전화 통화, 무선 게이밍을 하는 중에도 우수한 음질을 경험하도록 설계됐다고 퀄컴은 전했다. 이번 출시와 맞춰 아마존 뮤직과 스냅드래곤 사운드 플레이리스트를 선별해 공개했다. 제임스 채프먼(James Chapman) 퀄컴 테크날러지 인터내셔널 음성, 음악 및 웨어러블 부문 부사장 겸 총괄은 "퀄컴의 시스템 수준 접근 방식은 모바일 및 오디오 플랫폼 군 전반에 걸쳐 다양한 기술과 최신 제품을 통합해 고음질 유선 품질의 오디오를 무선으로 제공하는 비전을 실현할 수 있도록 한다"고 전했다. 이용자와 기기 간에 음질이 방해받는 경우는 여러 가지가 있다. 기기가 연결되는 방식, 연결 끊김, 오디오 끊김 및 결함, 지연, 그밖에 저품질 오디
[헬로티] 퀄컴은 주요 글로벌 오디오 브랜드와 협력해 무선 오디오의 새로운 시대를 이끌겠다고 밝혔다. ▲출처 : 퀄컴 퀄컴 테크날러지 인터내셔널 (Qualcomm Technologies International, Ltd.)은 무선 오디오 분야에서 글로벌 리더로 자리 잡아 기술 혁신을 이끌며 광범위한 플랫폼과 기술 포트폴리오를 제공하며, 제조사가 빠르게 변화하는 소비자 요구를 충족할 수 있도록 지원하고 있다. 수천 명의 오디오 소비자를 대상으로 진행된 ‘2020 현황 보고서 (State of Play Report 2020)' 설문조사에 의하면 대부분의 무선 오디오 기기 소비자는 지속해서 새로운 활용 사례와 기능을 요구하는 것으로 드러났다. 전 세계적으로 진정한 무선 이어버드의 폭발적인 성장이 이어지면서 연장된 배터리 수명, 향상된 스마트폰 상호운용성, 액티브 노이즈 캔슬링, 호출어(wake word) 작동 음성 비서 기능 및 음질 개선 등에 대한 수요는 높아지고 있다. 나아가 게이밍과 영상 미디어 소비에 대한 인기는 저지연 블루투스 무선 오디오 연결에 대한 수요 상승을 이끌었다. 고음질 오디오가 오디오 기기 전반에서 주요 차별 요소로 자리매김한 가운
[헬로티] 로지텍이 기업용 화상회의 올인원 솔루션 로지텍 랠리 바(Logitech Rally Bar)를 출시했다고 밝혔다. ▲출처 : 로지텍 로지텍은 이번 ‘로지텍 랠리 바’ 출시를 통하여 기업용 화상회의 퀄리티 ‘기준’을 높였다고 전했다. 로지텍 랠리 바는 화상회의에 필요한 카메라, 마이크, 스피커, 컴퓨터 (Collab OS)가 통합된 일체형 제품이다. 화상회의에 대표적으로 사용되고 있는 애플리케이션 마이크로소프트 팀즈(Microsoft Teams)와 줌 (Zoom)이 기본으로 탑재됐다. 이외에도 PC 기반의 다양한 화상회의 애플리케이션들과 호환이 가능하며, 상반기에 순차적으로 여러 화상회의 애플리케이션이 추가 탑재될 예정이다. 로지텍은 랠리 바를 활용하면 장비의 설치 및 관리를 간소화해 운용에 드는 비용은 줄이고, 사용의 편리함은 획기적으로 높일 수 있다고 밝혔다. 제품 박스를 개봉하고, 수 분에 걸친 간편한 구동 설정(올인원 or PC 기반)을 마치면, 사용자는 곧바로 최상의 화상회의를 진행할 수 있다. 로지텍은 업그레이드된 화상회의를 원하는 기업을 위해 회의실 크기, 참석 인원, 업무 형태 등 다양한 환경에
[헬로티] 차세대 오디오, 이미징 및 센싱 기술 분야의 선도기업 엑스페리는 루마니아에 위치한 엑스페리의 자회사 포토네이션이 ISO9001 인증을 획득했다고 밝혔다. 포토네이션은 DTS 오토센스 카메라 기반의 탑승자 및 운전자 모니터링 솔루션 개발을 책임지고 있다. ISO9001 인증은 세계에서 가장 널리 보급된 품질경영시스템 표준으로, 고객 중시, 리더십, 프로세스 접근법, 지속적인 개선을 포함한 여러 품질경영원칙을 바탕으로 한다. ISO 9001 인증은 고객이 일관되고 우수한 품질의 제품과 서비스를 제공받음을 보장한다. 엑스페리의 오토모티브 담당 수석 부사장 겸 총괄인 제프 주리는 “이번 성과는 우리의 인캐빈(in-cabin) 센싱 제품의 상용화를 이끌 또 하나의 중요한 성과”라며, “엑스페리는 ISO9001 인증을 통해 글로벌 자동차 시장의 기대를 뛰어넘는 품질을 제공함은 물론, 차량 탑승자 및 운전자의 안전을 지키고 전반적인 차량 내 경험을 개선하기 위한 노력을 지속해 나갈 수 있을 것”이라고 말했다. DTS 오토센스는 운전자 모니터링 솔루션(DMS)과 탑승자 모니터링 솔루션(OMS)으로 구성된다. OMS와 D
[헬로티] 회의실의 오디오 케이블 간소화 오늘날 첨단 회의실에 오디오를 설치할 때 해결해야 할 까다로운 과제 중의 하나는 다양한 입력/출력 트랜스듀서를 메인 오디오 콘솔로 연결하는 것이다. 여기에는 흔히 각 노드에 점-대-점 차폐 케이블을 연결하는 방식을 사용하는데, 이러한 방식은 부피를 많이 차지하며 각 노드마다 별도의 외부 전원을 사용해야 한다. 또한, 이러한 케이블들은 아날로그 오디오 신호를 전달하는데, 케이블 길이가 길어지거나 또는 저가형 케이블을 사용하면 이들 아날로그 오디오 신호에 스펙트럼 저하가 심해질 수 있다. 아나로그디바이스(ADI)의 A2B(AutomotiveAudioBus)트랜시버 칩은 단일 비차폐연선(UTP) 와이어를 통해서 다중채널 디지털 오디오를 지원한다. A2B버스를 활용하면 여러 트랜시버 노드를 데이지 체인으로 연결하고 하이파이(high fidelity) 디지털 오디오를 전송할 뿐만 아니라, 멀리 떨어져 있는 버스 전원 방식의 노드들에 DC 전원을 전송할 수 있다. 그림 1은 A2B트랜시버의 기능 블록 다이어그램을 나타낸다. 그림 1. A2B트랜시버의 기능 블록 다이어그램 A2B트랜시버 기술은 원래 자동차 애플리케이션의 복잡한 오
[헬로티] 아나로그디바이스(지사장 홍사곽)는 SHARC 오디오 모듈(SHARC Audio Module, 이하 SAM)을 특징으로 한 오디오 시스템을 출시한다고 밝혔다. SAM은 오디오 FX 프로세서, 다채널 오디오 시스템, MIDI 합성기, DSP 기반 오디오 시스템 등 다양한 디지털 오디오 기기 개발에 자양분이 될 것으로 보인다. ▲ ADI ADSP-SC589 평가보드. SAM은 Arm Cortex-A5 코어 기반의 듀얼 SHARC+ 코어 ADSP-SC589 오디오 프로세서 SoC를 포함하고 있으며, 아나로그디바이스의 A2B 오디오 버스 기술을 활용한다. ADI는 SHARC 오디오 모듈 메인 보드와 더불어 도터 보드를 제공한다. 이를 통해 오디오 시스템의 기능을 더욱 확장할 수 있다. 오디오 프로젝트 핀(Audio Project Fin) 도터 보드는 메인 보드에 직접 결합하여, MIDI 입력/출력을 제공할 뿐 아니라 오디오 효과를 조정할 수 있도록 푸시 버튼과 다이얼도 제공한다. 이 A2B 증폭기 모듈은 두 가닥의 꼬인 선으로 구성되는 A2B 버스를 이용해 메인 보드(또는 연결된 또 다른 A2B 노드) 상의 PDM 마이크나 직렬 TDM 소스로부터 디지털 오
[헬로티] ▷▶옌스 티보 젠슨(Jens Tybo Jensen) Class D 오디오 마케팅 & 애플리케이션 총괄, 인피니언 테크놀로지스 필자는 어려서부터 빠르게 달리는 자동차에 매료되었다. 속도가 빠르면 빠를수록 좋았다. 유치원에서 친구들하고 수퍼카 트럼프 카드놀이를 하면서 어른이 되면 어떤 차를 갖고 싶은지 떠들어댔으며, 대부분의 소년들이 그렇듯이 “최고 속도”니 “제동 마력”이니 하는 것들을 읊어댔다. 주차되어 있는 빠르고 멋져 보이는 자동차 안을 들여다보면서, 내 관심은 온통 속도계의 다이얼에 꽂혀 있었다. 이 계기판의 숫자가 높으면 높을수록 나의 흥미를 사로잡았다. 그러다 곧 속도계 다이얼이 자동차 품질을 판단하는 가장 좋은 방법은 아닐 수 있다는 것을 깨달았다. 점점 자라면서 가속 능력, 토크, 연비 같은 것들이 중요하다는 것을 이해하기 시작했다. 그리고 마침내 운전면허를 따고 내 차를 구입하고 나서는, 진짜로 중요한 것은 이러한 지표들보다도 차를 운전할 때 핸들링 같은 것임을 알게 되었다. 차와 마찬가지로, 오디오의 성능 지표에 대한 나의 견해 또한 세월이 지나면서 변화해 왔다. FTC의 &lsqu