가우디 3의 첫 대규모 상업 배포 사례...인프라 접근성 높일 것으로 보여 인텔이 IBM과 손잡고 자사 AI 가속기인 ‘인텔 가우디 3’를 클라우드 서비스에 최초로 상용 적용한다고 밝혔다. IBM 클라우드는 주요 클라우드 서비스 제공사 중 처음으로 가우디 3를 기반으로 한 AI 서비스 환경을 개시했으며, 이로써 고객들은 고성능 AI 인프라를 보다 합리적인 비용으로 활용할 수 있는 기회를 갖게 됐다. 이번 상용화는 가우디 3의 첫 대규모 상업 배포 사례로, 생성형 AI 서비스 확산을 위한 인프라 접근성을 크게 끌어올리는 계기가 될 전망이다. 인텔과 IBM은 고가의 특화 하드웨어가 필요한 AI 연산 환경에서 비용 효율이라는 기준을 제시하며, 보다 많은 기업이 AI 기술을 실질적으로 도입하도록 협력하고 있다. 가우디 3는 생성형 AI와 대규모 언어모델 추론, 파인튜닝 등 고성능 연산을 요구하는 워크로드를 지원하도록 설계됐다. 특히 멀티모달 LLM, RAG(검색 증강 생성) 등 최신 AI 트렌드에 최적화된 아키텍처를 기반으로 한다. 개방형 개발 프레임워크 지원 또한 가우디 3의 장점 중 하나로, 다양한 개발 환경에 유연하게 대응할 수 있다는 평가다. 인텔에 따르면
로보틱스, 산업 자동화, 엣지 서버 등의 임베디드 AI 시스템에 적합해 모빌린트가 고성능 엣지 AI 시장 공략에 박차를 가한다. 모빌린트는 자사의 AI 가속기 칩 ‘ARIES’를 기반으로 설계한 MXM(Mobile PCI Express Module) 타입 AI 가속기 모듈 ‘MLA100 MXM’을 새롭게 선보였다. MLA100 MXM은 25W 저전력 환경에서 최대 80 TOPS(Tera Operations Per Second)의 연산 성능을 제공하며, 8개의 고성능 코어를 통해 복수의 AI 모델을 병렬로 실행하거나 대규모 추론 연산을 안정적으로 처리하도록 설계됐다. 특히 MLA100 MXM은 82x70mm의 콤팩트한 크기와 110g의 가벼운 무게를 갖춘 MXM 규격을 채택해 공간 제약과 전력, 발열 관리가 중요한 로보틱스, 산업 자동화, 엣지 서버 등의 임베디드 AI 시스템에 적합하다. MLA100 MXM은 대규모 언어 모델(LLM)과 비전 언어 모델(VLM) 같은 트랜스포머 기반 모델의 처리가 가능해 기존 GPU 기반 엣지 솔루션의 대안으로 자리매김한다는 전략도 함께 추진된다. 현재 국내 주요 대기업 및 산업 파트너사들이 MLA100 MXM 기반으로 임베디
검색과 추론 동시에 수행하는 RAG 특화 AI 시스템 개발할 계획 디노티시아와 하이퍼엑셀이 공동으로 ‘검색증강생성(RAG) 최적화 AI 추론 시스템’ 개발에 나선다. 이번 협력은 디노티시아의 벡터 데이터 연산 가속기 칩(VDPU)과 하이퍼엑셀의 거대언어모델(LLM) 가속기 칩인 ‘LLM 프로세싱 유닛(LPU)’을 결합해 하나의 통합 시스템을 구축하는 방식으로 진행된다. AI 서비스 분야에서 데이터 검색의 중요성이 커지면서 빠르고 효율적인 데이터 활용 방식이 요구된다. 기존 시스템은 소프트웨어 기반으로 데이터를 검색한 후 LLM을 활용한 생성형 AI 프로세스를 별도로 처리하는 구조로 인해 응답 속도가 느리고 전력 소모가 많았다. 이에 디노티시아는 VDPU 칩으로 AI가 대규모 멀티모달 데이터를 실시간 검색하고 활용하도록 지원하며, 하이퍼엑셀은 LPU 칩으로 AI 모델의 연산 성능을 극대화하는 역할을 한다. 양사는 이 두 칩을 결합해 검색과 추론을 동시에 수행하는 RAG 특화 AI 시스템을 개발할 계획이다. 이를 통해 AI가 보다 정밀한 데이터를 빠르게 찾아내고, 생성형 AI 모델의 연산 속도를 향상시키는 등 AI 서비스의 성능과 효율성을 개선할 것으로 기대된다
엔비디아가 미국 새너제이에서 GTC 2025(GPU Technology Conference 2025)를 열고 AI 추론을 위한 새로운 패러다임을 제시했다. 엔비디아는 GTC 2025에서 차세대 AI 가속화 솔루션 ‘블랙웰 울트라 AI 팩토리 플랫폼’과 오픈소스 AI 추론 소프트웨어 ‘다이나모(Dynamo)’를 공개했다. 이번 발표에는 AI 추론 및 컴퓨팅 성능의 한계를 극복하는 기술적 혁신이 포함됐다. 블랙웰 울트라는 엔비디아 블랙웰 AI 팩토리 플랫폼의 차세대 버전으로, AI 모델의 추론과 훈련을 더욱 정교하게 수행할 수 있도록 설계됐다. 특히 ‘테스트 타임 스케일링(Test-Time Scaling, TTS)’을 적용해 AI 추론의 정확도를 향상시키고, 복잡한 문제 해결 능력을 개선했다. 이 플랫폼은 최신 AI 칩인 ‘GB300 NVL72’를 기반으로 기존 GB200 NVL72 대비 1.5배 높은 AI 성능을 제공하며, 엔비디아 호퍼 아키텍처 대비 AI 팩토리의 수익 기회를 50배 증가시킬 것으로 기대된다. 이를 통해 에이전틱 AI, 물리 AI, 대규모 언어 모델(LLM) 등 다양한 AI 응용 분야에서 활용될 수 있다. 엔비디아 젠슨 황 CEO는 “AI는
1/4 가량 캐쉬 메모리 사용하면서 개선된 연산 처리 성능, AI 연산 정확도 보여 딥엑스는 낮은 제조 비용, 낮은 소모 전력, 높은 효율 및 성능을 앞세운 플래그쉽 제품 ‘DX-M1’을 양산 전 사전 검증 형태로 국내외 글로벌 고객사 40여 곳에 제공했다고 밝혔다. 딥엑스는 현재 EECP(Early Engagement Customer Program) 프로그램을 운영하며 DX-V1을 탑재한 원칩 솔루션인 스몰 카메라 모듈, AI 가속기 솔루션인 DX-M1을 탑재한 M.2 모듈, 딥엑스의 개발자 환경인 'DXNN'을 빠르게 경험할 수 있는 프로모션을 진행 중이다. 이를 통해 고객사는 딥엑스의 하드웨어와 소프트웨어를 양산 전 사전 검증 형태로 제공받아 양산 제품에 탑재하고 딥엑스의 기술 지원을 받으며 다양한 임베디드 시스템과 사물에 AI 기술 혁신을 실현할 것으로 보인다. DX-M1은 로봇 및 스마트 모빌리티, AI 영상 보안 시스템, AI 서버 관련 글로벌 기업 40여곳의 양산 개발용 제품에 탑재돼 사전 검증 테스트가 이뤄지고 있다. 로봇 및 스마트 모빌리티 분야는 자율주행, 인지 등의 기술이 요구되고 소형 폼팩터에 탑재 가능한 저전력, 고성능의 AI 반도체