GPU 리소스 자동 스케줄링, 초단위 배포 환경 구성, 고병렬 추론 테스트 등 핵심 기능 공개 예정 케이투스(KAYTUS)가 오는 5월 14일부터 16일까지 서울 코엑스에서 개최되는 ‘AI EXPO KOREA 2025’에 참가해 자사의 AI DevOps 소프트웨어 ‘MotusAI’와 통합형 AI DevOps 인프라 솔루션을 선보인다. 케이투스는 이번 전시를 통해 복잡한 AI 인프라 운영 환경에서 효율적인 리소스 관리와 빠른 모델 배포를 가능케 하는 턴키 기반의 엔드투엔드 솔루션을 집중 조명할 예정이다. 생성형 AI 기술이 학습 단계를 넘어 실시간 추론과 대규모 배포로 확산되는 가운데, 기업들은 GPU 활용률 저조, 데이터 병목 현상, 느린 배포 속도 등 AI 운영상의 다양한 장애물에 직면하고 있다. 케이투스는 이러한 과제를 해결하기 위해 AI DevOps 플랫폼 ‘MotusAI’를 중심으로 한 통합 클러스터 시스템을 통해 모델 개발부터 배포, 운영까지 전 과정을 안정적이고 간결하게 연결하는 인프라 해법을 제시한다. 전시 부스에서는 MotusAI 기반 클러스터를 활용해 한 명의 운영자가 딥러닝 모델과 추론 서비스를 5분 이내에 배포하는 실시간 데모가 진행된다.
기존 z16 대비 최대 50% 더 많은 AI 추론 작업 처리하는 성능 갖춰 IBM이 하드웨어, 소프트웨어, 운영 시스템 전반에 AI 기술을 심층적으로 통합한 차세대 메인프레임 ‘IBM z17’을 공식 발표했다. 이번 신제품은 IBM의 텔럼 II 프로세서를 기반으로 하며, 기존 z16 대비 최대 50% 더 많은 AI 추론 작업을 처리하는 성능을 갖췄다. 단순한 연산 장비를 넘어, z17은 대출 리스크 분석, 챗봇 서비스, 의료 이미지 진단, 상거래 사기 탐지 등 250개 이상의 산업별 실시간 AI 활용 시나리오에 대응하도록 설계됐다. z17은 IBM이 5년에 걸쳐 개발한 300건 이상의 특허 기술과, 100여 개 고객사의 현장 피드백을 반영해 탄생했다. IBM 리서치와 소프트웨어 부문이 협력한 결과물인 만큼, 다중 모델 AI 추론을 위한 최적화한 환경과 함께, AI 기반 사용자 경험 향상을 위한 다양한 기능이 대거 포함됐다. 특히 IBM 텔럼 II 프로세서에는 향상된 캐시 메모리와 연산 주파수를 바탕으로 한 2세대 온칩 AI 가속기가 탑재됐다. 이를 통해 시스템은 하루 4500억 건 이상의 추론을 밀리초 단위로 처리할 수 있으며, AI 모델을 실시간으로 구동하
산업용 컴퓨팅 분야 글로벌 선도 기업 어드밴텍이 NVIDIA 기반 엣지 AI 플랫폼을 통해 오픈 소스 대규모 언어 모델(LLM) 생태계 확장에 박차를 가하고 있다. 특히 Meta의 Llama와 중국의 딥시크(DeepSeek) 등 최신 오픈 LLM을 엣지 환경에서도 원활히 지원할 수 있어 산업 전반의 AI 적용 가능성을 넓히고 있다는 평가다. 어드밴텍은 NVIDIA의 TensorRT-LLM, Jetson 플랫폼 등 풀 스택 가속 기술을 활용해 경량 추론부터 풀 스케일 AI 모델 훈련까지 모두 아우를 수 있는 엣지 AI 시스템을 제공한다. 이는 챗봇, AI 도우미, 산업용 모니터링, 엔터프라이즈 지식 관리 등 다양한 애플리케이션에 활용되며 특히 고속 처리와 확장성, 전력 효율성을 동시에 갖춘 점이 강점이다. 대표적인 제품으로는 ▲경량 추론에 적합한 ‘MIC-711-OX’ ▲최적화된 LLM 추론이 가능한 ‘MIC-770V3 + MIC-75M20’ ▲도메인 특화 AI 훈련용 ‘SKY-602E3’ 등이 있다. 각각은 실시간 챗봇, 고객 응대, 법률 및 의료 AI 분석, 코드 생성 AI 등 다양한 산업 시나리오에 맞춰 설계되었으며 최대 1000 TOPS 이상의 연산 성
이전 세대 대비 평균 1.9배 향상된 성능 기록...최신 AI 워크로드에 최적화해 인텔이 자사 최신 서버용 CPU인 ‘인텔 제온 6 P-코어’의 AI 성능을 MLCommons의 공식 벤치마크인 MLPerf 추론 v5.0을 통해 입증했다. 이번 결과는 AI 시스템의 핵심 컴퓨팅 플랫폼으로서 CPU의 중요성이 다시 한번 부각되는 계기가 됐다. MLPerf는 AI 분야에서 권위 있는 성능 평가 지표 중 하나로, 인텔은 해당 벤치마크의 최신 버전에서 주요 여섯 가지 테스트 항목을 기반으로 AI 성능을 측정했다. 그 결과, 제온 6는 이전 세대 대비 평균 1.9배 향상된 성능을 기록하며 최신 AI 워크로드에 최적화한 CPU임을 증명했다. 카린 엡시츠 시갈 인텔 데이터센터 및 AI 그룹 부사장은 “인텔 제온 6는 고성능과 에너지 효율의 균형을 동시에 달성한 제품”이라며 “세대별 성능 향상이 꾸준히 이어지며 AI 시스템에서 CPU의 역할이 강화하고 있다”고 말했다. 특히 인텔은 이번 MLPerf 추론 벤치마크에서 서버용 CPU 성능 결과를 제출한 유일한 반도체 기업이라는 점에서도 주목받았다. 이는 인텔이 AI용 CPU 시장에서 독자적인 입지를 강화하고 있다는 방증이다.
MI300X GPU 32개 활용한 4노드 구성에서 H100 기반 시스템 대비 24% 높은 성능 보여 망고부스트가 글로벌 AI 성능 평가 벤치마크인 MLPerf Inference v5.0에서 새로운 추론 성능 기록을 달성하며, AI 인프라 솔루션 경쟁력을 입증했다. 망고부스트는 AMD Instinct MI300X GPU 기반의 추론 최적화 소프트웨어 ‘Mango LLMBoost’로 Llama2-70B 모델의 오프라인 시나리오에서 역대 최고 TPS(초당 토큰 처리량)를 기록했다. 이번 결과는 MI300X GPU 32개를 활용한 4노드 구성에서 나왔으며, NVIDIA H100 기반 시스템 대비 24% 높은 성능을 보여주며 AI 인프라 시장에 새로운 대안을 제시했다. 특히 비용 대비 성능비에서 2.8배의 경쟁력을 보이며, 특정 하드웨어에 의존하지 않고 고성능·고효율 AI 추론을 구현할 수 있는 가능성을 입증했다. 망고부스트의 Mango LLMBoost는 서버 시나리오에서 9만3039 TPS, 오프라인 시나리오에서 10만3182 TPS를 달성했다. 이는 이전 최고 기록인 8만2749 TPS를 크게 웃도는 수치다. 하드웨어 가격 또한 MI300X가 H100 대비 최대
고성능 AI 인프라 환경 단순화하고 운영 효율 향상에 초점 맞춰 AMD가 랩트 AI와 전략적 협업으로 고성능 AI 인프라 최적화에 나선다. 양사는 AMD의 최신 Instinct GPU 시리즈와 랩트AI의 워크로드 자동화 플랫폼을 결합해 AI 추론과 학습 성능을 극대화하고, GPU 활용도를 높이는 통합 솔루션을 제공한다고 밝혔다. 이번 협력의 핵심은 AMD Instinct MI300X, MI325X 및 향후 출시될 MI350 시리즈 GPU에서 랩트 AI의 지능형 리소스 관리 기능을 활용해 고성능 AI 인프라 환경을 단순화하고 운영 효율을 향상시키는 데 있다. 특히 온프레미스 환경뿐 아니라 멀티 클라우드 환경에서도 유연하게 작동해 조직 규모나 산업군을 막론하고 폭넓은 활용이 가능하다는 점이 주목된다. 랩트 AI는 복잡한 AI 워크로드 관리를 자동화하는 기능으로 주목받고 있다. 이번 협업으로 데이터 과학자들은 GPU 스케줄링이나 메모리 구성에 시간을 쏟는 대신, 모델 개발과 혁신에 집중하게 된다. 랩트의 플랫폼은 각 AI 모델에 최적화한 자원 할당을 자동으로 수행하며, 다양한 GPU 환경을 단일 인스턴스로 통합 관리할 수 있어 인프라 유연성을 극대화한다. AMD
엔비디아가 미국 새너제이에서 GTC 2025(GPU Technology Conference 2025)를 열고 AI 추론을 위한 새로운 패러다임을 제시했다. 엔비디아는 GTC 2025에서 차세대 AI 가속화 솔루션 ‘블랙웰 울트라 AI 팩토리 플랫폼’과 오픈소스 AI 추론 소프트웨어 ‘다이나모(Dynamo)’를 공개했다. 이번 발표에는 AI 추론 및 컴퓨팅 성능의 한계를 극복하는 기술적 혁신이 포함됐다. 블랙웰 울트라는 엔비디아 블랙웰 AI 팩토리 플랫폼의 차세대 버전으로, AI 모델의 추론과 훈련을 더욱 정교하게 수행할 수 있도록 설계됐다. 특히 ‘테스트 타임 스케일링(Test-Time Scaling, TTS)’을 적용해 AI 추론의 정확도를 향상시키고, 복잡한 문제 해결 능력을 개선했다. 이 플랫폼은 최신 AI 칩인 ‘GB300 NVL72’를 기반으로 기존 GB200 NVL72 대비 1.5배 높은 AI 성능을 제공하며, 엔비디아 호퍼 아키텍처 대비 AI 팩토리의 수익 기회를 50배 증가시킬 것으로 기대된다. 이를 통해 에이전틱 AI, 물리 AI, 대규모 언어 모델(LLM) 등 다양한 AI 응용 분야에서 활용될 수 있다. 엔비디아 젠슨 황 CEO는 “AI는