반도체 슈퍼마이크로, 엔비디아 B200 시스템으로 AI 추론 성능 '압도'
Mixtral 8x7B Inference 및 Mixture of Experts 벤치마크에서 초당 12만9000개 토큰 생성 슈퍼마이크로가 자사의 NVIDIA HGX B200 8-GPU 시스템으로 글로벌 MLPerf Inference v5.0 벤치마크에서 업계 최고 수준의 AI 추론 성능을 달성하며 AI 컴퓨팅 시장 내 기술력을 입증했다. 슈퍼마이크로 총판사인 디에스앤지는 해당 결과를 발표하며, 슈퍼마이크로가 공랭식과 수랭식 시스템 모두에서 기록적인 성능을 선보인 유일한 시스템 벤더라고 밝혔다. 슈퍼마이크로가 기록한 성과는 Mixtral 8x7B Inference 및 Mixture of Experts 벤치마크에서 초당 12만9000개 토큰을 생성한 것이다. 이 성능은 SYS-421GE-NBRT-LCC와 SYS-A21GE-NBRT 모델(각각 8개의 NVIDIA B200-SXM-180GB 탑재)을 기반으로 구현됐다. 특히 Llama2-70B 및 최신 Llama3.1-405B 모델 추론에서는 이전 세대 시스템 대비 최대 3배에 달하는 처리 속도 향상을 보였고, 대형 모델 추론 기준으로도 초당 1000개 이상의 토큰을 생성하는 등 압도적인 처리량을 기록했다. 슈퍼마이