라마 3.1 405B 사전 훈련 항목에서도 제출된 결과가 엔비디아 플랫폼에서 실행돼
엔비디아가 자사의 최신 블랙웰 아키텍처 기반 AI 플랫폼으로 'MLPerf 트레이닝 v5.0' 벤치마크 전 항목에서 최고 성능을 기록했다고 밝혔다.
MLPerf는 인공지능(AI) 성능 평가를 위한 대표적 벤치마크로, 엔비디아는 이번 12번째 라운드에서 모든 항목에 결과를 제출해 광범위한 AI 워크로드에서 높은 성능과 범용성을 입증했다. 특히, 최신 LLM(대규모 언어 모델) 중심 테스트인 라마 3.1 405B 사전 훈련 항목에서도 제출된 모든 결과가 엔비디아 플랫폼에서 실행되며 주목을 받았다.
엔비디아는 이번 벤치마크를 위해 블랙웰 플랫폼 기반의 AI 슈퍼컴퓨터 두 대를 활용했다. 티케(Tyche)는 엔비디아 GB200 NVL72 랙 스케일 시스템으로, 닉스(Nyx)는 DGX B200 시스템으로 구성됐다. 또한, 코어위브와 IBM과 협력해 총 2496개의 블랙웰 GPU와 1248개의 그레이스 CPU를 사용한 테스트 결과도 제출했다.
블랙웰 아키텍처는 이전 세대 대비 성능을 크게 향상시켰다. 라마 3.1 405B 사전 훈련에서는 동일 규모 시스템 기준으로 2.2배, 라마 2 70B LoRA 미세 조정에서는 8개 GPU 구성 시스템 기준으로 2.5배 향상된 성능을 기록했다.
엔비디아는 이번 성능 도약이 고밀도 수랭식 랙과 13.4TB 규모의 코히어런트 메모리, 5세대 NV링크와 NV링크 스위치 기반 상호연결 기술, 그리고 퀀텀-2 인피니밴드 네트워킹 기술에 기반한다고 설명했다. 여기에 차세대 멀티모달 LLM 훈련을 지원하는 네모 프레임워크의 혁신도 주요한 역할을 했다.
엔비디아는 차세대 에이전틱 AI 애플리케이션이 미래 AI 팩토리의 핵심 엔진으로 자리잡을 것이라고 전망했다. 이들은 다양한 산업과 학문 분야에서 가치를 창출하며, 토큰과 지능 정보를 생성하는 새로운 경제를 형성할 것으로 기대하고 있다.
엔비디아의 데이터 센터 플랫폼은 GPU, CPU, 고속 패브릭, 네트워킹 기술은 물론 CUDA-X 라이브러리, 네모 프레임워크, 텐서RT-LLM, 다이나모 등 포괄적 소프트웨어 스택을 제공해 AI 모델의 훈련과 배포를 가속화하고 있다.
이번 MLPerf 라운드에는 코어위브와 IBM 외에도 에이수스, 시스코, 델 테크놀로지스, 기가컴퓨팅, 구글 클라우드, 휴렛팩커드 엔터프라이즈, 람다, 레노버, 네비우스, 오라클 클라우드 인프라스트럭처, 퀀타 클라우드 테크놀로지, 슈퍼마이크로 등 다양한 엔비디아 파트너사들이 결과 제출에 참여해 엔비디아 기술 생태계의 확장성과 호환성을 입증했다.
헬로티 서재창 기자 |