배경
글로벌 AI 설비 기업인 NEC는 광범위한 시스템 설계 및 배포에 있어 선두 주자다. 다양한 AI 기술 연구 개발(R&D) 부분에서 반세기 동안의 실적을 보유하고 있으며 이미지 및 영상 인식, 데이터 분석, 최적화된 계획 수립 및 관리 등 다양한 분야에서 세계 최고 수준의 AI를 개발하고 있다.
NEC는 안면 및 홍채인식 분야에서 세계 1위이며, 머신러닝 관련 국제 컨퍼런스의 채택 횟수를 기준으로 세계 8위다. NEC는 모든 연구소에서는 수백 명의 연구원과 AI 연구를 진행해, 세계 최고 수준의 AI 연구 및 개발 역량을 지니고 있다.
NEC는 AI 기술 경쟁력을 강화하고 AI 분야 비즈니스 경쟁력을 유지 및 강화하기 위해 슈퍼마이크로 GPU와 울트라 시스템을 채택했다.
해결과제
NEC는 첨단 AI 개발 및 사회적 가치 창출 가속화를 과제로 인식하고 AI 개발에 착수했다. 하지만 실제 개발 과정에서 데이터, 알고리즘 등 다양한 변수가 있다는 것을 깨달았고 수천 번의 시행착오를 반복했다. 이는 딥러닝에 필요한 연산을 증가시켜 학습 실행에 최대 수천 시간, 때에 따라 더 많은 시간을 소요하게 됐다.
예를 들어, 대규모 인공지능 자연어처리 모델인 GPT-3은 단일 엔비디아 테슬라 V100 GPU(NVIDIA Tesla V100 GPU)를 통해 학습하는데 최대 355년 GPU 렌더링 시간을 사용했다. 이는 단 몇 시간 내에 결과가 바로 나와야 하는 많은 산업군에 적합하지 않다. 이런 현실적인 사례는 더 많은 트레이닝 모델을 위해 AI 슈퍼컴퓨터가 필요하다는 것을 절실히 보여준다.
AI 슈퍼컴퓨터는 컴퓨팅 자원의 제약 없이 첨단 AI 알고리즘을 연구하고 개발할 수 있게 한다. 또한 수백 명의 연구원이 광범위한 AI 시스템에 동시 접속해 개별 요구 사항을 수행할 수 있게 한다.
솔루션
NEC는 AI 슈퍼컴퓨터 설계 및 제공을 위해 슈퍼마이크로와 협력을 결정했다. 슈퍼마이크로가 NEC의 전략적 파트너로 선정된 이유는 아래와 같다.
1) 슈퍼마이크로는 NEC이 요구하는 AI 슈퍼컴퓨터 아키텍처에 맞춰 자유롭게 GPU 서버 내부 구성을 커스터마이징 및 배치 가능했다. 더불어 서버의 물리적 하드웨어 구성, BIOS 설정, 팬 설정 등 다양한 부분의 변경할 수 있는 능력이 슈퍼마이크로 GPU를 채택한 주요 원인이었다.
2) NEC는 기술의 발전에 맞춰 하드웨어가 확장 가능하고 미래 세대의 AI 가속화를 수용할 수 있어야 한다는 것을 깨달았다. 슈퍼마이크로 GPU 서버는 딥러닝의 발전에 따라 물리적 구성을 자유롭게 변경 및 확장 가능하고 하드웨어의 자유성과 확장성을 보장한다는 점이 NEC에 매력적이었다.
NEC는 엔비디아 A100 텐서 코어 GPU 사용하기로 결정했다. 엔비디아 A100 이용 시 AI 연산의 총 계산 속도가 뛰어나기 때문이다.
특히 NEC가 선택한 TF3 지원 A100을 사용하면 FP32와 동일한 범위 및 FP16 급의 정밀도를 제공하고, 정확도가 저하되지는 않는 선에서 메모리 대역폭의 병목 현상을 완화할 수 있다. 즉, NEC는 A100의 연산 성능을 활용해 생체 인증, 이미지 및 비디오 인식과 같은 이미지 활용 AI를 연구 및 개발할 수 있다.
NEC는 엔비디아 A100 텐서 코어 GPU는 물론 3세대 NV스위치(NVSwitch)를 탑재한 이 HGX A100을 채택했다. 3세대 NV스위치(NVSwitch)는 서버 내 GPU 간의 커뮤니케이션을 600GB/s의 통신 속도로 지원하여 빠른 학습이 가능하게 한다.
추가로, NEC는 훈련 애플리케이션을 위해 내부 GPU 간의 통신이 필요하다고 믿었다. NEC는 600GB/s의 빠른 커뮤니케이션이 분산 학습 처리로 GPU의 컴퓨팅 성능을 충분히 활용할 수 있으며, AI R&D 효율성을 크게 향상시킬 것이라고 자부했다.
슈퍼마이크로 GPU 서버와 엔비디아 기술이 채택된 또 다른 이유는 서버와 스위치를 연결하고 엔드 투 엔드 RoCEV2 통신을 지원하는 코넥트X-6 솔루션과 200GbE의 한계에 근접한 실제 성능 때문이다. 분산 딥러닝 처리에서는 매개변수를 교환하려면 AllReduce의 각 반복을 처리해야 하며 클러스터 내 상당한 양의 통신이 발생한다.
따라서 최근 대규모 AI 모델은 좁은 대역폭과 긴 레이턴시로 인해 통신 속도가 느려지면 예상 처리 시간을 달성하지 못한다. 사용 중인 서버 수와 관계없이 분산 효율성을 충족하지 못한다. RoCE v2로 엔비디아 GPUDirect RDMA를 수행할 경우 CPU 우회 및 대기 시간 단축이 가능하다.
결과
슈퍼마이크로의 새로운 AI 슈퍼컴퓨터는 여러 번의 테스트 후 딥러닝 성능이 테슬라(Tesla) V100 1대 대비 최대 4600배 가속화하고 AI 개발 시간을 크게 단축 시킬 것이라고 측정됐다. 슈퍼마이크로의 새로운 AI 슈퍼컴퓨터를 사용하면 다양한 AI 영역에 대해 보다 많은 연구를 수행할 수 있게 되는 것이다.
NEC의 수석 AI 플랫폼 설계자 타카토시 키타노(Takatoshi Kitano)는 "컴퓨팅 능력은 AI 시대의 경쟁력이다. 슈퍼마이크로 GPU 서버는 엔비디아와 인텔의 기술로 연구원에게 성능이 뛰어난 분산 딥러닝 환경을 제공하고 AI 연구를 가속화할 수 있다. NEC는 앞으로도 슈퍼마이크로와 길밀히 협력해 AI 연구를 발전시키고 사회적 가치를 창출할 것”이라고 말했다.
헬로티 함수미 기자 |