정부가 1조8000억 원 규모의 추가경정예산을 편성하며 인공지능(AI) 인프라 확충에 시동을 걸었다. 그 중심에는 ‘GPU 1만 장’이라는 상징적 숫자가 있다. 엔비디아 H200, 블랙웰과 같은 최첨단 그래픽처리장치(GPU)를 국가 AI 컴퓨팅 센터에 도입해 국내 AI 생태계에 연산력을 공급한다는 목표다. 동시에 최대 5곳의 기업을 ‘국가대표 AI 모델(WBL)’ 개발사로 선정해 GPU, 데이터, 인재 등을 집중적으로 지원한다. 과연 GPU 물량 확보만으로 한국이 AI 강국이 될 수 있을까. 하드웨어 중심의 AI 전략의 명암 전 세계는 ‘AI 스펙 경쟁’에 돌입한 듯 보인다. 파라미터 수, 트레이닝 FLOPS, 연산 처리 속도 같은 수치가 기술력의 상징처럼 여겨진다. 하지만 반대로, 한국이 가진 연산능력이 늘어난다고 해서, 그것이 곧 고유한 AI 기술력과 경쟁력을 보장해줄 수 있을지에 대해서는 의문이다. 현재 AI 전략의 방향성이 스펙에만 집중돼 있는 것은 아닌지, 우리가 확보해야 할 보이지 않는 자산은 무엇인지 자문해볼 필요가 있다. 올해 11월부터 본격 가동되는 ‘국가 AI 컴퓨팅 센터’에는 추경을 통해 확보한 GPU 1만 장이 투입된다. 엔비디아의 최신
디노티시아 노홍찬 CDO 인터뷰 챗GPT가 월간 사용자 수 1억 명을 넘어선 가운데, 생성형 AI는 정보 생성에서 추론과 서비스로 무게중심을 옮겼다. 특히 RAG 기술이 확산되면서, 이를 뒷받침할 AI 인프라 수요가 높아졌다. 오늘날 많은 기업이 오픈소스를 조합해 자체적인 RAG 시스템을 구축하지만, 처리 속도와 정확도, 유지보수 측면에서 기술적 한계를 절감하는 중이다. 이와 같은 한계를 정면으로 풀어가는 스타트업이 있다. 벡터DB와 전용 AI 가속기, 그리고 통합 소프트웨어 플랫폼을 동시에 개발하며, AI의 추론 성능과 효율성 모두를 겨냥한 ‘디노티시아’가 바로 그 주인공이다. 추론 성능의 토대가 된 VDPU의 탄생 생성형 AI는 최근 몇 년간 모델 성능과 파라미터 크기 중심의 경쟁을 이어 왔다. 하지만 GPT-4와 같은 고성능 모델이 등장한 이후, 시장은 점차 새로운 문제에 직면하고 있다. 모델은 충분히 커졌지만, 이를 실제 업무에 적용하기 위해서는 파라미터의 크기만으로 해결되지 않는 과제가 많아진 것이다. 특히 기업 내부 데이터, 실시간으로 생성되는 동적 데이터 등을 AI가 기억하고 활용하려면, 학습이 아닌 추론 환경의 최적화가 필요하다. 디노티시아는
타 LLM 추론 엔진 대비 최대 12.6배 상대적 성능 향상과 92%의 비용 절감 망고부스트는 AI 추론 성능과 효율성을 획기적으로 향상시키는 시스템 최적화 소프트웨어 'Mango LLMBoost'를 공식 출시했다고 밝혔다. 망고부스트는 Mango LLMBoost가 효과적인 시스템 스케줄 조정, 커널 최적화, 독자적인 데이터 Prefetching 기술 및 최신 GPU를 최대한 활용한 모델 양자화 기술을 통해 타 LLM 추론 엔진 대비 최대 12.6배의 상대적 성능 향상과 92%의 비용 절감을 달성한다고 밝혔다. 망고부스트 관계자는 “Mango LLMBoost는 경쟁 솔루션 대비 압도적인 성능 향상과 비용 절감 효과를 증명하며, 정식 출시 전부터 이미 강력한 도입 의향을 보인 빅테크 해외 지사에서 도입을 앞두고 있다”고 밝혔다. Mango LLMBoost의 강점으로 GPU 호환성, 다중 모델 배포 및 관리 기능, 간편한 배포와 Open API 호환성을 꼽았다. Mango LLMBoost는 NVIDIA 및 AMD의 주요 GPU와 모두 호환되고, Llama, Mixtral, Gemma, Qwen2, Llava, Phi3, Chameleon, MiniCPM, GLM
단일 디바이스로 AI 기반 임베디드 시스템의 엔드투엔드 가속 제공 AMD는 새로운 2세대 버설 AI 엣지 시리즈와 버설 프라임 시리즈 적응형 SoC를 출시해 확장된 AMD 버설 적응형 SoC 포트폴리오를 구축한다고 밝혔다. 2세대 버설 시리즈는 전처리에서 AI 추론 및 후처리에 이르기까지 단일 디바이스로 AI 기반 임베디드 시스템의 엔드투엔드 가속을 제공한다. 1세대를 기반으로 개발된 2세대 버설 시리즈 포트폴리오의 첫 제품군은 새로운 AI 엔진을 바탕으로 1세대 버설 AI 엣지 시리즈 디바이스보다 최대 3배 더 높은 와트당 TOPS를 제공한다. 또한, 새로운 고성능 통합 Arm CPU를 통해 1세대 버설 AI 엣지 및 프라임 시리즈 디바이스 대비 최대 10배에 달하는 스칼라 컴퓨팅을 제공한다. AMD 적응형 및 임베디드 컴퓨팅 그룹 총괄 책임자인 살릴 라제(Salil Raje) 수석 부사장은 “AI 지원 임베디드 애플리케이션에 대한 수요가 폭발적으로 증가하면서 전력 및 공간이 제한적인 임베디드 시스템에서 가장 효율적으로 엔드투엔드 가속을 지원하는 단일 칩 솔루션에 대한 요구가 높아지고 있다”고 말했다. 이어 그는 “40년 이상 축적된 적응형 컴퓨팅 리더십을
ISO26262 기준에 부합하는 관리 프로세스에 맞춰 오토모티브향 NPU IP 개발 사피온(SAPEON, 대표 류수정, www.sapeon.com)은 오늘, 자율주행 추론용 오토모티브향 NPU(신경망처리장치) IP가 제3자 국제 평가인증기관인 DNV(Det Norske Veritas)로부터 ISO 26262 인증을 획득했다고 밝혔다. 사피온은 자율주행 차량이 요구하는 추론 요건 및 안전 설계 요구 사항을 만족하기 위해 ISO26262 기준에 부합하는 관리 프로세스에 맞춰 다양한 방식의 안전 기능을 추가해 오토모티브향 NPU IP를 개발했다. 자율주행차는 향후 인간의 개입 없이 실시간으로 바뀌는 도로 환경에서 스스로 인지, 판단, 제어해야 하기에 더욱 안전하고 높은 신뢰성을 보장해야 한다. 이처럼 기능안전 표준에 부합하는 개발이 요구되는 상황에서 사피온은 기능안전 국제표준인 ISO26262 인증을 통해 전장부품의 고장이나 오작동을 최소화하고자 하는 시장 요구에 가장 잘 부합하면서도 포괄적이고 엄격한 프로세스 표준을 수립했다는 평가를 받게 됐다. 사피온은 자율주행 자동차용 AI NPU IP를 내년에 선보일 계획이다. 사피온의 데이터 센터용 X330과 신경망 처리
헬로티 함수미 기자 | 한국전자통신연구원(ETRI)은 학습과 추론을 가속할 수 있는 시스템을 개발했다. 자체 개발한 AI 반도체를 활용한 결과이기에 더욱 의미 있는 결과다. 국내연구진은 고성능 AI 반도체 칩을 활용하여 낮은 전력으로 초당 약 5천조 회 연산이 가능한 인공지능 시스템을 개발했다. 사회 전반에 AI가 빠르게 도입됨에 따라 복잡하고 정교한 대규모 연산 처리의 필요성이 높아지고 있다. 하지만 기존 컴퓨터와 모바일에서 주로 활용된 중앙처리장치는 단순 계산에 최적화되어 있다는 한계가 있다. 이에 GPU가 주로 활용되고 있으나 구조적으로 인공지능 연산 처리에 최적화되어 있지 않아 데이터 지연 및 전력 낭비가 발생한다. NPU 기반 AI 반도체가 차세대 AI 두뇌로 떠오르는 이유다. ETRI는 작년 NPU 기반 AI 반도체 칩, AB9을 공개한 데 이어 올해 AB9 기반 보드와 인공지능 시스템을 개발하는 데 성공했다. 자율주행차, 클라우드, 데이터센터, 사람·사물·음성 인식 등 AI 응용 서비스를 제공하는 고성능 서버에 본격적으로 활용하기 위함이다. 연구진이 개발한 NPU 보드 ‘ABrain-S’는 AB9을 기반으로 독자적인 설계를 이뤄 부피가 작으면서도