닫기
배너

[봇규의 헬로BOT] 디지털 트윈 위에서 자라는 휴머노이드, 엔비디아가 서울서 보여준 로봇의 다음 단계

URL복사

 

생성형 AI(Generative AI)가 검색·번역·코딩 등을 장악한 뒤, 다음 전장은 ‘물리 세계’가 됐다. 데이터센터에 쌓인 모델을 꺼내 공장, 물류센터, 도시 인프라, 심지어 휴머노이드 로봇(Humanoid Robot) 몸체 안으로 이식하는 싸움이 본격화됐다.

 

이 흐름에서 글로벌 인공지능(AI) 반도체 및 컴퓨팅 기술 업체 엔비디아(NVIDIA)는 기존의 그래픽처리장치(GPU)만을 다루는 업체에서 변모했다. 현재는 디지털 트윈(Digital Twin), 로봇 시뮬레이션, 파운데이션 모델(Foundation Model), 에지 컴퓨팅(Edge Computing)까지 포괄하는 주체로 성장했다. 사측은 스스로를 ‘피지컬 AI(Physical AI) 인프라 벤더’로 자처하며, AI·로보틱스 생태계의 핵심 기술 공급자로 자리매김했다.

 

이 가운데 젠슨 황(Jensen Huang) 최고경영책임자(CEO)가 올해 반복해서 꺼낸 메시지는 크게 두 가지로 압축된다. ‘AI 공장(AI Factory)’과 ‘소버린 AI(Sovereign AI)’다. 이는 결국 각국이 각자의 산업과 로봇을 움직이는 데이터센터를 외부에 의존하지 않고 직접 육성해야 한다는 신호에 가깝다.

 

이 구상을 개발자·스타트업·연구자 등 생태계 눈높이에서 풀어보이기 위해 엔비디아가 진행하는 로드쇼가 바로 ‘엔비디아 AI 데이(NVIDIA AI Day)’다. 이는 단일 도시에서 열리는 이벤트라기보다, 한 해 동안 주요 거점을 순회하며 각 지역의 개발자 생태계와 산업 현장을 묶는 행사다.

 

행사는 올해도 베트남 호치민, 일본 도쿄, 호주 시드니 등 아시아·태평양 주요 도시를 거쳤다. 각 현장에서는 거대언어모델(LLM), 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델(CUDA), 로보틱스, 시뮬레이션을 실제 코드와 데모 중심으로 공유하는 자리를 이어왔다.

 

그 흐름의 네 번째 무대로 선택된 곳이 서울이다. 이달 17일부터 이틀간 열린 ‘엔비디아 AI 데이 서울(NVIDIA AI Day Seoul)’은 LLM·로보틱스·비전(Vision)을 실습하는 ‘딥러닝 인스티튜트 핸즈온 워크숍(Deep Learning Institute Hands-on Workshop)’과 키노트, 기술 세션, 스타트업·벤처캐피털(VC) 네트워킹 행사 등으로 구성돼 이어졌다.

 

이번 엔비디아 AI 데이 서울은 거시적으로 한국을 차세대 고성능 AI 칩 ‘블랙웰(Blackwell)’ 기반 AI 인프라 허브로 만들겠다는 선언의 연장선으로 풀이된다. 로보틱스 관점에서는 공장·물류센터·도시·휴머노이드를 하나의 ’피지컬 AI(Physical AI)’ 구조로 어떻게 통합할 것인가를 구체적으로 선보인 자리기도 했다.

 

현실 세계를 소프트웨어로 구조화한다...엔비디아의 ‘디지털 트윈’ 운영 전략

 

 

엔비디아 관점에서 로봇이 투입된 공장·물류센터·도시는 카메라와 센서가 가득한 하나의 거대한 시스템으로 분류됐다. 엔비디아가 제시하는 AI 비전 컴퓨팅 플랫폼 ‘메트로폴리스(Metropolis)’와 실시간 3차원(3D) 협업·시뮬레이션 플랫폼 ‘옴니버스(Omniverse)’, 대규모 AI 컴퓨팅 전략 ‘메가(Mega)’ 등은 앞선 시스템 전체를 디지털 트윈으로 복제하기 위한 조합이다. 사측은 이 세 가지의 방법론 통합을 통해, 사용자는 가상 환경에서 자율주행로봇(AMR)과 사람 작업자의 동선을 통째로 설계·검증하는 것을 목표로 한다.

 

이때 메트로폴리스는 현장 곳곳에서 올라오는 CCTV·센서 등의 데이터 흐름(Stream)을 수집한다. 이는 현장에서 무슨 일이 벌어지고 있는지를 실시간으로 이해하는 인지 계층 역할을 맡는다. 옴니버스와 메가는 메트로폴리스가 파악한 현장 데이터를 기반으로 한다. 이들은 공정, 레이아웃, 플릿 구성 등을 사용자 필요에 맞게 실험·검증을 수행하는 가상 공간 역할을 한다.

 

특히 메가는 블랙웰과 같은 엔비디아의 차세대 GPU를 활용해 대규모 파운데이션 모델을 훈련·운영하는 인프라를 제공한다. 엔비디아는 이에 대해, 이는 곧 시뮬레이션 환경 내에서 더욱 복잡하고 지능적인 AI 실험을 가능하게 하는 핵심 컴퓨팅 동력이 된다고 설명한다.

 

앤드류 리우(Andrew Liu) 엔비디아 시니어 솔루션 아키텍트는 “최근 주로 받는 질문 중 대부분은 ‘AI가 진짜로 현장에서 뭘 도와줄 수 있느냐’로 수렴한다”고 밝혔다. 그는 이 질문에 대한 엔비디아의 해답을 제시했다. 즉, 제조·물류 등 현장에서 쏟아지는 각종 데이터를 어떻게 AI 모델 및 시스템에 이해시키고, 그 위에 인간과 로봇의 동선을 함께 설계할지에 대한 해결책을 메트로폴리스와 옴니버스 플랫폼으로 풀어낸 것이다.

 

이러한 엔비디아의 피지컬 AI 인프라 구축 방법론은 크게 두 가지 기술 전략으로 나뉜다. 첫 번째는 ‘영상 이해 AI 에이전트’다. 이는 사측이 최근 공개한 피지컬 AI 개발 파운데이션 모델 ‘엔비디아 코스모스(NVIDIA Cosmos)’가 그 중심이다. 현장 내 카메라 영상을 대규모로 수집·분석하는 영상 검색·요약(Video Search & Summarization) 아키텍처다.

 

▲ '엔비디아 코스모스 프레딕트(NVIDIA Cosmos Predict)' 기반 파운데이션 모델이 미래 장면을 예측·생성하는 데모(좌)와 '엔비디아 코스모스 트랜스퍼(Cosmos Transfer)' 기반 파운데이션 모델이 합성 데이터를 만드는 화면. (출처 : 엔비디아, 편집 : 헬로티 최재규 기자)

 

이 에이전트는 메트로폴리스의 파이프라인를 통해 영상을 받아들이고, 비디오 임베딩 모델과 멀티 카메라 트래킹 기술로 현장의 상황을 분석한다. 이렇게 분석된 정보는 벡터 DB에 저장된다. 이 저장소는 실시간으로 각종 데이터를 저장해 LLM이 활용 가능하도록 하는 연결고리다. 이후 LLM이 이 같은 데이터를 기반으로 사용자의 질의에 응답하는 통합 시스템으로 구성된다.

 

리우 아키텍트는 “이로 인해 사용자는 자연어로 ‘지난주 야간에 안전모를 쓰지 않은 작업자가 있었는지’, ‘이 구역에서 AMR이 5분 이상 정지한 경우를 찾아달라’와 같은 질문에 대한 답을 얻을 수 있다”며 “특히 시스템은 과거 영상을 검색해 해당 클립과 함께 답을 내놓다”라고 핵심 구조를 설명했다.

 

그는 실제 공정 데이터를 예로 들었다. 그에 따르면, 과거에는 각 생산라인 CCTV가 제각각 돌고 있어 이상 상황을 찾으려면 사람이 모든 영상을 직접 보거나 룰 기반 분석을 써야 했다. 해당 접근법을 활용하면, 메트로폴리스 파이프라인이 여러 카메라 영상을 동시에 통합 처리한다.

 

이로써 멀티 타깃, 멀티 카메라(MTMC) 트래킹 기술이 작업자와 물체를 하나의 ID로 추적하며 동선을 파악한다. 여기에 코스모스의 영상 이해(Understanding) 모델이 결합돼, 특정 작업자나 AMR의 동선을 시간 순서대로 재구성하고 위험 행동 패턴을 자동으로 찾아내는 수준까지 도달한다고 그는 설명했다.

 

이어 두 번째 축은 메가 기반 디지털 트윈 청사진이다. 리우 아키텍트는 메가에 대해 “로봇과 센서가 수백·수천 대까지 늘어나는 현장을 위한 초대형 시뮬레이션 아키텍처”라고 정의했다.

 

기존에는 각종 요소가 단일 프로세스에서 작동하니 규모를 키우면 곧바로 병목이 생겼다. 메가는 이를 센서 시뮬레이션, 로봇·조작기, 통합 관리(Orchestration) 레이어로 분리해, 각 요소를 독립적으로 확장하도록 설계됐다.

 

이때 주목할 점은 핵심 생산 시설의 디지털 트윈 구축 레퍼런스다. 설비·라인 레이아웃과 작업자·로봇의 동선이 옴니버스 플랫폼 상에서 현실과 동일하게 재현된다. 이 디지털 트윈 환경 위에는 메트로폴리스 기반의 비디오 AI 에이전트가 얹혀져 실시간으로 공정 이상 징후를 탐지한다. 이와 동시에 AMR 플릿 매니지먼트, 로봇 조작 파이프라인, 작업자 교육용 훈련 봇 등 다양한 AI 애플리케이션들이 하나의 가상 공장 내에서 통합돼 검증된다.

 

엔비디아의 이러한 피지컬 AI 비전은 로봇을 포함한 피지컬 AI가 현장에 제대로 배치되려면 단일 요소의 성능보다 더 중요한 것이 있다고 강조한다. 이 같은 접근은 공장·도시 등 메트로폴리스 전체를 어떻게 디지털 트윈으로 정의하고, 그 위에서 시뮬레이션과 운영을 동시에 반복할 것인지에 대한 해결책을 제시한다.

 

휴머노이드, '사람처럼 걷는 로봇'에서 '학습하는 몸'의 경쟁으로 진화한다

 

 

이러한 피지컬 AI 인프라 전략의 핵심 중 하나는 로봇, 특히 휴머노이드 로봇(Humanoid Robot)의 개발 플랫폼이다. 엔비디아는 지난 3월 휴머노이드 로봇을 위한 통합 개발 플랫폼 ‘아이작 그루트(Isaac GR00T)’를 공개했다. 이는 ‘제너럴리스트 로봇(Generalist Robot)을 위한 툴킷’을 슬로건으로 한 플랫폼으로, 휴머노이드 개발의 새로운 표준을 제시한다.

 

엔비디아는 이 플랫폼을 ▲로봇 파운데이션 모델(RFM) ▲옴니버스·코스모스 기반 시뮬레이션 프레임워크 ▲합성 데이터 파이프라인 ▲젯슨 AGX 토르(Jetson AGX Thor) 등 에지 슈퍼컴퓨팅이라는 네 가지 핵심 요소로 정의한다. 휴머노이드가 사람 수준의 복잡한 환경을 다루기 위해서는 이 네 가지 기술 계층이 동시에 발전해야 한다는 것을 강조한 관점이다.

 

국내 로보틱스 스타트업 리얼월드는 이 통합 플랫폼을 ‘능숙하면서 정교한 손 조작(Dexterous Manipulation)’ 영역에 활용하는 구체적인 방법을 제시했다. 회사는 원격으로 로봇을 조작하는 텔레오퍼레이션(Teleoperation) 방식을 통한 데이터 추출 방식을 내세웠다. 사용자가 가상현실(VR)과 특수 장갑을 쓰고 실제 로봇 손을 조종할 때, 다중 카메라·센서로 움직임과 힘 정보를 동시에 기록하는 기법이다.

 

이렇게 모은 시연 데이터는 로봇 시뮬레이션 플랫폼 ‘엔비디아 아이작 심(NVIDIA Isaac Sim)’ 기반 가상 환경으로 옮겨져 코스모스로 증강한 데이터와 혼합된 후 사전 학습(Pre-training)에 활용된다. 이후 엔비디아의 강화학습(Reinforcement Learning) 프레임워크 ‘아이작 랩(Isaac Lab)’에서 병렬 시뮬레이션을 통해 강화학습이 추가로 수행된다. 이는 실제 환경에서도 안정적으로 작동하는 메커니즘을 완성하는 데 기여한다. 이때 강화학습은 로봇이 스스로 최적의 행동 전략을 학습하는 과정이다.

 

리얼월드는 '엔비디아 아이작 그루트 N1(NVIDIA Isaac GR00T N1)’을 파트너 로봇에 적용하는 실험을 진행했다. 사측은 수백 개의 시연 데이터만으로도 상자 건네주기, 악수하기 등 사람과 상호작용하는 ‘인간·로봇 상호작용(HRI)’ 작업에서 자연스러운 동작을 구현했다고 설명했다.

 

배재경 리얼월드 최고기술책임자(CTO)는 “젯슨 AGX 토르 기반 온보드 추론 데모는 동일한 AI 행동 결정 모델 실행 시, 기존 엔비디아의 GPU 브랜드 ‘RTX’ 대비 거의 두 배 가까운 처리량을 기록했다”며 “이는 휴머노이드에 탑재되는 에지 슈퍼컴퓨터의 강력한 성능을 경험한 것”이라고 밝혔다.

 

이처럼 엔비디아는 아이작 GR00T와 젯슨 AGX Thor를 통해 휴머노이드 전체를 학습시키는 통합 인프라를 구축한다. 이와 동시에 리얼월드는 텔레오퍼레이션, 시뮬레이션, 파운데이션 모델을 연결해 사람 손에 가까운 능숙하면서 정교한 손 조작을 실제로 구현해 보였다. 이 사례는 글로벌 휴머노이드 경쟁이 결국 대규모로 축적한 데이터와 이를 가동할 학습·추론 인프라의 경쟁이라는 점을 보여준 셈이다.

 

헬로티 최재규 기자 |














배너




주요파트너/추천기업