[첨단 헬로티]
AI 반도체 전문 기업인 그래프코어(Graphcore)가 본격적으로 한국 시장에 진출한다. 그래프코어의 AI 반도체 ‘콜로서스(Colossus) IPU(지능 처리 장치:Intelligence Processing Unit)’는 프로세서에 직접 메모리를 배치해 연산 속도를 빠르게 개선시킨 점을 내세우고 있다. 그래프코어는 한국 시장에서 금융, 헬스케어, 검색엔진 등의 시장을 공략한다는 계획이다.
그래프코어는 지난 2016년 영국 브리스톨에서 나이젤 툰(Nigel Toon) 최고경영자(CEO)와 사이먼 놀스(Simon Knowles) 최고기술책임자(CTO)가 AI 시대와 머신러닝에 특화한 반도체의 필요성에 주목해 공동으로 창업한 기업이다.
그래프코어는 올해 1월 한국에 지사를 설립했고, 한국 지사장으로 강민우 루브릭 전 한국 지사장을 그래프코어 한국 지사장으로 선임했다. 강민우 지사장은 일본과 중국을 제외한 아시아 지역을 총괄할 계획이다. 참고로 그래프코어는 일본에도 지사를 지난 1월에 설립했다.
이와 관련해 그래프코어는 2월 4일 그랜드 인터컨티넨탈 서울 파르나스에서 기자 간담회를 개최하고, 콜러서스 IPU 소개와 함께 한국 시장의 비즈니스 계획을 발표했다.
▲파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장
그래프코어에 따르면 콜러서스 IPU의 최대 강점은 기존의 AI 반도체로 각광 받았던 CPU(중앙처리장치)와 GPU(그래픽스 처리장치) 대비 빠른 연산 속도와 저전력이라고 소개했다.
콜러서스 IPU는 16코어 팩과 236억개의 트랜지스터를 탑재한 세계 최초의 메모리 중심적 병렬 프로세서다. 단일 칩의 1216 IPU는 코어당 최대 100GFLOPS(1GFLOP은 초당 약 10억 부동 소수점 연산에 해당)이상으로 300MB 메모리와 짝을 이룰 수 있으며 최대 7000개 이상의 프로그램을 병렬로 실행할 수 있다. 그래프코어의 첫 상용 IPU는 지난 2018년에 출시된 16나노미터 PCI 고속 카드 ‘C2’다. 그래프코어 IPU의 칩당 메모리 대역폭은 45TB/s로 ‘C2’에 90TB/s의 전체 카드 대역폭을 제공하고, 이론적인 최대치는 HBM2 그래픽 칩 메모리보다 100배 이상 높다.
이날 간담회를 위해 한국에 방안한 파브리스 모이잔(Fabrice Moizan) 그래프코어 미국 영업 및 비즈니스 총괄 부사장은 “그래프코어 IPU는 칩 안에 메모리가 들어가 있어서 학습 및 추론 모델을 메모리에 적재한 후 즉각적으로 연산할 수 있어 대응이 빠르다. GPU의 경우에는 메모리가 밖에 위치해 CPU, D램간 데이터가 전송되는 시간이 소요돼 레이턴시 문제가 발생된다”며 “IPU는 기존 CPU 및 GPU를 사용하는 것과 비교해 데이터 처리 속도가 10배에서 최대 100배까지 빠르고, GPU보다 전력 사용량이 2배 이상 낮다”고 설명했다.
이어서 그는 “음성인식, 챗봇, 인터넷검색 등의 ‘자연어처리(NLP)’ 경우에는 사용되는 데이터 크기가 점점 광대해 지면서 큰 용량의 데이터센터와 시간 단축이 요구되고 있고, 사람의 뇌와 같은 트레이닝을 필요로 한다. 트레이닝 시간을 3배 단축한다면 시간 뿐 아니라 비용 절감 효과도 가질 수 있다. 즉, IPU는 데이터를 분석해서 컴퓨터 스스로 판단하고 학습할 수 있는 능력인 '머신러닝'에 최적화돼 있다”고 덧붙였다.
▲파콜로서스(Colossus) IPU
그래프코어 IPU는 간단하고 편리하게 사용할 수 있는 소프트웨어 스택도 제공한다. ‘C2’는 AI 머신러닝을 위해 고안된 자사의 소프트웨어 스텍 ‘포플러(Poplar)’와 함께 작동하도록 설계됐고, 구글 텐서플로 프레임워크와 호환 가능한 AI 모델 생태계 ONNX(Open Neural Network Exchange)과 통합됐다. 올해 상반기에는 페이스북 파이토치(PyTorch)와 호환도 완료할 계획이다.
다음은 파브리스 모이잔 그래프코어 부사장과의 질의응답 내용이다.
Q. IPU를 GPU와 비교해 설명해 달라.
CPU는 전력을 많이 소비하는 프로세서이고, GPU는 머신러닝에 훌륭한 기술이지만 대부분 그래픽에 치우쳐 있기 때문에 인텔리전트 처리에 제한 요소가 따른다. IPU는 그래프 기반의 아키텍처이며, 자연어처리에 탁월한 성능을 보여준다.
마이크로소프트가 IPU의 효율성을 구글 버트(BERT: Bidirectional Encoder Representations from Transformers)를 통해 데이터 세트를 사전 훈련해 문장 간의 관계를 56시간 동안 학습시킨 결과, GPU 보다 평균적으로 추론 처리량이 3배, 대기 시간이 20% 이상 향상됐다.
또 금융업계에서 많이 사용되는 확률론 학습 MCMC(Markov Chain Monte Carlo)기반 모델에서도 그래프코어의 IPU를 적용하여 기존 하드웨어로 2시간 이상 걸린 작업을 4분 30초 만에 최적화할 수 있었고, 훈련 시간은 26배 빨랐다.
예를 들어, 컴퓨터 비전은 현재 HD 이미지를 많이 사용하고 있고, 비디오 분석이 매우 중요하다. 특히 자율주행차 경우에는 현재 12대 카메라가 장착돼 개발되고 있으나, 이 외의 새로운 기술 요구되고 있다. 이를 위해 IPU가 대처할 수 있다.
그러나 IPU가 모든 영역에서 GPU 보다 월등하다는 것은 아니다. IPU와 GPU의 사용은 애플리케이션에 따라 달라진다. 고객사가 머신러닝, 딥러닝 모델링을 어떤 것을 사용하는지에 따라 성능은 천지차이가 난다.
GPU는 이미징을 위해 설계됐기 때문에 음악, 영상 부분에서 더 유리하다. 따라서 이미징 기술이 많이 요구되는 분야에서는 GPU와 IPU가 같이 사용될 수도 있다. 이미징 사이즈가 큰 애플리케이션에서는 IPU가 맞지 않을 수 있다.
▲CPU, GPU, IPU 비교
Q. 한국 시장에서 IPU의 활용도가 높을 것으로 기대되는 분야는?
혁신 기술을 활용하는 기업에서 IPU의 수요가 높을 것으로 기대된다. 특히 금융, 헬스케어를 꼽고 싶다. 작년 12월에 발표된 미국 금융 백서에서는 그래프코어의 IPU가 유용한 기술로 소개됐다. 이는 IPU가 빠른 연산 속도로 인한 신속한 대응이 가능하기 때문이다. 또 메디컬 분야에서는 의료 보건, 신약 개발 등에도 사용될 수 있다. 향후에는 자율주행차에도 활용될 수 있다고 본다.
Q. 엣지 컴퓨팅에서도 IPU 활용도가 높을까?
엣지 컴퓨팅은 1~20W의 저전력을 요구한다. 그러나 현재 우리의 솔루션은 75W여서 엣지 컴퓨팅에 적합하지 않다. 그러나 향후에는 엣지 컴퓨팅에서도 많은 연산을 요구하게 되고, 우리의 IPU가 더양한 제품군으로 출시될 예정이기 때문에 약 2년 후면 엣지 시장에 접근이 가능할 것으로 본다.
Q. 마이크로소프트가 지난해 10월 클라우드 컴퓨팅 플랫폼 '애저(Azure)'에 그래프코어 IPU를 탑재한 서비스를 발표했다. 그 배경은?
이는 신생 기업 입장에서 자랑스러운 성과다. 이는 그래프코어의 IPU가 기술면에서 인정받았다는 것을 의미한다. 마이크로소프트가 그래프코어를 선택한 이유는 기존의 GPU 기반 제품뿐 아니라 IPU 기반 제품을 제공함으로써 고객에게 다양한 선택권을 줄 수 있기 때문이다. 마이크로소프트 애저에 IPU가 적용되면 사용자들은 애저 플랫폼 안에서 머신러닝이나 자연어처리(NLP) 등을 활용해 새로운 서비스나 제품을 개발할 수 있게 된다.
Q. 한국의 삼성으로부터 투자를 받았다.
그래프코어는 기술력에 힘입어 한국의 삼성전자 뿐만 아니라 보쉬 벤처캐피털(Robert Bosch Venture Capita), 델 테크롤로지 캐피털(Dell Technologies Capital), 아마데우스 캐피털파트너스(Amadeus Capital Partners), C4벤처스, 드라퍼 에스프리트(Draper Esprit), 파운데이션 캐피털, 피탕고 캐피털(Pitango Capital), 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스 하사비스(Demis Hassabis) 등으로부터 3억 달러(약 3500억원)를 투자받았다.