사람은 ‘눈이 아니라 뇌로 본다’는 말이 있다. 우리의 뇌는 시각·청각·촉각·미각·후각 등 감각 기관에서 들어온 정보를 뇌에서 해석하여 세상을 이해한다. 특히 우리 뇌의 상당부분은 감각기관을 통해서 획득하는 정보의 80% 이상을 차지하는 시각 정보를 해석하는데 사용된다. 그래서 우리가 매일 인지하는 세계는 시각 정보가 ‘모사’된 세계가 아니라 우리 뇌가 ‘해석’한 세계이다.
로봇도 마찬가지이다. 특히 스마트 팩토리에서 다양한 작업물을 다루어야 하는 로봇이 주변 환경과 사물을 스스로 인식할 수 있는 ‘시각 지능’을 갖추어야 하며 이를 ‘로봇 비전’ 기술이라고 한다. ‘로봇 비전’은 사람의 ‘눈’에 해당하는 하드웨어인 ‘카메라’ 기술과 카메라로 들어온 시각 정보를 해석하는 ‘비전 소프트웨어’ 기술로 나눌 수 있다. 이번 편에서는 ‘카메라’의 핵심 원리와 작동 방식 및 종류에 대해 먼저 알아보고 다음 편에서는 로봇 전용 비전 소프트웨어에 대해 기술하려고 한다.
카메라의 핵심 원리
‘로봇 비전’에서 사용하는 카메라는 크게 2D와 3D로 나눌 수 있다. 2D 카메라는 우리가 일반적으로 사용하는 핸드폰 카메라나 웹카메라 등과 같이 촬영한 3D 공간상의 피사체를 2D 평면에 투사하여 각 픽셀당 RGB 삼색정보로 표현된 2D 이미지 정보를 추출한다. 이에 반해 3D 카메라는 3D 공간상의 피사체를 3D 공간상의 점들의 집합인 포인트클라우드(point cloud)로 추출하고, 각 3D 포인트에는 RGB 색정보도 같이 담겨있어서 그림 1과 같이 3D 공간상의 실제 피사체의 형상과 색상을 그대로 추출할 수 있다.
먼저 3D 카메라는 RGB 이미지와 유사하게 각 실제 3D 공간상의 피사체가 투사된 2D 평면의 각 픽셀당 거리값에 해당하는 거리 이미지(depth image)를 추출할 수 있어야 한다. 그다음에 실제 3D 공간상의 피사체가 거리 이미지로 만들어지는 핀-홀 원리를 거꾸로 응용하면 3D 공간상에 포인트 클라우드를 계산으로 얻어낼 수 있는데, 이는 실제 피사체에 카메라로부터 특정 광선을 투사하여 실제 피사체를 샘플링한 점들의 집합으로 ‘모사’한 것이라고 할 수 있다(그림 2).
3D 카메라 종류와 동작 원리
3D 카메라는 거리 이미지를 측정하는 원리에 따라 종류가 다양하다. 그림 3은 현재 시중에 나와 있는 대표적인 3D 카메라로 대표적인 네 가지 동작 원리를 간단히 설명하면 다음과 같다.
먼저 스테레오(Stereo) 방식은 사람의 눈이 두 개인 것처럼 일정 거리만큼 떨어진 2D 카메라 두 개를 사용하면 가까운 물체는 더 크게 보이고 먼 물체는 더 작게 보이는 원리를 이용한다. 두 카메라 이미지에서 동일한 지점의 위치를 찾을 수 있으면 수평 거리차를 이용하여 그 지점에 대한 수직 거리를 삼각 측정법으로 계산할 수 있다. 이 방식은 특징점이 분명하지 않은 피사체인 경우는 동일지점을 찾기가 어렵다는 단점이 있는데, 이를 극복하기 위해 Active IR Stereo 방식은 눈에는 보이지 않은 특정 적외선(IR) 패턴을 피사체에 투사하여 인위적인 특징 점들을 만들어낸다. 이 패턴을 기반으로 두 개의 적외선 카메라가 스테레오 방식으로 거리 이미지를 생성하고 또 다른 RGB 카메라에서 읽은 RGB 이미지로 색상정보를 입힌 포인트 클라우드를 생성한다.
또 다른 방식으로 Time of Flight 카메라가 있다. 이 3D 카메라는 빛이 반사 표면을 오가는 데 걸리는 시간 측정을 기반으로 한다. 카메라가 특정 주파수의 광 펄스 또는 펄스 스트림을 보내고 피사체의 표면에서 반사되어 센서의 픽셀에서 다시 감지될 때까지의 시간 지연을 측정하여 정확한 거리값을 계산하고 거리 이미지를 생성한다. 이 카메라는 값이 저렴하고 카메라의 크기가 작다는 장점이 있지만, 다른 방식에 비해서 거리 이미지의 신호 대 잡음비(signal-to-noise) 비율이 상대적으로 낮아서 높은 정확도를 요구하는 작업에는 적절하지 않다.
로봇 비전을 이용한 작업 중 가장 높은 정확도를 요구하는 메니퓰레이터에는 구조광(Structured light) 방식의 3D 카메라가 가장 우수한 성능을 보인다. 이 방식은 가시광선 영역의 구조화된 패턴광(사인파, 무지개 패턴, 그리드 인덱싱, 컬러 스트라이프 인덱싱 등)을 광프로젝터를 사용하여 피사체에 투사하고, 프로젝터와 다른 관점에서 패턴을 볼 때 패턴이 거리에 따라 왜곡된 방향과 크기를 측정하여 거리를 계산한다. 또한, 프로젝터의 밝기·강도 및 카메라의 조리개·노출시간과 다양한 패턴을 결합하는 HDR(High Dynamic Range) 방식으로 다양한 색상 및 표면 재질을 가진 피사체에 최적화할 수 있는 다양한 설정을 지원한다.
3D 카메라 발전과 소프트웨어 기술
최근 5년간 3D 카메라의 비약적인 발전으로 3D 카메라의 가격은 낮아진 반면 성능은 아주 많이 향상되었다. 특히 카메라의 사이즈가 작이지고 가성비에 따라 다양한 스팩의 카메라를 선택할 수 있게 되면서 다양한 로봇 어플리케이션에 적용할 수 있게 되었다. 특히 보급형 3D 카메라의 가격은 2D 카메라와 비교하여 가격차이가 크지 않기 때문에 기존에 2D 카메라로 찾을 수 없는 작업물의 거리와 각도의 틀어짐까지 보정할 수 있는 3D 카메라가 2D 카메라를 대체함을 넘어서 이전에 하지 못했던 어플리케이션으로 로봇 비전의 활용도를 빠르게 더 넓혀가고 있다.
3D 카메라 기술은 더 이상 특별한 것이 아니라 이미 널리 사용되고 있으며 많은 전문 회사에 의해 상용화되고 상품화되었다. 2D 카메라에 비해 상대적으로 높은 가격 역시 앞으로 시장이 성장하고 경쟁함에 따라 자연스럽게 더 낮아질 것으로 예상된다.
하지만 3D 카메라, 즉 하드웨어 기술만 가지고는 로봇의 ‘시각 지능’, 즉 ‘로봇 비전' 기술을 구현할 수가 없다. 더 중요한 기술은 어떤 카메라를 사용하든지 동일하게 얻어지는 실제 환경을 ‘모사’한 3D 포인트 클라우드 데이터, 즉 시각 정보를 ‘해석’하고 환경을 ‘이해’하여 로봇이 주어진 작업 동작을 ‘계획’하고 ‘실행’하게 하는 ‘로봇 비전 및 가이던스’ 소프트웨어 기술이다. 이 기술은 최근 비약적으로 발전된 인공지능(AI) 기술과 결합하여 많은 소프트웨어 솔루션이 나오고 있다. 이에 대해서는 다음 편에 더 자세히 설명하고자 한다.