배너
닫기
배너

과학 산업 발전을 이끄는 최적의 스토리지 인프라 운영 방안

  • 등록 2016.09.30 20:11:17
URL복사

최근 데이터의 양이 천문학적으로 증가하고 연구자 간 공유 및 협업 니즈가 커지고 있다. 이에 따라 성능과 액세스 속도에 대한 요구사항이 증가하고 있어 퀀텀의 스토어넥스트 스토리지 플랫폼(StorNext Storage Platform)이 이용자들에게 더 많은 가치를 제공할 수 있을 것으로 보인다. 여기서는 스토리지 인프라가 갖춰야 할 기능과 퀀텀의 다계층 스토리지 인프라에 대해 살펴본다.


오늘날, 과학 분야에서 연구하는 많은 이들은 소프트웨어, 하드웨어의 기술적 혁신을 통해 큰 이점들을 누리고 있다. GPU(그래픽 처리 장치)와 같은 컴퓨팅 가속화 기술이나 고성능 컴퓨팅을 생각해보자.


무인 드론 및 로봇은 사람이 갈 수 없는 우주, 땅, 바다와 같은 장소를 탐험할 수 있도록 해준다. 울트라 고화질 4K 및 8K 영상 포맷도 지금껏 볼 수 없었던 영상을 보여준다. 그리고 적외선, 자외선, 마이크로파, 레이더 데이터를 수집하는 지능형 센서도 다양한 작업을 가능하게 한다. 이러한 데이터를 보다 이해하기 쉽게 만들어주는 분석도 마찬가지다.


올해 2월, 미국의 중력파 연구소인 ‘레이저 간섭계 중력파 관측소(LIGO: Laser Interferometer Gravitational-Wave Observatory)’가 중력파를 탐지한 것만 봐도 기술적 진보가 물질계에 대한 이해와 연구를 얼마나 가속화시키고 있는지 알 수 있다.


또한 화학과 지노믹스(인간 유전자 정보 지도), 바이오인포매틱스, 기후과학, 소립자 물리학, 암 연구 등 모든 분야의 데이터들을 분석할 수 있게 됐고 이전보다 훨씬 효율적으로 통찰력을 찾아낼 수 있게 됐다.


이를 위해 PB(페타바이트)급 과학 데이터를 관리하는 것뿐 아니라 까다로운 고속 워크플로를 지원하는 것, 팀이나 부서 및 기관별 협업을 이끌어 내는 것 등에 모두 특화된 스토리지 인프라가 필요해졌다.


그렇다면 스토리지가 테크놀로지 워크플로를 지원하기 위해 갖춰야 할 기능들로는 어떤 것이 있을까. 주요 고려 사항은 다음과 같다.


▲ 그림 1. 퀀텀의 StorNext 어플라이언스


1. 편리한 액세스

스토리지의 목적은 단순히 데이터를 디스크에 저장하는 것이 아니라, 사용자가 필요로 할 때 정보에 액세스할 수 있도록 하는 것이다.


많은 연구자들은 공유 액세스, 셀프 서비스 액세스, 고속 액세스를 필요로 한다. 개인과 팀이 협업할 때 공유 액세스를 통해 보다 효율적인 워크플로가 가능해진다. 그러나 안타깝게도 모든 스토리지 솔루션이 공유에 최적화된 것은 아니다. 일부 스토리지 솔루션은 공유 대신 로컬 스토리지의 고속 입출력(IOP) 성능에 최적화되어 있다. 사용자 간 혹은 시스템 전반에서 데이터 공유가 이루어지지 않으면 비효율적인 워크플로가 생성된다.


셀프 서비스 액세스는 과학자들을 기다리게 할 필요가 없다는 것을 의미한다. 대부분의 연구자들은 저장된 데이터를 요청하고 몇 시간(또는 며칠)씩 기다리지 않아도 된다. 데이터가 다른 인프라상의 장기 스토리지에 저장되어 있을 때, 연구자들은 IT 팀이 지원할 때까지 기다릴 필요 없이 데이터를 찾을 수 있는 위치에서 스스로 원하는 파일에 액세스할 수 있도록 하는 것이 가장 이상적이다.


고속 액세스는 데이터 집약적인 애플리케이션 및 워크로드, 특히 고성능 컴퓨팅에 있어서 매우 중요하다. 애플리케이션과 HPC 클러스터가 요구하는 속도를 제공하는 스토리지는 고객들이 다양한 계층에 데이터를 분산시킬 수 있도록 지원하므로, 모든 데이터를 값비싼 디스크에 저장할 필요가 없다. 이는 스토리지 인프라가 연구 팀을 도울 수 있는 또 하나의 방법이다.


▲ 그림 2. StorNext 5 데이터 관리 기능 지원으로 협업 워크플로우에 적합한 스토리지


2. 재분석, 복제, 재생산

미디어 및 엔터테인먼트 업계 고객들에게 ‘재분석, 복제, 재생산’의 필수조건에 대해 설명하는 경우가 있다. 미디어 및 엔터테인먼트 업계에서는 몇 년 전에 처음 소개된 영상이 새로운 영화, 다큐멘터리, TV 쇼의 일부로 재사용되기도 한다. 그리고 가끔은 수십 년 전의 스포츠 영상이 새로운 형태로 재탄생하기도 한다.


콘텐츠 프로듀서는 오래된 콘텐츠가 새로운 영상으로 탈바꿈할 때의 가치를 잘 알고 있다. 따라서 콘텐츠를 효과적으로 저장하는 것이 중요하다고 할 수 있는데, 그 이유는 아카이브의 경우 원하는 콘텐츠를 빨리 찾아 사용할 수 있을 때만 가치를 발휘하기 때문이다.


물론 과학 분야, 일례로 의료 분야의 경우에는 소비자를 즐겁게 하는 것이 아니라 암을 치료하는 것과 같이 사용 목적이 다르다. 이 분야도 이전에 저장된 데이터가 중요하다.


연구 프로젝트의 경우 몇 년 동안 계속되는 경우가 많은데, 예를 들어 유전체학(Genomics) 논문을 발표하기 전에 분석 결과를 검증하기 위해 새로운 바이오인포매틱스 기술을 사용해 처음의 시퀀싱 결과를 재분석하기도 한다.


최근 몇 년간, 과학 실험 결과 재현에 따른 문제점에 대해 많은 논의와 논란들이 진행되어 왔다. 이러한 논의는 2차 데이터(분석 결과)뿐 아니라, 원 데이터 보호에 대한 필요성을 증가시키고 있다.


과학자들은 그들의 데이터를 재분석에 사용하며 추후 참고하게 될 가능성도 높고, 다른 과학자들이 결과를 재현할 때 데이터를 사용할 수도 있다. 이것이 의미하는 것은 이전에 아카이브된 데이터를 재분석, 회수하는 데 용이한 스토리지 인프라가 과학적 워크플로를 더욱 효율적으로 만든다는 것이다.


3. 확장 용이성

오래된 데이터에 대한 재분석은 과학 연구 영역에서 핵심적인 스토리지 속성이라고 할 수 있다. 연구팀은 언제든 확장이 필요할 수 있다. 고객들이 15PB급 데이터를 보유하는 것은 이제 흔한 일이 되었고, 향후 몇 년 내에 25TB 또는 30PB까지 데이터가 확장될 것으로 보인다. 따라서 다운타임이 없으며 업무에 지장을 주지 않고 파일 시스템을 용이하게 확장할 수 있는 스토리지 솔루션이 필요하다.


조직이 다른 타입의 스토리지와 함께 용량을 확장시킬 수 있도록 해주는 스토리지 솔루션을 사용하면 가격과 리스크 간 균형을 유지할 수 있다. 이것은 스토리지 인프라가 확장을 돕는 또 다른 방법이다.


또한 백업과 관련해 골치 아픈 문제없이 데이터 복사본을 거의 즉각적으로 생성하고 수집된 데이터를 쉽게 저장할 수 있는 스토리지 솔루션이 필요하다. 데이터 세트의 규모가 커진 만큼 이제 백업은 단순히 옵션의 개념을 넘어섰다고 할 수 있다.


물론 확장의 필요성이 ‘용량’에만 국한된 것은 아니다. 많은 기관과 부서들은 더 많은 연구비를 확보하기 위해 노력하고 있으며 관리가 필요한 프로젝트의 수는 증가하고 있다. 그리고 ‘데이터 리포지토리’에 액세스가 필요한 사용자 수도 증가하고 있다.


스토리지 인프라가 과학적 워크플로를 지원하는 또 다른 방법은 쉽게 확장할 수 있도록 하는 것이다. 용량 확장, 사용자 확대, 성능 업그레이드가 이에 해당된다.


4. 비용 효율적인 리소스 할당

과학 분야에서 연구보조금과 기부금은 많은 기회와 동시에 많은 제약도 만들어낸다. 각각 비용이 다른 플래시, 디스크, 오브젝트 스토리지, 테이프, 클라우드와 같은 여러 유형의 스토리지를 통합할 수 있는 스토리지 인프라는 성능, 확장성, 액세스, 예산에 대한 니즈를 최적으로 충족시키는 스토리지 유형을 선택해서 사용할 수 있도록 해준다.


지난해 샌프란시스코에서 열린 ‘컨버지드 IT 써밋(Converged IT Summit)’에서 바이오팀(BioTeam)의 설립자인 크리스 댁디지안(Chris Dagdigian)은 다계층 스토리지가 과학 데이터의 미래에 얼마나 많은 영향을 미칠지 언급했다. 그는 퀀텀 고객들이 사용하고 있는 계층화 스토리지 솔루션과 유사한 다계층 스토리지 솔루션에 대해 설명했으며, 그 내용은 다음과 같다.


•  고속 IOPS-센서티브 워크플로를 위한 SSD(5-50TB)

•  ‌액티브 프로젝트 및 스크래치 프로젝트를 위한 고성능 디스크(50-500TB)

• ‌ 온라인 스토리지의 확장을 위한 오브젝트 스토리지(100TB-PBs)

•  가능한 저비용으로 장기 보관할 수 있는 테이프(100TB-PBs)

•  장기 보관을 위한 클라우드


고객은 그들의 워크플로 및 데이터에 대한 니즈를 충족시키기 위해 각각 다른 성능과 비용 속성을 가진 다양한 계층의 스토리지를 구축하고 싶어 한다. 각 조직들이 플래시, 디스크, 오브젝트 스토리지, 테이프, 클라우드를 통합할 수 있도록 해주는 다계층 스토리지 솔루션은 예산 안에서 움직이는 조직에 차별화된 가치를 만들어낸다고 할 수 있다.



5. 상호운영성 및 통합성

마지막으로, 리소스가 효과적으로 할당되어야 하는 환경에서 전면 교체 방식(Rip-and-replace)은 효율이 낮다. 반대로 전면 교체 방식을 채택하지 않는 스토리지 솔루션은 차별화 가치가 높다. 연구팀은 기존 인프라와 애플리케이션을 쉽게 통합할 수 있는 스토리지를 사용함으로써 다양한 이점을 얻을 수 있다.


퀀텀의 다계층 스토리지 인프라는 상호운용성(Intero-perability)을 설계 목표로 하여 개발됐으며, 이 솔루션은 리눅스와 윈도우, 유닉스, MacOS 등의 운영 시스템을 지원한다.


그리고 퀀텀의 스토어넥스트 다계층 스토리지는 FC(Fibre Channel), 이더넷(Ethernet), iSCSI, 인피니밴드(InfiniBand) 등 여러 네트워크 연결 옵션을 지원한다. 그뿐 아니라 NFS, SMB를 포함해 파일 공유 프로토콜 표준을 지원하며, FC와 이더넷에서 빠른 속도를 가능하게 하는 고속 프로토콜을 제공한다. 


고강혁 _ 퀀텀코리아










배너









주요파트너/추천기업