배너
닫기

일반뉴스

배너

클라우드플레어, AI 추론 플랫폼 ‘워커스 AI’ 성능 개선

URL복사

 

클라우드플레어가 서버리스 AI 추론 플랫폼인 ‘워커스 AI(Workers AI)’와 AI 애플리케이션 구축을 위한 여러 도구에 신규 기능을 도입했다고 30일 밝혔다. 이를 통해 개발자가 더욱 빠르고 향상된 성능의 AI 애플리케이션을 손쉽게 구축할 수 있도록 지원한다.

 

워커스 AI는 전 세계 어디에서나 사용자와 가까운 곳에서 AI 추론을 실행하고 글로벌 AI 애플리케이션을 구축할 수 있는 플랫폼이다. 이번 도입으로 워커스 AI에 구축된 애플리케이션은 추론 속도 향상, 대형 모델에 대한 지원, 성능 분석 등의 혜택을 누릴 수 있게 된다.

 

대형언어모델(LLM)의 규모가 점점 작아지고 성능은 향상됨에 따라 네트워크 속도가 고객의 채택과 원활한 AI 상호 작용에 장애물이 될 것으로 예상된다. 클라우드플레어의 글로벌 분산 네트워크는 네트워크 지연 시간을 최소화해 일반적으로 제한된 데이터센터에 집중돼 있는 자원으로 구성된 다른 네트워크와 차별화된다.

 

클라우드플레어의 서버리스 추론 플랫폼인 워커스 AI는 현재 전 세계 180여 개의 도시에 GPU를 배치해 전 세계 엔드유저에게 짧은 대기 시간을 제공하도록 설계됐다. 워커스 AI는 이러한 GPU 네트워크를 통해 모든 AI 플랫폼 중 가장 넓은 글로벌 범위를 갖추고 있으며 사용자와 최대한 가까운 지역에서 AI 추론을 실행하고 고객 데이터를 보관할 수 있도록 지원한다.

 

매튜 프린스 클라우드플레어 CEO 겸 공동 창업자는 “AI 워크로드가 학습에서 추론으로 전환됨에 따라 다음 단계의 AI를 지원하기 위해서는 성능과 지역별 가용성이 매우 중요하다”며 “클라우드플레어는 시장에서 가장 글로벌한 AI 플랫폼을 갖추고 있고 전 세계 여러 도시에 배치된 GPU를 활용하면 스마트폰에 빠른 인터넷을 도입했던 것처럼 AI를 신기술에서 우리의 일상으로 받아들일 수 있을 것”이라고 전했다.

 

클라우드플레어는 더 강력한 워커스 AI 용 GPU를 도입해 글로벌 네트워크를 강화해 AI 추론 성능을 업그레이드했다. ‘라마(Llama) 3.1 70B’와 같이 훨씬 큰 모델 뿐만 아니라 ‘Llama 3.2’ 모델의 1B, 3B, 11B(추후 90B 예정)에서도 추론을 실행할 수 있도록 지원한다.

 

워커스 AI에 구축된 AI 애플리케이션은 지원하는 모델 규모를 늘리고 대응 시간을 줄이며 컨텍스트 윈도우를 확장해 복잡한 작업을 효율적으로 처리한다. 이로써 자연스럽고 원활한 최종 사용자 경험을 제공한다.

 

개발자는 오픈 베타에서 사용 가능한 ‘AI 게이트웨이(AI Gateway)’의 새로운 영구 로그 기능으로 인해 사용자의 프롬프트와 모델 응답을 장기간 저장하고 애플리케이션의 성능을 더 잘 분석하고 이해할 수 있다. 또한 영구 로그를 통해 비용과 요청 기간 등 사용자 경험에서 자세한 인사이트를 확보해 애플리케이션을 개선할 수 있다. 실제로 작년 출시 이후 AI 게이트웨이는 20억 건 이상의 요청을 수행했다.

 

이밖에도 벡터 데이터베이스는 모델이 이전 입력을 더 쉽게 기억할 수 있도록 해 머신 러닝(ML)을 검색, 추천 및 텍스트 생성 사용 사례에 활용할 수 있도록 한다. 클라우드플레어의 벡터 데이터베이스인 ‘벡터라이즈(Vectorize)’는 정식 출시(GA) 됐으며, 올해 8월 부터는 각각 최대 500만 개의 벡터 인덱스를 지원하고 있다.

 

쿼리 대기 시간 중앙값은 549밀리초에서 31밀리초로 감소했다. 이러한 개선 사항은 AI 애플리케이션이 적은 데이터 처리로 관련 정보를 빠르게 찾도록 도와주며 AI 애플리케이션의 비용 또한 절감한다.

 

헬로티 이창현 기자 |









배너










주요파트너/추천기업