국내 파운데이션 모델의 글로벌 경쟁력 제고 위한 전략 수립과 지원 요구돼
초거대 인공지능(AI) GPT 시리즈를 필두로 글로벌 빅테크들의 AI 독점 현상이 심화하면서 이들과 경쟁할 국산 원천 기술 확보가 국내 테크 기업들의 선결 과제로 부상했다.
정부와 대기업, 스타트업, 학계가 힘을 모아 첨단 AI 분야에 투자와 연구 역량을 집중하지 않으면 자칫 국내 정보 산업과 플랫폼 업계가 글로벌 빅테크에 종속될 것이라는 우려가 날로 커지는 상황이다.
7일 IT 업계에 따르면, 현재까지 국내에서 초거대 AI 파운데이션 모델 개발에 성공한 기업은 네이버(하이퍼클로바)·카카오(코GPT)·KT(믿음)·SKT(에이닷)·LG(엑사원) 등 5개사다. 파운데이션 모델이란 텍스트, 이미지, 음성, 영상 등으로부터 입력된 내용을 학습하고 새 데이터를 생성할 때 근간이 되는 AI를 의미한다. 자체적으로 파운데이션 모델을 보유한 나라는 한국을 비롯해 미국, 중국, 이스라엘 등 4개국이다.
국내 초거대 AI 개발 분야에서 가장 앞선 회사는 네이버다. 네이버는 2021년 자체 보유한 슈퍼컴퓨터와 네이버 생태계에 있는 데이터를 활용해 초거대 AI '하이퍼클로바'를 개발해 국내 최초로 공개했다. 외부 클라우드가 아닌 국내 기업 최초로 도입한 700PF 성능의 슈퍼컴퓨터를 활용, 대용량 데이터 처리를 위한 인프라를 구축했다.
네이버가 오는 7월에 공개할 '하이퍼클로바X'는 매개변수가 GPT-3(1750억 개)를 넘어서는 2040억 개 규모로 개발됐다. 한국어 데이터 학습량이 GPT-3의 6500배 이상인 점도 강점으로 꼽힌다. 네이버는 올 상반기 내 하이퍼클로바에 AI 챗봇을 탑재한 '서치GPT'를 선보일 예정이다.
카카오도 올해 하반기 자회사인 카카오브레인을 통해 초거대 AI 언어모델인 코GPT의 업그레이드 버전을 출시하고, 이르면 올해 3분기 내 챗GPT에 대응한 AI 챗봇 서비스 '코챗GPT'를 선보일 계획이다. 인재와 자본력, 기술력 측면에서 한국을 대표하는 이들 테크 기업의 거대언어모델(LLM)은 챗GPT를 모방하면서도 한국 특화를 내세우고 있다.
AI 서비스 개발 비용 중에서는 데이터 학습이 높은 비중을 차지하는데, 전 세계 온라인 콘텐츠 가운데 한국어로 작성된 콘텐츠 비중은 0.5% 수준에 불과하다. 네이버 관계자는 "빅테크인 마이크로소프트나 구글과 맞서는 대신 패스트 팔로워로서 한국어 특화 AI 개발에 집중하는 틈새 전략을 수립했다"고 말했다.
SKT의 에이닷의 경우 아예 챗GPT 개발사인 오픈AI의 GPT-3을 기반으로 구축됐다. 이 밖에 국내 정보통신기술(ICT) 벤처·스타트업계는 너도나도 챗GPT에 외부 정보와 서비스를 불러와 사용하는 플러그인 기능을 바탕으로 각종 서비스 출시에 나섰다.
GPT-3.5를 기반으로 한 챗GPT가 처음 등장했을 때만 해도 국내 AI 업계와 당국은 한국에서는 국산 AI 모델이 더 나을 것이라는 분위기였다. 그러나 지난 3월에 출시된 GPT-4의 한국어 실력이 챗GPT 영어 실력을 능가한다는 사실이 공개되면서 분위기가 달라졌다. 오픈AI가 공개한 자료에 따르면, GPT-4의 한국어 정확도는 77.0%로, GPT-3.5의 영어 정확도(70.1%)보다 높다.
하나만 알려줘도 열을 아는 초거대 AI의 학습 방식에 진일보한 기술력이 적용된 결과라는 평가가 나온다. 이를 계기로 한국어는 미국 빅테크 중심의 초거대 AI 경쟁 속에서 국내 업체들이 경쟁력을 갖출 수 있는 보호막이라는 인식이 사실상 깨졌다.
이와 더불어 우리 기업이 초격차를 가진 원천 기술력으로 파운데이션 모델을 보유하지 못하면 해외 AI 기술력에 종속될 우려도 점차 커지고 있다. 오픈AI는 챗GPT의 월 20달러 구독 상품을 출시하며 수익화에 시동을 걸더니 최근에는 챗GPT, GPT 등에 대한 상표권을 출원해 명칭을 무단으로 사용할 수 없게 했다. 그간 비영리 단체를 표방했던 오픈AI의 태도가 이쯤 되면 무색해진 셈이다.
더 큰 문제는 해외 AI에 의존하다 보면 국내 이용자가 생산하는 데이터가 해외 AI 원천기술 기업으로 흡수되거나 종속될 수 있다는 점이다. 김진형 한국과학기술원(KAIST) 명예교수는 "초거대 AI 개발에 천문학적인 비용이 들어가고, 개발의 성공 여부에 불확실성도 크다"며 "핵심은 언어모델인데, 압도적 자본력과 기술력을 바탕으로 규모의 경제를 확보한 글로벌 빅테크와의 경쟁은 쉽지 않다"고 진단했다.
김 교수는 그러면서도 "대학이나 스타트업이 국산 원천 파운데이션 모델과 기술을 개발하도록 정부가 투자와 경쟁력 확보에 소홀해서는 안 된다"고 강조했다. 김명주 서울여대 정보보호학과 교수(바른AI연구센터장)는 "국내 파운데이션 모델의 글로벌 경쟁력 제고를 위한 전략 수립과 지원이 필요하다"며 "챗GPT와 후발 경쟁할 것이 아니라 우리나라 고유의 글로벌 우위 전략을 세워야 한다"고 제언했다.
국내에서 자본력은 상대적으로 부족하지만, 높은 인재 밀도와 글로벌 경쟁력을 통한 AI 원천 기술 확보로 빅테크와 경쟁하는 스타트업도 있다. AI 영상 검색 기술을 바탕으로 2021년 초에 설립된 AI 스타트업 트웰브랩스가 대표적인 사례로 꼽힌다.
트웰브랩스가 개발한 '영상 이해 AI'는 영상 데이터베이스에서 검색어를 입력하면 특정 구간까지 구체화한 검색 결과를 제시해준다. AI가 영상 속 음성어, 시각 정보, 등장인물, 문자 등을 이해하기 때문에 장면 설명, 긴 대화 속 맥락까지도 검색하면 AI가 맞는 구간을 찾아낸다.
텍스트와 이미지를 넘어 동영상이 기반인 시대에 검색 기술은 아직 없다는 사실에 착안해 개발한 기술로, 업계에서는 트웰브랩스를 '영상계의 오픈AI'로 비유하기도 한다. 챗GPT가 텍스트와 이미지 데이터만을 이해하고 이를 기반으로 결과를 생성한다면 트웰브랩스가 개발 중인 AI 모델은 훨씬 더 복잡하고 역동적인 데이터라고 할 수 있는 영상까지 함께 이해해 검색, 분류, 요약 등의 작업을 수행한다는 점에서 차별화된다.
AI 분야 석학이자 '딥러닝의 대모'라고도 불리는 페이페이 리 스탠퍼드대 교수, 챗GPT의 원천 기술인 트랜스포머 기술의 공동 개발자이자 '구글 브레인' 출신의 에이단 고메즈 등이 이 회사에 엔젤투자자나 자문역으로 참여하고 있다.
특히 모델 개발을 위한 AI 학습 컴퓨팅 자원 확보 차원에서 오라클과 대규모 클라우드 파트너십을 맺었고, AI 학습을 위한 수천 개의 최신 엔비디아 그래픽처리장치(GPU)를 확보해 초거대 모델 고도화에 필요한 비용을 충당했다. 실리콘밸리의 벤처캐피탈(VC) 큰 손들로부터 약 220억 원의 초기자금을 투자받았으며 최근에는 미 경제 전문매체 패스트컴퍼니, 세계경제포럼(WEF) 등이 혁신기업으로 선정하기도 했다.
정진우 트웰브랩스 최고운영책임자(COO)는 "현재 영상 AI 모델에 대한 대규모 상용화를 앞두고 있다"며 "세계적으로 개발자들과 기업들이 해당 모델을 시험 중으로, 기술을 더 고도화해 초격차 기술을 확보하고자 노력하고 있다"고 소개했다.
지난달 정부가 처음으로 내놓은 초거대 AI 경쟁력 강화 방안은 대기업 위주의 '한국어 기반 전문 AI 육성'에 방점이 찍힌 가운데, 한국이 글로벌 주도권 경쟁에서 낙오하지 않기 위해서는 정부가 장기적이고 전향적인 안목으로 국산 파운데이션 모델 개발에 나서야 한다는 지적도 나온다.
AI 스타트업 업계의 한 관계자는 "초거대 AI 고도화 전략은 GPU와 같은 컴퓨팅 인프라와 학습용 데이터를 어떻게 확보할 것이냐의 문제로 귀결된다"며 "대기업과 스타트업이 함께 생태계를 조성하도록 정부가 정책을 정교화할 필요가 있다"고 말했다.
헬로티 서재창 기자 |