경쟁력 강화 위해 고성능 컴퓨팅 자원, 대규모 데이터, AI 개발 플랫폼 강조
AI 챗봇 '챗GPT'가 대중을 사로잡은 비결은 '사람에 더 가깝다'와 작문뿐 아니라 코딩, 작곡 등도 척척 해내는 '재주꾼'이라는 것으로 요약된다.
기존 AI 대화 서비스가 기계와 이야기하는 느낌을 어쩔 수 없이 줬다면 챗GPT는 상대 의도를 이해하고 실수를 인정하며 오류를 수정하는 등 더 인격체에 가까운 상호작용을 제공해 세계 이용자를 빨아들이고 있다는 게 업계 분석이다. 또한, 보고서·논문 작성, 코딩, 작곡, 그림 등 사람이 긴 시간과 노력을 들여 수행하던 업무를 단시간 안에 대행해주는 효용을 제공하는 것도 인기 원인이다.
챗GPT가 선보인 유능함의 비결은 대규모 데이터의 병렬처리를 의미하는 '트랜스포머' 기반 알고리즘에 있다. 트랜스포머 기반 AI 개발로 문자나 영상 등 방대한 정보를 인간처럼 포괄적으로 학습·이해하고, 새로운 정보도 생성하는 지능을 갖춘 것이다.
챗GPT(GPT-3.5) AI 모델의 성능 수준인 매개변수는 공개되지 않았지만 전 모델인 GPT-3는 매개변수가 1750억 개에 달했다. 연내 공개가 예상되는 다음 모델 GPT-4의 매개변수는 1조∼100조 개로 많이 증가할 것으로 예측된다.
마이크로소프트와 엔비디아가 공동 개발하는 초거대 AI 'MT-NLG'가 5300억 개, 구글의 '스위치 트랜스포머'와 베이징인공지능연구소의 우다오2.0이 각각 1조, 7500억 개 매개변수를 기록, 이미 글로벌 시장에서 조 단위 매개변수 경쟁은 현실화했다.
매개변수 개수가 AI 능력을 판단하는 최종 척도는 아니지만, 성능을 가늠하는 기준으로는 아직 유용하다는 게 업계 분석이다. 우리나라 인공지능 산업의 매개변수 규모는 최근 천억 대로 올라섰지만, 해외 빅테크처럼 조 단위를 바라보는 수준에는 아직 닿지 못하고 있다.
네이버가 개발한 '하이퍼클로바'의 매개변수는 2040억 개로 GPT-3 수준을 갓 넘어섰다. KT는 대규모 AI 연산 인프라를 구축해 매개변수 2000억 이상 모델을 내놓겠다는 계획을 내놨다. 매개변수 규모도 아직 글로벌 선도업체 수준에 미치지 못하는 데다 '챗GPT 열풍'으로 대변되는 획기적인 서비스를 출시, 대중의 이목을 집중시킨 업체도 아직 뚜렷하지 않은 형편이다.
과학기술정보통신부는 최근 제2차 국가데이터정책위원회 회의에서 "초거대 AI 개발·운영에 필수적인 막대한 컴퓨팅 자원, 자본력은 새로운 진입 장벽으로 작용하면서 빅테크 중심의 경쟁 구도가 형성되고 있다"고 분석했다.
이들 글로벌 빅테크는 아마존의 '세이지메이커', 마이크로소프트의 '파이프라인' 등 AI 모델을 개발하는 자동화 툴까지 개발하고 있는데 이는 AI 개발 시장의 지배력을 유지하려는 '가두리 전략'으로 풀이된다.
정부는 우리가 AI 모델 개발을 선도하기 위해서는 AI 반도체로 구축한 고성능 컴퓨팅 자원, 대규모 데이터, AI 개발 플랫폼으로 구성된 3대 요소를 갖춰야 한다고 보고, 데이터 개방과 초고속·저전력 AI 반도체 선도 기술 육성 등에 관한 지원책을 발표했다.
이준환 서울대 언론정보학과 교수는 31일 연합뉴스와 통화에서 "GPT는 워낙 많은 데이터를 학습해 챗GPT 같은 결과물을 냈는데 국내 사정은 AI 개발을 위한 분석 대상 데이터가 절대적으로 부족하다"며 "학습용 데이터가 많아져야 매개변수 개수도 확대되면서 AI 기술 발전이 일어날 수 있다"고 지적했다.
이 교수는 "지금의 AI 발전 양상은 개별 연구소나 학교가 시도할 수 있는 수준을 넘어서고 있다"면서 "국가와 기업이 협력해 하드웨어를 구축하고 AI 학습용 데이터를 투여하는 데 정책과 예산 지원을 아끼지 말아야 한다"고 제언했다.
헬로티 서재창 기자 |