닫기

일반뉴스

배너

모레, 자체 개발한 한국어 LLM 오픈소스 공개 '이례적 성능'

URL복사

 

Motif, 1020억 개 파라미터 보유한 한국어 LLM으로 높은 한국어 성능 기록

 

모레는 자체 개발한 한국어 LLM(거대언어모델) 파운데이션 모델인 ‘Llama-3-Motif-102B(이하 Motif)'를 허깅페이스에 오픈소스로 공개한다고 3일 밝혔다. 국내 주요 IT 기업 등에서도 초대형 모델을 오픈소스로 공개하는 경우는 극히 드물어 이번 Motif 사례는 이례적이라는 평가다. 

 

모든 분야에서 활용될 수 있는 기초 AI인 한국어 LLM 파운데이션 모델을 누구나 활용할 수 있도록 소스 코드까지 공개하는 것은 국내 AI 산업 발전에 있어 큰 의미를 가진다. 자국어 전문 AI 역량 확보는 소버린 AI의 필수요소이기 때문이다. 

 

모레는 메타가 LLM 라마를 오픈소스로 공개한 이후, 전 세계 AI 생태계가 빠르게 확장된 것과 같이 고성능 한국어 LLM을 오픈소스로 배포해 한국 AI 생태계 성장에 기여한다는 계획이다. 이를 위해 AI 모델 사업 본격 추진을 위한 자회사도 설립할 예정이다. 

 

이번에 모레가 공개한 'Motif'는 기존 출시된 최고 LLM의 한국어 성능을 능가한다. Motif는 1020억 개의 매개변수(파라미터)를 가진 한국어 LLM으로, 한국판 AI 성능 평가 체계인 ‘KMMLU’ 벤치마크에서 글로벌 빅테크 AI 중 최고 수준으로 평가받는 오픈AI의 GPT-4보다 높은 점수를 받았다. Motif는 64.74점으로 최고 수준의 점수를 기록하며 메타나 구글, 네이버의 LLM 보다도 뛰어난 한국어 처리 성능을 입증했다. 

 

Motif의 뛰어난 성능은 토큰 기준으로 1870억 개에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법으로 설명할 수 있다. 웹상에서 수집 가능한 글뿐만 아니라, 공개된 전문 분야 문서(국내 특허 및 연구 보고서 등)를 학습 데이터로 활용했다. 또한 국내 최대 규모의 한국어 정제 데이터를 확보해 학습에 포함시켰다. ‘Motif’는 사전 훈련된 언어모델과 지시사항을 따르는 데 특화된 인스트럭트 모델 2가지 버전의 오픈소스가 공개된다.

 

모레는 이번 한국어 LLM 개발에 앞서 올해 초 영어 LLM도 선보였다. 700억 개의 매개변수를 가진 거대언어모델인 모레의 'MoMo-70B'은 세계 최대 머신러닝 플랫폼 허깅페이스에서 운영하는 ‘오픈 LLM 리더보드’ 평가에서 77.29점이라는 높은 점수를 기록하며 글로벌 1위에 올랐다. 모델 개발 착수에서 1위 달성까지 단 3개월 만에 거둔 성과다. 모레는 이러한 개발 과정에서 얻은 노하우를 바탕으로 더 복잡한 문장을 학습하고, 대화에서 유려한 표현을 만들어내는 'Motif'를 완성할 수 있었다.

 

모레가 이처럼 단기간에 영문과 국문 LLM 분야에서 세계 1위 수준의 두각을 나타낼 수 있었던 것은 AI 모델 개발을 위한 최적의 인프라인 AI 플랫폼 기술을 자체 개발해 보유하고 있기 때문이다. 최고 수준의 LLM을 빠르게 개발하기 위해서는 무엇보다 효율적인 모델 학습 방법을 확보하는 것이 중요한데 모레의 ‘MoAI’ 플랫폼은 고도의 병렬화 처리 기법을 통해 대규모 AI 모델을 효율적으로 개발하고 학습할 수 있도록 돕는다.

 

또한 LLM 개발을 위한 자체 노하우 및 고품질의 한국어 데이터셋 완성, 고유의 필터링 기법 등은 모두 국내 최고 수준의 AI 전문 인력이 뒷받침되었기 때문에 가능한 일이었다. 모레는 순수 국내 기술로 만든 최초의 슈퍼컴퓨터 '천둥' 개발 등 국내에서 슈퍼컴퓨팅 분야를 가장 오래 연구한 서울대 매니코어프로그래밍연구단 출신들이 주축이 되어 창업한 회사다. 2020년 9월 설립된 이래 현재 53명의 석박사급 연구진을 포함해 한국과 베트남에 120여 명의 전문 인력이 함께하고 있다. 

 

모레 조강원 대표는 "독보적인 기술력을 바탕으로 끝없는 실험과 개발 여정을 통해 개발한 고성능 LLM을 누구나 활용할 수 있도록 오픈소스로 공개하는 것은 무엇보다 국내 AI 생태계가 보다 발전적인 방향으로 성장하고, 소버린 AI에 기여하기 위함이다"며, “우리와 같은 국내 AI 산업 발전을 위해 노력하는 스타트업 등 많은 기업이 적극 활용해주면 좋겠다”고 밝혔다. 

 

모레는 향후 우수한 AI 인프라 소프트웨어 기술력을 바탕으로 IP 산업과 같은 창작의 영역을 비롯해 의료, 법률, 금융 등 전문 영역에 특화된 LLM을 개발하고 멀티모달형 모델 개발에 나서는 등 AI 모델 허브를 목표로 사업을 추진한다는 계획이다. 

 

헬로티 서재창 기자 |









배너










주요파트너/추천기업