미스트랄 스몰(55점), GPT-4.1(53점), 라마 4 매버릭(51점), GPT-4o(41점)보다 높은 점수 획득
업스테이지가 자체 개발한 차세대 거대언어모델(LLM) ‘솔라 프로 2’가 세계 주요 AI 모델과의 성능 평가에서 한국 기업으로는 유일하게 프런티어 모델로 선정됐다. 독립 AI 평가기관인 ‘아티피셜 애널리시스(Artificial Analysis)’가 발표한 최신 ‘지능 지표(Intelligence Index)’에 기반한 결과다.
지능 지표는 추론, 종합지식, 수학, 코딩 등 7개 대표 벤치마크를 기준으로 다양한 LLM을 평가하는 모델 성능 분석 지표다. 투명하고 객관적인 평가 방식으로 주목받으며, 오픈AI, 메타, 구글 등 주요 빅테크 기업들도 이 지표를 참고해 자사 모델을 검증하는 데 활용하고 있다.
업스테이지의 솔라 프로 2는 이번 평가에서 58점을 기록하며, 미스트랄 스몰(55점), GPT-4.1(53점), 라마 4 매버릭(51점), GPT-4o(41점) 등 글로벌 대표 LLM보다 높은 점수를 획득했다. 중국계 AI 모델인 딥시크 V3(53점)와 문샷 AI의 키미 K2(57.59점)도 모두 제쳤다.
특히 솔라 프로 2는 310억 파라미터 규모의 비교적 소형 모델임에도 불구하고, 1000억에서 최대 1조7000억 파라미터에 달하는 대형 모델들과의 성능 경쟁에서 밀리지 않으며 기술 효율성을 입증했다. 가장 높은 점수를 받은 xAI의 ‘그록-4’가 1조7000억 파라미터임을 감안할 때, 솔라 프로 2의 경량 설계는 주목할 만한 성과로 평가된다.
이번 평가 결과는 국내 기술로 개발된 모델이 글로벌 무대에서 기술력을 인정받았다는 데 의의가 있다. 특히 GPT-4.1은 기업 환경에서 널리 사용되는 범용 모델로, 대부분의 비즈니스 업무에서 안정적인 성능을 보여주고 있다.
이와 비교해 솔라 프로 2는 고난도 추론 능력에서 우위를 보였으며, 비용 대비 성능 효율에서도 클로드 4 소넷, 마지스트랄 스몰 등과 비교해 경쟁력을 인정받았다. 업스테이지는 이번 성과를 바탕으로 1000억 파라미터 규모의 차세대 모델 개발도 추진 중이다. 향후 프런티어 인덱스 최상위권 진입을 목표로, 기술 고도화를 이어갈 방침이다.
김성훈 업스테이지 대표는 “솔라 프로 2는 한국 기술로 만든 파운데이션 모델이 세계 정상급 AI 모델들과 어깨를 나란히 할 수 있음을 보여주는 사례”라며 “앞으로도 자체 기술력을 기반으로 대한민국이 AI 선도국으로 자리매김할 수 있도록 기여하겠다”고 밝혔다.
헬로티 서재창 기자 |