AI 올거나이즈, 올인원 벤치마크로 LLM 에이전트 성능 평가한다
LLM 에이전트 성능을 종합적으로 평가해 올거나이즈는 국내 최초로 LLM의 에이전트 역량을 평가하는 ‘올인원 벤치마크(All-in-One Benchmark)’를 공개한다고 3일 밝혔다. 문제 해결을 위해 자율적으로 행동하는 에이전트의 중요성이 커짐에 따라 지난해 공개한 ‘금융 전문 LLM 리더보드’에서 한 발 나아가 새로운 LLM 평가 플랫폼을 제시한 것이다. 올인원 벤치마크는 LLM의 에이전트 성능을 종합적으로 평가하는 플랫폼으로, 수요 기업은 이를 통해 에이전트 역할을 수행하기에 가장 적합한 LLM을 선택한다. LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식뿐 아니라 문제 해결을 위한 툴을 선택 및 활용할 수 있는 능력, 대화의 맥락 이해, 수집된 정보 활용 등 다양한 능력이 요구된다. 공개된 벤치마크를 활용해 LLM을 다각도로 분석하며, 평가 결과를 한눈에 볼 수 있도록 대시보드 형태로 제공한다. 사용자는 플랫폼 내에서 올거나이즈의 자체 소형언어모델(sLLM)을 비롯한 ‘챗GPT’, ‘엑사원’, ‘큐원’, ‘딥시크’ 등 12개의 LLM의 평가 결과를 확인할 수 있다. 에이전트 성능을 종합적으로 평가하는 데는 세 가지 벤치마크가 활용된다. 다양