닫기
배너

OpenAI, 'GPT-5.2' 출시...전문 지식 노동 위한 최적화 AI 모델 공개

URL복사

 

OpenAI가 GPT-5.2를 출시하며 전문 지식 노동과 과학 연구를 위한 차세대 AI 모델을 공개했다. GPT-5.2는 여러 단계의 복잡한 작업을 장시간에 걸쳐 스스로 수행하는 에이전트를 지원하는 데 초점을 맞춘 모델로 OpenAI가 선보인 모델 가운데 전문 업무 수행 역량이 가장 강력하다는 평가를 받는다.

 

GPT-5.2는 스프레드시트 작성, 프레젠테이션 구성, 코드 작성, 이미지 인식, 긴 컨텍스트 이해, 도구 활용, 복잡한 다단계 프로젝트 수행 전반에서 기존 모델 대비 성능이 향상됐다. OpenAI의 기존 분석에 따르면 기업에 배포된 ChatGPT 엔터프라이즈 사용자는 평균 40~60분의 업무 시간을 절약하고 있으며 헤비 유저의 경우 주당 10시간 이상을 줄이고 있는 것으로 나타났다. OpenAI는 GPT-5.2 도입으로 이러한 생산성 효과가 더욱 확대될 것으로 보고 있다.

 

성능 지표에서도 GPT-5.2는 새로운 최고 성능을 기록했다. GPT-5.2 씽킹은 GDP에 기여도가 높은 44개 핵심 지식 노동 영역을 평가하는 GDPval 벤치마크에서 70.9%를 기록했다. 이는 GPT-5 계열 이전 지표 대비 큰 폭의 향상이다. GDPval 과제에서 GPT-5.2 씽킹은 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 결과를 생성했으며 한 심사위원은 “출력 품질이 눈에 띄게 도약했으며, 전문 회사가 제작한 것처럼 보인다”고 평가했다.

 

소프트웨어 엔지니어링 역량을 평가하는 SWE-Bench Pro에서도 GPT-5.2 씽킹은 55.6%로 새로운 SOTA를 달성했다. 코드 디버깅, 기능 구현, 대규모 코드베이스 리팩터링, 수정 사항의 엔드투엔드 배포까지 사람의 개입을 최소화한 상태에서 수행할 수 있게 됐다는 설명이다. 초기 테스터들은 특히 3D 요소가 포함된 프런트엔드 UI 구현 등 복잡한 작업에서 성능 향상을 체감했다고 평가했다.

 

신뢰성 측면에서도 개선이 이뤄졌다. GPT-5.2 씽킹은 GPT-5.1 씽킹 대비 환각 비율이 30% 상대적으로 감소했다. OpenAI는 이를 통해 리서치, 글쓰기, 분석, 의사결정 지원 등 일상적인 지식 업무에서 더 신뢰할 수 있는 모델이 됐다고 설명했다. 장문 추론에서도 새로운 SOTA를 달성해 수십만 토큰에 이르는 문서 전반에서 일관성과 정확성을 유지할 수 있으며, 차트 추론과 소프트웨어 인터페이스 이해에서도 오류율을 약 절반 수준으로 줄였다.

 

GPT-5.2 프로와 씽킹은 과학 연구 지원 측면에서도 세계 최고 수준의 모델로 제시됐다. 최근 GPT-5.2 프로를 활용한 연구에서 통계적 학습 이론의 미해결 질문을 탐구하는 과정 중 하나의 증명이 제안됐고 이후 연구자와 외부 전문가 검증을 거친 사례가 소개됐다. OpenAI는 이를 통해 엄격한 인간 감독 아래에서 AI가 수학과 과학 연구를 실질적으로 보조할 수 있음을 보여주는 사례라고 설명했다.

 

안전 측면에서는 민감한 대화 상황에 대한 대응 품질이 강화됐다. 자살이나 자해 신호, 정신 건강 문제, 정서적 의존을 암시하는 프롬프트에 대한 응답에서 바람직하지 않은 결과가 줄어들었으며 18세 미만 사용자의 민감한 콘텐츠 접근을 제한하기 위한 연령 예측 모델의 단계적 적용도 시작됐다.

 

GPT-5.2는 ChatGPT 유료 사용자를 대상으로 순차 출시되며, API에서는 모든 개발자가 즉시 사용할 수 있다. Notion, Box, Shopify, Harvey, Zoom 등은 GPT-5.2 테스트 결과 장기 추론과 도구 호출에서 최고 수준의 성능을 보였다고 평가했으며 Databricks, Hex, Triple Whale은 에이전트형 데이터 과학과 문서 분석에서의 강점을, JetBrains와 Augment Code 등은 인터랙티브 코딩과 코드 리뷰, 버그 탐지에서의 개선을 확인했다고 전했다.

 

헬로티 구서경 기자 |














배너


배너


주요파트너/추천기업