AI 고해상도 VLM 병목 해소...노타 ERGO, ICLR서 기술력 입증
노타는 비전 언어 모델(Vision-Language Models, VLM)의 고해상도 이미지 처리 효율을 크게 높인 연구 성과가 세계 최고 권위의 인공지능 학회인 ICLR 2026에 채택됐다고 밝혔다. ICLR은 구글과 메타 등 글로벌 빅테크 기업들이 주력 연구 성과를 발표하는 AI 분야 최정상급 학회로, 올해는 논문 채택률이 약 28%에 그칠 만큼 엄격한 심사가 이뤄졌다. 노타는 이번 채택을 통해 자사의 AI 경량화 및 최적화 연구 역량이 글로벌 표준 수준에서 검증됐다고 설명했다. 이번 연구의 핵심인 ERGO(Efficient Reasoning & Guided Observation) 모델은 고해상도 이미지 처리 과정에서 발생하는 막대한 연산 비용 문제를 해결하는 데 초점을 맞췄다. 기존 VLM이 전체 이미지를 일괄적으로 처리하는 방식에 의존해 연산 부담이 컸던 반면, ERGO는 멀티모달 문맥을 활용해 분석이 필요한 영역을 선별적으로 판단하는 ‘추론 기반 지각(Reasoning-driven Perception)’ 방식을 적용했다. ERGO는 2단계 Coarse-to-Fine 파이프라인 구조로 동작한다. 먼저 저해상도 이미지로 전체 맥락을 파악한 뒤,