상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포
에임인텔리전스가 컴퓨터 사용 에이전트의 보안 취약성을 실증한 연구를 발표했다. 연구는 오픈AI의 GPT Operator, 앤트로픽의 Claude, 구글의 Gemini 등 실제 사용 중인 AI 기반 컴퓨터 사용 에이전트를 대상으로 진행됐다. 연구 결과 해당 AI가 악성 명령을 우회적으로 수용하고 실행하는 취약성이 확인됐다. 연구진은 이를 위해 'SUDO(Screen-based Universal Detox2Tox Offense)' 프레임워크를 개발했다. 이 프레임워크는 AI의 안전 정책을 우회해 악성 행동을 유도하는 구조다. 무해한 표현으로 요청을 변환한 뒤 Vision-Language 모델을 통해 실행 단계를 생성하게 하고, 마지막 순간에 악성 요청으로 되돌리는 '톡시파이(toxify)' 과정을 거친다. AI가 거절할 경우, 거절 사유를 분석해 공격 방식을 수정하며 반복 시도했다. 초기 시도 성공률은 24%, 전략 수정 시 최대 41%까지 증가했다. 에임인텔리전스는 본 실험에서 50가지 악성 시나리오를 구성해 검증을 진행했다. 사용자 폴더 삭제, 외모에 대한 욕설, 위험 물질 구매, 도박 사이트 배팅 등 현실적인 위협 사례가 포함됐다. 연구는 개인정보 유출,