콕스웨이브가 대화형 AI 모델의 ‘긴 맥락(Long-context)’ 처리 과정에서 발생하는 보안 취약점을 규명한 연구 논문으로 국제자연어처리학회(ACL) 2025 메인 컨퍼런스에 채택됐다. 해당 논문은 윤리·편향성·공정성(Ethics, Bias, and Fairness) 트랙에 선정되며, 빠르게 진화하는 생성형 AI 기술의 이면을 드러낸 점에서 학계와 업계의 주목을 받고 있다. 이번 연구는 KAIST 김재철 AI 대학원의 이기민 교수와의 협업으로 진행됐다. 이 교수는 구글 리서치 출신으로, ICML, NeurIPS, ICLR 등 주요 학술대회에 다수의 AI 안전성 관련 논문을 발표한 바 있으며, 지난해 콕스웨이브 어드바이저로 합류해 산학 협력에 참여하고 있다. 논문은 최근 LLM 분야에서 핵심 기술로 떠오른 ‘맥락 길이 확장’이, 기대와 달리 보안적 측면에서 새로운 리스크를 동반할 수 있음을 입증했다. 연구팀은 최대 128,000개 토큰까지 확장 가능한 모델 환경에서 실험을 진행한 결과, 반복되거나 무작위로 구성된 텍스트 입력만으로도 모델의 안전장치를 무력화할 수 있는 ‘다중샷 탈옥(Many-Shot Jailbreaking)’ 현상을 확인했다. 이는 대화의
상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포