AI 팔로알토, 딥시크 '탈옥' 공격에 취약해…보안 경고 울려
팔로알토 네트웍스 위협 연구 기관 유닛42(Unit42) 조사에 따르면 딥시크의 보안 취약점으로는 ‘탈옥(jailbreaking)’이 꼽히며, 이는 전문 지식이나 경험이 없는 사용자도 악성 콘텐츠를 생성할 수 있다고 밝혔다. 탈옥은 AI 모델에 내장된 가드레일을 우회해 AI가 유해한 콘텐츠를 생성하거나 부적절한 답변 등을 출력하도록 유도하는 행위를 의미한다. 유닛42 연구진은 딥시크가 악성 소프트웨어 생성, 악의적인 스크립팅 등 유해한 콘텐츠를 생성할 가능성을 우려해 세 가지 탈옥 기법으로 취약점을 집중적으로 테스트했다. 이번 연구에는 ‘디셉티브 딜라이트(Deceptive Delight)’, ‘배드 리커트 저지(Bad Likert Judge)’, ‘크레셴도(Crescendo)’ 등 단일 및 다단계 탈옥 기법이 활용됐다. 이에 딥시크 가드레일을 성공적으로 우회해 데이터 탈취 도구 개발, 키로거 생성, 발화 장치 제작과 관련된 유해한 콘텐츠를 만들었다. 유닛42는 연구 과정에서 딥시크가 정교하게 설계된 프롬프트를 단계적으로 입력했을 때 높은 우회 및 탈옥 성공률을 보이면서 보안 취약점이 드러났으며, 이번 연구에 활용된 세 가지 탈옥 기법이 성공적으로 작동한 것은