팔로알토, 딥시크 '탈옥' 공격에 취약해…보안 경고 울려

2025.02.18 13:59:44

[무료 초대] PoE 이해와 실전 적용: PSE/PD/Midspan 설계 가이드 (3/24)

팔로알토 네트웍스 위협 연구 기관 유닛42(Unit42) 조사에 따르면 딥시크의 보안 취약점으로는 ‘탈옥(jailbreaking)’이 꼽히며, 이는 전문 지식이나 경험이 없는 사용자도 악성 콘텐츠를 생성할 수 있다고 밝혔다. 탈옥은 AI 모델에 내장된 가드레일을 우회해 AI가 유해한 콘텐츠를 생성하거나 부적절한 답변 등을 출력하도록 유도하는 행위를 의미한다.

유닛42 연구진은 딥시크가 악성 소프트웨어 생성, 악의적인 스크립팅 등 유해한 콘텐츠를 생성할 가능성을 우려해 세 가지 탈옥 기법으로 취약점을 집중적으로 테스트했다. 이번 연구에는 ‘디셉티브 딜라이트(Deceptive Delight)’, ‘배드 리커트 저지(Bad Likert Judge)’, ‘크레셴도(Crescendo)’ 등 단일 및 다단계 탈옥 기법이 활용됐다. 이에 딥시크 가드레일을 성공적으로 우회해 데이터 탈취 도구 개발, 키로거 생성, 발화 장치 제작과 관련된 유해한 콘텐츠를 만들었다.

유닛42는 연구 과정에서 딥시크가 정교하게 설계된 프롬프트를 단계적으로 입력했을 때 높은 우회 및 탈옥 성공률을 보이면서 보안 취약점이 드러났으며, 이번 연구에 활용된 세 가지 탈옥 기법이 성공적으로 작동한 것은 아직 발견되지 않은 다른 새로운 탈옥 기법이 있을 수 있음을 시사한다고 경고했다.

팔로알토 네트웍스는 이번 결과를 ‘사이버위협연합(CTA, Cyber Threat Alliance)’ 회원사와 공유했다. 향후에도 기업이 신속한 보안 조치를 적용하고 사이버 범죄 피해를 체계적으로 방지하도록 지원할 예정이다.

필리파 콕스웰 팔로알토 네트웍스 유닛42 JAPAC 부사장은 “이번 딥시크를 대상으로 연구를 진행한 결과, LLM이 의도한 대로 작동한다고 신뢰할 수 없고 조작 가능하다는 사실을 확인했다”며 “기업은 오픈소스 LLM을 비즈니스 프로세스에 도입할 때 이러한 취약점을 반드시 고려해야 하고, LLM 보호 장치가 무력화될 가능성을 염두에 두고 조직 차원의 보완책을 마련해야 한다”고 말했다.

헬로티 구서경 기자 |

구서경 기자 의 전체기사 보기