동국대 이우진 교수 연구팀, LLM 안전 취약점 분석 연구 ICLR 2026 채택

기사입력:2026-03-16 16:49:54
(왼쪽부터) 이우진 교수, 정승원 석사과정, 정지우 석사과정, 김현진 석사과정, 이윤석 석사과정. 사진=동국대

(왼쪽부터) 이우진 교수, 정승원 석사과정, 정지우 석사과정, 김현진 석사과정, 이윤석 석사과정. 사진=동국대

이미지 확대보기
[로이슈 전여송 기자] 동국대학교 컴퓨터·AI학부 이우진 교수 연구팀이 거대언어모델의 안전성 취약점을 분석한 연구 논문이 국제 인공지능 학회 ICLR 2026에 채택됐다고 16일 밝혔다.

동국대학교에 따르면 컴퓨터·AI학과 인공지능전공 정승원, 정지우, 김현진, 이윤석 석사과정생과 이우진 교수가 참여한 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’가 오는 4월 개최되는 국제 학회 ICLR 2026(International Conference on Learning Representations)에 채택돼 발표될 예정이다.

이번 연구는 거대언어모델 보안 우회 공격 방식의 구조적 취약점을 분석하는 데 초점을 맞췄다. 기존 연구가 프롬프트 끝부분에 토큰을 추가하는 방식에 집중해 왔다는 점에 주목해, 연구팀은 프롬프트 내부 특정 위치의 취약 지점을 분석했다.

연구팀은 프롬프트 내 취약 지점을 정량화하기 위한 지표인 Vulnerable Slot Score(VSS)를 제시하고, 이를 기반으로 새로운 공격 프레임워크 ‘SlotGCG’를 제안했다.

연구팀에 따르면 해당 방식은 AdvBench 데이터셋과 Llama, Mistral, Vicuna, Qwen 등 공개 거대언어모델을 대상으로 한 실험에서 기존 방법보다 평균 약 14% 높은 성능을 보였으며, 처리 속도는 최대 10배 빠른 것으로 나타났다. 방어 기법이 적용된 환경에서도 기존 방식보다 29% 높은 공격 성공률을 보였다.

이우진 교수 연구팀은 이번 연구가 거대언어모델의 취약성을 분석하고 방어 체계 개선을 위한 기초 자료로 활용될 수 있다고 설명했다.

연구팀 관계자는 “프롬프트 내 위치별 취약성을 정량적으로 분석해 거대언어모델의 안전성 평가와 방어 기술 연구에 활용할 수 있도록 했다”고 말했다.

전여송 로이슈(lawissue) 기자 arrive71@lawissue.co.kr

주식시황 〉

항목 현재가 전일대비
코스피 5,640.48 ▲90.63
코스닥 1,136.94 ▼1.35
코스피200 840.89 ▲14.06

가상화폐 시세 〉

암호화폐 현재가 기준대비
비트코인 109,956,000 ▲409,000
비트코인캐시 701,500 ▲1,500
이더리움 3,448,000 ▲10,000
이더리움클래식 13,110 ▲10
리플 2,256 ▲7
퀀텀 1,410 ▼1
암호화폐 현재가 기준대비
비트코인 110,003,000 ▲534,000
이더리움 3,450,000 ▲13,000
이더리움클래식 13,100 ▲30
메탈 438 ▲3
리스크 207 ▲1
리플 2,256 ▲8
에이다 428 ▲3
스팀 103 ▼1
암호화폐 현재가 기준대비
비트코인 110,000,000 ▲460,000
비트코인캐시 702,500 ▲2,500
이더리움 3,448,000 ▲11,000
이더리움클래식 13,070 ▼10
리플 2,255 ▲7
퀀텀 1,409 0
이오타 98 0
ad