최신연구
[이근배 교수] Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models
- 등록일2026.05.20
- 조회수329
-

교수이근배
[연구의 필요성]
대규모 언어모델(LLM)은 instruction tuning을 통해 높은 성능을 보이지만, 학습 데이터에 소량의 trigger–behavior pair가 삽입되는 backdoor attack에 취약하다. 이러한 공격은 정상 입력에서는 드러나지 않아 탐지와 방어가 어렵다. 특히 기존 방어 기법은 분류 모델 중심이거나 공격자의 트리거 및 악성 행동에 대한 사전 지식을 요구하는 경우가 많아, 생성형 instruction-tuned LLM에 적용하기에 한계가 있다. 따라서 공격 패턴을 미리 알지 못해도 다양한 backdoor threat를 효과적으로 완화할 수 있는 일반적이고 데이터 효율적인 방어 기술이 필요하다.
[포스텍이 가진 고유의 기술]
본 연구는 instruction-tuned LLM을 위한 2단계 backdoor 방어 프레임워크 MB-Defense를 제안한다. 첫 단계인 Defensive Poisoning은 방어자가 설계한 소수의 defensive trigger를 주입해 공격자와 방어자 trigger가 하나의 공통 backdoor representation으로 수렴하도록 유도한다. 두 번째 단계인 Backdoor Neutralization은 소량의 clean sample만으로 trigger가 포함된 입력에서도 정상 응답을 생성하도록 모델을 재학습시킨다. 이 방법은 공격자의 구체적인 trigger나 target behavior를 알 필요가 없으며, 적은 clean data로도 효과적인 방어가 가능하다. 또한 shared subspace 형성, poisoned attention head 감소, 모델 규모별 취약성 차이 등을 분석해 backdoor 메커니즘까지 해석했다.
[연구의 의미]
본 연구는 생성형 LLM의 backdoor defense를 본격적으로 다루며, 단순 탐지나 정제를 넘어 backdoor representation 자체를 형성한 뒤 이를 붕괴시키는 새로운 방어 관점을 제시한다. 실험 결과 MB-Defense는 다양한 공격 환경에서 attack success rate를 크게 낮추면서도 instruction-following 성능을 안정적으로 유지했다. 이는 실제 서비스 환경에서 instruction-tuned LLM의 안전성과 신뢰성을 높이는 데 기여할 수 있으며, 향후 안전한 LLM 학습 및 방어 기술 개발의 중요한 기반이 된다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 ACL 2026 main conference에 채택되어 발표 예정이다. 향후에는 보다 정교하고 자연스러운 defensive trigger를 설계하고, 복수의 공격자와 복수 trigger가 존재하는 현실적 환경으로 방어 프레임워크를 확장할 계획이다. 또한 다양한 생성형 모델과 실제 서비스형 LLM에 적용 가능한 범용 backdoor defense 기술로 발전시키고자 한다.
[성과와 관련된 실적]
San Kim, Gary Geunbae Lee, Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models, ACL 2026
[성과와 관련된 이미지]




