[이근배 교수] Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents

2024-04-02

[연구의 필요성]
LLM과 RLHF와 같은 학습 방식의 등장으로 AI를 활용한 대화 모델은 풍부한 지식을 활용하면서도 사람들이 선호하는 응답을 생성하는 것이 가능해졌습니다. 그러나 대화 모델은 개발 의도와는 다르게 차별적이거나 비속어와 같은 독성(toxic) 발화들을 확률적으로 생성할 수 있다는 위험성이 내재하고 있습니다. 따라서 본 연구에서는 RLHF를 변형시킨 DPO를 활용하여 모델을 학습하되, 직접적으로 독성 발화 생성을 억제하는 학습 방식(Adversarial DPO, ADPO)을 제시했습니다.

[포스텍이 가진 고유의 기술]
먼저 전체 학습 방식은 AI로부터 생성된 피드백으로 대화 모델을 학습하는 RLAIF 방식을 따릅니다. 다만, 처음 모델을 튜닝할 때 대화 데이터와 더불어 독성 대화 데이터를 같이 학습시킵니다. 구체적으로, 독성 대화 데이터를 학습할 때는 독성 토큰을 같이 입력하여 독성 토큰이 보이면 일부러 독성 발화를 생성할 수 있도록 유도합니다. 튜닝이 끝나면 튜닝에 사용되지 않은 대화 데이터를 입력해 모델의 응답을 여러번 생성하도록 하고, off-the-shelf LLM을 통해 생성된 응답들을 바람직한 응답과 바람직하지 않은 응답으로 분류합니다. 추가적으로 독성 토큰을 이용해 독성 응답도 생성하게끔 하여, 한 대화 데이터당 총 3개 (바람직한 응답, 바람직하지 않은 응답, 독성 응답)을 매핑합니다. 데이터 매핑이 완료되면 본 연구에서 제시한 ADPO Loss와 매핑된 데이터를 사용하여 모델을 학습시킵니다. 이 과정에서 모델은 바람직하지 않은 응답보다 바람직한 응답을 자주 생성하도록 훈련되며, 추가적으로 독성 응답보다 바람직한 응답을 더 자주 생성하도록 학습됩니다.

[연구의 의미]
본 연구에서는 대화 모델의 바람직한 응답을 유도하고 독성 발화를 저해하는 학습 방식을 제시했으며, 기존 대화 데이터셋에 더해 독성 대화 데이터셋을 추가적으로 사용함으로써 튜닝에 이은 추가적인 학습으로 인한 모델의 대화 성능 하락을 최소화하였습니다. 실험 결과 독성 발화 빈도수를 크게 줄이면서도 기존 DPO 기법으로 학습하는 것보다 ADPO 기법으로 학습한 모델이 맥락성과 회피성에서 더욱 우수했다는 것을 확인하였습니다.

[연구결과의 진행 상태 및 향후 계획]
독성 발화를 세분화하여 대화 모델의 안전성을 높일 수 있는 방법을 모색할 계획입니다.

[성과와 관련된 실적]
San Kim, Gary Geunbae Lee, NAACL Findings 2024 Accepted

[성과와 관련된 이미지]

최신연구

최신연구

[이근배 교수] Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents