최신연구

[이근배 교수] 응답 교정을 이용한 대화형 질의 응답 데이터셋 생성

2023-02-14
  • 795

[연구의 필요성]
대화형 질의응답은 주어진 지문을 기반으로 이루어지는 대화 형식의 질의응답으로, 질문자는 간결한 형태의 후속 질문들을 통해 주제에 대해 더 깊이 이해할 수 있다. 이러한 특성으로 인해 대화형 질의응답은 가상 비서 시스템과 사용자 고객 응대 시스템 등 다양한 시스템에 적용될 수 있다. 하지만 특정한 도메인를 위한 대화형 질의응답 시스템을 개발하기 위해서는 대용량의 훈련 데이터가 필요하며, 이러한 훈련 데이터를 사람이 직접 구축하는 것은 많은 시간과 비용이 소요된다.

[포스텍이 가진 고유의 기술]
본 기술은 대용량 텍스트로부터 대화형 질의-응답 쌍을 자동으로 생성한다. 이전까지 생성된 일련의 질의응답 내용을 고려하여 텍스트로부터 다음으로 사용자가 관심을 가질만한 구문을 추출하는 Contextual Answer Extraction(CAE) 모듈과 추출된 구문을 응답으로 하는 질문을 생성하는 Conversational Question Generation(CQG) 모듈이 연속적으로 질의-응답 시퀀스를 생성한다. 본 연구진은 CAE 모듈로부터 부적절한 응답 구문이 생성될 경우 CQG 모듈에서 질문을 생성함과 동시에 질문과 어울리는 응답으로 교정하는 Answer Revision 기술을 개발했다.

[연구의 의미]
기존 연구들은 텍스트와 적절한 응답 후보군이 주어졌을 때 자연스러운 대화형 질의를 생성하는데 초점을 맞추었다. 하지만 이는 적절한 응답 후보군이 주어지지 않는 실제 데이터 생성에 활용하기 적절하지 않다는 한계가 있었다. 본 기술은 다양한 산업체에서 자체적인 대화형 질의응답 시스템 구축을 위한 훈련 데이터 생성에 효과적으로 활용될 수 있다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 합성 대화형 질의응답 데이터의 품질을 향상시키기 위한 Answer Revision 방법론과 이를 위한 데이터 샘플링 방식을 최초로 제안하여 2021년 자연어처리 분야 우수 국제학술대회인 COLING에서 소개되었다. 이후로도 사람이 구축한 데이터와 유사한 품질의 질의응답 생성과 난이도 조절이 가능한 질의 생성 방법론에 대한 연구를 수행하고 있다.

[성과와 관련되 실적물]
Hwang, Seonjeong, and Gary Geunbae Lee. “Conversational QA Dataset Generation with Answer Revision.” Proceedings of the 29th International Conference on Computational Linguistics. 2022.

[성과와 관련된 이미지]

그림 1. CQG-AR 모듈의 응답 교정 유형 통계자료.


그림 2. CoQA 데이터셋에 기반하여 CQAG-AR을 활용해 생성한 질의-응답 샘플. 교정 전 Answer Span은 노란색으로 표기하였다.

 

목록