최신연구

[이근배 교수] Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages

2024-10-14
  • 365

[연구의 필요성]
Question Generation(QG)은 QA 데이터셋 보강, 챗봇 시스템 강화, 교육 자료 개발 등 다양한 목적으로 활용된다. 그러나 대부분의 기존 데이터셋이 영어로 구축되어 있어, 다른 언어에서는 데이터가 부족한 실정이다. 이러한 데이터 격차는 다언어 환경에서 QG 시스템을 구축하는 데 있어 큰 걸림돌로 작용한다.

[포스텍이 가진 고유의 기술]
본 연구에서는 목표 언어의 단일 언어 데이터, 번역 데이터, 혹은 라벨링된 QA 데이터 없이도 훈련 가능한 간단하고 효율적인 Cross-lingual Transfer for QG 방법론인 QuIST(Questions by learning Interrogative Structures in Target languages)를 제안한다. 영어 QA 데이터셋만으로 훈련된 소형 언어 모델은 inference 단계에서 목표 언어의 예시 질문을 통해 해당 언어의 의문문 구조를 학습하고 질문을 생성한다. 이 모델은 소수의 목표 언어 질문 예시만을 활용해 다양한 언어에서 GPT-3.5-turbo의 few-shot inference와 유사한 성능을 보인다.

[연구의 의미]
제안된 방법은 대형 언어 모델보다 훨씬 적은 파라미터로 작동하며, 목표 언어에 대한 추가 훈련 없이도 다양한 언어에서 질문 생성 및 QA 작업을 효과적으로 수행한다. 또한, 이 모델이 생성한 합성 데이터는 다언어 QA 모델의 성능을 향상시키는 데 기여할 수 있다.

[연구결과의 진행 상태 및 향후 계획]
현재 해당 방법론이 Single-turn QA 데이터 생성에 효과적임을 확인했으며 이후 다양한 형식의 QA 데이터셋(Multi-hop QA, Conversational QA 등) 생성에 적용해볼 예정이다.

[성과와 관련된 실적]
본 연구는 2024 EMNLP에서 발표될 예정이다.

[성과와 관련된 이미지]

목록