[이근배/옥정슬 교수] Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning

2024-08-08

1,912

[연구의 필요성]
좋은 요약문을 결정하는 것은 하나의 요소로만 정할 수 있는 것이 아니라, coherence, consistency, fluency, relevance 등 다양한 지표를 포함하여 평가한다. 기존의 연구들은 여러 지표들 중 하나의 지표만을 집중하여 개선하고자 하였지만, 하나의 지표를 개선하는 것이 다른 지표에서의 하락을 동반하기도 했다. 따라서, 본 연구에서는 다방면에서 훌륭한 요약문을 생성하는 multi-dimensional optimization 방법을 제안합니다.

[포스텍이 가진 고유의 기술]
우리는 다방면에서 훌륭한 요약문을 생성하기 위해서 여러 지표들을 optimize하기 위해서 강화 학습을 사용합니다. Unified-evaluator를 통해 4개의 지표를 평가하며, 해당 점수들을 리워드로 사용합니다. MDO 방법으로 2가지를 제안하며 MDOmin은 매 iteration 마다 가장 점수의 지표를 리워드로 사용하여 좋지 않은 지표를 향상 시켜 밸런스를 맞추었고, MDOpro는 각 loss의 gradient를 project하여, implicit한 trade-off 관계를 해소하였다.

[연구의 의미]
본 연구는, 좋은 요약문을 평가하는 여러가지 지표들을 multi-task learning으로 접근하여, 다방면에서 훌륭한 요약문을 생성하기 위해서 2가지의 방법론을 제안한다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 ACL 2024에서 발표될 예정이며, 향후 Large Language Model 로의 확장을 계획 중에 있습니다.

[성과와 관련된 실적]
Sangwon Ryu*, Heejin Do*, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok, “Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning”, ACL 2024

[성과와 관련된 이미지]

최신연구

최신연구

[이근배/옥정슬 교수] Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning