최신연구

[이근배 교수] EXPLORING THE VIABILITY OF SYNTHETIC AUDIO DATA FOR AUDIO-BASED DIALOGUE STATE TRACKING

2023-10-04
  • 1,185

[연구의 필요성]
해당 연구는 목적 지향형 대화 시스템에서 사용자와 시스템 간 대화로부터 관련 정보를 추출하는 중요한 역할을 하는 ‘대화 상태 추적’ (Dialogue State Tracking, DST)에 대한 필요성을 다룹니다. 그러나 이전 연구는 주로 텍스트 기반 자료에 한정되어 있었으며, 이는 실제 인간 음성 데이터의 부족 때문이었습니다. 그러나 아이폰의 SIRI나 삼성의 빅스비처럼, 많은 대화 인터페이스가 음성을 통해 이루어 진다는 점을 통해서, 대화 상태 추적의 연구가 음성 신호를 이용하는 것으로 확장 될 필요성이 있었습니다.

[연구의 의미]
이 연구는 실제 사람의 목소리가 부족한 환경에서 합성 음성 데이터가 이를 대체 할 수 있는지 활용 가능성을 탐구합니다. 우리는 합성 음성 데이터를 사용하여 대화 상태 추적 모델을 개발하고, 이를 cascading (단계적) 및 end-to-end (E2E) 모델로 훈련시킵니다. 그리고 이러한 모델을 실제 인간 음성 데이터에서 테스트하여 신뢰성을 검증하였습니다. 또한 연구를 통해 음성 모드에 맞는 종합적인 평가를 수행할 수 있도록 ‘PhonemeF1 지표’를 소개하였습니다.
연구 결과 합성 데이터를 사용해도 실제 사람의 목소리에 적용할 수 있는 가능성을 보여주는 결과를 얻었습니다. (아래 표)

[연구결과의 진행 상태 및 향후 계획]
해당 연구에서 생성된 데이터와 베이스라인 모델을 인터넷에 공개하여, 많은 연구자들이 사용할 수 있도록 하였습니다.

[성과와 관련된 실적]
Jihyun Lee, Yejin Jeon, Wonjun Lee, Yunsu Kim, Gary Geunbae Lee. “EXPLORING THE VIABILITY OF SYNTHETIC AUDIO DATA FOR AUDIO-BASED DIALOGUE STATE TRACKING” ASRU 2023  accept.

[성과와 관련된 이미지]

목록