최신연구
[이근배 교수] Acoustic Feature Mixup for Balanced Multi-aspect Pronunciation Assessment
[연구의 필요성]
자동 발음 평가 (Automatic Pronunciation Assessment)는 비원어민 학습자의 발화를 자동으로 평가하는 기술로, 최근에는 정확도뿐만 아니라 완성도, 강세 등 다측면을 평가하여 풍부한 피드백을 제공하는 Multi-aspect assessment에 대한 관심이 높아지고 있다. 하지만, 비원어민 학습자의 발화 데이터에 대해 다측면 점수 레이블을 확보하는 것은 고비용과 전문성을 요하며, 매겨진 레이블은 대부분 심각한 점수 불균형을 내포하고 있다. 본 연구에서는 데이터 희소성과 점수 레이블 불균형 문제를 해결하기 위한 두 가지 Acoustic Feature Mixup 전략을 제안한다.
[포스텍이 가진 고유의 기술]
본 연구에서는 선형 보간을 사용하여 고정된 비율로 Acoustic Feautre들을 혼합 (Mixup) 하는 static AM과, 비선형 보간을 사용하여 보다 정교하게 feature들을 혼합하는 dynamic AM을 제안한다. 두 쌍에만 혼합 정책이 적용되는 기존 Mixup 방식들과 달리, 제안된 두 가지 AM 기법은 배치 내 평균값을 정책에 포함시킴으로써 전체 배치를 고려하도록 한다. 추가적으로, 자동 음성 인식 결과와 원본 정답 음소를 비교하여 세밀한 오류율 특징들을 통합함으로써 발음 오류에 대한 직접적인 힌트를 모델에 제공한다.
[연구의 의미]
본 연구에서 제안된 Acoustic Feature Mixup 기법을 통해 기존 데이터의 점수 분포를 이동시켜 결핍된 점수로의 분포 이동을 유도함으로써 다측면 점수 예측을 위한 균형 잡힌 학습을 가능케한다. 이로 인해 다측면에 대한 모델의 전반적인 점수 예측 성능이 향상되고, 특히 점수 불균형이 심한 측면에서의 평가 성능이 크게 향상됨을 보였다. 본 연구는 기존에 발음 평가에서 적용된 적 없던 Mixup 기법이 Acoustic feature와 점수에 효과적으로 적용되는 것이 균형 잡힌 학습에 도움 줄 수 있음을 보여준다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 Interspeech 2024 학회에서 구두 발표될 예정이다. 향후 자동 발음 평가에서의 점수 불균형 해소를 위한 학습 방법론을 확장시킬 계획이다.
[성과와 관련된 실적]
Heejin Do, Wonjun Lee, Gary Geunbae Lee, “Acoustic Feature Mixup for Balanced Multi-aspect Pronunciation Assessment”, Interspeech 2024
[성과와 관련된 이미지]