[이근배 교수] Hierarchical Pronunciation Assessment with Multi-aspect Attention

2023-05-08

[연구의 필요성]
발음 자동 평가 (Automatic Pronunciation Assessment) 기술은 제 2 외국어 학습자의 언어 학습을 지원하기 위한 컴퓨터 기반 발음 훈련 시스템 (CAPT)의 핵심 요소이다. 대부분의 발음 자동 평가 시스템은 음소 단위의 발음 정확도 점수만 자동으로 평가하도록 개발되어 왔다. 하지만, 학습자에게 발음에 대한 세분화된 피드백을 제공하기 위해서는 음소, 단어, 발화 등 음성의 여러 단위에 대하여 정확성, 유창성, 완전성 등 다양한 평가 측면을 채점 하는 것이 요구된다. 필요에 부응하며, 단일 모델로 여러 단위의 다중 평가 측면 점수들을 예측하는 다중 단위 (Multi-granularity) 다중 측면 (Multi-aspect) 발음 평가 모델이 최근 개발되었다. 해당 시스템은 트랜스포머 (Transformer) 모델을 기반으로 하며 병렬 구조로 모든 단위의 모든 평가 측면 점수들을 동시에 예측한다. 이러한 병렬 시스템은 언어 단위와 관계없이 동시에 모든 평가 측면 벡터들을 인코딩하기 때문에, 음소, 단어, 및 발화로 구성된 발음의 언어적 계층 구조를 효과적으로 포착하지 못한다. 또한, 동일 단위의 평가 측면들 간에 내부적으로 존재하는 연관성을 독립적으로 반영하지 못하는 한계를 지닌다.

[포스텍이 가진 고유의 기술]
본 연구에서는 기존의 병렬 시스템의 한계를 극복하기 위하여, 계층적 시스템 구조를 도입하여 음소, 단어, 발화 단위로 구성된 발음의 본질적 언어 위계를 직접적으로 포착하는 모델을 제안한다. 구체적으로, 음소 단위에서 인코딩된 측면 벡터를 단어 단위에서의 입력으로 사용하고, 단어 단위에서 얻은 측면 벡터의 평균을 발화 단위의 입력으로 사용하는 형태이다. 또한, 동일 계층 내에서 수행되는 여러 측면 간 다중 측면 주의 기술 (Multi-aspect Attention)을 도입하여 채점 과정에서 다른 평가 측면을 참조할 수 있도록 한다. 이로써, 각 평가 측면 벡터를 인코딩하는 과정에서, 동일 단위에서 평가되는 측면들 간 연관성을 반영할 수 있다. 실험을 통해, 본 연구에서 제안하는 시스템으로 대부분의 평가 측면 점수 예측에 대하여 기존의 병렬 시스템보다 훨씬 정확한 예측이 가능함을 보였다. 특히, 다른 평가 측면에 비해 현저히 성능이 낮았던 단어의 강세 (Stress), 발화의 완전성 (Completeness) 측면 점수 예측에서 월등한 성능 향상을 보였다.

[연구의 의미]
음소, 단어, 발화로 구성되는 음성의 언어적 위계를 계층적 모델 구조를 통해 반영하고, 내부적으로 다중 측면 주의 기술을 도입하여 평가 측면 단위의 관계 정보를 포착함으로써, 다중 작업 학습(multi-task learning)의 이점을 극대화하였다. 또한, 단일 측면 발음 평가 모델에 비해 성능이 현저히 낮았던 다중 측면 발음 평가 모델의 경쟁력 있는 성능 확보에 기여하였다는 점에서 의의가 있다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 음향, 음성 및 신호 처리 분야의 우수 학회인 ICASSP 2023에서 구두 발표 될 예정이다. 향후 본 연구에서 제안하는 기술을 컴퓨터 지원 발음 훈련 시스템에 활용하고, 더 나아가 학습자 피드백 시스템 개발로 확장할 계획이다.

[성과와 관련된 실적]
Heejin Do, Yunsu Kim, Gary Geunbae Lee. 2023. Hierarchical Pronunciation Assessment with Multi-Aspect Attention. International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2023)

[성과와 관련된 이미지]

최신연구

최신연구

[이근배 교수] Hierarchical Pronunciation Assessment with Multi-aspect Attention