[이근배 교수] Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning

2024-10-25

[연구의 필요성]
현재 대화 기반 시스템은 음성 인식을 통해 사용자와의 상호작용을 처리하지만, ASR 시스템의 오류는 이후의 대화 모델 성능에 직접적인 영향을 미칩니다. ASR 오류는 특히 대화의 맥락을 활용할 때 더욱 큰 문제가 되며, 이러한 맥락 오류를 줄이는 방법이 필요합니다. 이를 해결하기 위해 잡음 표현 학습(CNRL)과 같은 방법을 통해 ASR의 성능을 향상시켜야 하므로 이 연구는 매우 중요합니다.

[포스텍이 가진 고유의 기술]
대화 맥락에 강건한 ASR 시스템을 개발하기 위한 잡음 표현 학습(CNRL) 기술을 제안했습니다. 이 기술은 대화 이력에서 발생하는 ASR 오류의 영향을 최소화하고, 음성 인식 성능을 높이는 데 중점을 둡니다. 또한, 텍스트 기반 대화 데이터를 활용한 디코더 사전 훈련 기법도 함께 사용하여 더 나은 성능을 확보합니다.

[연구의 의미]
이 연구는 대화 기반 음성 인식의 정확성을 높이고, 특히 노이즈가 많은 환경에서의 성능을 개선하는 데 의미가 있습니다. 잡음 표현 학습(CNRL)을 통해 오류가 있는 대화 맥락에서 발생할 수 있는 성능 저하를 극복하고, 대화 시스템의 신뢰성을 크게 높일 수 있다는 점에서 중요한 의미를 갖습니다.

[연구결과의 진행 상태 및 향후 계획]
연구는 CNRL을 통한 성능 향상을 입증했으며, 실험 결과에서 잡음이 많은 환경에서도 강력한 성능을 보였습니다. 향후 연구는 이 방법을 다양한 데이터셋에 적용하여 성능을 더 개선하고, ASR과 후속 대화 모델 간의 통합 성능을 높이는 방향으로 진행될 예정입니다.

[성과와 관련된 실적]
Wonjun Lee*, San Kim*, Gary Geunbae Lee, SIGDIAL 2024 Accepted, Best Paper Nominee.

[성과와 관련된 이미지]

최신연구

최신연구

[이근배 교수] Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning