최신연구
[이근배/김형훈 교수] Mixture-of-Experts with Intermediate CTC Supervision for Accented Speech Recognition
- 등록일2026.05.20
- 조회수341
-

교수이근배, 김형훈
[연구의 필요성]
현재 음성인식 시스템은 주로 소수의 고자원 발화 데이터에 기반해 학습되기 때문에, 다양한 억양을 가진 화자에 대해서는 성능 저하가 크게 발생한다. 특히 강한 비원어민 억양이나 학습에 포함되지 않은 새로운 억양에서는 인식 오류가 더욱 두드러지며, 이는 실제 서비스 환경에서 접근성과 공정성 문제로 이어진다. 논문에서도 기존 accent-agnostic 방식은 일반적 강건성은 높이지만 강한 억양이나 unseen accent에 한계가 있고, accent-specific 방식은 성능은 좋지만 추론 시 accent label이 필요해 확장성이 떨어진다고 지적한다.
[포스텍이 가진 고유의 기술]
음성인식 모델 구조와 학습 방법을 함께 설계하여, 전문화(specialization) 와 일반화(generalization)를 동시에 달성하는 MOE-CTC를 제안했다. 이 방법은 FastConformer 기반 ASR에 sequence-level Mixture-of-Experts를 삽입하고, 각 expert에 intermediate CTC supervision을 부여해 단순히 억양을 구분하는 것이 아니라 실제 전사 품질이 좋은 expert로 라우팅되도록 학습한다. 또한 학습 초반에는 accent-aware routing으로 expert specialization을 유도하고, 이후 accent-agnostic training으로 전환하여 추론 시 accent label 없이도 unseen accent까지 대응 가능한 구조를 구현했다.
[연구의 의미]
본 연구는 단순히 특정 억양에 맞춘 적응 모델이 아니라, 보지 못한 새로운 억양까지 일반화 가능한 ASR 구조를 제시했다는 점에서 의미가 크다. MCV-ACCENT 벤치마크에서 MOE-CTC는 모든 모델 크기 설정에서 기존 FastConformer 및 관련 MoE 변형보다 더 낮은 WER를 기록했으며, 특히 seen accent에서는 최대 29.3%, unseen accent에서는 최대 27.8%의 상대적 WER 감소를 달성했다. 이는 expert routing을 단순한 분류가 아니라 전사 품질과 직접 연결했을 때, 실제 음성인식 성능 개선으로 이어질 수 있음을 보여준다
[연구결과의 진행 상태 및 향후 계획]
본 연구는 ACL 2026에서 발표될 예정이다.
[성과와 관련된 실적]
ACL 2026 Main Conference
Wonjun Lee, Hyounghun Kim, Gary Guenbae Lee / Mixture-of-Experts with Intermediate CTC Supervision for Accented Speech Recognition
[성과와 관련된 이미지]



