최신연구

[곽수하, 김원화 교수] Improving Sound Source Localization with Joint Slot Attention on Image and Audio

2025-04-16
  • 63

[연구의 필요성]
사람은 일상에서 시청각 정보를 통합하여 자연스럽게 소리의 발생 위치를 인지한다. 이러한 능력은 자율주행, 로봇 비전 등 다양한 실세계 응용에서 필수적이며, 이에 따라 이미지와 오디오 데이터를 바탕으로 소리의 발생 위치를 추정하는 Sound Source Localization (SSL) 연구가 활발히 진행되고 있다. 그러나 기존의 SSL 연구는 고비용의 정답 레이블 수집 문제로 인해, 대부분 레이블 없이 이미지-오디오 쌍만을 활용한 약지도 방식에 의존하고 있다. 기존 연구는 이미지의 일부 특징과 오디오의 전체 특징 간의 대응을 학습하는 데 한정되어 있으며, 오디오의 잡음이나 이미지의 부분적 정보로 인해 정확한 정렬과 위치 추정이 어렵다는 한계를 지닌다.

[포스텍이 가진 고유의 기술]
본 연구에서는 이미지와 오디오의 복잡한 상호작용을 효과적으로 분리하고 분석할 수 있도록 Joint Slot Attention(JSA) 메커니즘을 새롭게 제안하고 적용하였다. 이 기술은 이미지와 오디오 각각의 특징을 타겟과 비타겟 슬롯으로 분해하여 소리의 발생 개체 전체를 추정할 수 있도록 설계되었으며, 기존의 전역 오디오 특징 기반 방식이 가진 한계를 극복한다. 또한, 두 모달리티 간의 정밀한 대응을 유도하기 위해 Cross-modal Attention Matching 기법을 제안하고, 이를 통해 음원 위치 추정 성능과 함께 이미지-오디오 검색 성능까지 대폭 향상시켰다

[연구의 의미]
본 연구는 이미지와 오디오 간의 정밀한 대응 관계를 학습함으로써, 레이블 없이도 실제 음원 위치를 정확하게 추정할 수 있는 새로운 방법론을 제시하였다. 본 연구는 라벨이 부족한 환경에서도 정교한 시청각 인식 시스템을 구현할 수 있다는 가능성을 제시하였으며, 향후 자율주행, 로봇비전, 보조기술 등 다양한 분야에서의 실용적 확장성과 이론적 기여를 동시에 제공한다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 컴퓨터 비전 최고 수준 학회인 CVPR 2025에서 포스터로 발표될 예정이다. 향후 연구에서는 이미지 내에 음원이 다수 존재하는 복잡한 장면에서의 문제로 확장하고자 한다. 또한 Sound source localization의 모티베이션이 자율주행, 로봇 비전 등 다양한 실세계 응용이므로 실제 응용 환경에서의 적용 가능성을 연구도 추진할 예정이다.

[성과와 관련된 실적]
Inho Kim, Youngkil Song, Jicheol Park, Won Hwa Kim, Suha Kwak. “Improving Sound Source Localization with Joint Slot Attention on Image and Audio”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

[성과와 관련된 이미지]

목록