[곽수하/조민수 교수] Classification Matters: Improving Video Action Detection with Class-Specific Attention

2024-10-07

[연구의 필요성]
Video action detection (VAD) 은 영상 내에 등장하는 사람들의 위치를 표시하고, 그들이 무슨 행동을 하고 있는지 맞히는 영상 인식 분야의 고전적인 문제이다. 이 문제는 다른 더 복잡한 문제를 푸는 데 있어서 기반 기술이 될 수 있기 때문에 영상 인식 분야에서 핵심 기술 중 하나로 다뤄지고 있다. 본 연구는 비교적 정체되어 있던 이 기술의 성능을 끌어올리기 위해 제안된 방법으로, 영상 인식 분야 전반에 도움을 줄 수 있다.

[포스텍이 가진 고유의 기술]
해당 연구는 VAD 기술들이 주로 행동 분류에서 어려움을 겪는다는 사실을 지적하고, 이를 극복하기 위해 각각의 행동이 일어나는지 일어나지 않는지를 관찰하는 역할을 가진 모듈을 추가했다. 이로써 이 모듈은 각 행동에 맞는 다양하고 적합한 문맥을 알아서 찾게 되고, 이는 행위자 주변에서 봐야하는 문맥을 보지 못하던 기존 문제들의 문제점을 해결하였다.

[연구의 의미]
VAD에서 행동 분류 문제에 크게 주목하지 않던 이전 연구들에게 새로운 주안점을 시사한 바 있다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 AVA라는 핵심 VAD 벤치마크에서 최고 성능을 기록하였고, UCF와 JHMDB라는 벤치마크에서도 좋은 성능을 기록하였다. 이에 더해 성능 뿐만 아니라 모델의 효율성 또한 상당히 증대되었다. 추후에는 모델의 스케일을 키워 실험해볼 예정이다.

[성과와 관련된 실적]
컴퓨터 비전 최고 권위의 학회 중에 하나인 ECCV에 구두발표로 억셉되었다.

[성과와 관련된 이미지]

최신연구

최신연구

[곽수하/조민수 교수] Classification Matters: Improving Video Action Detection with Class-Specific Attention