최신연구

[곽수하/조민수 교수] Towards More Practical Group Activity Detection: A New Benchmark and Model

2024-10-07
  • 698

[연구의 필요성]
그룹 행동 인식 (Group activity recognition; GAR)은 여러 사람이 등장하는 영상에서 사람들간의 관계를 모델링하는 방법론으로 감시 영상, 스포츠 분석 등에 사용된다. 하지만 기존의 그룹 행동 인식 기술은 전체 영상의 행동을 분류하기 때문에 여러 그룹이 등장하는 영상에서의 활용에 한계가 있었다. 이를 위해서 영상에 등장하는 여러 그룹의 사람들을 각각의 그룹으로 나누고 각 그룹이 수행하는 행동을 분류하는 그룹 행동 탐지 (Group activity detection; GAD) 문제가 제안되었으나, 기존의 그룹 행동 탐지 연구에서는 단순히 기존 데이터셋을 확장하여 적합한 벤치마크를 제공하지 못했고 방법론 측면에서도 모델 외부의 군집화 방법에 의존하여 문제에 최적화된 학습 방법에 대한 연구가 부족한 상황이다.

[포스텍이 가진 고유의 기술]
본 연구에서는 그룹 행동 탐지 문제를 위한 새로운 벤치마크 데이터셋 Café를 제안하였다. Café는 일상에서의 그룹 행동을 촬영하고 각 영상에서의 사람과 그룹을 레이블링 하여 그룹 행동 탐지를 위한 대규모 벤치마크를 구성했다. 추가적으로 해당 벤치마크에서의 학습을 위한 모델을 제안하였다. 학습된 임베딩 공간에서 그룹에 대한 임베딩과 그룹에 속하는 사람의 임베딩은 유사해야 하고, 그룹에 속하지 않는 사람의 임베딩은 멀어야 한다는 아이디어를 바탕으로 그룹을 구분하는 방법을 제안했다.

[연구의 의미]
본 연구는 GAD를 위한 대규모의 실제적이고 도전적인 데이터셋을 제안하여 후속 연구를 위한 벤치마크로서의 가치를 가진다. 또한 제안한 모델은 임베딩 공간에서 그룹과 그룹에 속하는 구성원 사이의 의미적 유사도를 바탕으로 학습하여 GAD 정확도와 추론 속도 모두에서 기존 기술을 능가하는 성능을 얻었다는 의미를 가다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 ECCV 2024에서 포스터로 발표될 예정이다. 향후 데이터셋의 시간적 특성과 다중뷰 특성을 고려한 연구 또한 계획 중에 있다.

[성과와 관련된 실적]
Dongkeun Kim, Youngkil Song, Minsu ChoSuha Kwak, “Towards More Practical Group Activity Detection: A New Benchmark and Model”, European Conference on Computer Vision (ECCV), 2024.

[성과와 관련된 이미지]

목록