최신연구

[곽수하 교수] PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery

2024-10-07
  • 419

[연구의 필요성]
자연어 기반 인물 검색 기술은 자연어로 기술된 질의를 통해 수많은 인물 사진 속 목표 인물을 찾아내는 기술이다. 이를 위해 수많은 인물들 간의 미세한 차이를 분간해야 하며, 이는 세밀한 human parts 간의 비교를 통해 해결할 수 있다. 그러나 명시적인 human parts에 대한 레이블을 얻기 어려워 기존 연구들은 전체  이미지만을 분석하거나, 이미지를 균등하게 자르는 등의 휴리스틱한 human parts 추출 기법을 사용해 문제를 해결하려 했다. 하지만 기존의 방법들은 세밀한 비교에는 충분치 못하여 낮은성능을 보이곤했다. 또한 이미지와 자연어에서 human parts에 해당하는 세밀한 영역을 찾아 추출하더라도, 두 모달리티 간의 대응 관계를 찾는 것이 어려운 문제가 있다.

[포스텍이 가진 고유의 기술]
이러한 문제를 해결하기 위해 우리는 두 모달리티 간에 대응 관계를 갖는 human parts를 명시적인 part-level label 없이 추출하고 매칭하는 PLOT 기술을 제안한다. PLOT은 Part sLOT Attention 기법을 제안하여 두 모달리티에서 공유하는 part slots을 통해 대응되는 human parts를 자동으로 발견할 수 있게 한다. 또한, 자연어 질의에 따라 집중해야 할  human parts를 동적으로 선택할 수 있는 TDPA (Text-based Dynamic Part Attention)를 제안하여, 자연어 질의에 따른 더 정밀한 검색이 가능하도록 한다.

[연구의 의미]
본 연구는 텍스트 기반 인물 검색의 새로운 패러다임을 제시한다. 단순한 input의 global 정보를 사용하거나 휴리스틱한 human parts 추출을 넘어, 각 모달리티별로 대응되는 세밀한 human parts를 자동으로 감지하고 매칭함으로써 해석 가능성과 검색 정확도를 동시에 높인다. 특히, 명시적인 부위 레이블 없이도 높은 성능과 해석 가능한 검색을 가능하게 하여 실용성과 학문적 기여가 크다. 이러한 접근 방식은 향후 세밀한 텍스트-이미지 및 더 나아가 다양한 모달리티 사이에서의 세밀한 교차 검색 기술 발전에 기여할 것으로 기대된다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 2024년 컴퓨터 비전 분야의 최우수 국제 학술대회인 The 18th European Conference on Computer Vision (ECCV)에서 소개될 예정이다. 향후에는 더 다양한 모달리티 간의 교차 검색 응용 분야에 본 기술을 확장하여 적용할 계획이다.

[성과와 관련된 이미지]

목록