[곽수하 교수] Robust Promptable Video Object Segmentation

최신연구

목록으로 돌아가기

[곽수하 교수] Robust Promptable Video Object Segmentation

등록일2026.05.27
조회수34

교수곽수하

[연구의 필요성]

프롬프트 기반 영상 객체 분할(Promptable Video Object Segmentation, PVOS)은 사용자가 첫 프레임에서 점·박스·마스크 등으로 지정한 객체를 이후 모든 프레임에 걸쳐 자동으로 추적·분할하는 기술로, 자율주행, 로봇 비전, 영상 편집, 재난·국방 모니터링 등 다양한 응용 분야에서 핵심적인 역할을 한다. 최근 메타(Meta)가 공개한 SAM2(Segment Anything Model 2)는 PVOS 분야에서 인상적인 제로샷 성능을 보이며 주목받고 있으나, 본 연구에서 분석한 결과 SAM2를 비롯한 최신 모델들은 안개, 비, 눈, 야간, 모션 블러와 같이 실제 환경에서 흔히 발생하는 영상 손상(corruption) 상황에서 성능이 크게 저하되는 것으로 나타났다. 이는 안전이 필수인 자율주행·로봇 분야로의 실용화에 큰 걸림돌이 되어 왔다. 기존의 강건한(robust) 영상 분할 연구들은 대부분 정지 이미지에 초점이 맞춰져 있어, 시간에 따라 손상 강도가 변하고 같은 장면 안에서도 객체마다 손상 정도가 다른(예: 안개 속에서 멀리 있는 차량은 거의 보이지 않지만 가까운 보행자는 선명한) 비디오 특유의 복잡한 손상 패턴을 다루지 못한다는 한계가 있었다. 이에 따라 영상의 시간적 흐름과 객체별 손상 차이를 동시에 고려할 수 있는 새로운 방법론과, 이를 체계적으로 평가할 수 있는 벤치마크의 필요성이 대두되었다.

[포스텍이 가진 고유의 기술]

본 연구에서는 악조건 영상에서의 프롬프트 기반 객체 분할(RobustPVOS)이라는 새로운 연구 문제를 정식으로 정의하고, 이를 위한 종합 벤치마크와 새로운 강건화 방법론을 함께 제안하였다. 먼저 벤치마크 측면에서, 실세계에서 촬영된 안개·눈·비·야간 영상 351개 클립(약 16,840프레임)에 2,543개의 객체 분할 마스크를 직접 정밀 주석하여 세계 최초의 RobustPVOS 평가 데이터셋을 구축하였으며, 학습용으로는 8종의 손상(노이즈·블러·안개·비·눈 등)을 시간에 따라 자연스럽게 변하도록 합성한 약 47,000여 클립(170만 프레임, 390만 객체 마스크) 규모의 대규모 데이터셋을 함께 공개하였다. 방법론 측면에서는 'MoGA(Memory-object-conditioned Gated-rank Adaptation, 기억-객체 조건부 게이트형 저차원 적응)'를 제안하였다. MoGA의 핵심 아이디어는 영상 분할 모델이 본래 가지고 있는 '객체 메모리(memory bank)'를 강건화의 신호로 재해석한 것이다. 영상 속에서 추적되는 각 객체에 대해 이전 프레임들의 정보를 누적해 저장하는 객체 포인터를 활용하여, 모델 내부의 미세한 보정 부품(rank-1 component)을 객체별로 다르게 선택적으로 활성화하도록 게이트(gate) 메커니즘을 학습시킨다. 이를 통해 같은 장면 안에 있는 객체라도 손상 정도에 따라 서로 다른 강건화 경로를 적용하면서도, 메모리에 누적된 정보를 통해 영상 전체에 걸쳐 일관된 분할 결과를 유지할 수 있다.

[연구의 의미]

본 연구는 영상 객체 분할 모델의 강건성을 다루는 새로운 연구 영역을 개척했다는 점에서 중요한 의의를 갖는다. 특히 기존 강건화 연구들이 정지 이미지에만 초점이 맞춰져 있어 시간에 따라 변하는 손상과 객체별 손상 차이를 동시에 다루지 못했던 한계를 근본적으로 해결하였으며, 모델이 본래 가지고 있던 객체 메모리 자체를 강건화의 조건 신호로 재해석함으로써 영상 기반 인식 모델의 새로운 강건화 방향을 제시하였다. 또한 객체별로 차별화된 적응 경로를 적용하면서도 메모리를 통해 시간적 일관성을 유지하는 설계는 다중 객체가 등장하는 복잡한 실세계 영상에서 특히 효과적임을 입증하였다. 실험 결과, MoGA는 실세계 악조건 벤치마크(MVSeg-adv, ACDC-Video)와 합성 손상 벤치마크(YouTube-VOS-C) 모두에서 기존 SAM2 대비 일관된 성능 향상을 달성하였으며, 영상 복원 기반 방법(URIE, AirNet)이나 프레임 단위 강건화 방법(GaRA)보다 우수한 성능을 보였다. 특히 SAM2 전체 8,090만 개 파라미터 중 단 1.1M(약 1.4%)만 학습하고도 SAM2 전체 재학습(full fine-tuning) 대비 GPU 메모리 12% 절감과 동등 이상의 정확도를 달성하여, 학술적 가치뿐 아니라 산업 현장 적용 가능성도 입증하였다. 본 연구가 공개하는 벤치마크와 데이터셋은 향후 자율주행, 로봇 비전, 재난 현장 영상 분석 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다.

[연구결과의 진행 상태 및 향후 계획]

본 연구는 컴퓨터비전 분야 최우수 국제학술대회 CVPR 2026에 게재 승인되었다. 향후에는 자율주행·로봇 등 실제 응용 도메인을 위한 강건성 확보, 이벤트 카메라·LiDAR 등 다중 센서 환경으로의 강건화 기술 확장, 그리고 Google 및 ETH Zürich와의 국제 공동연구를 지속 발전시킬 계획이다.

[성과와 관련된 실적]

Sohyun Lee, Yeho Gwon, Lukas Hoyer, Konrad Schindler, Christos Sakaridis, Suha Kwak, "Robust Promptable Video Object Segmentation", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

[성과와 관련된 이미지]