최신연구
[곽수하 교수] GENIUS: A Generative Framework for Universal Multimodal Search
[연구의 필요성]
현대 정보 검색 시스템은 방대한 규모의 데이터베이스에서 관련 정보를 신속하고 정확하게 검색할 필요성이 증가함에 따라, 기존의 임베딩 기반 검색 방식이 지닌 인덱스 구축 및 최근접 이웃 탐색의 비용 부담이 주요 문제로 대두된다. 이에 반해, 생성적 검색은 쿼리로부터 대상 데이터의 식별자(ID)를 직접 생성함으로써 효율성을 극대화할 수 있는 혁신적 접근법으로 부상하고 있다. 다만, 기존의 생성적 검색 방식은 특정 작업에 국한되어 응용 범위가 제한적이며, 다양한 멀티모달 상황에서의 일반화 능력이 부족한 단점을 지닌다. 본 연구는 텍스트, 이미지, 그리고 이들 혼합 형태에 이르는 이기종 데이터의 검색 요구를 하나의 통합 프레임워크로 해결하고자 하며, 사용자 의도에 따른 지시어(instruction)를 활용해 각 작업에 최적화된 검색 결과를 제공할 수 있는 보편적 생성 검색 체계의 필요성을 제기한다.
[포스텍이 가진 고유의 기술]
본 연구는 기존의 임베딩 기반 검색 방식 및 기존 생성형 검색 방식의 한계를 극복하기 위한 GENIUS라는 생성형 검색 방법을 제시한다. 연구에서는 특히 모달리티-디커플드 의미 양자화(modality-decoupled semantic quantization) 기법을 제안하여, 이미지, 텍스트, 이미지-텍스트 쌍 등 서로 다른 데이터 타입에 대해 각 모달리티와 의미 정보를 분리하여 효과적으로 인코딩하는 방법을 제안한다. 또한, 질의-대상 간의 다양성을 보완하기 위해 질의 보강(query augmentation) 전략을 적용하여, 질의와 대상 간의 임베딩 보간 과정을 통해 모델의 일반화 능력을 한층 강화한다.
[연구의 의미]
본 연구는 전통적인 임베딩 기반 검색 패러다임을 벗어나, 쿼리로부터 직접 대상 데이터의 식별자를 생성하는 접근법을 제시함으로써, 검색 시스템의 효율성과 확장성을 극대화하는 데 기여한다. 더욱이, 다양한 모달리티와 도메인의 데이터를 하나의 통합 체계로 다룸으로써, 사용자 요구에 따른 다채로운 검색 작업을 효과적으로 수행할 수 있는 보편적 해결책을 제공한다. 이를 통해 기존의 작업별로 한정된 생성적 검색 방식이 가진 한계를 넘어, 실제 응용 상황에서 요구되는 다중 작업 및 멀티모달 검색 문제를 근본적으로 개선하는 의의를 지닌다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 2025년 컴퓨터비전 분야 최우수 국제학술대회 중 하나인 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)에서 발표와 출판을 앞두고 있다. 현재 연구진은 기존 GENIUS 프레임워크의 성능을 더욱 향상시키기 위해, 보다 대규모의 사전학습 인코더를 활용한 확장 모델을 개발 중에 있다. 이를 통해 기존 임베딩 기반 검색 방식을 성능 면에서 능가하는 생성 기반 검색 모델로의 진화를 목표로 하며, 특히 복잡한 멀티모달 질의나 지식 중심 검색과 같은 고난도 작업에서도 높은 정확도와 일반화 성능을 유지할 수 있는 방향으로 연구를 심화해 나가고 있다.
[성과와 관련된 실적]
Sungyeon Kim, Xinliang Zhu, Xiaofan Lin, Muhammet Bastan, Douglas Gray, Suha Kwak / GENIUS: A Generative Framework for Universal Multimodal Search”, CVPR 2025
[성과와 관련된 이미지]