최신연구
-
[이남훈 교수] ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models
[연구의 필요성] 최근 ChatGPT, Gemini 등 대부분의 상업용 AI 모델은 내부 파라미터에 대한 직접적인 접근이 불가능한, 이른바 블랙박스(Black-box) 형태로 제공되는 경우가 많다. 이러한 환경에서는 모델의 파라미터를 수정하지 않고도 원하는 성능을 얻기 위한 ‘블랙박스 트레이닝(Black-box Training)’ 기법에 대한 관심이 시대의 변화에 따라 점차 높아지고 있다. 블랙박스 트레이닝은 주로 영차 최적화(Zeroth-order Optimization)나 강화학습(Reinforcement Learning)에 기반하지만, 이들 방법은 일반적으로 수렴 속도가 느리다는 한계를 갖는다. 수렴 속도는 곧 모델에 대한 쿼리, 즉 API 호출 횟수와 밀접하게 연결되어 있어, 훈련 비용 문제로 직결된다. 본 연구는 이러한 문제의식에 기반하여, 영차 최적화를 활용한 블랙박스 트레이닝 환경에서 수렴 속도를 향상시킬 수 있는 새로운 알고리즘을 제안한다. [포스텍이 가진 고유의 기술] 본 연구에서는 영차 최적화의 수렴 속도가 모델 파라미터의 개수에 비례한다는 사실을 이론적 분석과 실험을 통해 확인하였다. 이를 바탕으로, soft prompt의 파라미터 수를 효과적으로 줄일 수 있는 내재적 차원 감소 기법을 제안하였다. 제안한 방법은 최적화해야 할 파라미터의 수를 크게 줄이면서도, feature sharing 기법과 내재적 차원의 구조적 특성을 활용함으로써 성능 저하 없이 효과적인 최적화를 가능하게 한다. 본 연구에서는 영차 최적화 기법의 느린 수렴 속도가 추정 기울기의 높은 분산에서 비롯된다는 점을 지적하고, 이를 완화하기 위한 방안으로 gradient clipping 기법을 도입하였다. 특히 gradient clipping에서는 임계값(threshold)의 설정이 성능에 중요한 영향을 미치는데, 본 연구는 영차 최적화 및 clipping과 관련된 이론적 분석을 바탕으로 최적화된 threshold 선택 방법을 제안하였다. 제안된 방식은 실제 실험을 통해 최적값(optimal)에 근접한 성능을 달성함을 확인하였다. [연구의 의미] 본 연구는 기존에 경시되고 있던 Black box training에서의 API query cost에 대한 문제를 지적했다는 점 뿐만 아니라, 해당 문제를 이론적 기반을 둔 여러 technique을 통해 매우 효과적으로 풀어냈다는 점에서 의미를 가진다. 이와 같은 접근은 블랙박스 환경에서의 효율적인 학습 방법을 제시함으로써, API 기반 상용 모델을 활용한 downstream task 최적화의 실용성과 효율성을 동시에 향상시킬 수 있는 기반을 마련하였다는 점에서 학술적·실용적 기여가 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제 학술 대회인 International Conference on Learning Representation (ICLR 2025) 논문으로 채택되어 포스터로 발표될 예정이다. 향후 연구에서는 좀 더 일반화된 시나리오에서 실제로 상업용 인공지능 모델에 바로 적용될 수 있는 방법을 고안하는 것을 목표로 한다. [성과와 관련된 실적] Seonghwan Park, Jaehyeon Jeong, Yongjun Kim, Jaeho Lee, Namhoon Lee. “ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models”, International Conference on Learning Representations (ICLR), 2025. [성과와 관련된 이미지]
이남훈 교수 2025.04.23 1488 -
[곽수하 교수] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
[연구의 필요성] 기존 영상-텍스트 검색(Video-Text Retrieval) 모델은 주로 영상의 시각 정보와 텍스트 정보만을 활용하여 영상 콘텐츠를 이해하고 검색해왔음. 그러나 영상에는 시각 정보 외에도 풍부한 오디오 정보가 존재하며, 이는 인물의 감정, 배경 상황, 발화 내용 등 ‘보이지 않지만 들리는’ 중요한 단서를 제공할 수 있음. 기존 방법들은 이러한 오디오 정보를 무분별하게 활용하거나 아예 무시하는 경향이 있어, 오히려 관련없는 오디오(예: 배경 소음)가 검색 성능을 저해하는 문제가 있었음. [포스텍이 가진 고유의 기술] 포스텍 연구팀은 오디오의 유용성을 동적으로 판단하여 시각 정보와 선택적으로 융합할 수 있는 Gated Attention 기반의 융합 모듈을 개발함. 또한, 시청각 표현과 텍스트 간의 정밀한 정렬을 위해 intra-modal 유사도를 고려한 적응형 margin 기반의 대조 손실함수를 개발함. [연구의 의미] 본 연구는 영상-텍스트 검색 분야에서 오디오 정보를 효과적으로 통합하는 방법론을 제안함으로써, 기존 시각 중심 모델들의 한계를 극복하였음. [연구결과의 진행 상태 및 향후 계획] 본 연구는 뛰어난 성과를 인정받아 컴퓨터 비전 최고 수준 학회인 CVPR 2025에 구두(Oral)로 발표 예정임. [성과와 관련된 실적] Boseung Jeong, Jicheol Park, Sungyeon Kim, Suha Kwak. “Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval”. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. [성과와 관련된 이미지]
곽수하 교수 2025.04.16 2089 -
[곽수하 교수] GENIUS: A Generative Framework for Universal Multimodal Search
[연구의 필요성] 현대 정보 검색 시스템은 방대한 규모의 데이터베이스에서 관련 정보를 신속하고 정확하게 검색할 필요성이 증가함에 따라, 기존의 임베딩 기반 검색 방식이 지닌 인덱스 구축 및 최근접 이웃 탐색의 비용 부담이 주요 문제로 대두된다. 이에 반해, 생성적 검색은 쿼리로부터 대상 데이터의 식별자(ID)를 직접 생성함으로써 효율성을 극대화할 수 있는 혁신적 접근법으로 부상하고 있다. 다만, 기존의 생성적 검색 방식은 특정 작업에 국한되어 응용 범위가 제한적이며, 다양한 멀티모달 상황에서의 일반화 능력이 부족한 단점을 지닌다. 본 연구는 텍스트, 이미지, 그리고 이들 혼합 형태에 이르는 이기종 데이터의 검색 요구를 하나의 통합 프레임워크로 해결하고자 하며, 사용자 의도에 따른 지시어(instruction)를 활용해 각 작업에 최적화된 검색 결과를 제공할 수 있는 보편적 생성 검색 체계의 필요성을 제기한다. [포스텍이 가진 고유의 기술] 본 연구는 기존의 임베딩 기반 검색 방식 및 기존 생성형 검색 방식의 한계를 극복하기 위한 GENIUS라는 생성형 검색 방법을 제시한다. 연구에서는 특히 모달리티-디커플드 의미 양자화(modality-decoupled semantic quantization) 기법을 제안하여, 이미지, 텍스트, 이미지-텍스트 쌍 등 서로 다른 데이터 타입에 대해 각 모달리티와 의미 정보를 분리하여 효과적으로 인코딩하는 방법을 제안한다. 또한, 질의-대상 간의 다양성을 보완하기 위해 질의 보강(query augmentation) 전략을 적용하여, 질의와 대상 간의 임베딩 보간 과정을 통해 모델의 일반화 능력을 한층 강화한다. [연구의 의미] 본 연구는 전통적인 임베딩 기반 검색 패러다임을 벗어나, 쿼리로부터 직접 대상 데이터의 식별자를 생성하는 접근법을 제시함으로써, 검색 시스템의 효율성과 확장성을 극대화하는 데 기여한다. 더욱이, 다양한 모달리티와 도메인의 데이터를 하나의 통합 체계로 다룸으로써, 사용자 요구에 따른 다채로운 검색 작업을 효과적으로 수행할 수 있는 보편적 해결책을 제공한다. 이를 통해 기존의 작업별로 한정된 생성적 검색 방식이 가진 한계를 넘어, 실제 응용 상황에서 요구되는 다중 작업 및 멀티모달 검색 문제를 근본적으로 개선하는 의의를 지닌다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 2025년 컴퓨터비전 분야 최우수 국제학술대회 중 하나인 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)에서 발표와 출판을 앞두고 있다. 현재 연구진은 기존 GENIUS 프레임워크의 성능을 더욱 향상시키기 위해, 보다 대규모의 사전학습 인코더를 활용한 확장 모델을 개발 중에 있다. 이를 통해 기존 임베딩 기반 검색 방식을 성능 면에서 능가하는 생성 기반 검색 모델로의 진화를 목표로 하며, 특히 복잡한 멀티모달 질의나 지식 중심 검색과 같은 고난도 작업에서도 높은 정확도와 일반화 성능을 유지할 수 있는 방향으로 연구를 심화해 나가고 있다. [성과와 관련된 실적] Sungyeon Kim, Xinliang Zhu, Xiaofan Lin, Muhammet Bastan, Douglas Gray, Suha Kwak / GENIUS: A Generative Framework for Universal Multimodal Search”, CVPR 2025 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 1267 -
[곽수하 교수] Efficient and Versatile Robust Fine-Tuning of Zero-shot Models
[연구의 필요성] 대규모 이미지-텍스트 사전학습 모델은 제로샷 추론 능력을 갖추어 다양한 데이터 분포에서 일정 수준의 성능을 보이나, 하위 작업으로의 전이 과정에서 기존의 전체 파인튜닝 방식은 실제 분포 간 차이가 큰 상황에서 일반화 능력이 크게 저하되며, 막대한 계산 자원과 메모리, 스토리지를 소모하는 한계가 있다. 특히 기존의 파인튜닝 방식들은 목적에 특화된 세부 조정 시 모델이 갖는 사전학습 지식의 활용도를 저해하여, 실제 환경에서의 분포 이동이나 외부 데이터에 대한 적응력이 떨어진다. 이러한 문제점을 해결하기 위해 제로샷 모델의 강점을 유지하면서도, 다운스트림 작업에 적합한 성능 향상 및 분포 변화에 대한 견고함(OOD Robustness)을 확보하는 효율적이고 경량화된 파인튜닝 방법론의 필요성이 대두된다. [포스텍이 가진 고유의 기술] 본 연구는 파인튜닝 과정에서 전체 모델의 업데이트 없이 일부 경량 모듈만을 학습하는 Parameter-Efficient Fine-Tuning(PEFT)의 장점을 극대화하고, 동시에 Robust Fine-Tuning에서 요구되는 분포 변화에 대한 내성을 강화하기 위해 ‘Robust Adapter (R-Adapter)’를 제안한다. 이 방법은 모델 내에 어댑터 모듈을 추가하고, 어댑터 드롭 (Adapter Dropping), 어댑터 가중치 누적 (Accumulation), 가중치 재조정 (Re-scaling)의 세 가지 자가 앙상블 전략을 도입하여, 사전학습 모델과 파인튜닝된 모듈 간의 최적의 결합 효과를 구현하며, 추가적인 저장 및 계산 비용 없이 효율적으로 성능을 향상시키도록 설계된다. 또한, 다중 양성 샘플 간 정밀 정렬을 도모하는 MPM-NCE 손실 함수를 도입함으로써, 이미지와 텍스트 간의 미세한 대응 관계를 효과적으로 학습하는 기술을 선보인다. 본 연구는 데이터의 복잡하고 다양한 계층 구조를 직접적인 주석 정보 없이 파악하고, 해당 구조를 임베딩 공간 내에 효과적으로 반영하는 것을 목표로 한다. 이를 위해, 본 연구에서는 데이터들을 계층적으로 군집화 할 수 있는 새로운 기법인 HIER를 제안한다. 구체적으로, 제안하는 방법은 데이터들의 상위 계층을 나타내는 매개변수인 계층적 프록시 (hierarchical proxy)를 도입함으로써, 프록시와 데이터 간의 계층적 상하 관계를 학습한다. 특히, 계층 구조를 표현하는 데에 적합한 특성을 가진 쌍곡선 공간 (Hyperbolic space)을 활용하여, 데이터의 의미론적 계층 구조를 정교하게 근사하는 방법을 제안한다. [연구의 의미] 본 연구는 데이터의 의미적 계층 구조를 주석 없이 자기 지도적으로 파악하고, 이를 활용하여 데이터의 실제 유사성을 보다 정확히 반영할 수 있는 임베딩 공간을 학습하는 방법을 새롭게 제안했다는 점에서 큰 의미를 가진다. 이를 통해 기존의 척도 학습 방법들이 가지고 있는 한계를 극복함으로써, 이미지 검색, 얼굴 인식, 사람 식별 등 다양한 응용 분야에서의 성능 향상을 기대할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 2024년 컴퓨터비전 분야 최우수 국제학술대회 중 하나인 The European Conference on Computer Vision (ECCV)에서 소개되었다. 현재는 다양한 이기종 데이터들이 섞여 있을 수 있는 실제 시나리오에서의 척도 학습 문제에 대한 연구를 진행중이다. [성과와 관련된 실적] Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak, “Efficient and Versatile Robust Fine-Tuning of Zero-shot Models”, ECCV 2024 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 2966 -
[곽수하, 김원화 교수] Improving Sound Source Localization with Joint Slot Attention on Image and Audio
[연구의 필요성] 사람은 일상에서 시청각 정보를 통합하여 자연스럽게 소리의 발생 위치를 인지한다. 이러한 능력은 자율주행, 로봇 비전 등 다양한 실세계 응용에서 필수적이며, 이에 따라 이미지와 오디오 데이터를 바탕으로 소리의 발생 위치를 추정하는 Sound Source Localization (SSL) 연구가 활발히 진행되고 있다. 그러나 기존의 SSL 연구는 고비용의 정답 레이블 수집 문제로 인해, 대부분 레이블 없이 이미지-오디오 쌍만을 활용한 약지도 방식에 의존하고 있다. 기존 연구는 이미지의 일부 특징과 오디오의 전체 특징 간의 대응을 학습하는 데 한정되어 있으며, 오디오의 잡음이나 이미지의 부분적 정보로 인해 정확한 정렬과 위치 추정이 어렵다는 한계를 지닌다. [포스텍이 가진 고유의 기술] 본 연구에서는 이미지와 오디오의 복잡한 상호작용을 효과적으로 분리하고 분석할 수 있도록 Joint Slot Attention(JSA) 메커니즘을 새롭게 제안하고 적용하였다. 이 기술은 이미지와 오디오 각각의 특징을 타겟과 비타겟 슬롯으로 분해하여 소리의 발생 개체 전체를 추정할 수 있도록 설계되었으며, 기존의 전역 오디오 특징 기반 방식이 가진 한계를 극복한다. 또한, 두 모달리티 간의 정밀한 대응을 유도하기 위해 Cross-modal Attention Matching 기법을 제안하고, 이를 통해 음원 위치 추정 성능과 함께 이미지-오디오 검색 성능까지 대폭 향상시켰다 [연구의 의미] 본 연구는 이미지와 오디오 간의 정밀한 대응 관계를 학습함으로써, 레이블 없이도 실제 음원 위치를 정확하게 추정할 수 있는 새로운 방법론을 제시하였다. 본 연구는 라벨이 부족한 환경에서도 정교한 시청각 인식 시스템을 구현할 수 있다는 가능성을 제시하였으며, 향후 자율주행, 로봇비전, 보조기술 등 다양한 분야에서의 실용적 확장성과 이론적 기여를 동시에 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 최고 수준 학회인 CVPR 2025에서 포스터로 발표될 예정이다. 향후 연구에서는 이미지 내에 음원이 다수 존재하는 복잡한 장면에서의 문제로 확장하고자 한다. 또한 Sound source localization의 모티베이션이 자율주행, 로봇 비전 등 다양한 실세계 응용이므로 실제 응용 환경에서의 적용 가능성을 연구도 추진할 예정이다. [성과와 관련된 실적] Inho Kim, Youngkil Song, Jicheol Park, Won Hwa Kim, Suha Kwak. “Improving Sound Source Localization with Joint Slot Attention on Image and Audio”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. [성과와 관련된 이미지]
곽수하, 김원화 교수 2025.04.16 4118 -
[곽수하 교수] Decoupled Finetuning for Domain Generalizable Semantic Segmentation
[연구의 필요성] 오늘날 인공지능 기술은 이미지 분류, 자연어 처리, 음성 인식, 자율주행 등 다양한 응용 분야에서 인간을 능가하거나 이에 필적하는 수준의 성능을 보이고 있다. 그러나 이러한 높은 성능은 주로 훈련 데이터와 유사한 분포를 가진 테스트 데이터에 국한된 경우가 많다. 즉, 인공지능 모델이 학습에 사용된 데이터에 과적합(overfitting)된 결과, 처음 접하는 낯선 데이터나 훈련 분포와는 다른 실제 환경의 데이터에 대해서는 기대 이하의 성능을 보이는 경우가 빈번하게 발생한다. 이러한 일반화 성능의 부족은 인공지능 시스템의 신뢰성을 크게 떨어뜨리는 요인으로 작용하며, 특히 안전이나 정밀성이 중요한 의료, 금융, 자율주행과 같은 분야에서는 현실 적용에 큰 장애물이 된다. 따라서 인공지능 모델이 다양한 환경에서도 안정적이고 일관된 성능을 발휘할 수 있도록 일반화 능력을 향상시키는 것이 필요하다. [포스텍이 가진 고유의 기술] 본 연구에서는 현재 인공지능 모델의 학습 과정에서 일반적으로 채택되고 있는 인코더와 디코더 간의 공동 최적화(joint optimization), 즉 두 구성 요소를 하나의 공동 목적 함수 하에 동시에 최적화하는 방식이 모델의 일반화 성능에 있어서 잠재적인 취약점을 가질 수 있음을 이론적 및 실험적으로 분석하였다. 이러한 문제를 극복하기 위해, 본 연구에서는 인코더와 디코더를 분리하여 각 구성 요소가 소스 도메인에 과적합된 정보를 기준으로 학습되는 것을 방지하는 Decoupled FineTuning (DeFT) 학습 프레임워크를 제안하였다. [연구의 의미] 기존 인공지능 모델의 학습에 있어 표준이 되는 패러다임의 한계를 지적하였고, 이를 극복할 수 있는 새로운 학습 패러다임을 제안함으로서 인공지능 모델의 일반화 능력과 관련하여 새로운 연구 방향성과 시사점을 제공한다는 의미를 가진다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 머신 러닝 분야 최우수 국제학술대회 ICLR 2025에서 포스터로 발표될 예정이다. 향후 제안하는 학습 프레임워크에 대한 심층적인 이론적 분석을 수행하는 연구가 가능하다. [성과와 관련된 실적] Jaehyun Pahk, Donghyeon Kwon, Seong Joon Oh, Suha Kwak. “Decoupled Finetuning for Domain Generalizable Semantic Segmentation”. International Conference on Learning Representations (ICLR), 2025 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 2570 -
[최승문 교수] 오래된 과학 전시물의 신체적 및 체험적 상호작용을 통한 지속적 사용과 학습 효과 향상
[연구의 필요성] 현대의 학습 환경에서는 단순한 시청각적 정보 제공을 넘어, 신체적 체험을 활용한 체화 학습(Embodied Learning)이 학습자의 이해도를 높이는 데 중요한 역할을 하고 있다. 그러나 비형식적 학습 환경은 방문객의 주의 지속 및 학습 통제가 어려워 신체적 인터랙션을 효과적으로 활용하지 못하거나, 학습자의 몰입도가 저하되는 실질적 한계를 지닌다. 본 연구는 비형식적 학습 환경에서 신체 추적 및 증강 현실 기술을 활용한 학습 방식이 오래된 과학 전시물과의 상호작용 및 학습 과정에 미치는 영향을 체계적으로 분석하여 효과적인 교육 설계를 위한 과학적 근거를 제공하고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 실제 과학관 방문객 및 전문가들과의 협업을 통해 신체적 움직임에 따른 증강 현실 피드백을 이용하여 오래된 과학 전시물을 증강하는 학습 시스템을 개발하였으며, 이를 통해 사용자의 몰입도와 학습 효과를 향상시키는 방법을 제안하였다. 또한 방문객과 전시물의 상호작용이 전시물 사용과 학습에 미치는 영향을 다각적으로 평가할 수 있도록 통제 실험과 관찰 실험을 모두 수행하고, 이를 통해 단순한 시청각 정보 제공 방식과 비교하여 신체적 개입이 학습 경험을 어떻게 변화시키는지 정량/정성적으로 분석하였다. [연구의 의미] 본 연구는 비형식적 학습 환경에서 몸을 활용한 학습이 기존 과학 전시물의 단순한 정보 전달 방식보다 학습자의 개념적 이해, 몰입, 즐거움에 긍정적인 영향을 미친다는 점을 실험적으로 검증하였다. 실험 결과, 단순한 움직임이 아니라 학습 목표와 직접적으로 연관된 동작을 유도해야 학습 효과가 극대화되며, 사용자가 학습 과정에서 높은 집중도를 유지할 수 있도록 시각적, 촉각적 피드백을 조화롭게 설계해야 한다. 이러한 연구 결과는 체화 학습 환경을 설계를 위한 실질적인 가이드라인을 제공하며, 향후 체화 기반 학습 시스템 개발 및 평가에 중요한 참고자료가 될 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 피험자의 연령대 별로 실험 결과를 분석하였으나, 향후 연구에서는 학습자의 개인별 차이를 보다 정밀하게 분석하여, 맞춤형 신체 학습 시스템을 개발할 수 있다. 또한, 다양한 학습 분야로 확장하여, 과학, 예술, 스포츠 훈련 등에서 신체 학습 기법이 어떻게 최적화될 수 있는지를 탐구할 수 있다. 마지막으로, 장기적인 학습 효과를 추적하기 위한 후속 연구를 진행하여, 신체적 학습이 지속적인 학습 성과 향상에 기여하는지를 조사해볼 수 있다. [성과와 관련된 실적] 국제 학술지 논문: Dajin Lee, Daehyeon Nam, and Seungmoon Choi, “Augmenting Outdated Museum Exhibits with Embodied and Tangible Interactions for Prolonged Use and Learning Enhancement,” International Journal of Human-Computer Studies (IJHCS), 2025. [성과와 관련된 이미지] [그림 1] 오래된 과학 전시물과의 신체적 상호작용을 유도하는 증강 시스템. [그림 2] (a) 기존 과학 전시물과 증강된 과학 전시물의 학습 효과 비교. (b) 증강된 과학 전시물 내에서 특정 단계 수행 여부에 따른 몰입도 비교.
최승문 교수 2025.04.07 1409 -
[최승문 교수] 효과적인 방향 지시를 위한 공간적 청각과 촉각 자극의 지각적 정렬
[연구의 필요성] 공간적 청각과 촉각 단서는 타겟 위치 파악 및 충돌 회피에 중요하며, 특히 시각 정보가 부족하거나 인지 부하가 높은 상황에서 필수적이다. 그러나 기존 연구에서는 두 감각 단서가 공간적으로 정렬되지 않으면 성능이 저하될 수 있어 청각 및 촉각 간의 정렬이 필요하다는 점만 강조되었을 뿐, 실질적으로 허용 가능한 오차 범위에 대한 정량적 연구는 부족했다. 따라서 본 연구는 청각과 촉각 간 방향 차이에 대한 지각적 역치를 측정하고, 이 범위 내에서의 공간적 정렬이 위험 회피 성능에 미치는 영향을 평가함으로써 보다 효과적인 공간 청각-촉각 시스템을 설계하는 데 기여하고자 한다. [포스텍이 가진 고유의 기술] 본 연구는 실환경 스피커 기반 실험과 가상 공간 음향을 활용한 실험을 병행하여, 청각과 촉각 자극 간의 공간적 차이에 대한 지각적 한계를 정량적으로 분석하였다. 또한, 기존의 촉각 장치가 공간 분해능이 낮거나 물리적 크기와 비용 문제로 인해 제한이 있었던 반면, 본 연구에서는 최소한의 촉각 액추에이터를 활용하면서도 효과적인 방향성 신호를 제공할 수 있는 최적의 배치 방법을 제안하였다. 특히, 가상 현실(VR) 및 증강 현실(AR) 환경에서도 적용 가능한 공간적 정렬 기준을 수립함으로써, 향후 다양한 인터페이스 설계에 활용될 수 있도록 하였다. [연구의 의미] 본 연구는 청각 및 촉각 신호의 정렬이 완벽하지 않더라도, 지각적 역치 내에서 허용 가능한 수준이라면 위험 회피 성능이 유지될 수 있음을 실험적으로 입증하였다. 이를 통해, 공간 음향과 촉각 피드백을 결합할 때 반드시 완벽한 정렬이 필요하지 않으며, 특정 범위 내에서의 유연한 통합이 가능함을 시사한다. 또한, 촉각 액추에이터의 수를 최소화하면서도 충분한 공간적 정보 전달이 가능함을 보여주어, 향후 웨어러블 촉각 장치의 크기와 비용을 줄이면서도 높은 성능을 유지하는 방향으로 설계할 수 있는 가능성을 열었다. [연구결과의 진행 상태 및 향후 계획] 향후 연구에서는 본 연구에서 측정한 지각적 역치가 실제 가상 현실 시스템에서 어떻게 적용될 수 있는지 추가적인 검증이 필요하다. 특히, 본 연구에서는 주로 수평면에서의 정렬을 다루었으나, 향후 연구에서는 수직적 정렬 및 3D 공간 내에서의 인지적 한계를 분석하여 더욱 정교한 청각-촉각 통합 시스템을 개발할 필요가 있다. 또한, 개인별 감각 차이와 같은 사용자 맞춤형 피드백을 제공하는 방안을 연구하여, 보다 다양한 사용자들에게 최적화된 공간 청각-촉각 인터페이스를 제공할 수 있도록 확장할 계획이다. [성과와 관련된 실적] 국제 학술지 논문: Dajin Lee and Seungmoon Choi, “Perceptual Alignment of Spatial Auditory and Tactile Stimuli for Effective Directional Cueing,” IEEE Transactions on Visualization and Computer Graphics (TVCG), 2025 (Also presented in the 2025 IEEE Conference on Virtual Reality and 3D User Interfaces). [성과와 관련된 이미지] [그림 1] 청각과 촉각 자극의 방향 차이 역치 측정 결과를 활용한 다중감각 방향 지시 효과. [그림 2] 청각과 촉각 자극의 방향 차이의 지각적 역치 측정 결과.
최승문 교수 2025.04.07 1418 -
[유환조 교수] Controlling Diversity at Inference: Guiding Diffusion Recommender Models with Targeted Category Preferences
[연구의 필요성] 추천 시스템은 사용자의 과거 행동과 아이템의 특성을 기반으로 맞춤형 추천을 제공한다. 그러나 추천시스템이 정확성에만 초점을 맞추면 인기 있는 아이템이나 카테고리에 치우쳐 필터 버블 현상을 초래한다. 이는 장기적으로 사용자 만족도를 저하시키고 아이템의 다양성을 감소시키기 때문에, 다양성을 제어하는 것은 필수적이다. [포스텍이 가진 고유의 기술] 기존 연구들은 모델 학습시에 추천되는 다양성의 강도가 결정되거나, 추론시에 주어진 다양성의 강도에 맞게 최적화 문제를 풀어야했음. 본 연구팀은 Diffusion Model을 활용하여, 추론(Inference) 단계에서 사용자의 일시적인 선호도나 비즈니스 전략에 따라 다양성을 조절할 수 있는 유연한 방법론을 개발함. [연구의 의미] 이 연구는 추천 시스템에서 다양성 제어의 새로운 패러다임을 제시하였음. 특히, 추론 단계에서 사용자의 일시적인 선호도나 비즈니스 전략에 따라 다양성을 조절할 수 있는 유연성을 제공함으로써, 필터 버블 문제를 완화하고 사용자 만족도를 향상시킬 수 있음. [연구결과의 진행 상태 및 향후 계획] 현재 KDD’25에 게재승인(Accept)된 상태이며, 올해 8월에 학회에서 발표할 예정임. [성과와 관련된 실적] ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’25)에 채택됨. 데이터마이닝 분야에서 가장 권위있는 학회로, BK 최우수 국제학술대회이며 Google scholar가준 Data Mining 분야 전체 1위임. [성과와 관련된 이미지]
유환조 교수 2025.03.18 2513



