최신연구
-
[이근배 교수] EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic Maintenance
[연구의 필요성] 경량화된 대형 언어 모델(sLLMs)은 자원이 제한된 환경에서 활용도가 높지만, 업무 지향(task-oriented) 대화 시스템에서는 주제 일관성(topic consistency)을 유지하는 데 어려움을 겪는다. 이는 특히 서비스 챗봇과 같은 실사용 시나리오에서 중요하며, 잘못된 정보 전달, 사용자 신뢰도 저하, 보안 문제 등을 야기할 수 있다. 기존의 파인튜닝이나 프롬프트 엔지니어링 방식은 자원 비용이 크거나 복잡한 상황에서 효과가 제한적이다. 따라서, 별도의 학습 없이 주제 일관성을 유지할 수 있는 경량의 정렬 기법이 요구된다. [포스텍이 가진 고유의 기술] 입력이 on-topic인지 off-topic인지에 따라 언어 모델 내부의 레이어별 생성 엔트로피가 다르게 나타나는 점에 착안하여, 이를 이용한 엔트로피 기반 스티어링 강도 조절 기법을 개발하였다. 스티어링 벡터(Steering Vector)는 기존처럼 고정 강도로 적용하는 대신, 입력의 엔트로피 값을 기준으로 동적으로 조정되어, off-topic 입력에는 강하게, on-topic 입력에는 약하게 작용한다. 이를 통해 주제 일관성은 강화하면서도 자연스러운 응답 품질을 유지할 수 있다. 이 방식은 모델 파라미터를 변경하지 않고도 적용 가능하며, 별도의 학습 없이 실시간 제어가 가능한 경량 정렬 기술이라는 점에서 기존 방법과 차별된다. [연구의 의미] 본 연구는 경량 LLM 기반 대화 시스템의 핵심 문제였던 주제 유지 능력 부족 문제를 해결하기 위해, 모델 학습 없이도 시나리오 일관성을 유지할 수 있는 EnSToM(Entropy-scaled Steering vectors for Topic Maintenance)을 제안하였다. EnSToM은 입력의 엔트로피 분포를 분석해 상황에 따라 스티어링 벡터의 적용 강도를 조절하며, 이로써 잘못된 거부나 과도한 제약 없이 유연하고 정밀한 응답이 가능해진다. 실험 결과, 기존 방법 대비 주제 일탈 질문 거부 정확도가 최대 52.9% 향상되었고, 전반적인 정확도 역시 큰 폭으로 개선되었다. 이는 경량 모델에서도 고성능의 안전하고 신뢰할 수 있는 대화 시스템 구축 가능성을 입증하는 중요한 성과다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ACL 2025에 채택되어 발표될 예정이며, 현재 Minstral-8B 모델과 같은 타 모델로의 확장 가능성도 검증 완료되었다. 향후 연구진은 다양한 도메인 및 멀티태스크 확장을 통해 EnSToM의 범용성을 강화하고, 계수 선택 자동화 및 학습 기반 최적화 기법 추가 등으로 실사용 환경에서의 적용성을 한층 높일 계획이다. [성과와 관련된 실적] Heejae Suh, Yejin Jeon, Deokhyung Kang, Taehee Park, Yejin Min, Gary Geunbae Lee,EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic Maintenance, Annual Meeting of the Association for Computational Linguistics (ACL) 2025 Findings, Accepted [성과와 관련된 이미지]
이근배 교수 2025.06.13 130 -
[한욱신 교수] HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval
[연구의 필요성] 개방형 도메인에서 테이블과 텍스트를 활용한 질의응답 시스템은 효과적인 정보 검색과 복잡한 추론 능력을 요구한다. 그러나 기존 연구들은 크게 두 가지 접근법을 취하고 있다. 하나는 질의 전에 테이블과 텍스트를 사전에 결합하는 '초기 융합(Early Fusion)'으로, 이는 종종 질의와 무관한 내용을 포함하거나 질의 의존적인 관계를 놓치게 된다. 다른 하나는 질의가 주어진 후 동적으로 테이블과 텍스트 간 연결을 형성하는 '후기 융합(Late Fusion)'으로, 다수의 가능한 테이블-텍스트 조합을 고려하는 과정에서 오류가 누적될 가능성이 존재한다. 또한 두 접근법 모두 다중 단계(multi-hop) 추론과 집계(aggregation) 질의에 대한 추론이 미흡한 공통된 한계를 가지고 있다. 따라서 기존 접근법들의 한계를 극복하고 보다 정확하고 정교한 정보 검색 및 추론을 가능하게 하는 혁신적 접근법이 필요하다. [포스텍이 가진 고유의 기술] 본 연구진은 검색 문제를 테이블 조각과 문단 간의 초기 융합(early fusion)을 통해 구축된 이분 데이터 그래프(bipartite data graph) 상에서, 질문과 관련된 부분 그래프(subgraph)를 효과적으로 탐색하는 문제로 재정의하였다. 이를 위해 단계별 세분화 전략을 적용한 세 단계의 검색 파이프라인 HELIOS를 제안하였다. 첫 번째 단계에서는 엣지 단위(edge-level)의 다중 벡터 검색기(multi-vector retriever)를 활용하여 고정밀 후보 서브그래프를 추출하고, 두 번째 단계에서는 질의와 정합성이 높은 노드를 식별한 후 선택적으로 확장하여 초기 융합에서 누락되었던 질의 의존적 연결을 복원한다. 마지막 단계에서는 확장된 그래프를 중심 노드 기반의 별 모양 부분 그래프(star-shaped subgraph)들로 분해하고, 대형 언어 모델이 집계 및 다중 단계 추론을 수행함으로써, 관련 정보를 포함한 문서나 테이블만을 선택하여 최종 출력으로 제공한다. [연구의 의미] 본 연구는 기존 테이블-텍스트 기반 질의응답 시스템이 안고 있던 비정밀한 검색과 단편적인 추론이라는 두 가지 핵심 한계를 동시에 해결하고자, 검색 과정을 그래프 기반 문제로 재정의하고, 단계별 세분화 전략을 갖춘 새로운 프레임워크 HELIOS를 제안하였다는 점에서 큰 의의를 가진다. HELIOS는 테이블과 문단 간 초기 융합으로 구축된 이분 그래프에서 질의와 관련된 정보를 정밀하게 탐색하고, 대형 언어 모델을 통한 집계 및 다중 단계 추론을 결합함으로써 복잡한 질의에도 정확하게 응답할 수 있도록 설계되었다. OTT-QA 벤치마크 실험 결과, HELIOS는 기존 최고 성능 모델 대비 최대 42.6%의 답변 회수율(recall) 향상과 39.9%의 nDCG 개선을 달성하였다. 이는 단순한 검색 정확도를 넘어, 하위 질의응답 시스템 전체의 성능을 실질적으로 향상시킨 결과로, 향후 개방형 질의응답 시스템의 성능 개선에 핵심적인 기술적 기반이 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제 학술 대회인 ACL 2025 메인 컨퍼런스에 채택되어 발표 및 출판될 예정이다. 앞으로 연구진은 테이블과 텍스트뿐 아니라 이미지 등 다양한 멀티모달 데이터로 확장하여 보다 광범위한 분야에 적용 가능한 범용적 검색 시스템으로 발전시킬 계획이다. 또한, LLM의 환각(hallucination)을 줄이기 위해 자기 평가(self-evaluation) 기술을 도입하는 등의 추가 연구를 진행 중이다. [성과와 관련된 실적] Sungho Park, Joohyung Yun, Jongwuk Lee, Wook-Shin Han. "HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval", ACL 2025 Main Conference. [성과와 관련된 이미지] 그림 1. 기존 방법들이 질의 관련 문서를 정확히 검색하지 못하는 세 가지 사례를 보여주는 예시그림 2. HELIOS 프레임워크의 전반적인 동작 과정그림 3. HELIOS의 질의 기반 노드 확장 과정 예시
한욱신 교수 2025.06.04 281 -
[황인석/옥정슬 교수] 목표 감정을 유발하도록 개인화된 비유적 경험 생성을 통한 대형언어모델(LLM) 기반의 정서적 공감 보조 AI 에이전트
[연구의 필요성] 다양한 정체성, 성격, 가치관을 지닌 사람들이 함께 살아가는 현대 사회에서, 공감을 기반으로 한 소통은 더 이상 선택이 아닌 필수적인 요소가 되었다. 공감 보조를 위한 인간-컴퓨터 상호작용(HCI) 분야의 기존 접근 방식은, 특정 대상과 동일한 경험을 제공하면 유사한 감정을 이끌어낼 수 있다는 전제에 기반하고 있다. 그러나 서로 다른 배경을 지닌 사람들은 동일한 경험에 대해서도 서로 다른 감정을 느낄 수 있으며, 이는 경험의 단순한 공유만으로는 공감을 이끌어내기 어렵다는 기존 접근의 한계를 드러낸다. 이처럼 이질적인 타인에 대한 공감 부족이 심각한 사회적 문제로 부상함에 따라, 개인의 인지적·정서적 차이를 반영할 수 있는 공감 보조 기술의 필요성이 대두되고 있다. 이에 본 연구진은 이러한 문제를 인공지능 및 심리학 등 학제 간 융합의 관점에서 조망하고, 그 기술적 실현 가능성을 탐구하였다. [포스텍이 가진 고유의 기술] 포스텍 컴퓨터공학과 주효진 통합과정, 이정은 통합과정, 양승원 석사과정, 옥정슬 교수, 그리고 황인석 교수로 구성된 본 연구진은 대형 언어 모델(LLM)을 활용하여 사용자의 개인 특성 정보(인구통계적 프로필, 성격, 가치관 등)와 감정 반응 패턴을 학습하고, 타인의 경험에 유사한 감정을 유도할 수 있도록 사용자 맞춤형 비유적 상황을 생성하는 정서 공감 보조 에이전트 “EmoSync”를 개발하였다. 이 기술은 기존의 ‘동일한 경험 제시’ 방식이 아닌, ‘개인 맞춤형으로 설계된 다른 경험을 통해 동일한 감정을 유도’하는 혁신적인 접근으로, 사용자 개인화 데이터를 기반으로 한 정서 유사도 중심 공감 유도에 초점을 둔다. [연구의 의미] 본 연구는 공감 유도를 위한 새로운 패러다임을 제시하였다. EmoSync를 구체적인 문제 상황에 적용하고 그 성능을 평가하기 위해, 본 연구진은 미시적 차별 상황(Microaggression)을 대상으로 하여, 원경험자의 감정을 이해하기 어려운 사용자에게 그에 상응하는 비유적 경험을 생성함으로써 감정의 유사성을 유도하고, 결과적으로 정서적 공감을 촉진하도록 하였다. 100명 이상의 다양성을 지니는 참가자에 대한 실험 결과, EmoSync를 통한 비유적 경험 제시는 유발된 감정의 유사도 및 실제 공감 수준을 유의미하게 향상시키는 것으로 나타났으며, 이는 다양한 정체성을 가진 사회 구성원 간의 이해를 증진시키는 데 중요한 기술적 기반이 될 수 있음을 시사한다. [연구결과의 진행 상태 및 향후 계획] 본 연구진은 제시한 공감 보조 기술이 미시적 차별 상황에서 효과적으로 작동함을 바탕으로, 향후 세대 간·문화 간 소통과 같은 보다 광범위한 사회적 문제 상황으로의 확장을 계획하고 있다. 아울러, 공감 보조 AI 에이전트의 실생활 적용을 위한 사용자 맞춤형 인터페이스의 설계 및 개발도 고려하고 있다. 궁극적으로는 다양한 사회적 맥락에서 정서적 공감을 촉진함으로써, 더욱 포용적이고 상호 연결된 사회의 구현에 기여하고자 한다. [성과와 관련된 실적] 국제 학술대회 논문: Hyojin Ju, Jungeun Lee, Seungwon Yang, Jungseul Ok, Inseok Hwang. “Toward Affective Empathy via Personalized Analogy Generation: A Case Study on Microaggression” ACM CHI 2025. ACM CHI는 인간-컴퓨터 상호작용(HCI) 분야의 최고수준 학회임 (컴퓨터공학과 인정 학술대회 목록 최우수학회, 학술대회코드: 27, 학술대회약칭: CHI) 논문: https://dl.acm.org/doi/10.1145/3706598.3714122 비디오: https://www.youtube.com/watch?v=sT1gxhITWyU&t=9s 수상 실적: 본 논문에서 제안한 EmoSync 에이전트를 실제 시연한 데모 트랙 (CHI Interactivity)에서 “Popular Choice Honorable Mention Award” (Top 5%) 상을 수상하였음. [성과와 관련된 이미지] 그림 1에이전트(EmoSync)의 전반적인 동작 과정을 나타내는 그림 그림 2 EmoSync가 생성한 개인화된 비유적 상황의 예시
황인석/옥정슬 교수 2025.05.14 527 -
[이남훈 교수] ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models
[연구의 필요성] 최근 ChatGPT, Gemini 등 대부분의 상업용 AI 모델은 내부 파라미터에 대한 직접적인 접근이 불가능한, 이른바 블랙박스(Black-box) 형태로 제공되는 경우가 많다. 이러한 환경에서는 모델의 파라미터를 수정하지 않고도 원하는 성능을 얻기 위한 ‘블랙박스 트레이닝(Black-box Training)’ 기법에 대한 관심이 시대의 변화에 따라 점차 높아지고 있다. 블랙박스 트레이닝은 주로 영차 최적화(Zeroth-order Optimization)나 강화학습(Reinforcement Learning)에 기반하지만, 이들 방법은 일반적으로 수렴 속도가 느리다는 한계를 갖는다. 수렴 속도는 곧 모델에 대한 쿼리, 즉 API 호출 횟수와 밀접하게 연결되어 있어, 훈련 비용 문제로 직결된다. 본 연구는 이러한 문제의식에 기반하여, 영차 최적화를 활용한 블랙박스 트레이닝 환경에서 수렴 속도를 향상시킬 수 있는 새로운 알고리즘을 제안한다. [포스텍이 가진 고유의 기술] 본 연구에서는 영차 최적화의 수렴 속도가 모델 파라미터의 개수에 비례한다는 사실을 이론적 분석과 실험을 통해 확인하였다. 이를 바탕으로, soft prompt의 파라미터 수를 효과적으로 줄일 수 있는 내재적 차원 감소 기법을 제안하였다. 제안한 방법은 최적화해야 할 파라미터의 수를 크게 줄이면서도, feature sharing 기법과 내재적 차원의 구조적 특성을 활용함으로써 성능 저하 없이 효과적인 최적화를 가능하게 한다. 본 연구에서는 영차 최적화 기법의 느린 수렴 속도가 추정 기울기의 높은 분산에서 비롯된다는 점을 지적하고, 이를 완화하기 위한 방안으로 gradient clipping 기법을 도입하였다. 특히 gradient clipping에서는 임계값(threshold)의 설정이 성능에 중요한 영향을 미치는데, 본 연구는 영차 최적화 및 clipping과 관련된 이론적 분석을 바탕으로 최적화된 threshold 선택 방법을 제안하였다. 제안된 방식은 실제 실험을 통해 최적값(optimal)에 근접한 성능을 달성함을 확인하였다. [연구의 의미] 본 연구는 기존에 경시되고 있던 Black box training에서의 API query cost에 대한 문제를 지적했다는 점 뿐만 아니라, 해당 문제를 이론적 기반을 둔 여러 technique을 통해 매우 효과적으로 풀어냈다는 점에서 의미를 가진다. 이와 같은 접근은 블랙박스 환경에서의 효율적인 학습 방법을 제시함으로써, API 기반 상용 모델을 활용한 downstream task 최적화의 실용성과 효율성을 동시에 향상시킬 수 있는 기반을 마련하였다는 점에서 학술적·실용적 기여가 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제 학술 대회인 International Conference on Learning Representation (ICLR 2025) 논문으로 채택되어 포스터로 발표될 예정이다. 향후 연구에서는 좀 더 일반화된 시나리오에서 실제로 상업용 인공지능 모델에 바로 적용될 수 있는 방법을 고안하는 것을 목표로 한다. [성과와 관련된 실적] Seonghwan Park, Jaehyeon Jeong, Yongjun Kim, Jaeho Lee, Namhoon Lee. “ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models”, International Conference on Learning Representations (ICLR), 2025. [성과와 관련된 이미지]
이남훈 교수 2025.04.23 627 -
[곽수하 교수] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
[연구의 필요성] 기존 영상-텍스트 검색(Video-Text Retrieval) 모델은 주로 영상의 시각 정보와 텍스트 정보만을 활용하여 영상 콘텐츠를 이해하고 검색해왔음. 그러나 영상에는 시각 정보 외에도 풍부한 오디오 정보가 존재하며, 이는 인물의 감정, 배경 상황, 발화 내용 등 ‘보이지 않지만 들리는’ 중요한 단서를 제공할 수 있음. 기존 방법들은 이러한 오디오 정보를 무분별하게 활용하거나 아예 무시하는 경향이 있어, 오히려 관련없는 오디오(예: 배경 소음)가 검색 성능을 저해하는 문제가 있었음. [포스텍이 가진 고유의 기술] 포스텍 연구팀은 오디오의 유용성을 동적으로 판단하여 시각 정보와 선택적으로 융합할 수 있는 Gated Attention 기반의 융합 모듈을 개발함. 또한, 시청각 표현과 텍스트 간의 정밀한 정렬을 위해 intra-modal 유사도를 고려한 적응형 margin 기반의 대조 손실함수를 개발함. [연구의 의미] 본 연구는 영상-텍스트 검색 분야에서 오디오 정보를 효과적으로 통합하는 방법론을 제안함으로써, 기존 시각 중심 모델들의 한계를 극복하였음. [연구결과의 진행 상태 및 향후 계획] 본 연구는 뛰어난 성과를 인정받아 컴퓨터 비전 최고 수준 학회인 CVPR 2025에 구두(Oral)로 발표 예정임. [성과와 관련된 실적] Boseung Jeong, Jicheol Park, Sungyeon Kim, Suha Kwak. “Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval”. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. [성과와 관련된 이미지]
곽수하 교수 2025.04.16 642 -
[곽수하 교수] GENIUS: A Generative Framework for Universal Multimodal Search
[연구의 필요성] 현대 정보 검색 시스템은 방대한 규모의 데이터베이스에서 관련 정보를 신속하고 정확하게 검색할 필요성이 증가함에 따라, 기존의 임베딩 기반 검색 방식이 지닌 인덱스 구축 및 최근접 이웃 탐색의 비용 부담이 주요 문제로 대두된다. 이에 반해, 생성적 검색은 쿼리로부터 대상 데이터의 식별자(ID)를 직접 생성함으로써 효율성을 극대화할 수 있는 혁신적 접근법으로 부상하고 있다. 다만, 기존의 생성적 검색 방식은 특정 작업에 국한되어 응용 범위가 제한적이며, 다양한 멀티모달 상황에서의 일반화 능력이 부족한 단점을 지닌다. 본 연구는 텍스트, 이미지, 그리고 이들 혼합 형태에 이르는 이기종 데이터의 검색 요구를 하나의 통합 프레임워크로 해결하고자 하며, 사용자 의도에 따른 지시어(instruction)를 활용해 각 작업에 최적화된 검색 결과를 제공할 수 있는 보편적 생성 검색 체계의 필요성을 제기한다. [포스텍이 가진 고유의 기술] 본 연구는 기존의 임베딩 기반 검색 방식 및 기존 생성형 검색 방식의 한계를 극복하기 위한 GENIUS라는 생성형 검색 방법을 제시한다. 연구에서는 특히 모달리티-디커플드 의미 양자화(modality-decoupled semantic quantization) 기법을 제안하여, 이미지, 텍스트, 이미지-텍스트 쌍 등 서로 다른 데이터 타입에 대해 각 모달리티와 의미 정보를 분리하여 효과적으로 인코딩하는 방법을 제안한다. 또한, 질의-대상 간의 다양성을 보완하기 위해 질의 보강(query augmentation) 전략을 적용하여, 질의와 대상 간의 임베딩 보간 과정을 통해 모델의 일반화 능력을 한층 강화한다. [연구의 의미] 본 연구는 전통적인 임베딩 기반 검색 패러다임을 벗어나, 쿼리로부터 직접 대상 데이터의 식별자를 생성하는 접근법을 제시함으로써, 검색 시스템의 효율성과 확장성을 극대화하는 데 기여한다. 더욱이, 다양한 모달리티와 도메인의 데이터를 하나의 통합 체계로 다룸으로써, 사용자 요구에 따른 다채로운 검색 작업을 효과적으로 수행할 수 있는 보편적 해결책을 제공한다. 이를 통해 기존의 작업별로 한정된 생성적 검색 방식이 가진 한계를 넘어, 실제 응용 상황에서 요구되는 다중 작업 및 멀티모달 검색 문제를 근본적으로 개선하는 의의를 지닌다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 2025년 컴퓨터비전 분야 최우수 국제학술대회 중 하나인 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)에서 발표와 출판을 앞두고 있다. 현재 연구진은 기존 GENIUS 프레임워크의 성능을 더욱 향상시키기 위해, 보다 대규모의 사전학습 인코더를 활용한 확장 모델을 개발 중에 있다. 이를 통해 기존 임베딩 기반 검색 방식을 성능 면에서 능가하는 생성 기반 검색 모델로의 진화를 목표로 하며, 특히 복잡한 멀티모달 질의나 지식 중심 검색과 같은 고난도 작업에서도 높은 정확도와 일반화 성능을 유지할 수 있는 방향으로 연구를 심화해 나가고 있다. [성과와 관련된 실적] Sungyeon Kim, Xinliang Zhu, Xiaofan Lin, Muhammet Bastan, Douglas Gray, Suha Kwak / GENIUS: A Generative Framework for Universal Multimodal Search”, CVPR 2025 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 629 -
[곽수하 교수] Efficient and Versatile Robust Fine-Tuning of Zero-shot Models
[연구의 필요성] 대규모 이미지-텍스트 사전학습 모델은 제로샷 추론 능력을 갖추어 다양한 데이터 분포에서 일정 수준의 성능을 보이나, 하위 작업으로의 전이 과정에서 기존의 전체 파인튜닝 방식은 실제 분포 간 차이가 큰 상황에서 일반화 능력이 크게 저하되며, 막대한 계산 자원과 메모리, 스토리지를 소모하는 한계가 있다. 특히 기존의 파인튜닝 방식들은 목적에 특화된 세부 조정 시 모델이 갖는 사전학습 지식의 활용도를 저해하여, 실제 환경에서의 분포 이동이나 외부 데이터에 대한 적응력이 떨어진다. 이러한 문제점을 해결하기 위해 제로샷 모델의 강점을 유지하면서도, 다운스트림 작업에 적합한 성능 향상 및 분포 변화에 대한 견고함(OOD Robustness)을 확보하는 효율적이고 경량화된 파인튜닝 방법론의 필요성이 대두된다. [포스텍이 가진 고유의 기술] 본 연구는 파인튜닝 과정에서 전체 모델의 업데이트 없이 일부 경량 모듈만을 학습하는 Parameter-Efficient Fine-Tuning(PEFT)의 장점을 극대화하고, 동시에 Robust Fine-Tuning에서 요구되는 분포 변화에 대한 내성을 강화하기 위해 ‘Robust Adapter (R-Adapter)’를 제안한다. 이 방법은 모델 내에 어댑터 모듈을 추가하고, 어댑터 드롭 (Adapter Dropping), 어댑터 가중치 누적 (Accumulation), 가중치 재조정 (Re-scaling)의 세 가지 자가 앙상블 전략을 도입하여, 사전학습 모델과 파인튜닝된 모듈 간의 최적의 결합 효과를 구현하며, 추가적인 저장 및 계산 비용 없이 효율적으로 성능을 향상시키도록 설계된다. 또한, 다중 양성 샘플 간 정밀 정렬을 도모하는 MPM-NCE 손실 함수를 도입함으로써, 이미지와 텍스트 간의 미세한 대응 관계를 효과적으로 학습하는 기술을 선보인다. 본 연구는 데이터의 복잡하고 다양한 계층 구조를 직접적인 주석 정보 없이 파악하고, 해당 구조를 임베딩 공간 내에 효과적으로 반영하는 것을 목표로 한다. 이를 위해, 본 연구에서는 데이터들을 계층적으로 군집화 할 수 있는 새로운 기법인 HIER를 제안한다. 구체적으로, 제안하는 방법은 데이터들의 상위 계층을 나타내는 매개변수인 계층적 프록시 (hierarchical proxy)를 도입함으로써, 프록시와 데이터 간의 계층적 상하 관계를 학습한다. 특히, 계층 구조를 표현하는 데에 적합한 특성을 가진 쌍곡선 공간 (Hyperbolic space)을 활용하여, 데이터의 의미론적 계층 구조를 정교하게 근사하는 방법을 제안한다. [연구의 의미] 본 연구는 데이터의 의미적 계층 구조를 주석 없이 자기 지도적으로 파악하고, 이를 활용하여 데이터의 실제 유사성을 보다 정확히 반영할 수 있는 임베딩 공간을 학습하는 방법을 새롭게 제안했다는 점에서 큰 의미를 가진다. 이를 통해 기존의 척도 학습 방법들이 가지고 있는 한계를 극복함으로써, 이미지 검색, 얼굴 인식, 사람 식별 등 다양한 응용 분야에서의 성능 향상을 기대할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 2024년 컴퓨터비전 분야 최우수 국제학술대회 중 하나인 The European Conference on Computer Vision (ECCV)에서 소개되었다. 현재는 다양한 이기종 데이터들이 섞여 있을 수 있는 실제 시나리오에서의 척도 학습 문제에 대한 연구를 진행중이다. [성과와 관련된 실적] Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak, “Efficient and Versatile Robust Fine-Tuning of Zero-shot Models”, ECCV 2024 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 606 -
[곽수하, 김원화 교수] Improving Sound Source Localization with Joint Slot Attention on Image and Audio
[연구의 필요성] 사람은 일상에서 시청각 정보를 통합하여 자연스럽게 소리의 발생 위치를 인지한다. 이러한 능력은 자율주행, 로봇 비전 등 다양한 실세계 응용에서 필수적이며, 이에 따라 이미지와 오디오 데이터를 바탕으로 소리의 발생 위치를 추정하는 Sound Source Localization (SSL) 연구가 활발히 진행되고 있다. 그러나 기존의 SSL 연구는 고비용의 정답 레이블 수집 문제로 인해, 대부분 레이블 없이 이미지-오디오 쌍만을 활용한 약지도 방식에 의존하고 있다. 기존 연구는 이미지의 일부 특징과 오디오의 전체 특징 간의 대응을 학습하는 데 한정되어 있으며, 오디오의 잡음이나 이미지의 부분적 정보로 인해 정확한 정렬과 위치 추정이 어렵다는 한계를 지닌다. [포스텍이 가진 고유의 기술] 본 연구에서는 이미지와 오디오의 복잡한 상호작용을 효과적으로 분리하고 분석할 수 있도록 Joint Slot Attention(JSA) 메커니즘을 새롭게 제안하고 적용하였다. 이 기술은 이미지와 오디오 각각의 특징을 타겟과 비타겟 슬롯으로 분해하여 소리의 발생 개체 전체를 추정할 수 있도록 설계되었으며, 기존의 전역 오디오 특징 기반 방식이 가진 한계를 극복한다. 또한, 두 모달리티 간의 정밀한 대응을 유도하기 위해 Cross-modal Attention Matching 기법을 제안하고, 이를 통해 음원 위치 추정 성능과 함께 이미지-오디오 검색 성능까지 대폭 향상시켰다 [연구의 의미] 본 연구는 이미지와 오디오 간의 정밀한 대응 관계를 학습함으로써, 레이블 없이도 실제 음원 위치를 정확하게 추정할 수 있는 새로운 방법론을 제시하였다. 본 연구는 라벨이 부족한 환경에서도 정교한 시청각 인식 시스템을 구현할 수 있다는 가능성을 제시하였으며, 향후 자율주행, 로봇비전, 보조기술 등 다양한 분야에서의 실용적 확장성과 이론적 기여를 동시에 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 최고 수준 학회인 CVPR 2025에서 포스터로 발표될 예정이다. 향후 연구에서는 이미지 내에 음원이 다수 존재하는 복잡한 장면에서의 문제로 확장하고자 한다. 또한 Sound source localization의 모티베이션이 자율주행, 로봇 비전 등 다양한 실세계 응용이므로 실제 응용 환경에서의 적용 가능성을 연구도 추진할 예정이다. [성과와 관련된 실적] Inho Kim, Youngkil Song, Jicheol Park, Won Hwa Kim, Suha Kwak. “Improving Sound Source Localization with Joint Slot Attention on Image and Audio”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. [성과와 관련된 이미지]
곽수하, 김원화 교수 2025.04.16 599 -
[곽수하 교수] Decoupled Finetuning for Domain Generalizable Semantic Segmentation
[연구의 필요성] 오늘날 인공지능 기술은 이미지 분류, 자연어 처리, 음성 인식, 자율주행 등 다양한 응용 분야에서 인간을 능가하거나 이에 필적하는 수준의 성능을 보이고 있다. 그러나 이러한 높은 성능은 주로 훈련 데이터와 유사한 분포를 가진 테스트 데이터에 국한된 경우가 많다. 즉, 인공지능 모델이 학습에 사용된 데이터에 과적합(overfitting)된 결과, 처음 접하는 낯선 데이터나 훈련 분포와는 다른 실제 환경의 데이터에 대해서는 기대 이하의 성능을 보이는 경우가 빈번하게 발생한다. 이러한 일반화 성능의 부족은 인공지능 시스템의 신뢰성을 크게 떨어뜨리는 요인으로 작용하며, 특히 안전이나 정밀성이 중요한 의료, 금융, 자율주행과 같은 분야에서는 현실 적용에 큰 장애물이 된다. 따라서 인공지능 모델이 다양한 환경에서도 안정적이고 일관된 성능을 발휘할 수 있도록 일반화 능력을 향상시키는 것이 필요하다. [포스텍이 가진 고유의 기술] 본 연구에서는 현재 인공지능 모델의 학습 과정에서 일반적으로 채택되고 있는 인코더와 디코더 간의 공동 최적화(joint optimization), 즉 두 구성 요소를 하나의 공동 목적 함수 하에 동시에 최적화하는 방식이 모델의 일반화 성능에 있어서 잠재적인 취약점을 가질 수 있음을 이론적 및 실험적으로 분석하였다. 이러한 문제를 극복하기 위해, 본 연구에서는 인코더와 디코더를 분리하여 각 구성 요소가 소스 도메인에 과적합된 정보를 기준으로 학습되는 것을 방지하는 Decoupled FineTuning (DeFT) 학습 프레임워크를 제안하였다. [연구의 의미] 기존 인공지능 모델의 학습에 있어 표준이 되는 패러다임의 한계를 지적하였고, 이를 극복할 수 있는 새로운 학습 패러다임을 제안함으로서 인공지능 모델의 일반화 능력과 관련하여 새로운 연구 방향성과 시사점을 제공한다는 의미를 가진다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 머신 러닝 분야 최우수 국제학술대회 ICLR 2025에서 포스터로 발표될 예정이다. 향후 제안하는 학습 프레임워크에 대한 심층적인 이론적 분석을 수행하는 연구가 가능하다. [성과와 관련된 실적] Jaehyun Pahk, Donghyeon Kwon, Seong Joon Oh, Suha Kwak. “Decoupled Finetuning for Domain Generalizable Semantic Segmentation”. International Conference on Learning Representations (ICLR), 2025 [성과와 관련된 이미지]
곽수하 교수 2025.04.16 655