최신연구
-
[곽수하 교수] Improving Target Presence and Plurality Recognition for Generalized Referring Image Segmentation
[연구의 필요성] 참조 영상 분할(Referring Image Segmentation, RIS)은 자연어 표현으로 기술된 영상 내 영역을 분할하는 기술로, 인간-컴퓨터 상호작용, 영상 편집, 로봇 비전 등 다양한 응용 분야에서 중요한 역할을 한다. 기존 RIS 모델들은 단일 객체만을 분할하는 것을 목표로 설계되어, 실제 환경에서 자주 발생하는 다중 객체 참조나 객체 부재 상황을 처리하지 못하는 한계를 가진다. 최근 일반화된 RIS(Generalized RIS)가 제안되어 단일 객체뿐 아니라 다중 객체 및 객체 부재 시나리오를 다루게 되었으나, 선행 연구들은 분할 특징과 객체 존재 여부 판단을 위한 특징을 동일하게 사용하여 두 작업 간 충돌이 발생하고, 객체 존재 여부 분류 성능이 크게 저하되는 문제를 보였다. 또한 데이터셋 내 객체 부재 및 다중 객체 샘플의 비중이 단일 객체 샘플에 비해 현저히 낮아(각각 9.14%, 25.53%), 모델이 이러한 시나리오를 효과적으로 학습하기 어려운 데이터 불균형 문제도 존재한다. 이에 따라 객체 존재 여부와 복수성(단일/다중)을 명시적으로 인식하고, 데이터 불균형을 해소할 수 있는 새로운 방법론의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 일반화된 RIS를 위한 새로운 아키텍처와 데이터 증강 전략을 제안하였다. 먼저 아키텍처 측면에서, 객체 존재 여부 분류를 위해 특별히 설계된 학습 가능한 쿼리인 '타겟 쿼리(target query)'를 도입하였다. 이 타겟 쿼리는 픽셀 디코더의 중간 특징들로부터 크로스 어텐션을 통해 정보를 집약하여 분할 특징과 독립적으로 객체 존재 여부를 판단한다. 또한 타겟 쿼리에 복수성 분류 헤드를 부착하여 텍스트 특징으로부터 직접 단일/다중 객체 여부를 학습하도록 하였다. 이를 통해 모델이 복수성 단서를 명시적으로 포착하고 복잡한 참조 시나리오에서도 정확한 마스크를 생성할 수 있도록 하였다. 데이터 증강 측면에서는 객체 부재 샘플과 다중 객체 샘플을 합성적으로 생성하는 전략을 개발하였다. 객체 부재 샘플은 배치 내 다른 영상의 텍스트 설명을 현재 영상과 쌍을 이루도록 교체하여 생성하고, 다중 객체 샘플은 최대 4개의 단일 객체 샘플을 2×2 그리드로 배열하고 텍스트를 "and"로 연결하여 생성한다. 이러한 간단하면서도 효과적인 증강 전략을 통해 데이터 불균형 문제를 완화하고 모델의 일반화 능력을 향상시켰다. [연구의 의미] 본 연구는 일반화된 RIS에서 객체 존재 여부와 복수성 인식을 명시적으로 다루는 새로운 프레임워크를 제시했다는 점에서 중요한 의의를 갖는다. 특히 기존 방법들이 분할과 존재 여부 판단을 위해 동일한 특징을 사용하여 발생하는 성능 저하 문제를 근본적으로 해결하였으며, 타겟 쿼리라는 전용 학습 가능 임베딩을 통해 두 작업을 효과적으로 분리하였다. 또한 복수성 분류를 통해 텍스트로부터 직접 단일/다중 정보를 추출하여 마스크 생성에 활용함으로써, 모델이 다양한 참조 시나리오를 보다 정확하게 이해할 수 있도록 하였다. 제안한 데이터 증강 전략은 추가적인 인간 주석 없이도 객체 부재 및 다중 객체 샘플을 효과적으로 생성하여 데이터 불균형 문제를 해소하고, 모델 아키텍처와 무관하게 적용 가능하여 범용성이 높다. 실험 결과, gRefCOCO 데이터셋의 모든 평가 지표에서 기존 최고 성능 방법들(ReLA, LISA, GSVA 등)을 크게 상회하였으며, 특히 대규모 멀티모달 모델 기반 방법들보다 적은 파라미터로 우수한 성능을 달성하였다. 이는 향후 영상-언어 이해, 인터랙티브 영상 편집, 로봇 비전 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회 AAAI 2026에 게재 승인되었다. 향후에는 더욱 복잡한 공간 관계를 다루는 다중 객체 시나리오 처리 능력 향상, 정교한 데이터 증강 기법 개발, 그리고 비디오 도메인으로의 확장 연구를 계획 중에 있다. 또한 제안한 타겟 쿼리 메커니즘을 다른 비전-언어 작업에 적용하는 연구도 진행할 예정이다. [성과와 관련된 실적] Namyup Kim, Jinsung Lee, Suha Kwak, "Improving Target Presence and Plurality Recognition for Generalized Referring Image Segmentation", AAAI Conference on Artificial Intelligence (AAAI), 2026. [성과와 관련된 이미지]
곽수하 교수 2025.12.16 125 -
[곽수하 교수] GaRA-SAM: Robustifying Segment Anything Model with Gated-Rank Adaptation
[연구의 필요성] Segment Anything Model (SAM)은 대규모 데이터로 학습되어 뛰어난 범용 분할 능력을 보여주지만, 노이즈, 블러, 안개, 비, 저조도 등 악조건 환경에서는 성능이 급격히 저하되는 한계를 갖는다. 이러한 악조건은 자율주행, 로봇 비전, 감시 시스템 등 실제 응용 환경에서 빈번하게 발생하므로, SAM의 실용적 활용을 위해서는 다양한 환경 조건에 대한 강건성 확보가 필수적이다. 기존의 이미지 복원 모듈을 SAM 앞단에 부착하는 방식은 계산 오버헤드가 크고, 세그멘테이션 성능 향상이 아닌 이미지 품질 개선에 최적화되어 있어 차선의 결과를 야기한다. SAM 전체를 파인튜닝하는 방식은 막대한 계산 자원을 요구하며 제로샷 일반화 능력을 저하시킨다. 또한 최근 연구는 clean-degraded 이미지 쌍을 요구하여 실제 환경의 열화에 학습하기 어렵고, 다양한 열화에 불변한 표현을 학습하므로 입력의 특정 열화에 적응하는 데 한계를 갖는다. 이에 따라 SAM의 일반화 능력을 유지하면서도 다양한 열화 조건에 유연하게 적응할 수 있는 새로운 접근법의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 입력 이미지의 열화 특성에 따라 모델의 적응 강도를 동적으로 조절하는 Gated-Rank Adaptation(GaRA) 기법을 제안하였다. 제안한 방법은 파라미터 효율적 적응 기법인 LoRA(Low-Rank Adaptation)를 기반으로 하되, LoRA의 가중치 행렬을 여러 개의 기본 구성요소(rank-1 컴포넌트)로 분해하고, 학습된 게이팅 모듈을 통해 입력에 따라 적절한 구성요소들만 선택적으로 활성화한다. 이를 위해 계층적 게이팅 전략을 도입하였는데, 먼저 입력의 열화 정도에 따라 낮은 적응 강도가 필요한 공간과 높은 적응 강도가 필요한 공간 중 하나를 선택하고, 선택된 공간 내에서 개별 구성요소들의 활성화 여부를 세밀하게 결정한다. 이러한 설계를 통해 입력 특성에 따라 적응을 적용하며 SAM 본연의 일반화 능력을 최대한 보존한다. 또한 깨끗한 참조 이미지 없이도 열화된 이미지만으로 학습이 가능하여, 실제 환경에서 수집된 데이터를 직접 활용할 수 있다. [연구의 의미] 본 연구는 대규모 사전학습 모델의 강건성을 입력 적응형으로 향상시키는 새로운 패러다임을 제시했다는 점에서 중요한 의의를 갖는다. 특히, LoRA의 최적 랭크가 열화 유형뿐 아니라 개별 이미지에 따라서도 크게 달라진다는 실증적 분석을 통해 입력별 맞춤 적응의 필요성을 규명하고, 이를 해결하는 GaRA를 제안하였다. 제안한 GaRA-SAM은 합성 열화 및 실제 열화 벤치마크 전반에서 기존 방법들을 능가하는 성능을 달성하였으며, 특히 실제 악천후 주행 환경 데이터셋인 ACDC에서 기존 최고 성능 대비 21.3%p의 큰 폭의 IoU 향상을 보였다. 이는 자율주행, 로봇 비전, 감시 시스템 등 실환경에서의 강건한 시각 인식이 요구되는 분야에 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 NeurIPS 2025에서 포스터로 발표되었다. 향후 비디오 세그멘테이션으로의 확장 연구를 진행 중이다. [성과와 관련된 실적] Sohyun Lee, Yeho Gwon, Lukas Hoyer, Suha Kwak, “GaRA-SAM: Robustifying Segment Anything Model with Gated-Rank Adaptation”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
곽수하 교수 2025.12.16 118 -
[곽수하/조민수 교수] Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection
[연구의 필요성] 사회적 상호작용 인식은 여러 사람이 등장하는 장면에서 사람들 사이의 비언어적 행동(시선, 표정, 손짓, 자세, 접촉 등)을 이해하는 핵심 기술로, 인간-로봇 상호작용, 감시, 영상 분석 등 다양한 응용 분야에서 중요한 역할을 한다. 기존 연구들은 주로 사람 간의 관계를 전역적인 특징을 바탕으로 모델링하는 데 초점을 맞추어 왔으나, 이러한 방식은 서로 미세한 차이를 갖는 세밀한 상호작용들을 구분하는 데 본질적인 한계를 가진다. 예를 들어, 동일한 두 사람 사이에서도 ‘미소’, ‘시선 회피’, ‘손동작’과 같은 상호작용은 서로 다른 신체 부위에 대한 선택적 주의(attention)를 요구한다. 그러나 기존 상호작용 탐지 연구들은 사람 단위의 전역 특징에 의존하여 상호작용을 구성하는 신체 부위 수준의 세밀한 단서를 충분히 포착하지 못할 뿐 아니라, 사람들 간의 관계를 바탕으로 그룹을 점진적으로 구성하기보다 그룹 정보를 바로 탐지하려는 한계를 갖는다. 이에 따라 신체 부위 단위의 세밀한 정보와 사람 간 관계를 함께 고려하는 새로운 상호작용 탐지 방법론의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 신체 부위 단위 정보를 활용하고, 사람 간 관계를 바텀업 방식으로 결합하는 새로운 프레임워크를 제안하였다. 제안한 방법은 먼저 개별 사람을 탐지한 후, 탐지된 각 사람의 임베딩을 변환하여 신체 부위별 의미를 담기 위한 파트 쿼리를 구성하고 이를 증강 디코더 모듈에 입력하여 신체 부위 정보를 반영한 표현을 얻는다. 이를 위해서 사전 학습된 자세 추정기를 활용하여 얼굴, 손, 다리 등 신체 부위 단위의 영역을 구성하고, 이 부위 정보를 특권 정보로 활용하여 사람 별로 파트 쿼리가 신체 부위를 인식하도록 유도한다. 이렇게 신체 부위 정보를 담도록 학습된 사람의 임베딩들 간의 유사도 기반 추론을 통해 사람들 간의 관계를 바텀업 방식으로 구성하고, 이를 바탕으로 최종적으로 미세한 사회적 상호작용을 탐지한다. [연구의 의미] 본 연구는 미세한 사회적 상호작용 탐지를 위해서 신체 부위 단위 정보를 인식하고, 이를 통하여 사람 간 관계를 바텀업 방식으로 추론할 수 있는 새로운 프레임워크를 제시했다는 점에서 중요한 의의를 갖는다. 특히, 기존의 전역 특징 기반 상호작용 탐지 방식이 갖는 근본적인 한계를 극복하고, 동일한 인물에서도 상호작용 종류에 따라 서로 다른 신체 부위에 주목해야 한다는 점을 체계적으로 모델링하였다. 또한, 제안한 방법은 NVI 및 Café 데이터셋에서 기존 방식 대비 우수한 성능을 달성함으로써, 사회적 상호작용 이해를 위한 새로운 표준적 접근 방식이 될 수 있는 가능성을 입증하였다. 이는 향후 사회적 로봇, 인간 행동 분석, 멀티모달 상호작용 이해 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 NeurIPS 2025에서 포스터로 발표되었다. 향후에는 텍스트나 음성 등의 언어 정보와 결합한 멀티모달 사회적 상호작용 이해로의 확장 연구 또한 계획 중에 있다. [성과와 관련된 실적] Dongkeun Kim, Minsu Cho, Suha Kwak, “Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
곽수하, 조민수 교수 2025.12.16 115 -
[이남훈 교수] The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM
[연구의 필요성] 거대 언어 모델의 활용 급증으로 모델 구동 비용이 증가함에 따라, 연산 및 메모리 절감을 위한 모델 압축 기법의 중요성이 커지고 있다. 특히 파라미터를 제거하는 가지치기(pruning)는 핵심적인 방법론으로, 연산량과 메모리 압축률을 확보할 수 있다. 그런데 기존 연구는 자원 효율성이 크게 증가하는 높은 압축률 구간(예: 70% 이상)에서 심각한 성능 저하를 겪는 문제가 있어, 고압축률에서도 성능을 확보해야하는 문제가 남아있다. [포스텍이 가진 고유의 기술] 본 연구는 제약 최적화 기법을 토대로, 원목적 함수 기반 극한 희박도의 언어모델 압축 기법을 제안한다. 기존 연구의 한계점이 희소화 과정에 자원 제약으로 인한 대리목적 함수 기반의 설계에 존재할 수 있는 가능성을 주목하여, 대리 목적 함수가 아닌 원목적 함수 기반의 거대 언어모델 희소화를 목적으로한 제약 최적화 문제를 설정하고, 이를 교차방향승수법(ADMM)을 적용하여 ELSA (Extreme LLM Sparsity with surrogate-free ADMM) 알고리즘을 설계하였다. 특히, 이 과정에서 사영을 통해 진행되는 희소화 과정의 해가 원목적함수의 해와 멀어질 수 있다는 점에 착안하여, 사영 과정에 목적함수의 곡률 정보를 주입하였고, 더욱 큰 모델의 희소화를 지원하기 위해 알고리즘에 사용되는 변수를 양자화할 수 있는 ELSA-L을 추가로 제안하였다. [연구의 의미] 본 연구는 기존 거대언어모델 희박화 연구에서 도달하지 못했던 고희박도 (90%) 영역 달성을 위해 원목적함수의 중요성을 규명하고 이를 통해 실제로 도달할 수 있음을 시연하였다. 이를 위해 제약 최적화 기반의 원목적 함수 기반 희박화 기법을 설계하고 원목적함수에 더욱 적합한 설계로 고도화 및 수렴성 등 이론적으로 분석하였다. 다양한 거대 언어모델 종류 및 크기에서 기존 방법보다 매우 뛰어난 고희박도 성능을 확보할 수 있음을 보였고, 특히 가장 많이 사용되는 LLaMA-2-7B 모델의 90%희박도에서 기존 기법 대비 x7.8배 낮은 perplexity를 기록하였다. 이러한 성능에서 원래의 모델 대비 x2.5배의 추론 속도 향상 및 x4.6배의 메모리 압축률이 가능함을 보였고, 이는 대규모 언어 모델이 많이 활용되는 상황에서, 희박화를 통해 구동 비용을 획기적으로 줄일 수 있는 효과적이고 이론적인 새로운 방안을 제시하였다는 점에서 학술적·실용적 의의가 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 한국인공지능학회 추계학술대회 / Joint conference on Korean Artificial Intelligence Association (JKAIA 2025)에서 한국남동발전 최우수 논문상을 수상하였다. 향후 연구에서는 이를 초대규모 모델에 확장 적용 및 초고희박도에서의 성능 확보를 할 수 있도록 알고리즘을 개선하는 것을 목표로 한다. [성과와 관련된 실적] 2025 한국인공지능학회 추계학술대회 한국남동발전 최우수논문상 수상 / 이관희 석사과정(인공지능대학원), 장현도 석사과정(인공지능대학원), 이동엽 석사과정(인공지능대학원), 이남훈 교수(컴퓨터공학과) [성과와 관련된 이미지]
이남훈 교수 2025.12.09 140 -
[황인석 교수] ArithMotion: Peer-Relative Motion Generation for Social VR via Arithmetic Metaphor
[연구의 필요성] Social VR에서 비언어적 표현을 어떻게 매개하느냐는 기존의 고전적 컴퓨터 매개 소통과 구 별되는 핵심 요소이다. 특히 몸짓을 통한 동작 표현은 사용자 간의 감정적 연결을 형성하고, 현실감과 주체성을 강화하는 데 중요한 역할을 한다. 현재 통상적인 Social VR 플랫폼은 동 작 표현을 두 가지 방식으로 제공한다. 하나는 추적 기기를 사용하는 것으로 아바타에 직접 자연스러운 동작을 매개할 수 있으나, 기기 비용·공간·착용 부담 등으로 인해 많은 사용자에 게 접근성이 낮다는 한계가 있다. 이를 보완하는 다른 방법은 Emotes와 같은 사전 정의된 동작 집합 중 하나를 선택하여 표현하는 것으로, 간단한 입력만으로 표현이 가능하다는 장점 이 있으나, 표현의 다양성이 부족하고 현재 소통의 맥락을 반영하지 못한다는 문제가 있다. 이에 본 연구진은 상호 소통 이론에 입각하여 사용자의 간단한 입력만으로도 사회적 맥락에 부합하는 다양한 동작을 표현할 수 있는 동작 생성 방법 및 모바일 인터랙션 시스템을 개발 했다. 이를 통해 장비 의존성을 낮추면서도 풍부하고 상황 맞춤적인 비언어적 표현을 가능하 게 한다. [포스텍이 가진 고유의 기술] 본 연구팀은 기존 Social VR에서 해결되지 않던 비언어적 표현 격차를 줄이는 새로운 동작 생성 기술 및 산술적 입력 기반 인터랙션 시스템인 ArithMotion을 개발했다. 소통 상황에서 사람의 몸짓이 상대방의 동작에 상대적으로 반응한다는 상호소통 이론에 기반하여 Peer- Relativity라는 개념을 제안하였다. 이 개념을 토대로, 상대방의 동작과 사용자의 간단한 입 력만으로도 자연스럽고 사회적 맥락에 맞는 새로운 동작을 생성하는 기술을 구현했다. 특히 사용자가 직관적이고 쉽게 표현할 수 있도록 산술 연산을 입력 메타포로 활용하는 방식을 도 입했다. 사용자가 상대방 동작에 대해 스케일링, 부정, 덧셈 등 직관적인 산술 조작을 수행하 면, Motion Latent Space와 Negative Motion Generator로 구성된 동작 생성 모듈에서 이에 대응하는 적절한 동작을 생성한다. 또한, 모바일 환경에서도 쉽게 사용할 수 있도록 전 용 어플리케이션을 개발하여, 사용자가 클릭·슬라이드와 같은 간단한 입력만으로 상대방의동작을 선택하고 산술 연산을 수행할 수 있도록 지원한다. 이를 통해 복잡한 전신 추적 장비 없이도 누구나 상황 맞춤형 비언어적 표현을 자연스럽게 구현할 수 있다. [연구의 의미] 본 연구는 기존 VR 사용자들이 겪던 동작 표현의 제약을 크게 완화한다. 모바일 VR 기기를 사용하거나 공간적·상황적 제약으로 인해 사용자가 직접 동작을 수행하기 어려운 경우에도, 제한된 동작 셋에 국한되지 않고 사실상 무한한 동작을 생성 및 표현할 수 있다. 사용자 실험 을 통해 제약된 환경에서도 사용자가 시스템을 손쉽게 사용할 수 있었으며, 이를 통해 비언 어적 소통 격차가 완화되고 사회적 맥락에 자연스럽게 맞물리는 동작 표현이 가능함을 확인 하였다. 그 결과 상호작용의 몰입감과 그룹 내 소속감이 전반적으로 향상되는 효과가 나타났 다. ArithMotion은 기존의 동작 표현 방식에 대한 새로운 접근 방향을 제시하며, 다른 방식 들과도 상호 보완하여 활용될 수 있다. 특히 제한된 환경에서도 사용자가 무한하고 상황 맞 춤화된 동작을 표현할 수 있다는 점에서 차별적인 강점을 가진다. [연구결과의 진행 상태 및 향후 계획] 본 연구진은 앞으로도 다양한 도메인에서 표현의 어려움을 겪는 사용자들을 지원하는 표현 증강 시스템을 지속적으로 개발해나갈 예정이다. 특히, 사용자의 의도와 맥락을 이해하고 이 를 바탕으로 표현의 질을 향상시키는 지능형 시스템을 구축하고 직관적인 사용자 인터페이 스를 설계하는데 연구의 중심을 두고 있다. 궁극적으로 사용자의 표현 의도를 시스템이 스스 로 포착하고, 이를 보완·확장하여 보다 풍부하고 자연스러운 소통을 가능하게 하는 표현 지 원 기술로 발전시키는 것을 목표로 하고 있다. [성과와 관련된 실적] * 국제 학술대회 논문: Jaewoong Jang, Sungjae Cho, Yeseul Shin, Inseok Hwang. “ArithMotion: Peer-Relative Motion Generation for Social VR via Arithmetic Metaphorˮ ACM VRST 2025. 논문: https://doi.org/10.1145/3756884.3766039 (2025년 12월 1일 게재 예정) 비디오: https://www.youtube.com/watch?v=x6w9DkZUo8U [성과와 관련된 이미지] 그림 1. ArithMotion의 전반적인 동작 과정을 나타내는 그림 그림 2. 모바일 인터랙션 시스템 사용 예시: 스케일링 및 부정 인터랙션 (위), 덧셈 인터랙션 (아래)
황인석 교수 2025.12.01 186 -
[이남훈 교수] An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating the Impact of Noisy Annotations
[연구의 필요성] 딥러닝은 지난 10여 년간 눈부신 성과를 거두었지만, End-to-End 신경망은 여전히 내부 작동 원리가 불투명해 의사결정 과정을 해석하기 어렵다는 한계를 지닌다. 이는 고차원적이고 복잡한 표현에 의존하기 때문으로, 사용자가 모델의 예측 근거를 명확히 파악하기 어렵게 만든다. 이러한 문제를 보완하기 위해 제안된 개념 병목 모델(Concept Bottleneck Model; CBM)은 최종 예측에 앞서 인간이 이해할 수 있는 개념(concept)을 추론하도록 설계되어 의사결정의 투명성을 확보한다. 그러나 CBM은 사람이 라벨링한 개념 주석(annotation)에 기반해 학습하기 때문에 필연적으로 주석 오류(노이즈)가 포함될 수 있으며, 이는 CBM의 핵심적인 해석가능성과 예측 성능을 동시에 저해하는 치명적 요인이 된다. 실제로 잘못된 개념 라벨은 모델 전반의 신뢰도를 떨어뜨릴 수 있음에도 불구하고, 이러한 노이즈 문제와 그 영향에 대한 체계적 연구는 지금까지 충분히 이루어지지 않았다. [포스텍이 가진 고유의 기술] 본 연구는 개념 라벨 노이즈가 CBM에 미치는 영향을 최초로 체계적이고 종합적으로 규명하였다. 분석 결과, 노이즈는 해석성, 개입(intervention) 효과, 최종 예측 성능을 동시에 심각하게 저해하며, 특히 일부 개념이 노이즈에 현저히 취약하여 전체 성능 저하의 핵심 원인으로 작용함을 확인하였다. 이러한 문제를 완화하기 위해 두 가지 접근을 새롭게 제안하였다. 첫째, 학습 단계에서는 Sharpness-Aware Minimization을 적용하여 노이즈에 민감한 개념에서도 안정적이고 견고한 표현 학습이 가능하도록 하였다. 둘째, 추론 단계에서는 불확실성 기반 개입 전략을 도입하여 엔트로피로 측정되는 높은 예측 불확실성을 보이는 개념을 우선적으로 교정함으로써 제한된 개입 자원으로도 전체 성능을 효과적으로 회복할 수 있도록 하였다. 두 전략 모두 이론적 분석을 토대로 설계되었으며, 다양한 데이터셋을 활용한 실험을 통해 실제적인 효과가 검증되었다. [연구의 의미] 본 연구는 CBM의 핵심 취약점인 개념 라벨 노이즈 문제를 최초로 심도 있게 다루며, 그 심각성을 체계적으로 규명하고 동시에 실질적인 해결책을 제시했다는 점에서 학술적 의의가 크다. 특히, 노이즈에 취약한 개념 집합(susceptible set)을 밝혀내고 이에 대한 이론적 분석과 실증적 검증을 수행함으로써 기존 연구에서 간과되었던 CBM의 한계를 보완하였다. 더 나아가, 학습과 추론 단계에 걸친 이중 전략을 제안하여 CBM의 신뢰성을 회복하는 동시에 실제 응용에서 해석가능성과 성능을 함께 확보할 수 있는 실용적 토대를 마련하였다. 이러한 성과는 향후 다양한 도메인에서 설명 가능한 인공지능(XAI)의 활용 범위를 확장하는 데 중요한 기반이 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 머신러닝 분야 최고 권위의 국제 학술 대회인 Neural Information Processing Systems (NeurIPS 2025)에 논문으로 채택되어 포스터 형식으로 발표될 예정이다. 향후 연구에서는 보다 현실적인 노이즈 환경과 발전된 CBM 모델을 고려하여, 실제 적용 상황에서도 한층 강건하게 작동할 수 있는 방법을 고안하는 것을 목표로 한다. [성과와 관련된 실적] Seonghwan Park, Jueun Mun, Donghyun Oh, Namhoon Lee. “An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating the Impact of Noisy Annotations”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
이남훈 교수 2025.10.28 367 -
[이남훈 교수] MemEIC: A Step Toward Continual and Compositional Knowledge Editing
[연구의 필요성] 멀티모달 정보가 지속적으로 변하는 현실 환경에서 LVLM은 시시각각 바뀌는 시각·언어 지식을 동시에 갱신해야 한다. 그러나 기존 편집 연구·벤치마크는 대개 단일 모달(특히 시각)만을 다루거나 단발성(single) 편집에 그쳐, 연속적 업데이트 과정에서의 상호 간섭·망각, 그리고 편집된 사실들을 조합해 추론하는 능력을 평가·개선하기에 한계가 있었다. 이에 따라 시각·텍스트 편집을 교차적으로 수행하고, 연속 편집(continual) 및 합성(compositional) 질의 상황을 포괄적으로 다루는 문제 정식화와 벤치마크가 필요한 상황이다. [포스텍이 가진 고유의 기술] 본 연구는 (1) CCKE (Continual & Compositional Knowledge Editing) 문제 정식화를 제시하고, (2) 이를 평가하는 CCKEB 벤치마크와 CompRel (Compositional Reliability) 지표를 도입하며, (3) 외부 검색 기반 편집(메모리)과 내부 파라미터 편집을 결합한 MemEIC 프레임워크를 제안한다. 구체적으로, 질의 분해 모듈을 통해 질의를 시각/텍스트 부분으로 분리하고, 이중 외부 메모리(Mem-E)로 이미지·텍스트 단서 모두를 활용해 저장된 예시를 검색한다. 내부 편집은 이중 LoRA 어댑터(Mem-I) 로 시각·텍스트 표현 공간을 분리해 교차 간섭과 표현 붕괴를 억제한다. 더 나아가, 양 어댑터가 동시에 필요한 경우에만 작동하는 지식 커넥터(Knowledge Connector)를 도입해 모달 간 정보를 선택적으로 융합, 합성 추론을 안정화한다. 이러한 외·내부 메모리의 역할분담(정보 분해) + 합성(Compositional) 질의를 이어주는 지식 커넥터(정보 합성)라는 설계가 본 연구의 핵심 기술적 차별점이다. [연구의 의미] 제안한 CCKEB/CompRel은 기존 벤치마크가 다루지 못한 연속·합성 편집 상황을 포괄하며, 실제 운영 환경에서 요구되는 순차적 지식 편집과 합성 질의 처리 능력을 처음으로 체계적으로 측정하는 기준을 마련한다. 방법론적으로 MemEIC는 외부 근거에 기반한 안정적 편집과 내부 파라미터에 의한 내재화를 조화시켜, 모달 별 전용 어댑터와 커넥터를 통해 표현 간섭과 편집 망각을 동시에 줄인다. 이로써 모델은 시각·언어 편집이 교차·누적되는 상황에서도 편집 지식을 정확히 보존하고, 두 편집을 유기적으로 결합한 합성 추론을 일관되게 수행할 수 있음을 보여준다. 결과적으로 본 연구는 멀티모달 지식 편집에서 지속성·국소성·합성성을 함께 달성하기 위한 실증적·설계적 기준을 제시하며, 실제 환경에서의 신뢰 가능한 지식 업데이트 파이프라인 구축에 기여한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)에 채택되어, 포스터 세션을 통해 발표될 예정이다. 향후에는 (1) 더 다양한 LVLM 백본 모델으로의 확장, (2) 질의 분해의 경량화, (3) 외부 메모리 검색의 강건성 강화 등의 방향으로 연구를 더욱 확장해나갈 계획이다. [성과와 관련된 실적] Jin Seong, Jiyun Park, Wencke Liermann, Hongseok Choi, Yoonji Nam, Hyun Kim, Soojong Lim, Namhoon Lee. “MemEIC: A Step Toward Continual and Compositional Knowledge Editing”, The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025 [성과와 관련된 이미지]
이남훈 교수 2025.10.28 325 -
[김형훈 교수] Revealing the Inherent Instructability of Pre-Trained Language Models
[연구의 필요성] 대규모 언어모델은 사전학습을 통해 광범위한 지식과 과제를 수행하는 능력을 익히고, 이후 지시-응답 쌍으로 미세조정되어 사용자 지시를 따르는 에이전트로 전환된다. 그러나 모델이 지시 가능 (instructable)한 상태가 되는 과정정과 IT (Instruction Tuning)가 그 과정에서 정확히 무엇을 추가로 학습시키는지 충분히 규명되지 않았다. 본 연구는 사전학습 단계에서 이미 지시를 처리할 능력이 형성될 수 있다는 가설을 제시하고, 이를 체계적으로 검증한다. [포스텍이 가진 고유의 기술] 본 연구는 Response Tuning (RT)으로 가설을 검증한다. RT는 IT의 단순한 변형으로, 미세 조정 단계에서 지시와 지시-응답 매핑을 제거함으로써, 지시에 대한 응답 생성 학습을 배제한다. 대신 응답 분포 (response distribution)만을 학습 대상으로 삼는다. 가설을 엄격하게 검증하기 위해 세가지 기반 데이터셋 (LIMA, Alpaca, Dolly)으로 학습된 네 가지 LLM (Llama-3.1-8B, Gemma-2-2B, Gemma-2-9B, Mistral-7B)에 대하여 사람 및 자동 평가를 모두 수행한다. 나아가, 모델이 위험한 요청을 구분할 수 있는지를 평가함으로써, 모델이 실질적인 지시 처리 능력을 가지고 있는지 평가한다. 또한, 맥락 내 학습 (in-context learning)에서도 비슷한 경향이 관찰되는지 조사한다. [연구의 의미] 본 연구는 “지시 가능성 (instructability)”이 IT 단계에서 추가로 주입되는 능력이라기보다, 사전학습 동안 이미 상당 부분 형성된 능력임을 실증적으로 보여준다. RT가 지시 문장을 완전히 제거하고도 광범위한 과제에서 타당한 응답을 산출한다는 결과는, 사전학습이 자연발생적 지시–응답 상호작용(예: 질의응답 쓰기 관습, 포럼 문답 구조 등)으로부터 지시 처리 규칙을 내재화했음을 시사한다. RT와 IT의 성능 차이를 세밀 비교함으로써, IT의 주요 기여가 “지시를 이해시키는 것”보다 응답 양식의 정합성, 프롬프트 요구조건 민감도 (형식·제약 준수)를 끌어올리는 데 있음을 규명한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 최우수 학회인 Findings of EMNLP 2025에 수락되어 발표될 예정이다. 향후 연구진들은 규명한 언어 모델의 학습 매커니즘을 토대로 더 효과적인 학습/정렬 방법론을 고안하고자 한다. [성과와 관련된 실적] Revealing the Inherent Instructability of Pre-Trained Language Models Seokhyun An, Minji Kim, and Hyounghun Kim. Findings of EMNLP 2025. [성과와 관련된 이미지] Figure 1. Comparison of IT and RT. Figure 2. Human evaluation of response acceptability for RT and IT models.
김형훈 교수 2025.09.16 740 -
[류일우 교수] Spherical Diffusion Process for Score-Guided Cortical Correspondence via Spectral Attention
[연구의 필요성] 대뇌 피질의 정합은 개인 간 뇌 구조를 비교·분석하기 위해 필수적인 과정이다. 그러나 인간의 뇌는 복잡한 기하학적 형태와 높은 해부학적 가변성을 갖기 때문에 서로 다른 피험자 간의 피질 구조를 정확히 정합하는 데 큰 어려움이 있다. 전통적인 방법은 반복 최적화를 기반으로 하여 계산 비용이 크거나, 학습 기반 접근은 개인차에 따라 일반화 성능이 저하되는 문제가 있었다. 특히, 정합 과정에서 발생하는 왜곡은 뇌과학 연구와 임상적 활용에서 데이터 분석에 편향을 줄 수 있었다. 따라서, 피질의 복잡한 형상을 보존하면서도 개인 간 구조적 편차를 극복할 수 있는 고도화된 정합 기법이 필요하다. [포스텍이 가진 고유의 기술] 본 연구에서는 Spherical Diffusion Process 기반 Score-Guided Correspondence Framework를 제안하여, 대뇌 피질 정합 문제를 해결하고자 하였다. 이 프레임워크는 다음과 같은 기술적 특징을 가진다. (1) 구면 확산 모델 (Spherical Diffusion Model): 뇌 피질을 구면으로 매핑한 후, 구면 조화 함수(Spherical Harmonics)를 이용하여 확산 과정을 해석학적 방법으로 정의하였다. (2) Score Function 기반 정합 (Score-Guided Alignment): 학습된 확산 과정의 score function을 활용하여 피험자 간 전이 확률 밀도를 모사함으로써, 새로운 피험자 데이터에서도 우수한 정합 성능을 확보하였다. (3) 스펙트럴 어텐션 (Spectral Attention) 메커니즘: 구면 상 계산하는 어텐션은 구면 해상도에 따라 계산량이 기하급수적으로 증가하나, 제안된 스펙트럴 어텐션은 주파수 공간에서 어텐션을 계산하기 때문에 구면 해상도와 독립적이며 계산량이 매우 적다. [연구의 의미] 본 연구는 확산 모델과 스펙트럴 어텐션을 결합한 새로운 피질 정합 프레임워크로, 해부학적 변이가 큰 다양한 피험자 데이터에 대해서도 일관되고 정확한 정합 결과를 제공한다. 피질 구조 간의 미세한 차이를 안정적으로 비교할 수 있다는 뇌과학적 의의를 가진다. 또한, 향후 대규모 뇌 영상 데이터 처리 및 임상적 활용(신경질환 조기진단 등)에 적용될 수 있는 일반화 가능한 기술적 확장성을 가진다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 의료 머신러닝 분야 최우수 국제학술대회인 Medical Image Computing and Computer Assisted Intervention (MICCAI 2025)에서 발표 예정이다. 향후 계획으로 대규모·다도메인 데이터셋(예: 다양한 인구 집단, 질환군)을 대상으로 일반화 성능을 검증하고, 다양한 뇌 영상 피처(예: 피질 두께, 곡률 등)에 적용 가능한 확장 연구를 추진할 것이다. [성과와 관련된 실적] Seungeun Lee, Sergey Pyatkovskiy, Jaejun Yoo, Ilwoo Lyu Spherical Diffusion Process for Score-Guided Cortical Correspondence via Spectral Attention [성과와 관련된 이미지]
류일우 교수 2025.09.16 649



