최신연구
-
[배경민 교수] PROMELA 언어의 실행가능한 의미구조 정립
[연구의 필요성] PROMELA는 분산/동시성 시스템을 기술하기 위한 대표적인 모델링 언어로, 암호 프로토콜/항공 소프트웨어/운영체제 등 다양한 시스템의 신뢰성 향상에 핵심적 역할을 해왔다. 그러나 PROMELA 언어의 의미구조는 SPIN 검증기의 구현체에 의존하여, 언어 차원의 정확한 의미 이해나 도구 독립적인 분석 확장이 어려웠다. 이에 따라 PROMELA 프로그램에 대해 SPIN 검증기가 제공하는 모델체킹 외의 분석 기법(예를 들어, 코드 수준의 연역적 검증 등)을 적용하는 데 근본적인 제약이 존재하였다. [포스텍이 가진 고유의 기술] 본 연구는 PROMELA 언어의 실행가능한 의미구조의 수학적 정의 및 그의 기계적 구현을 제공하여 모델체킹뿐 아니라 PROMELA 코드 기반의 연역적 검증의 토대를 마련한다. 특히, PROMELA 언어의 비결정성(nondeterminism), 원자성(atomicity), 발동가능성(enabledness) 등 고수준 선언적 언어의 특성을 저수준 실행가능한 의미구조로 해석하기 위한 의미구조 디자인 패턴 Load-and-Fire를 제안하였다. 이는 PROMELA 프로그램을 실행시키는 과정에서 먼저 복잡한 비결정적 계산구조를 트리로 분해(Load)하여 국소적으로 비결정성을 없앤 후, 트리의 개별 분기에 대해 부수효과를 국소적으로 발동(Fire)하도록 강제하는 패턴이다. 이를 통해 PROMELA 언어의 실행가능한 의미구조를 마치 비결정성이 존재하지 않는 순차적 프로그래밍 언어와 같이 정의할 수 있게 된다. [연구의 의미] 본 연구는 특정 도구(SPIN)에 종속되어 있던 PROMELA 언어의 기존 한계를 극복하고, 다양한 분석기술을 적용할 수 있는 범용 검증 프레임워크를 제공했다는 점에서 중요한 의의를 가진다. 이러한 분석기술의 확장성은 Load-and-Fire 패턴에 따라 기술된 PRPOMELA 의미구조의 실행가능성에 기반한다. 특히, PROMELA의 실행가능한 의미구조를 기계적으로 구현 및 코드기반 연역적 검증 기능을 도구화하여, 기존의 검증 기술(SPIN)로는 불가능한 PROMELA 모델의 무한 상태공간 안전성 검증이 가능함을 사례연구를 통해 실증하였다. 제안한 Load-and-Fire 패턴은 PROMELA에 국한되지 않고, 향후 다른 동시성 언어의 의미구조 설계에도 활용될 수 있는 일반적인 방법론을 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 정형검증 분야 우수 국제학술대회 VMCAI 2026에 발표되었으며, 그 우수성을 입증받아 Distinguished Paper Award를 수상하였다. 향후에는 PROMELA의 코드기반 연역적 검증 기능을 확장하여 더 복잡한 모델(매개화된 동시성 시스템)에 대한 더 복잡한 성질(시제논리성질)의 검증에 적용할 예정이다. [성과와 관련된 실적] Byoungho Son and Kyungmin Bae. A Formal Executable Semantics of PROMELA. International Conference on Verification, Model Checking, and Abstract Interpretation (VMCAI), 2026. [성과와 관련된 이미지] 그림1. 다양한 분석을 제공하는 PROMELA 언어의 실행가능한 의미구조 개념도
배경민 교수 2026.02.25 72 -
[전명재 교수] OrbitFlow: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration
[연구의 필요성] 최근 GPT-4나 Claude와 같은 대규모 언어 모델(LLM)은 수십만에서 수백만 토큰에 이르는 긴 문맥(Long-context)을 처리하는 능력이 핵심 경쟁력이 되었다. 이러한 긴 문맥을 실시간으로 처리하기 위해서는 방대한 양의 'KV 캐시(Key-Value Cache)'를 GPU 메모리에 저장해야 하는데, 문맥이 길어질수록 메모리 요구량이 기하급수적으로 증가하여 GPU 용량을 초과하는 문제가 발생한다. 이를 해결하기 위해 메모리 부족 시 KV 캐시 일부를 CPU로 이동시키는 '오프로딩(Offloading)' 기법이 사용되지만, 기존의 정적이고 획일적인 오프로딩 방식은 실시간으로 급변하는 메모리 수요와 요청(Request)마다 다른 처리 단계를 유연하게 반영하지 못한다. 이로 인해 CPU와 GPU 간의 과도한 데이터 전송이 발생하여 지연 시간(Latency)이 급증하고, 결과적으로 사용자에게 약속된 응답 속도 목표(Service-Level Objectives, SLO)를 빈번하게 위반하는 한계가 있었다. 따라서 제한된 GPU 자원 내에서 긴 문맥을 처리하면서도, 사용자 경험을 저해하지 않도록 지연 시간을 엄격히 준수할 수 있는 새로운 서빙 시스템이 필요하다. [포스텍이 가진 고유의 기술] 본 연구팀은 긴 문맥 LLM 서빙을 위한 세밀하고 적응적인 KV 캐시 관리 시스템인 OrbitFlow를 개발하였다. OrbitFlow의 핵심은 기존의 레이어(Layer) 단위가 아닌, 각 사용자 요청(Request) 단위로 KV 캐시의 위치(GPU 또는 CPU)를 결정하는 '세밀한(Fine-grained) 오프로딩 전략'에 있다. 연구팀은 경량화된 정수 선형 계획법(ILP) 솔버를 도입하여, 현재 처리 중인 모든 요청의 상태와 남은 GPU 메모리, 통신 대역폭을 고려해 최적의 캐시 배치 계획을 실시간으로 수립한다. 만약 추론 과정에서 계획이 더 이상 유효하지 않게 되면 즉시 재설정을 수행하여 변화에 대응한다. 또한, 시스템 과부하 시에도 전체적인 SLO 준수를 위해 '토큰 예치(Token Deposit)'와 '일시 정지-재개(Pause-Resume)' 메커니즘을 고안했다. 이는 생성된 토큰을 즉시 전송하지 않고 버퍼에 담아두었다가 일정한 속도로 내보냄으로써 사용자가 지연을 느끼지 못하게 하고, 그 사이 메모리를 많이 차지하는 작업을 일시 정지시켜 시스템의 안정성을 확보하는 독창적인 기술이다. [연구의 의미] 본 연구는 LLM 서비스의 핵심 난제인 '긴 문맥 처리'와 '응답 속도 보장'이라는 두 마리 토끼를 동시에 잡은 획기적인 프레임워크를 제시했다는 점에서 큰 의의가 있다. OrbitFlow는 기존의 고정된 오프로딩 방식이 갖는 비효율성을 타파하고, 동적인 런타임 환경에 맞춰 GPU 자원 활용을 극대화하였다. 실험 결과, OrbitFlow는 기존 최고 성능의 베이스라인 모델들(FlexGen, DeepSpeed 등) 대비 토큰당 지연 시간(TPOT)과 토큰 간 지연 시간(TBT)의 SLO 달성률을 각각 최대 66%, 48% 향상시켰다. 또한 꼬리 지연 시간(95 Percentile Latency)을 38% 감소시키면서도 처리량(Throughput)은 최대 3.3배 높이는 압도적인 성능을 입증했다. 이는 고가의 GPU 증설 없이도 긴 문맥을 다루는 챗봇, 문서 분석, 실시간 번역 등의 고성능 AI 서비스를 안정적으로 제공할 수 있는 기반 기술이 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구 성과는 데이터베이스 및 시스템 분야의 최우수 국제학술대회인 VLDB(International Conference on Very Large Data Bases) 2026에 게재 승인되었다. 향후에는 더욱 거대한 모델과 복잡한 워크플로우를 가진 다중 에이전트 환경에서도 안정적인 서빙이 가능하도록 고도화할 계획이다. [성과와 관련된 실적] Xinyue Ma, Heelim Hong, Taegeon Um, Jongseop Lee, Seoyeong Choy, Woo-Yeon Lee, and Myeongjae Jeon, "OrbitFlow: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration", Proceedings of the VLDB Endowment (PVLDB), Vol. 19, No. 5, 2026. [성과와 관련된 이미지]
전명재 교수 2026.02.05 138 -
[전명재 교수] REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning
[연구의 필요성] 연속 학습(continual learning, CL)은 모델이 순차적인 태스크를 학습하며 지식을 축적할 수 있게 하나, 새로운 데이터를 학습할 때 기존 지식을 손실하는 ‘치명적 망각(catastrophic forgetting)’ 현상이 여전한 난제로 남아있다. 특히 온디바이스(on-device) 환경은 보안을 위한 로컬 학습이 필수적임에도 불구하고, 1~8GB 수준의 제한된 메모리와 전력 소모 제약으로 인해 실질적인 도입에 큰 어려움이 있다. 기존의 프롬프트 기반 학습은 파라미터 효율성을 높여 망각을 억제하는 효과가 있으나, 학습 과정의 연산 부하와 메모리 점유율은 여전히 엣지 디바이스의 하드웨어 한계를 위협하며 시스템 충돌이나 저장 장치 수명 단축을 초래한다. 이에 따라 모델의 정확도는 유지하면서도 연산 자원을 획기적으로 절감하여, 실질적인 온디바이스 배포를 가능케 하는 '자원 효율적(resource-efficient) 연속 학습 기법'의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구팀은 비전 트랜스포머(ViT)를 기반으로 자원 효율성을 극대화한 REP(Resource-Efficient Prompting) 프레임워크를 제안하였다. 제안한 방법은 학습 전 과정을 '프롬프트 선택'과 '프롬프트 업데이트' 단계로 최적화하는 이원화 전략을 채택하였다. 먼저 프롬프트 선택 단계에서는 무거운 메인 모델 대신 초경량 대리 모델(surrogate model)과 랜덤 투영(random projection)을 활용한 고속 추출 기법을 도입하였다. 프롬프트 업데이트 단계에서는 입력 데이터 특성에 따라 연산을 줄이는 적응형 토큰 병합(AToM)과, 태스크 민감도가 낮은 레이어를 선택적으로 연산에서 제외하는 적응형 레이어 드롭(ALD) 기술을 도입하였다. 이러한 설계를 바탕으로 연속 학습 환경에서 연산을 비균일(non-uniform)하게 생략함으로써, 정확도 손실을 최소화하면서도 높은 자원 효율성을 확보하였다. [연구의 의미] 본 연구는 온디바이스 연속 학습의 병목 구간인 자원 효율성 문제를 정교한 비용-정확도 트레이드오프 분석을 통해 해결했다는 점에서 중요한 의의를 갖는다. 특히 제안된 REP 프레임워크는 7가지 최신 기법에 즉시 적용 가능한 높은 범용성을 갖추었으며, 프롬프트를 사용하지 않는 연속학습 기법에서도 학습 시간 최대 51%, 메모리 사용량 최대 41% 절감이라는 탁월한 성능을 입증하였다. 이는 향후 로보틱스, 스마트 모빌리티 및 개인화 엣지 컴퓨팅 등 실시간성과 효율성이 동시에 요구되는 차세대 산업 분야에서 안정적인 AI 학습을 수행할 수 있는 실질적인 기술적 토대가 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 기계학습 분야 최우수 국제학술대회인 NeurIPS 2025에서 포스터로 발표되었다. 향후 멀티모달 분야로의 확장 연구를 진행 중이다. [성과와 관련된 실적] Sungho Jeon, Xinyue Ma, Kwang In Kim, Myeongjae Jeon, “REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
전명재 교수 2026.02.05 134 -
[배경민 교수] 물리환경과 통신을 고려한 PLC 제어 시스템의 엄밀한 검증 기술
[연구의 필요성] 프로그래머블 로직 컨트롤러(PLC)는 선박, 발전소, 공장 자동화 설비 등 다양한 산업 현장에서 사용되는 산업 제어용 컴퓨터이다. 산업 현장에 직접 투입되는 특성 상 작은 오류도 대형 사고로 이어질 수 있어 매우 높은 수준의 안정성과 신뢰성이 요구된다. 기존의 기술은 개별 PLC 프로그램에 초점을 맞추어, 제어기들이 서로 통신하며 물리 환경과 상호작용하는 실제 산업 시스템의 복잡성을 고려하지 못하는 한계가 있었다. 이에 따라 프로그램·통신·물리환경을 통합적으로 고려한 새로운 검증 기술이 필요하다. [포스텍이 가진 고유의 기술] 본 연구진은 PLC 프로그램의 실행, PLC 사이의 통신, 그리고 물리 환경의 연속적인 변화를 하나의 통합된 수학적 의미구조(정형명세)로 표현하는 기술을 개발하였다. 이를 통해 실제 산업 현장의 PLC 시스템을 보다 현실에 가깝게 모델링할 수 있다. 물리적인 환경과 통신을 고려하는 PLC 정형명세에 대한 검증 알고리즘은 매우 방대한 상태 공간을 생성하는 문제가 있으나, 본 연구진은 PLC의 실행 특성과 통신 구조를 활용한 상태 공간 축소 기법을 함께 적용하여, 검증 효율성을 크게 향상시켰다. [연구의 의미] 본 연구는 PLC 프로그램, 네트워크 통신, 물리 환경의 연속적 동작을 하나의 통합된 의미구조로 동시에 다룬 최초 수준의 연구로, 기존에 분리되어 다루어지던 산업 제어 시스템 분석의 한계를 근본적으로 극복하였다. 이러한 통합 모델에서 필연적으로 발생하는 검증 복잡도 문제를 해결하기 위해, PLC 실행 구조와 통신 특성을 활용한 상태 공간 축소 기법을 함께 제안함으로써, 이론적 정합성과 실용적 분석 가능성을 동시에 달성하였다. 실제 산업 현장에서 발생하는 복합적인 상호작용을 정밀하게 분석할 수 있는 새로운 PLC 검증 패러다임을 제시하였으며, 향후 다양한 안전 필수 시스템의 신뢰성 검증에 폭넓게 활용될 수 있는 기반을 마련하였다. [연구결과의 진행 상태 및 향후 계획] 후속 연구로, 현재 제안한 통합 의미구조를 다중작업(multitasking) PLC 시스템으로 확장하고, 이러한 확장에 따라 증가하는 검증 복잡도를 완화하기 위해 다중작업 PLC 환경에 적합한 상태 공간 축소 기법을 고도화하는 연구를 수행하고 있다. [성과와 관련된 실적] Jaeseo Lee and Kyungmin Bae. Formal Analysis of Networked PLC Controllers Interacting with Physical Environments. Static Analysis Symposium (SAS), 2025. [성과와 관련된 이미지] 그림1. 대표적인 PLC 벤치마크 모델 SWaT의 도식 그림2. PLC 자체 언어로 명세된 복잡한 통신 행동
배경민 교수 2026.01.21 163 -
[곽수하 교수] Improving Target Presence and Plurality Recognition for Generalized Referring Image Segmentation
[연구의 필요성] 참조 영상 분할(Referring Image Segmentation, RIS)은 자연어 표현으로 기술된 영상 내 영역을 분할하는 기술로, 인간-컴퓨터 상호작용, 영상 편집, 로봇 비전 등 다양한 응용 분야에서 중요한 역할을 한다. 기존 RIS 모델들은 단일 객체만을 분할하는 것을 목표로 설계되어, 실제 환경에서 자주 발생하는 다중 객체 참조나 객체 부재 상황을 처리하지 못하는 한계를 가진다. 최근 일반화된 RIS(Generalized RIS)가 제안되어 단일 객체뿐 아니라 다중 객체 및 객체 부재 시나리오를 다루게 되었으나, 선행 연구들은 분할 특징과 객체 존재 여부 판단을 위한 특징을 동일하게 사용하여 두 작업 간 충돌이 발생하고, 객체 존재 여부 분류 성능이 크게 저하되는 문제를 보였다. 또한 데이터셋 내 객체 부재 및 다중 객체 샘플의 비중이 단일 객체 샘플에 비해 현저히 낮아(각각 9.14%, 25.53%), 모델이 이러한 시나리오를 효과적으로 학습하기 어려운 데이터 불균형 문제도 존재한다. 이에 따라 객체 존재 여부와 복수성(단일/다중)을 명시적으로 인식하고, 데이터 불균형을 해소할 수 있는 새로운 방법론의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 일반화된 RIS를 위한 새로운 아키텍처와 데이터 증강 전략을 제안하였다. 먼저 아키텍처 측면에서, 객체 존재 여부 분류를 위해 특별히 설계된 학습 가능한 쿼리인 '타겟 쿼리(target query)'를 도입하였다. 이 타겟 쿼리는 픽셀 디코더의 중간 특징들로부터 크로스 어텐션을 통해 정보를 집약하여 분할 특징과 독립적으로 객체 존재 여부를 판단한다. 또한 타겟 쿼리에 복수성 분류 헤드를 부착하여 텍스트 특징으로부터 직접 단일/다중 객체 여부를 학습하도록 하였다. 이를 통해 모델이 복수성 단서를 명시적으로 포착하고 복잡한 참조 시나리오에서도 정확한 마스크를 생성할 수 있도록 하였다. 데이터 증강 측면에서는 객체 부재 샘플과 다중 객체 샘플을 합성적으로 생성하는 전략을 개발하였다. 객체 부재 샘플은 배치 내 다른 영상의 텍스트 설명을 현재 영상과 쌍을 이루도록 교체하여 생성하고, 다중 객체 샘플은 최대 4개의 단일 객체 샘플을 2×2 그리드로 배열하고 텍스트를 "and"로 연결하여 생성한다. 이러한 간단하면서도 효과적인 증강 전략을 통해 데이터 불균형 문제를 완화하고 모델의 일반화 능력을 향상시켰다. [연구의 의미] 본 연구는 일반화된 RIS에서 객체 존재 여부와 복수성 인식을 명시적으로 다루는 새로운 프레임워크를 제시했다는 점에서 중요한 의의를 갖는다. 특히 기존 방법들이 분할과 존재 여부 판단을 위해 동일한 특징을 사용하여 발생하는 성능 저하 문제를 근본적으로 해결하였으며, 타겟 쿼리라는 전용 학습 가능 임베딩을 통해 두 작업을 효과적으로 분리하였다. 또한 복수성 분류를 통해 텍스트로부터 직접 단일/다중 정보를 추출하여 마스크 생성에 활용함으로써, 모델이 다양한 참조 시나리오를 보다 정확하게 이해할 수 있도록 하였다. 제안한 데이터 증강 전략은 추가적인 인간 주석 없이도 객체 부재 및 다중 객체 샘플을 효과적으로 생성하여 데이터 불균형 문제를 해소하고, 모델 아키텍처와 무관하게 적용 가능하여 범용성이 높다. 실험 결과, gRefCOCO 데이터셋의 모든 평가 지표에서 기존 최고 성능 방법들(ReLA, LISA, GSVA 등)을 크게 상회하였으며, 특히 대규모 멀티모달 모델 기반 방법들보다 적은 파라미터로 우수한 성능을 달성하였다. 이는 향후 영상-언어 이해, 인터랙티브 영상 편집, 로봇 비전 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회 AAAI 2026에 게재 승인되었다. 향후에는 더욱 복잡한 공간 관계를 다루는 다중 객체 시나리오 처리 능력 향상, 정교한 데이터 증강 기법 개발, 그리고 비디오 도메인으로의 확장 연구를 계획 중에 있다. 또한 제안한 타겟 쿼리 메커니즘을 다른 비전-언어 작업에 적용하는 연구도 진행할 예정이다. [성과와 관련된 실적] Namyup Kim, Jinsung Lee, Suha Kwak, "Improving Target Presence and Plurality Recognition for Generalized Referring Image Segmentation", AAAI Conference on Artificial Intelligence (AAAI), 2026. [성과와 관련된 이미지]
곽수하 교수 2025.12.16 306 -
[곽수하 교수] GaRA-SAM: Robustifying Segment Anything Model with Gated-Rank Adaptation
[연구의 필요성] Segment Anything Model (SAM)은 대규모 데이터로 학습되어 뛰어난 범용 분할 능력을 보여주지만, 노이즈, 블러, 안개, 비, 저조도 등 악조건 환경에서는 성능이 급격히 저하되는 한계를 갖는다. 이러한 악조건은 자율주행, 로봇 비전, 감시 시스템 등 실제 응용 환경에서 빈번하게 발생하므로, SAM의 실용적 활용을 위해서는 다양한 환경 조건에 대한 강건성 확보가 필수적이다. 기존의 이미지 복원 모듈을 SAM 앞단에 부착하는 방식은 계산 오버헤드가 크고, 세그멘테이션 성능 향상이 아닌 이미지 품질 개선에 최적화되어 있어 차선의 결과를 야기한다. SAM 전체를 파인튜닝하는 방식은 막대한 계산 자원을 요구하며 제로샷 일반화 능력을 저하시킨다. 또한 최근 연구는 clean-degraded 이미지 쌍을 요구하여 실제 환경의 열화에 학습하기 어렵고, 다양한 열화에 불변한 표현을 학습하므로 입력의 특정 열화에 적응하는 데 한계를 갖는다. 이에 따라 SAM의 일반화 능력을 유지하면서도 다양한 열화 조건에 유연하게 적응할 수 있는 새로운 접근법의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 입력 이미지의 열화 특성에 따라 모델의 적응 강도를 동적으로 조절하는 Gated-Rank Adaptation(GaRA) 기법을 제안하였다. 제안한 방법은 파라미터 효율적 적응 기법인 LoRA(Low-Rank Adaptation)를 기반으로 하되, LoRA의 가중치 행렬을 여러 개의 기본 구성요소(rank-1 컴포넌트)로 분해하고, 학습된 게이팅 모듈을 통해 입력에 따라 적절한 구성요소들만 선택적으로 활성화한다. 이를 위해 계층적 게이팅 전략을 도입하였는데, 먼저 입력의 열화 정도에 따라 낮은 적응 강도가 필요한 공간과 높은 적응 강도가 필요한 공간 중 하나를 선택하고, 선택된 공간 내에서 개별 구성요소들의 활성화 여부를 세밀하게 결정한다. 이러한 설계를 통해 입력 특성에 따라 적응을 적용하며 SAM 본연의 일반화 능력을 최대한 보존한다. 또한 깨끗한 참조 이미지 없이도 열화된 이미지만으로 학습이 가능하여, 실제 환경에서 수집된 데이터를 직접 활용할 수 있다. [연구의 의미] 본 연구는 대규모 사전학습 모델의 강건성을 입력 적응형으로 향상시키는 새로운 패러다임을 제시했다는 점에서 중요한 의의를 갖는다. 특히, LoRA의 최적 랭크가 열화 유형뿐 아니라 개별 이미지에 따라서도 크게 달라진다는 실증적 분석을 통해 입력별 맞춤 적응의 필요성을 규명하고, 이를 해결하는 GaRA를 제안하였다. 제안한 GaRA-SAM은 합성 열화 및 실제 열화 벤치마크 전반에서 기존 방법들을 능가하는 성능을 달성하였으며, 특히 실제 악천후 주행 환경 데이터셋인 ACDC에서 기존 최고 성능 대비 21.3%p의 큰 폭의 IoU 향상을 보였다. 이는 자율주행, 로봇 비전, 감시 시스템 등 실환경에서의 강건한 시각 인식이 요구되는 분야에 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 NeurIPS 2025에서 포스터로 발표되었다. 향후 비디오 세그멘테이션으로의 확장 연구를 진행 중이다. [성과와 관련된 실적] Sohyun Lee, Yeho Gwon, Lukas Hoyer, Suha Kwak, “GaRA-SAM: Robustifying Segment Anything Model with Gated-Rank Adaptation”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
곽수하 교수 2025.12.16 218 -
[곽수하/조민수 교수] Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection
[연구의 필요성] 사회적 상호작용 인식은 여러 사람이 등장하는 장면에서 사람들 사이의 비언어적 행동(시선, 표정, 손짓, 자세, 접촉 등)을 이해하는 핵심 기술로, 인간-로봇 상호작용, 감시, 영상 분석 등 다양한 응용 분야에서 중요한 역할을 한다. 기존 연구들은 주로 사람 간의 관계를 전역적인 특징을 바탕으로 모델링하는 데 초점을 맞추어 왔으나, 이러한 방식은 서로 미세한 차이를 갖는 세밀한 상호작용들을 구분하는 데 본질적인 한계를 가진다. 예를 들어, 동일한 두 사람 사이에서도 ‘미소’, ‘시선 회피’, ‘손동작’과 같은 상호작용은 서로 다른 신체 부위에 대한 선택적 주의(attention)를 요구한다. 그러나 기존 상호작용 탐지 연구들은 사람 단위의 전역 특징에 의존하여 상호작용을 구성하는 신체 부위 수준의 세밀한 단서를 충분히 포착하지 못할 뿐 아니라, 사람들 간의 관계를 바탕으로 그룹을 점진적으로 구성하기보다 그룹 정보를 바로 탐지하려는 한계를 갖는다. 이에 따라 신체 부위 단위의 세밀한 정보와 사람 간 관계를 함께 고려하는 새로운 상호작용 탐지 방법론의 필요성이 대두되었다. [포스텍이 가진 고유의 기술] 본 연구에서는 신체 부위 단위 정보를 활용하고, 사람 간 관계를 바텀업 방식으로 결합하는 새로운 프레임워크를 제안하였다. 제안한 방법은 먼저 개별 사람을 탐지한 후, 탐지된 각 사람의 임베딩을 변환하여 신체 부위별 의미를 담기 위한 파트 쿼리를 구성하고 이를 증강 디코더 모듈에 입력하여 신체 부위 정보를 반영한 표현을 얻는다. 이를 위해서 사전 학습된 자세 추정기를 활용하여 얼굴, 손, 다리 등 신체 부위 단위의 영역을 구성하고, 이 부위 정보를 특권 정보로 활용하여 사람 별로 파트 쿼리가 신체 부위를 인식하도록 유도한다. 이렇게 신체 부위 정보를 담도록 학습된 사람의 임베딩들 간의 유사도 기반 추론을 통해 사람들 간의 관계를 바텀업 방식으로 구성하고, 이를 바탕으로 최종적으로 미세한 사회적 상호작용을 탐지한다. [연구의 의미] 본 연구는 미세한 사회적 상호작용 탐지를 위해서 신체 부위 단위 정보를 인식하고, 이를 통하여 사람 간 관계를 바텀업 방식으로 추론할 수 있는 새로운 프레임워크를 제시했다는 점에서 중요한 의의를 갖는다. 특히, 기존의 전역 특징 기반 상호작용 탐지 방식이 갖는 근본적인 한계를 극복하고, 동일한 인물에서도 상호작용 종류에 따라 서로 다른 신체 부위에 주목해야 한다는 점을 체계적으로 모델링하였다. 또한, 제안한 방법은 NVI 및 Café 데이터셋에서 기존 방식 대비 우수한 성능을 달성함으로써, 사회적 상호작용 이해를 위한 새로운 표준적 접근 방식이 될 수 있는 가능성을 입증하였다. 이는 향후 사회적 로봇, 인간 행동 분석, 멀티모달 상호작용 이해 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 NeurIPS 2025에서 포스터로 발표되었다. 향후에는 텍스트나 음성 등의 언어 정보와 결합한 멀티모달 사회적 상호작용 이해로의 확장 연구 또한 계획 중에 있다. [성과와 관련된 실적] Dongkeun Kim, Minsu Cho, Suha Kwak, “Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection”, Neural Information Processing Systems (NeurIPS), 2025. [성과와 관련된 이미지]
곽수하, 조민수 교수 2025.12.16 239 -
[이남훈 교수] The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM
[연구의 필요성] 거대 언어 모델의 활용 급증으로 모델 구동 비용이 증가함에 따라, 연산 및 메모리 절감을 위한 모델 압축 기법의 중요성이 커지고 있다. 특히 파라미터를 제거하는 가지치기(pruning)는 핵심적인 방법론으로, 연산량과 메모리 압축률을 확보할 수 있다. 그런데 기존 연구는 자원 효율성이 크게 증가하는 높은 압축률 구간(예: 70% 이상)에서 심각한 성능 저하를 겪는 문제가 있어, 고압축률에서도 성능을 확보해야하는 문제가 남아있다. [포스텍이 가진 고유의 기술] 본 연구는 제약 최적화 기법을 토대로, 원목적 함수 기반 극한 희박도의 언어모델 압축 기법을 제안한다. 기존 연구의 한계점이 희소화 과정에 자원 제약으로 인한 대리목적 함수 기반의 설계에 존재할 수 있는 가능성을 주목하여, 대리 목적 함수가 아닌 원목적 함수 기반의 거대 언어모델 희소화를 목적으로한 제약 최적화 문제를 설정하고, 이를 교차방향승수법(ADMM)을 적용하여 ELSA (Extreme LLM Sparsity with surrogate-free ADMM) 알고리즘을 설계하였다. 특히, 이 과정에서 사영을 통해 진행되는 희소화 과정의 해가 원목적함수의 해와 멀어질 수 있다는 점에 착안하여, 사영 과정에 목적함수의 곡률 정보를 주입하였고, 더욱 큰 모델의 희소화를 지원하기 위해 알고리즘에 사용되는 변수를 양자화할 수 있는 ELSA-L을 추가로 제안하였다. [연구의 의미] 본 연구는 기존 거대언어모델 희박화 연구에서 도달하지 못했던 고희박도 (90%) 영역 달성을 위해 원목적함수의 중요성을 규명하고 이를 통해 실제로 도달할 수 있음을 시연하였다. 이를 위해 제약 최적화 기반의 원목적 함수 기반 희박화 기법을 설계하고 원목적함수에 더욱 적합한 설계로 고도화 및 수렴성 등 이론적으로 분석하였다. 다양한 거대 언어모델 종류 및 크기에서 기존 방법보다 매우 뛰어난 고희박도 성능을 확보할 수 있음을 보였고, 특히 가장 많이 사용되는 LLaMA-2-7B 모델의 90%희박도에서 기존 기법 대비 x7.8배 낮은 perplexity를 기록하였다. 이러한 성능에서 원래의 모델 대비 x2.5배의 추론 속도 향상 및 x4.6배의 메모리 압축률이 가능함을 보였고, 이는 대규모 언어 모델이 많이 활용되는 상황에서, 희박화를 통해 구동 비용을 획기적으로 줄일 수 있는 효과적이고 이론적인 새로운 방안을 제시하였다는 점에서 학술적·실용적 의의가 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 한국인공지능학회 추계학술대회 / Joint conference on Korean Artificial Intelligence Association (JKAIA 2025)에서 한국남동발전 최우수 논문상을 수상하였다. 향후 연구에서는 이를 초대규모 모델에 확장 적용 및 초고희박도에서의 성능 확보를 할 수 있도록 알고리즘을 개선하는 것을 목표로 한다. [성과와 관련된 실적] 2025 한국인공지능학회 추계학술대회 한국남동발전 최우수논문상 수상 / 이관희 석사과정(인공지능대학원), 장현도 석사과정(인공지능대학원), 이동엽 석사과정(인공지능대학원), 이남훈 교수(컴퓨터공학과) [성과와 관련된 이미지]
이남훈 교수 2025.12.09 272 -
[황인석 교수] ArithMotion: Peer-Relative Motion Generation for Social VR via Arithmetic Metaphor
[연구의 필요성] Social VR에서 비언어적 표현을 어떻게 매개하느냐는 기존의 고전적 컴퓨터 매개 소통과 구 별되는 핵심 요소이다. 특히 몸짓을 통한 동작 표현은 사용자 간의 감정적 연결을 형성하고, 현실감과 주체성을 강화하는 데 중요한 역할을 한다. 현재 통상적인 Social VR 플랫폼은 동 작 표현을 두 가지 방식으로 제공한다. 하나는 추적 기기를 사용하는 것으로 아바타에 직접 자연스러운 동작을 매개할 수 있으나, 기기 비용·공간·착용 부담 등으로 인해 많은 사용자에 게 접근성이 낮다는 한계가 있다. 이를 보완하는 다른 방법은 Emotes와 같은 사전 정의된 동작 집합 중 하나를 선택하여 표현하는 것으로, 간단한 입력만으로 표현이 가능하다는 장점 이 있으나, 표현의 다양성이 부족하고 현재 소통의 맥락을 반영하지 못한다는 문제가 있다. 이에 본 연구진은 상호 소통 이론에 입각하여 사용자의 간단한 입력만으로도 사회적 맥락에 부합하는 다양한 동작을 표현할 수 있는 동작 생성 방법 및 모바일 인터랙션 시스템을 개발 했다. 이를 통해 장비 의존성을 낮추면서도 풍부하고 상황 맞춤적인 비언어적 표현을 가능하 게 한다. [포스텍이 가진 고유의 기술] 본 연구팀은 기존 Social VR에서 해결되지 않던 비언어적 표현 격차를 줄이는 새로운 동작 생성 기술 및 산술적 입력 기반 인터랙션 시스템인 ArithMotion을 개발했다. 소통 상황에서 사람의 몸짓이 상대방의 동작에 상대적으로 반응한다는 상호소통 이론에 기반하여 Peer- Relativity라는 개념을 제안하였다. 이 개념을 토대로, 상대방의 동작과 사용자의 간단한 입 력만으로도 자연스럽고 사회적 맥락에 맞는 새로운 동작을 생성하는 기술을 구현했다. 특히 사용자가 직관적이고 쉽게 표현할 수 있도록 산술 연산을 입력 메타포로 활용하는 방식을 도 입했다. 사용자가 상대방 동작에 대해 스케일링, 부정, 덧셈 등 직관적인 산술 조작을 수행하 면, Motion Latent Space와 Negative Motion Generator로 구성된 동작 생성 모듈에서 이에 대응하는 적절한 동작을 생성한다. 또한, 모바일 환경에서도 쉽게 사용할 수 있도록 전 용 어플리케이션을 개발하여, 사용자가 클릭·슬라이드와 같은 간단한 입력만으로 상대방의동작을 선택하고 산술 연산을 수행할 수 있도록 지원한다. 이를 통해 복잡한 전신 추적 장비 없이도 누구나 상황 맞춤형 비언어적 표현을 자연스럽게 구현할 수 있다. [연구의 의미] 본 연구는 기존 VR 사용자들이 겪던 동작 표현의 제약을 크게 완화한다. 모바일 VR 기기를 사용하거나 공간적·상황적 제약으로 인해 사용자가 직접 동작을 수행하기 어려운 경우에도, 제한된 동작 셋에 국한되지 않고 사실상 무한한 동작을 생성 및 표현할 수 있다. 사용자 실험 을 통해 제약된 환경에서도 사용자가 시스템을 손쉽게 사용할 수 있었으며, 이를 통해 비언 어적 소통 격차가 완화되고 사회적 맥락에 자연스럽게 맞물리는 동작 표현이 가능함을 확인 하였다. 그 결과 상호작용의 몰입감과 그룹 내 소속감이 전반적으로 향상되는 효과가 나타났 다. ArithMotion은 기존의 동작 표현 방식에 대한 새로운 접근 방향을 제시하며, 다른 방식 들과도 상호 보완하여 활용될 수 있다. 특히 제한된 환경에서도 사용자가 무한하고 상황 맞 춤화된 동작을 표현할 수 있다는 점에서 차별적인 강점을 가진다. [연구결과의 진행 상태 및 향후 계획] 본 연구진은 앞으로도 다양한 도메인에서 표현의 어려움을 겪는 사용자들을 지원하는 표현 증강 시스템을 지속적으로 개발해나갈 예정이다. 특히, 사용자의 의도와 맥락을 이해하고 이 를 바탕으로 표현의 질을 향상시키는 지능형 시스템을 구축하고 직관적인 사용자 인터페이 스를 설계하는데 연구의 중심을 두고 있다. 궁극적으로 사용자의 표현 의도를 시스템이 스스 로 포착하고, 이를 보완·확장하여 보다 풍부하고 자연스러운 소통을 가능하게 하는 표현 지 원 기술로 발전시키는 것을 목표로 하고 있다. [성과와 관련된 실적] * 국제 학술대회 논문: Jaewoong Jang, Sungjae Cho, Yeseul Shin, Inseok Hwang. “ArithMotion: Peer-Relative Motion Generation for Social VR via Arithmetic Metaphorˮ ACM VRST 2025. 논문: https://doi.org/10.1145/3756884.3766039 (2025년 12월 1일 게재 예정) 비디오: https://www.youtube.com/watch?v=x6w9DkZUo8U [성과와 관련된 이미지] 그림 1. ArithMotion의 전반적인 동작 과정을 나타내는 그림 그림 2. 모바일 인터랙션 시스템 사용 예시: 스케일링 및 부정 인터랙션 (위), 덧셈 인터랙션 (아래)
황인석 교수 2025.12.01 280



