최신연구
-
[옥정슬 교수] Active Label Correction for Semantic Segmentation with Foundation Models
[연구의 필요성] 픽셀 단위 레이블링은 비용이 높고 오류가 많아, 기존 방법들은 초기 데이터가 없거나 기초 모델의 예측 오류로 인해 신뢰도가 낮은 한계가 있다. 따라서, 데이터를 효율적으로 정제할 수 있는 능동적 라벨 교정이 필요하다. [포스텍이 가진 고유의 기술] 우리는 기초 모델을 활용한 능동적 라벨 교정 프레임워크를 개발했다. 이 방법은 필요할 때만 레이블을 수정하는 교정 쿼리를 통해 비용을 절감하고, 개별 픽셀 수정이 아니라 슈퍼픽셀 단위로 확장하여 보다 효율적인 데이터 정제가 가능하다. 또한, 수정된 레이블이 전체 데이터에 미치는 영향을 고려해 최적의 샘플을 선택하는 미리보기 선택 함수를 적용했다. [연구의 의미] 이 연구를 통해 라벨링 비용을 50~67% 절감하면서도 데이터 정제 성능을 향상시킬 수 있음을 입증했다. 특히, 정제된 PASCAL+ 데이터셋을 공개하여 벤치마크 연구에 기여할 수 있으며, 의료 영상과 같이 정확한 레이블이 중요한 도메인에서도 활용 가능성이 높다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ML 분야 최고 수준 학회인 ICML 2024에 accept 되어 발표를 진행함. [성과와 관련된 실적] 본 연구는 ML 분야 최고 수준 학회인 ICML 2024에 accept 되어 발표를 진행함. https://cskhy16.github.io/alc/ [성과와 관련된 이미지]
옥정슬 교수 2025.03.18 990 -
[옥정슬 교수] Breadth-First Exploration on Adaptive Grid for Reinforcement Learning
[연구의 필요성] 강화학습에서 에이전트가 희소한 보상 환경(sparse reward environment)에서 효율적으로 탐색하는 것은 여전히 해결되지 않은 핵심 과제임. 특히 복잡한 연속 상태공간에서는 기존의 탐색 기법들이 효율적인 학습을 이끌어내기 어렵다는 한계가 존재함. [포스텍이 가진 고유의 기술] 주어진 상태 공간을 정적으로 분할한 grid 위에서 탐험 경험을 기반으로 동적으로 refinement를 진행하는 폭 우선 탐색(Breadth-First Exploration)을 수행하는 새로운 프레임워크를 제안함. 제안한 기술은 grid 구조에서 경험을 계층적으로 축정하여, 학습 초기 단계에서 넓은 영역을 빠르게 탐색하고, 정밀한 탐색이 필요한 경우에 집중적으로 탐색을 진행함. [연구의 의미] 기존 대부분의 탐색 기법이 랜덤성에 의존하였다면, 본 연구는 학습 초기단계에서의 체계적인 탐색에 집중하여 sparse reward 환경에서도 빠르게 유의미한 경험을 수집할 수 있음을 보였음. 또한 이 프레임워크를 복잡한 robot manipulation 및 navigation 환경에서 기존 기법보다 우수한 성능을 검증함. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ML 분야 최고 수준 학회인 ICML 2024에 accept 되어 발표를 진행함. [성과와 관련된 실적] 본 연구는 ML 분야 최고 수준 학회인 ICML 2024에 accept 되어 발표를 진행함. https://youngsikyoon.github.io/BEAG/ [성과와 관련된 이미지]
옥정슬 교수 2025.03.18 990 -
[옥정슬 교수] Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation
[연구의 필요성] 체스, 바둑 등의 분야에서 전문가 모델의 실력이 사람보다 월등히 높지만, 그 지식을 사람에게 효율적으로 전달하는 부분은 충분한 연구가 되어 있지 않음. [포스텍이 가진 고유의 기술] 전문가 모델의 decision 능력과 거대 언어 모델(LLM)의 설명 능력을 함께 활용하여 해설을 생성하는 방법과 이를 평가하는 방법을 제안함. 이를 위해 전문가 모델에서 concept vector들을 활용하여 decision-making process를 추론하는 방법과, 이를 활용한 LLM 해설 생성 방법을 제안함. [연구의 의미] 체스, 바둑 등의 분야에서 해설은 전통적으로 전문가의 지식을 초보자들에게 전달하기 위한 수단으로 활용되어 왔음. 이와 같은 형태의 지식 전달 방식을 neural network 기반의 전문가 모델과 사람 사이의 지식 전달을 위한 수단으로도 사용할 수 있음을 보였음. 또한 머신 러닝 비전문가 입장에서 직관적으로 이해하기 힘든 형태의 설명을 LLM을 사용하여 이해하기 쉬운 형태로 변환할 수 있다는 점에서 다양한 분야에 활용할 수 있음. [연구결과의 진행 상태 및 향후 계획] 본 연구는 NLP 분야 최고 수준 학회인 NAACL 2025에 accept 되어 5월 발표를 앞두고 있음. [성과와 관련된 실적] 본 연구는 NLP 분야 최고 수준 학회인 NAACL 2025에 accept 되어 5월 발표를 앞두고 있음. [성과와 관련된 이미지]
옥정슬 교수 2025.03.18 938 -
[김원화 교수] HGM³: Hierarchical Generative Masked Motion Modeling with Hard Token Mining
[연구의 필요성] 텍스트 기반 모션 생성은 애니메이션, 로보틱스, AR/VR 등 다양한 분야에서 활용될 수 있는 중요한 기술이다. 최근 마스킹 기반 모션 생성 모델이 주목받고 있지만, 자연어의 모호성과 인간 모션의 복잡성으로 인해 여전히 어려운 문제로 남아 있다. 기존 모델들은 무작위 마스킹을 사용하여 모션 데이터를 학습하지만, 이러한 방식은 중요한 패턴을 효과적으로 학습하지 못하는 한계가 있다. 또한, 텍스트를 단일 문장 임베딩으로 변환하여 모션을 생성하는 기존 방식은 복잡한 모션 시퀀스를 생성하는 데 한계를 보이며, 세부적인 동작 표현이 부족할 수 있다. 본 연구에서는 이러한 한계를 극복하는 텍스트 기반 모션 생성 모델을 개발하였다. [포스텍이 가진 고유의 기술] (1) 본 연구에서는 Hard Token Mining(HTM) 기법을 도입하여, 학습이 어려운 모션 패턴을 효과적으로 식별하고 이를 집중적으로 학습하는 전략을 제안하였다. 교사-학생(Teacher-Student) 모델 구조를 활용하여, 교사 모델이 학습 난이도가 높은 모션 영역을 식별하고 마스킹하면 학생 모델이 이를 복원하며 학습한다. 쉬운 패턴부터 학습하고 점진적으로 난이도를 높이는 방식을 적용하였다. (2) 입력 텍스트를 모션 수준(motion-level), 행동 수준(action-level), 세부 수준(specific-level)으로 분해하여 계층적으로 표현하고, 이를 Generative Masked Motion Model에 적용하였다. Graph Attention Network(GAT)을 활용하여 각 수준에서 중요한 정보를 추출하고, 이를 모델의 입력 조건으로 사용하여 보다 문맥적으로 자연스럽고 정밀한 모션을 생성할 수 있도록 하였다. [연구의 의미] 본 연구는 텍스트 기반 모션 생성의 새로운 방향을 제시하며, 문맥에 적합한 고품질의 모션 생성 능력을 향상시켰다. HTM 기법을 통해 중요한 동작을 우선적으로 학습하여 보다 자연스럽고 일관된 모션을 생성할 수 있다. 또한, 계층적 의미 그래프를 활용해 텍스트 정보를 다층적으로 반영함으로써, 모델이 다양한 문맥 정보를 효과적으로 학습할 수 있다. 이를 통해 애니메이션, 가상현실, 로보틱스 등 다양한 분야에서 활용 가능성이 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제 학술 대회인 International Conference on Learning Representations (ICLR 2025) 논문으로 채택되어 포스터로 발표될 예정이다. 향후 연구에서는 모델 경량화 또는 텍스트와 모션 간의 표현 차이를 더욱 정교하게 조정하는 방법을 고안하는 것을 목표로 한다. [성과와 관련된 실적] Minjae Jeong*, Yechan Hwang*, Jaejin Lee, Sungyoon Jung, Won Hwa Kim, “HGM³: Hierarchical Generative Masked Motion Modeling with Hard Token Mining”, International Conference on Learning Representations (ICLR), 2025. [성과와 관련된 이미지]
김원화 교수 2025.03.18 932 -
[김원화 교수] Conditional Diffusion with Ordinal Regression: Longitudinal Data Generation for Neurodegenerative Disease Studies
[연구의 필요성] 알츠하이머와 같은 신경퇴행성 질환은 한번 악화되면 정상 상태로 돌아오기가 거의 불가능하기 때문에, 이러한 퇴행성 질환의 종적(longitudinal) 진행을 분석하는 것은 병의 조기 진단과 예방에 필수적이다. 하지만 종적 의료 데이터의 부족, 개인별 질병 진행 양상의 다양성과 같은 요인으로 인해 이러한 종적 연구에 어려움이 존재한다. 또한, 환자가 수년, 혹은 수십년에 걸쳐서 몇 년에 한번씩 병원에 방문해 진단을 받기 때문에, 데이터간 시간 간격이 불규칙하고 간격이 길어서 질병의 진행을 정확하게 모델링하기 어렵다. 따라서, 이러한 문제들을 해결하기 위한 신경퇴행성 질병에 대한 종적 연구가 필요하며, 특히 종적 데이터가 가지고 있는 시간에 따라 변화하는 특징들 (예: 나이, 질병 단계)을 고려할 수 있는 모델 개발이 필요하다. [포스텍이 가진 고유의 기술] (1) 본 연구에서는 종적 신경퇴행성 질환 데이터의 특징을 학습하여 실제와 유사한 데이터를 생성하는 생성형 인공지능 모델을 제시하였다. (2) 특히, 시간의 흐름에 따라 순차적으로 변화하는 나이와 질병 단계를 생성 모델의 조건(condition)으로 활용해, 특정 나이와 질병단계를 가진 환자의 뇌의 상태(예: 대뇌피질 두께)를 순차적으로 생성할 수 있다. 따라서, 실제로 관찰되지 않은 시간(나이)에 해당하는 뇌의 상태를 생성하여 실제 획득한 데이터의 시간 간격이 크고 불규칙하더라도 종적 데이터를 효율적으로 모델링할 수 있다. (3) 또한, 본 연구에서 제시한 종적 데이터 생성 모델은 집단 수준에서의 병의 특징과 개인별 차이에서 기인한 특징을 모두 고려하여 종적 데이터를 생성한다. 집단 수준의 질병의 특징은 ordinal regression 모델을 활용하여 집단 내에서 나이, 질병 단계와 같은 서수형 변수 (ordinal variable)들과 뇌의 상태 간의 관련성을 학습한다. 개인별 특성은 환자 별로 다른 시점에 측정한 데이터를 보간(interpolation)하여 학습한다. (4) 의료 데이터의 특성상 데이터의 수가 부족한 문제가 있으므로, 나이와 질병 단계에 대한 조건뿐만 아니라 데이터셋에 대한 조건을 추가하여 여러 데이터셋을 통합 학습할 수 있는 방안을 제시한다. [연구의 의미] 본 연구에서는 시간의 흐름에 따라 순차적으로 변화하는 나이, 질병 단계 등의 서수형 변수들을 활용해 신경퇴행성 질환 환자들의 종적 뇌 변화를 모델링하는 생성모델을 제시하였다. 수 년에 걸쳐 불규칙하게 획득한 적은 수의 종적 의료 데이터를 실제 데이터와 유사하게 생성이 가능하며, 이 때 질병 단계별로 유의미한 관련이 있는 뇌의 영역별 특징을 반영하여 데이터를 사실적으로 생성할 수 있다. [연구결과의 진행 상태 및 향후 계획] 해당 연구는 머신 러닝 분야 우수 학회인 International Conference on Learning Representations (ICLR) 2025에 spotlight 논문(acceptance rate: 5.1%)으로 수락되었다. 향후 알츠하이머와 경도인지장애 환자들의 종적 데이터를 활용하여, 경도인지장애 환자들 중에서 가까운 미래에 알츠하이머로 병이 진행이 될지 여부를 분석하는 후속 연구를 진행할 계획이다. [성과와 관련된 실적] Hyuna Cho, Ziquan Wei, Seungjoo Lee, Tingting Dan, Guorong Wu, Won Hwa Kim International Conference on Learning Representations (ICLR), 2025, Spotlight [성과와 관련된 이미지]
김원화 교수 2025.03.18 1449 -
[박찬익 교수] Toward High-Performance Blockchain System by Blurring the Line between Ordering and Execution.
[연구의 필요성] DAG 기반 합의 알고리즘의 발전으로, 블록체인 시스템 성능의 병목이 합의(Consensus)에서 실행(Execution)으로 이동하고 있습니다. 그러나 대부분의 블록체인 시스템은 트랜잭션 실행과 정렬 과정을 분리하여 합의에 의해 생성된 워크로드의 병렬성을 충분히 활용하지 못하고 있습니다. 따라서 이러한 병렬성을 활용하여 블록체인 시스템의 병목을 해소하여야 하므로 이 연구는 매우 중요합니다. [포스텍이 가진 고유의 기술] 블록체인 시스템에 적용가능한 결정적 동시성 제어 알고리즘을 제안했습니다. 이 알고리즘은 워크로드에 내재된 트랜잭션 병렬성을 효과적으로 처리합니다. 트랜잭션 의존성 그래프를 병렬로 생성하고 이를 바탕으로 실행 스케줄을 작성합니다. 그래프 병렬 생성 도중 트랜잭션 조기 종료(early abort)를 수행하고, 조기 종료된 트랜잭션들을 효과적으로 재정렬하면서 병렬성을 극대화합니다. [연구의 의미] 본 연구는 기존 블록체인 시스템의 트랜잭션 처리 방식에 대한 새로운 주안점을 시사하였습니다. 이를 기반으로, 블록체인 시스템의 안정성을 해치지 않으면서 기존 기술을 능가하는 고성능 트랜잭션 처리를 가능하게 하였습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 Ethereum Virtual Machine을 통합하여, Ethereum 기반 스마트 컨트랙트 실행 환경에서 광범위하게 평가되었습니다. 향후에는 다양한 응용 어플리케이션 워크로드를 기반으로 성능을 고도화하는 방향으로 진행될 예정입니다. [성과와 관련된 실적] Donghyeon Ryu and Chanik Park. 2024. In Proceedings of the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC ’24) [성과와 관련된 이미지]
박찬익 교수 2025.03.10 1417 -
[조민수 교수] DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
[연구의 필요성] 기존의 CLIP (Radford et al., 2021) 과 같은 image-text encoder 들은 영상을 언어기반으로 전체적으로 이해하는 능력은 뛰어나지만 영상의 부분적 이해, 즉 픽셀 단위를 언어 기반으로 이해하는 능력은 몹시 부족하였음. [포스텍이 가진 고유의 기술] 본 연구에서는 기존의 자기 지도 학습 기반 비전 모델인 DINOv2 를 기반으로 훌륭한 시각적 이해도를 가진 모델로부터 언어-영상의 픽셀 기반 이해 능력을 갖는 고성능 언어 기반 영상 인식 모델을 개발함 [연구의 의미] 픽셀 기반 언어 인식 능력은 픽셀 기반 추가 기술들이 필요한 고도의 작업이었으나, 본 연구에서 개발한 모델은 image-text encoder 에서 이미 훌륭한 픽셀-언어 이해도를 보유하고 있기 때문에 각종 추가 테크닉 없이도 언어 기반 영상 분할 평가 방식에서 고성능을 달성함. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 최고 수준 학회인 CVPR 2025 에 2025년 6월에 발표와 출판을 앞두고 있음. [성과와 관련된 실적] Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski. DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment. CVPR 2025. [성과와 관련된 이미지]
조민수 교수 2025.03.10 2952 -
[이근배/옥정슬 교수] Revisiting Early Detection of Sexual Predators via Turn-level Optimization
[연구의 필요성] 온라인 그루밍(Online grooming)은 성범죄자가 아동 피해자를 온라인 상에서 교묘하게 조종하고, 오프라인으로 유인하는 심각한 사회적 위협입니다. 따라서 이를 예방하기 위해 조기 탐지 (eSPD: early Sexual Predator Prediction) 가 필수적입니다. 하지만 기존 eSPD 방법들은 대화 단위 (chat-level)의 위험 라벨에 의존하여, 대화 내부 각각의 발화 (turn)에 대한 올바른 representation을 만들지 못했습니다. 이는 위험 발화에 대한 weak supervision이 발생하고, 최적 조기 탐지 시점을 효과적으로 결정하지 못하는 문제를 안고 있습니다. 따라서, 우리는 발화 단위(turn-level) 위험 라벨을 사용하고, 최적의 조기 탐지 시점을 결정하기 위해 강화학습 기반 방법론을 도입하고자 합니다. [포스텍이 가진 고유의 기술] 이 테스크를 수행하기 위해 크게 2가지를 진행했습니다. 첫째로 유혹 커뮤니케이션 이론 (LCT: Luring Communication Theory)에서 도출된 발화 단위 전략을 활용하여 발화 단위 위험 라벨 (turn-level risk label)을 정의했습니다. 이를 바탕으로 발화 단위의 새로운 벤치마크 데이터셋, 평가지표인 Turn-level eSPD를 정의했습니다. 둘째로 우리는 최적의 조기 탐지 시점을 효과적으로 식별하기 위해 새로운 속도 조절 강화학습 (SCoRL: Speed-Control Reinforcement Learning) 방법을 제안했습니다. SCoRL 프레임워크는 Turn-level eSPD 데이터셋과 속도 조절 보상 함수 (Speed-Control Reward)를 활용하여 탐지의 신속성과 정확성 간의 균형을 맞춥니다. [연구의 의미] 본 연구는 크게 2가지 의미가 있습니다. 우선 이 연구는 기존 eSPD가 가지고 있는 위험 발화에대한 weak supervision 문제를 지적했습니다. 이는 대화 단위 위험 라벨이 원인으로 LCT 이론을 바탕으로 발화 단위 위험 라벨을 정의하고, 이를 기반으로 한 벤치마크를 제안했습니다. 그리고 이 연구는 eSPD task에서 최초로 신속성과 정확성 모두 최적화 시킬 수 있는 방법론을 제안했습니다. 특히 speed라는 값을 기반으로 한 속도 조절 보상 함수를 제안하며, 기존 naïve 방식의 보상 함수와의 차별성을 보여주었고, 구체적인 학습 방법 및 코드를 공개하였습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 NAACL 2025 main long paper로 accept 되었습니다. 조기감지가 필요한 다른 분야로도 연구를 확장할 계획입니다. [성과와 관련된 실적] 본 연구는 NAACL 2025 main long paper로 accept 되었습니다. [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.03.06 1368 -
[이근배/옥정슬 교수] DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition
[연구의 필요성] 현재의 난청 또는 발음 장애(Dysarthria)를 가진 환자들의 음성 인식(DSR, Dysarthric Speech Recognition) 은 일반적인 자동 음성 인식(ASR, Automatic Speech Recognition)에 비해 정확도가 현저히 떨어집니다. 이는 발음의 명확성이 낮고, 발음 방식이 사람마다 다르게 나타나기 때문입니다. 기존 연구들은 데이터 증강(Data Augmentation)과 화자 적응 모델(Speaker Adaptive Training)을 사용해 문제를 해결하려 했지만, 추가적인 데이터나 외부 모델이 필요하여 실용성이 떨어졌습니다. 본 연구에서는 대조 학습(Contrastive Learning, CL)을 활용하여 다양한 발음 패턴에도 불구하고 공통적인 음소(Phoneme)를 인식할 수 있도록 학습하는 방법을 제안합니다. 특히, 기존 연구들이 문장 또는 단어 수준에서 음성을 분석한 것과 달리, 본 연구에서는 음소(Phoneme) 수준에서의 대조 학습(Phoneme-level Contrastive Learning, PCL) 을 적용하여 보다 세밀한 발음 차이를 구별하고자 합니다. [포스텍이 가진 고유의 기술] Dynamic Phoneme-level Contrastive Learning (DyPCL) 기법 기존의 단어 수준(word-level) 대조 학습 대신 음소 수준(phoneme-level)에서 대조 학습을 수행하여 발음이 다른 화자 간의 차이를 효과적으로 줄입니다. 일반적인 대조 학습은 고정된 음소 정렬 방식을 사용하지만, DyPCL은 Dynamic CTC Alignment(동적 CTC 정렬) 을 적용하여 음소 정렬을 학습 과정에서 실시간으로 조정합니다. Dynamic CTC Alignment 기존 강제 정렬(Forced Alignment) 방식은 일반적인 음성을 기준으로 학습되었기 때문에 난청 환자의 음성을 제대로 정렬하지 못하는 문제가 있었습니다. 본 연구에서는 CTC 모델의 출력을 실시간으로 정렬하여 보다 정확한 음소별 표현을 추출할 수 있도록 개선했습니다. Dynamic Curriculum Learning (동적 커리큘럼 학습) 음소 간의 유사도를 측정하여 학습 난이도를 조절하는 음소 기반(Phoneme-based) 커리큘럼 학습 기법을 적용했습니다. 초기에 비교적 쉬운 음소 구별을 학습한 후, 점진적으로 구별하기 어려운 음소를 학습하도록 설계하여 모델이 보다 정교한 패턴을 학습할 수 있도록 했습니다. [연구의 의미] 본 연구는 난청 및 발음 장애 환자의 음성 인식 성능을 획기적으로 향상시키는 새로운 접근법을 제안합니다. 기존의 단어 수준 모델들이 충분한 성능을 보이지 못했던 반면, DyPCL 기법은 음소 수준에서 보다 미세한 차이를 학습할 수 있도록 설계되어 기존 모델 대비 22.10%의 단어 오류율(WER) 감소 효과를 달성했습니다. 특히, 본 연구는 추가적인 데이터 증강이나 외부 모델에 의존하지 않고도 하나의 ASR 모델만으로 학습이 가능하도록 설계되었으며, 이를 통해 실용성을 극대화했습니다. 더 나아가, 난청 화자의 음성을 보다 명확하게 인식할 수 있도록 보조하는 인공지능 기반 음성 인터페이스 개발에 중요한 기여를 할 수 있을 것으로 기대됩니다. [연구결과의 진행 상태 및 향후 계획] 현재 본 연구는 UASpeech 데이터셋을 활용하여 DyPCL의 성능을 검증하였으며, 실험 결과 기존 모델 대비 전반적인 성능 향상을 확인하였습니다. 특히, 매우 낮은 명료도(Very Low, VL) 그룹에서 단어 오류율(WER)을 58.49%에서 49.45%로 감소시키는 성과를 거두었습니다. DyPCL이 다양한 환경에서도 일관된 성능을 유지할 수 있도록, 다른 난청 음성 데이터셋(UASpeech 외 다양한 데이터셋)에서 추가 실험을 진행할 예정입니다. [성과와 관련된 실적] Wonjun Lee, Solee Im, Heejin Do, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee, NAACL 2025 main conference [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.03.06 820



