최신연구
-
[류일우 교수] Extensive Spherical Region Enlargement with Isotropic Deformation for Sulcal Labeling
[연구의 필요성] 대뇌 피질 주름의 식별은 피질의 기능적·구조적 발달을 이해하는 데에 중요하다. 그중에서, Posterior Medial Cortex (PMC)는 기억, 자기참조 처리, 인지 제어 등 다양한 고위 인지 기능과 밀접한 관련이 있는 주름이다. 최근 연구에 따르면 인류의 PMC는 이전에 기술되지 않았던 새로운 구조적 주름을 포함하며, 이들의 해부학적 형태는 인간과 영장류 간에 유의미한 차이를 보인다. 이러한 발견은 개별적인 뇌 구조의 차이가 인지 및 행동 특성과 어떻게 연관되는지를 규명하기 위한 초석인 정밀한 대뇌 피질 주름 식별 기술의 필요성을 부각시킨다. 그러나 PMC 영역의 자동 주름 식별은 1) 피질 표면의 복잡한 해부학적 다양성, 2) 전문가의 수작업 식별 비용으로 인한 데이터 부족, 그리고 3) 관심 영역(ROIs)과 그 외의 심각한 클래스 불균형 문제로 인해 여전히 도전적인 과제로 남아있으며, 신뢰할 수 있는 자동화된 도구가 필요한 상황이다. 이에 따라 희소한 영역에서도 세밀한 구조를 효과적으로 포착할 수 있는 새로운 기술의 개발이 필요하다. 본 연구는 이러한 배경 아래, 구면으로 매핑된 대뇌 표면을 역변환이 가능하도록 수학적으로 유도한 등방(isotropic) 변형장을 통해 관심 영역은 광범위하게 확장하고 그 외의 영역은 수축시키는 변형 기법을 제안함으로써, 기존 방법의 한계를 극복하고 PMC 주름 식별의 정확도를 향상시켰다. 이러한 변형장의 계산에는 인공지능으로 추론된 인자들이 사용되었다. [포스텍이 가진 고유의 기술] 본 연구는 POSTECH의 인공지능대학원 및 컴퓨터공학과가 주축이 되어 진행되었으며, 미국 UC Berkeley 및 University of Wisconsin-Madison 의과대학과의 공동 연구를 통해 국제적으로 검증된 PMC 주름 데이터셋을 확보하였다. 특히, PMC 영역의 희소하며 해부학적으로 다양성이 큰 주름들을 대상으로 한 정밀 식별 작업은 다수의 전문가의 수작업 주석과 교차 리뷰 과정을 거쳐 구축되었다. 더불어, 본 연구실은 구면 기반의 대뇌 표면 해석을 위한 기하학적 딥러닝 기술, 특히 구면조화함수 기반의 신경망 구조 및 역변환이 가능한 등방 변형장의 수학적 유도 능력에 있어 선도적인 연구 역량을 보유하고 있다. 본 연구에서 제안된 모델은 본 연구팀에서 기개발한 구면 신호 추론 모델인 SPHARM-Net 모델을 기반으로 하되, 최소한의 파라미터 추가만으로 대형 구면 영역 확장을 가능케 하였으며, 이를 통해 희소 영역의 구조적 특징을 효과적으로 표현할 수 있다. [연구의 의미] 본 연구는 정밀한 대뇌 피질 주름 식별을 위한 새로운 방향을 제시함으로써, 기존의 인공지능 기반 자동화 기법이 직면했던 해부학적 다양성 및 클래스 불균형 문제를 효과적으로 극복하였다. 특히, 제안된 구면에서의 등방 변형 기법은 구면 표면에서의 확장을 정의하였으며, 위상을 유지한 채 관심 영역을 확장할 수 있어, 기존 방식으로는 정확한 식별이 어려웠던 소규모 주름 영역에서의 성능 향상을 도출하였다. 이는 단순한 기술적 개선을 넘어, PMC 영역 내 구조적 차이가 개인의 인지 및 행동 특성과 어떻게 연결되는지를 탐색할 수 있는 바이오마커의 실현 가능성을 높인다는 점에서 의의가 크다. 나아가, 본 연구에서 확장된 기술은 신경퇴행성 질환의 조기 진단, 개별 맞춤형 뇌 분석 등 다양한 응용 분야로의 확장이 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 의료영상 분야 국제학회 중 하나인 IEEE International Symposium on Biomedical Imaging (ISBI) 2025에 채택되어 Houston, TX, USA에서 포스터 발표되었으며, 이후 제시된 등방 변형장을 넘어 더 복잡한 형태의 변형장을 활용한 연구를 진행할 계획이다. [성과와 관련된 실적] Seunghwan Lee, Jiwon Son, Seungeun Lee, Ethan H Willbrand, Benjamin J Parker, Kevin S Weiner, and Ilwoo Lyu, “Extensive spherical region enlargement with isotropic deformation for sulcal labeling”, in 2025 IEEE 22nd International Symposium on Biomedical Imaging (ISBI), IEEE, Apr. 2025, pp. 1–5. [성과와 관련된 이미지]
류일우 교수 2025.07.11 856 -
[박은혁 교수] SEAL: Scaling to Emphasize Attention for Long-Context Retrieval
[연구의 필요성] 대규모 언어 모델 (Large Language Models, LLM)을 아주 긴 문서 전체의 이해 등 장문맥 (long-context)에 활용하려는 요구가 점차 늘어나고 있습니다. 이에 따라 확장된 입력 길이를 받을 수 있는 LLM 혹은 각종 확장 기법들이 등장하고 있지만, 여전히 입력 길이가 길어질수록 점차 검색 능력이 떨어진다는 문제가 있습니다. 한편 이러한 장문맥 이해를 가능케 하는 핵심 요소인 멀티 헤드 어텐션 (Multi-head Attention, MHA) 구조에서 어텐션 헤드별로 다른, 다양한 역할을 가지고 있음이 알려져있습니다. 본 연구의 결과물을 활용하면 장문맥 검색 (long-context retrieval)에 관여하는 헤드들을 찾을 뿐만 아니라 해당 헤드들의 영향력을 조절하여 긴 입력에 대한 검색 성능 저하 문제를 해결할 수 있습니다. [포스텍이 가진 고유의 기술] 본 연구에서는 분석 실험을 통해 멀티 헤드 어텐션 구조에서 어떤 특정 헤드를 제거함에 따라 20% 정도의 검색 정확도 향상에서 30% 정도의 하락까지 관찰하였습니다. 이를 통해 실제로 특정 헤드들이 장문맥 검색에 중요한 역할을 한다는 것을 확인했고, 나아가 헤드 내부의 채널별 제거 실험에서 큰 정확도 편차를 확인하여 채널 단위의 어텐션 조절 또한 중요함을 확인하였습니다. 해당 분석들을 바탕으로 어텐션 헤드별 (head-wise) 혹은 더 세밀하게 채널별 (channel-wise) 세기를 적절히 조절하는 어텐션 스케일링 방법인 SEAL을 제안합니다. SEAL은 단 50개 정도의 합성 훈련 데이터셋을 만든 뒤, 그 데이터셋으로 scale을 미세조정 (fine-tuning) 하는 방법으로 어텐션 성분들의 세기를 장문맥 검색에 맞게 적절히 조절합니다. 저희의 방법은 추론 시 추가적인 연산 오버헤드 없이, 1시간 이내의 미세조정 만으로도 다양한 검색 테스크의 성능하락을 크게 복구시켰습니다. [연구의 의미] 본 연구에서는 어텐션 출력에 적절한 스케일링 만으로 장문 검색 성능을 크게 향상시키는 새로운 미세 조정 방법을 제안하였습니다. 그 과정에서 대조군 미세조정 방법들에 비해 아주 적은 학습 파라미터로 비슷한 성능향상을 달성했고, 이를 통해 어텐션 요소들 (헤드, 채널)이 이런 검색 능력에 핵심 요소임을 보였습니다. 뿐만 아니라 학습 없이 문맥창을 확장하는 (training-free context length extension) 방법들에 SEAL을 같이 사용하여 전체적인 조정 비용도 적게 유지하며 확장된 입력 길이에서의 성능 하락도 해결하는 방법을 추가로 제안하였습니다. 이와 같이 작은 조정 비용으로 유효한 문맥창을 확장하는 기법과 다양한 분석을 제시함으로써, 장문맥 LLM (long-context LLM)의 활용 및 발전에 기여했다는 점에서 의의가 있습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어 처리 분야 최우수 학술대회 중 하나인 The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) 에 채택되어 포스터 세션에서 발표될 예정입니다. 향후 정보검색의 품질 하락 문제 뿐만 아니라 긴 입력에 대한 추론 속도 개선 및 메모리 비용을 낮추기 위한 최적화 연구 또한 계획 중입니다. [성과와 관련된 실적] Changhun Lee, Minsang Seok, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park, “SEAL: Scaling to Emphasize Attention for Long-Context Retrieval”, ACL 2025 Main [성과와 관련된 이미지]
박은혁 교수 2025.07.10 963 -
[김동우/박상돈 교수] Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
[연구의 필요성] 텍스트-이미지 생성 모델의 상용화가 확산됨에 따라, 저작권 침해나 윤리적으로 부적절한 콘텐츠 생성 등 다양한 사회적 문제가 발생하고 있다. 이를 해결하기 위해 최근 특정 개념(target concept)을 생성하지 못하게 하는 폐기학습(Unlearning) 기법이 제안되고 있으나, 기존의 평가 방법론은 이미지 품질과 목표 개념 (target concept) 제거의 충실성만을 평가하는 등 제한적인 평가에 머물러 있다. 따라서 현실적인 환경과 다양한 공격 상황 등을 고려한 포괄적이고 다면적인 평가를 할 수 있는 프레임워크가 필요하다. [포스텍이 가진 고유의 기술] 본 연구에서 제안하는 Holistic Unlearning Benchmark(HUB)는 Unlearning 기법들의 성능을 다각도로 평가할 수 있는 종합적 벤치마크이다. HUB는 다음과 같은 6가지 평가 축을 정의하여 체계적인 평가를 제공한다. 1) 목표 개념 제거 충실성(Faithfulness), 2) 프롬프트와의 정합성(Alignment), 3) 유사 개념 영향 최소화 (Pinpoint-ness), 4) 다국어 프롬프트 강건성(Multilingual robustness), 5) 공격 강건성(Attack robustness), 6) 계산 효율성(Efficiency). 특히 각 평가 축에 특화된 세부 평가 방법과 대규모 프롬프트 데이터셋 (개념당 16,000개의 프롬프트)을 개발하여 기존 평가 방법과 차별화되는 벤치마크를 제안하였다. [연구의 의미] HUB는 다양한 Unlearning 방법론을 단순 비교하는 것을 넘어, 각 방법론의 장단점과 trade-off를 보다 정밀하게 진단할 수 있는 도구로 활용될 수 있다. 실제로 HUB를 활용한 실험을 통해, 모든 평가 기준에서 일관되게 우수한 기존 Unlearning 방법론은 없다는 사실을 확인하였다. 이러한 결과는 기존 Unlearning 방법론의 한계를 명확히 드러내며, 새로운 접근법 개발의 필요성을 강조한다. 또한 HUB의 평가 프레임워크와 데이터셋을 공개함으로써 향후 산업 및 학계에서 관련 연구와 개발이 더욱 활성화될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 최우수 국제학술대회 중 하나인 ICCV 2025 (International Conference on Computer Vision)에서 포스터로 발표될 예정이다. 또한 지속적으로 최신 Unlearning 방법론 및 평가 지표를 반영하는 공개 리더보드를 운영하여 HUB가 지속적으로 업데이트되고 실질적으로 활용될 수 있도록 발전시킬 계획이다. [성과와 관련된 실적] Saemi Moon*, Minjong Lee*, Sangdon Park, Dongwoo Kim “Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning”, International Conference on Computer Vision (ICCV), 2025. [성과와 관련된 이미지]
김동우, 박상돈 교수 2025.07.09 911 -
[김동우/옥정슬 교수] Enhancing Ligand Validity and Affinity in Structure-Based Drug Design with Multi-Reward Optimization
[연구의 필요성] 구조 기반 신약 설계(Structure-based Drug Design, SBDD)는 단백질 구조가 주어졌을 때, 이에 결합 가능한 3차원 분자를 생성하는 것을 목표로 합니다. 기존 연구들은 주로 학습 데이터의 통계적 분포를 모사하는 데 집중하여, 신약 개발에 요구되는 특정 성질에 최적화된 분자를 효과적으로 생성하지 못하였습니다. 또는, 하나의 특성(예: 결합 친화도)만을 최적화하는 방법에 그쳐, 합성 용이성이나 구조적 안정성과 같은 다른 중요한 속성의 저하를 초래하는 문제가 있었습니다. 따라서, 신약 개발에 필수적인 다양한 분자 특성들을 동시에 고려하고 최적화할 수 있는 연구가 필요시 됩니다. [포스텍이 가진 고유의 기술] 이 연구는 SBDD에서 요구되는 다양한 분자 특성을 동시에 만족시키기 위해, 다중 보상 최적화(Multi-reward Optimization)를 직접 선호도 최적화(Direct Preference Optimization, DPO)와 결합한 새로운 프레임워크를 제안합니다. 분자 생성의 백본으로 Bayesian Flow Network(BFN)를 채택하고, 사전 학습된 생성 모델을 DPO를 통해 미세 조정(fine-tuning)하였습니다. 생성된 분자에 대해 외부 소프트웨어나 평가 지표를 활용해 보상 값을 계산한 뒤, 서로 다른 보상 간의 스케일 차이를 정규화하고, 보상 예측의 불확실성이 클 경우 패널티를 부여하는 전략을 적용하여 최종 보상을 산출합니다. 이 통합된 보상 신호를 기반으로 DPO를 수행함으로써, 모델이 다양한 분자 특성을 균형 있게 학습할 수 있도록 하였습니다. BFN과 DPO를 결합한 다중 보상 최적화 방식을 SBDD에 적용한 것은 본 연구가 최초입니다. [연구의 의미] 이 연구는 SBDD에서 생성된 분자의 신약 후보로서의 활용 가능성을 크게 향상시켰다는 점에서 실질적인 의의를 가집니다. BFN에 DPO을 접목하여 다중 보상 최적화를 수행한 결과, 결합 친화도, 구조적 안정성, 약물화 가능성 등 신약 개발에 핵심적인 다수의 지표에서 동시적인 성능 향상을 달성하였습니다 특히, 기존 연구들이 도달했던 파레토 프론트(Pareto front)를 성공적으로 확장하였음을 실험적으로 확인하였으며, 생성된 분자의 유효성을 평가하는 벤치마크에서도 본 모델은 기존 최첨단 기법들 대비 현저히 높은 유효성 통과율을 기록하였습니다. 우리의 연구결과가 단일 지표에 최적화된 기존 모델들을 뛰어넘어, 다양한 분자 특성을 균형 있게 고려한 생성이 가능함을 입증합니다. [연구결과의 진행 상태 및 향후 계획] 이 연구는 인공지능 분야 최우수 학술대회 중 하나인 ICML 2025 (International Conference on Machine Learning)에 채택되어 포스터 세션에서 발표될 예정입니다. 또한 현재 관련 기술에 대한 특허 출원도 준비 중에 있습니다. 향후에는 본 기법을 Reinforcement Learning 및 Multi-task Optimization의 최신 연구성과와 결합하여 성능을 더욱 향상시키는 것을 목표로 합니다. 아울러, 외부 평가 도구 사용에 따른 계산 비용 및 시간 소모를 줄이기 위해, Active Learning에서 활용되는 기법을 접목하여 후속 연구로 확장해 나갈 계획입니다. [성과와 관련된 실적] Seungbeom Lee, Munsun Jo, Jungseul Ok, Dongwoo Kim “Enhancing Ligand Validity and Affinity in Structure-Based Drug Design with Multi-Reward Optimization”, International Conference on Machine Learning (ICML), 2025. [성과와 관련된 이미지]
김동우, 옥정슬 교수 2025.07.08 882 -
[이남훈 교수] SAFE: Finding Sparse and Flat Minima to Improve Pruning
[연구의 필요성] 최근 대규모 인공지능 모델의 활용이 증가함에 따라, 제한된 자원 하에서 모델을 효율적으로 구동할 수 있는 모델 압축 기법의 중요성이 부각되고 있다. 특히 가지치기(pruning)는 모델의 파라미터를 대거 제거함으로써 메모리와 연산량을 동시에 절감할 수 있어 주요한 방법으로 주목받고 있다. 그러나 높은 압축률에서는 성능 저하가 불가피한 경우가 많아, 이를 완화하는 방법의 개발이 핵심 과제로 남아 있다. [포스텍이 가진 고유의 기술] 본 연구는 제약 최적화 기법을 토대로, 평탄한 손실 지형 위의 희박한 모델을 효과적으로 탐색하는 최적화 알고리즘을 제안한다. 이는 손실 함수의 첨예도(sharpness)를 낮추는 것이 일반화 성능 향상과 밀접한 관련이 있다는 기존 연구에 기반한 것으로, 특히, 평탄성 유도를 목표로 한 희박성 제약 최적화 문제를 설정하고, 이를 교차방향승수법(ADMM)과 첨예도 인식 최소화 전략을 결합하여 SAFE (Sparsification via ADMM with Flatness Enforcement) 알고리즘을 설계하였다. 특히, 이 과정에서 유도되는 파라미터 크기 기반 사영 방식이 가지는 성능 상의 제약을 극복하고자, 유클리드 거리를 일반화한 이차식 거리 개념을 도입함으로써 다양한 중요도 점수를 유연하게 반영할 수 있는 SAFE+를 추가로 제안하였다. [연구의 의미] 본 연구는 성능 저하를 최소화하며 모델 희박화를 달성하려는 압축 연구의 주요 과제에 대해, 기존 연구에서 밝혀진 평탄도의 중요성에 착안한 새로운 접근을 제시하였다. 제약 최적화 기반의 희박화 및 평탄화 기법을 통해 설계하고 알고리즘의 수렴성을 이론적으로 분석하였다. 실험적으로는 다양한 도메인에서의 적용 가능성과 노이즈에 대한 강건한 성능을 확보할 수 있음을 보였다. 이는 대규모 모델이 보편화되는 상황에서, 모델 경량화에 기여할 수 있는 효과적이자 이론적으로 분석된 방안을 새로 제시하였다는 점에서 학술적·실용적 의의가 크다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제 학술 대회인 International Conference on Machine Learning (ICML 2025)에서 spotlight 논문으로 채택되어 발표될 예정이다. 향후 연구에서는 이를 더욱 대규모 학습 환경에도 효율적으로 사용 가능할 수 있도록 알고리즘을 개선하고, 알고리즘에 대한 이론적인 분석을 확장하는 것을 목표로 한다. [성과와 관련된 실적] Dongyeop Lee, Kwanhee Lee, Jinseok Chung, and Namhoon Lee. “SAFE: Finding Sparse and Flat Minima to Improve Pruning”, International Conference on Machine Learning (ICML), 2025. [성과와 관련된 이미지]
이남훈 교수 2025.06.25 1218 -
[이남훈 교수] SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation
[연구의 필요성] 모델의 규모가 커질수록 성능이 향상된다는 연구들이 다수 보고되면서, 최근에는 ChatGPT, Gemini 와 같은 대규모 모델이 활발히 활용되고 있다. 그러나 이러한 모델의 학습에는 방대한 데이터셋과 거대한 모델 크기 때문에 막대한 시간이 소요되며, 모델 파라미터를 수백만 번 이상 업데이트해야 하는 경우도 많다. 예를 들어, GPT-4는 1만 개 이상의 A100GPU를 사용해 약 4개월간 학습되었으며, 이 과정에서 약 1억 달러가 넘는 비용이 투입된 것으로 알려져 있다. 이러한 배경에서 모델 학습 속도를 높이는 것은 대규모 모델의 확장을 가능하게 하고, 학습 비용 절감의 핵심 과제로 부상하고 있다. 최근에는 이를 해결하기 위한 방안으로, 2차 미분 정보를 근사적으로 활용하는 근사 2차 최적화 방법 (approximate second-order optimization)이 주목받고 있다. 하지만 역설적으로, 이러한 기법들은 학습의 궁극적 목표인 새로운 데이터에 대한 일반화 성능에서 기존의 1차 최적화 방법보다 떨어진다는 경향이 여러 연구를 통해 보고된 바 있다. 이는 근사 2차 최적화 방식의 실질적인 활용 가능성에 대한 근본적인 의문을 제기했다. 본 연구에서는 이러한 한계를 극복하고자, 일반화 성능을 효과적으로 개선함과 동시에 계산 효율성까지 확보할 수 있는 새로운 근사 2차 최적화 알고리즘을 제안한다. 이 알고리즘은 기존 기법의 실용적 약점을 보완하여, 대규모 모델의 학습을 보다 빠르게 수행할 수 있는 가능성을 제시한다. [포스텍이 가진 고유의 기술] 본 연구에서는 근사 2차 최적화 기법이 낮은 일반화 성능을 보이는 원인을 손실 함수의 지형적 구조(loss landscape) 관점에서 분석하였다. 실험적 및 이론적 분석을 통해, 근사 2차 최적화 기법이 찾아내는 해(solution)는 지나치게 곡률이 큰(sharp) 지점에 위치하는 경향이 있으며, 이것이 일반화 성능 저하의 핵심 원인 중 하나일 수 있음을 확인하였다. 이 문제를 해결하고자 우리는 곡률이 작은(flat) 최소점에 수렴하는 새로운 근사 2차 최적화 방법을 설계하였다. 그러나 곡률을 단순하게 줄이려는 과정에서 근사된 헤시안이 과도하게 억제되어 학습이 불안정해지는 문제가 발생한다. 이를 해결하기 위해, 본 연구에서는 곡률을 최소화하는 과정에서도 헤시안을 안정적으로 근사할 수 있는 기법을 고안하였으며, 이를 바탕으로 SASSHA (Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation) 라는 새로운 알고리즘을 제안한다. SASSHA는 기존의 2차 최적화 기법들보다 더 평평한 최소점 (flat minima)에 안정적으로 수렴함으로써 일반화 성능이 향상될 뿐 아니라, 최적화 경로 역시 곡률 변화가 적은 평탄한 영역을 따라가도록 유도된다. 이로 인해 과거에 계산한 헤시안 정보를 재사용하더라도 성능 저하 없이 학습을 지속할 수 있어, 헤시안 계산 횟수를 줄여 계산 효율성을 크게 향상시킬 수 있다. SASSHA는 이미지 분류, 자연어 처리 등 다양한 표준 딥러닝 과제에서 기존의 1차 및 2차 최적화 기법들을 모두 능가하였으며, 특히 레이블 노이즈(label noise)가 존재하는 환경에서도 기존의 최고 성능 기법인 SAM보다 더 뛰어난 견고함(robustness)을 보였다. [연구의 의미] 딥러닝 분야에서 모델의 규모는 계속해서 커지고 있지만, 이론적으로 더 빠른 수렴 속도를 제공하는 2차 최적화 방법은 실제로는 널리 사용되지 않고 있다. 그 주요 원인은 크게 두 가지로, 첫째는 높은 계산 및 메모리 비용, 둘째는 낮은 일반화 성능이다. 본 연구에서는 근사 2차 최적화 기법이 곡률이 작은 최소점으로 안정적으로 수렴하도록 유도하는 새로운 방법론을 제시하였다. 이를 통해 해당 기법의 일반화 성능을 향상시켰을 뿐 아니라, 동시에 그 과정에서 발생하는 부가적 이점을 활용하여 계산 효율성 또한 개선하였다. 그 결과, 기존에는 이론적인 가능성에 머물렀던 2차 최적화의 빠른 수렴 속도라는 잠재력을 실용적으로 실현할 수 있는 방법론을 제시하였다. 이 방법론은 다양한 학습 분야에서 앞으로 2차 기법의 실질적 활용 가능성을 더욱 확장시킬 중요한 기반이 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제 학술대회인 국제머신러닝학회(International Conference on Machine Learning) ICML 2025 에 논문으로 채택되어, 포스터 세션을 통해 발표될 예정이다. 향후 연구에서는 SASSHA의 가치를 보다 정밀하게 입증하기 위해 다음과 같은 다양한 방향으로 연구를 확장하고자 한다. 예를 들어, 초대규모 모델과 데이터에 대한 실험 확장, 다양한 아키텍처에의 적용 가능성 검증, 그리고 수렴 속도(convergence rate), 일반화 경계(generalization bound), 내재된 편향(implicit bias)과 같은 이론적 특성의 분석이 포함된다. 우리는 이러한 후속 연구를 SASSHA의 이론적·실용적 기여를 심화시킬 수 있는 의미 있는 기회로 보고 있으며, 지속적인 탐구를 이어갈 계획이다. [성과와 관련된 실적] Dahun Shin, Dongyeop Lee, Jinseok Chung, and Namhoon Lee. “SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation”, International Conference on Machine Learning (ICML), 2025. [성과와 관련된 이미지]
이남훈 교수 2025.06.25 1065 -
[김형훈 교수] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
[연구의 필요성] 대화 시스템의 발전으로 챗봇은 인간과 유사한 방식으로 상호작용할 수 있을 만큼 정교하게 발전해 왔다. 최근에는 텍스트뿐만 아니라 이미지와 오디오 등 다양한 모달리티를 포함한 멀티모달 기능이 챗봇에 통합되면서, 보다 풍부한 대화가 가능해지고 있다. 그러나 지금까지의 멀티모달 챗봇 연구는 대부분 이미지 중심으로, 주어진 이미지에 대한 질문이나 지시에 단순히 응답하는 수준에 머물러 있다. 또한, 인간의 '눈'에 해당하는 시각 정보는 활용되고 있지만, '귀'에 해당하는 청각 정보를 이해하고 대화에 통합하려는 시도는 부족하다. 특히 이미지와 오디오를 결합한 통합적 접근은 아직 연구가 거의 이루어지지 않았으며, 멀티세션이나 멀티파티와 같은 복잡하고 동적인 현실 세계와 유사한 대화 시나리오에 멀티모달 기능을 접목한 연구도 부족하다. [포스텍이 가진 고유의 기술] 본 연구에서는 멀티모달, 멀티세션, 멀티파티가 최초로 통합된 대화 데이터셋인 M³C를 제안한다. M³C는 하나의 대화 에피소드가 세 개의 연속된 세션으로 구성되어 있으며, 총 4명의 화자가 등장한다. 각 세션에는 고정된 메인 화자와 함께 나머지 3명 중 2명의 화자가 참여해, 총 3명이 대화를 나눈다. 대화는 동일한 공간적, 시간적 맥락에서 이루어지며, 화자들은 주어진 이미지와 오디오를 실시간으로 보고 듣는 듯한 몰입감 속에서 상호작용한다. 또한 연구진은 M³C 데이터셋을 기반으로 학습된 모델도 함께 제안하였다. 제안한 모델은 연속된 세션 간의 대화 내용을 멀티모달 메모리로 구성하고, 현재 진행 중인 세션에서 필요한 메모리를 이미지, 오디오, 텍스트 등 모달리티에 관계없이 동일한 임베딩 공간 내에서 검색할 수 있다는 장점을 갖는다. [연구의 의미] 기존의 멀티모달 대화 데이터셋과 모델은 이미지 중심적이며, 멀티세션이나 멀티파티와 같은 동적인 시나리오를 통합한 사례가 부족하였다. 본 연구는 멀티모달, 멀티세션, 멀티파티를 최초로 통합한 데이터셋과 모델을 제안하였다는 점에서 큰 의의가 있다. 특히 기존 연구들이 멀티모달 요소에 대해 단순히 질문에 응답하거나 묘사하는 방식에 그쳤던 것과 달리, 본 연구에서는 실제로 화자들이 이미지와 오디오를 보고 듣는 듯한 맥락에서 자연스럽게 대화에 반영할 수 있도록 하여 멀티모달 대화의 수준을 강화하였다. 또한, 제안된 모델은 이전 세션의 메모리를 검색할 때 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리하고 검색할 수 있어, 기존 방식보다 더 유연하고 효과적인 검색이 가능하다는 점에서도 의의가 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 최우수 학회인 ACL 2025 Main에 수락되어 발표될 예정이다. 향후 연구진들은 인간의 대화 환경에 보다 유사하고 복잡한 상황에서도 자연스럽게 상호작용할 수 있는 강인한 멀티모달 챗봇을 연구하고, 이를 임바디드와 같은 가상환경에도 확장, 적용할 계획이다. [성과와 관련된 실적] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions Jihyoung Jang*, Minwook Bae*, Minji Kim, Dilek Hakkani-Tur, and Hyounghun Kim. Proceedings of ACL 2025. [성과와 관련된 이미지] Figure 1. Example of M³C Figure 2. Overall architecture of our model
김형훈 교수 2025.06.17 1127 -
[이근배 교수] Multi-Facet Blending for Faceted Query-by-Example Retrieval
[연구의 필요성] Query-by-Example (QBE)는 주어진 문서(query document)와 유사한 문서를 찾는 작업입니다. 그러나 하나의 문서는 보통 여러 facet (e.g. scientific paper의 경우 background, method, result)을 포함하고 있기 때문에, 어떤 관점에서 유사성을 판단해야 하는지 모호한 경우가 많습니다. 기존의 QBE 접근 방식은 주로 citation 정보에 기반해 학습되므로, scientific paper domain에 한정되며, 미리 정해진 facet에 대해서만 유사 문서를 검색할 수 있다는 한계가 있습니다. 이에 우리는 도메인에 구애받지 않고, 사용자가 정의한 facet 중심의 유사 문서를 효과적으로 검색할 수 있는 새로운 QBE 방법을 제안합니다. [포스텍이 가진 고유의 기술] 이를 위해 우리는 여러 facet을 조합하여 데이터를 증강하는 FaBle (Multi-Facet Blending) 기법을 제안합니다. 먼저, LLM을활용해 각 facet에 대해 유사한(similar) 및 비유사한(dissimilar) facet 쌍을 생성하고, 이를 조합하여 facet별 positive/negative 문서 쌍을 구성합니다. 이러한 triplet 데이터를 기반으로 triplet loss를 적용해, 특정 facet에 집중한 유사 문서 검색이 가능하도록 모델을 학습합니다. 또한, 제안하는 방법의 도메인 일반화 가능성과 robustness를 입증하고, 향후 faceted QBE의 확장성을 탐색하기 위해 교육 아이템 도메인에서의 테스트셋 FEIR(Faceted Educational Exam Item Retrieval)을 새롭게 구축했습니다. [연구의 의미] 본 연구는 도메인에 구애받지 않고, 사용자 정의 facet에 따라 보다 세분화된 문서 검색이 가능하도록 하는 augmentation 기법을 제안합니다. 또한, 기존에 scientific paper domain에 국한되었던 faceted QBE를 넘어, 교육 도메인에 특화된 새로운 테스트셋 FEIR을 함께 제안합니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ACL 2025에서 발표될 예정 [성과와 관련된 실적] Heejin Do*, Sangwon Ryu*, Jonghwi Kim, Gary Geunbae Lee, “Multi-Facet Blending for Faceted Query-by-Example Retrieval”, ACL 2025 [성과와 관련된 이미지]
이근배 교수 2025.06.17 1068 -
[이근배 교수] Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation
[연구의 필요성] Ladder Diagram (LD)는 산업 현장에서 사용되는 컨트롤러인 Programmable Logic Controller (PLC)를 제어하는데 자주 활용되는 시각 기반 프로그래밍 언어(VPL)이다. LLM은 텍스트 기반 프로그래밍 언어 생성에는 뛰어난 성과를 보여왔지만, 시각 기반 프로그래밍 언어, 그 중에서도 특히 LD와 같이 다양한 도메인 특화 configuration이 존재하는 언어의 경우에는 생성하기 어려웠다. 이러한 프로그램은 산업 현장 자동화에 필수적이기에, LD와 같은 프로그램을 자동 생성할 수 있다면 산업 자동화를 크게 가속할 수 있게 된다. [포스텍이 가진 고유의 기술] 본 연구에서는 기존에 VPL을 생성하는데 자주 사용되었던 프롬프트 기반 방법론으로는 LD를 생성하는데 어려움이 있음을 먼저 밝혀냈다. 이에, 2-stage로 구성된 학습 기반 방법론을 제시하였다. 먼저, Retrieval-Augmented Fine-Tuning으로 LD program이 비슷한 맥락에서 프로그램의 일부를 재사용하는 경향이 있다는 점을 학습 과정에서 활용하여 성능을 크게 높일 수 있었다. 이어서, 생성 정확도를 더 높이기 위해 VPL을 그래프 형태로 취급해 원본 프로그램에서 손상을 가해 preference pair를 만들고 이를 이용하여 DPO를 수행하여 성능을 더욱 향상시켰다. [연구의 의미] 본 연구는 기존에 LLM으로 생성할 수 없었던 LD를 생성할 수 있게 해냈다는 것에서 의미를 가진다. 또한 본 연구에서 제시하는 방법론은 그래프 형태로 환원될 수 있는 VPL에 일반적으로 적용이 가능한 방법이기에 LD뿐만이 아닌 다른 VPL을 학습 기반으로 생성하는 경우에도 도움이 될 것이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제학술대회인 ACL 2025에 소개될 예정이다. 추후에는 해당 방법론을 다른 VPL에 적용하여 기술의 일반성을 검증하고자 한다. [성과와 관련된 실적] Deokhyung Kang*, Jeonghun Cho*, Yejin Jeon, Sunbin Jang, Minsub Lee, Jawoon Cho, Gary Geunbae Lee, Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation, ACL 2025 (*: Equal contribution) [성과와 관련된 이미지]
이근배 교수 2025.06.17 1092



