최신연구
-
[조민수 교수] DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
[연구의 필요성] 기존의 CLIP (Radford et al., 2021) 과 같은 image-text encoder 들은 영상을 언어기반으로 전체적으로 이해하는 능력은 뛰어나지만 영상의 부분적 이해, 즉 픽셀 단위를 언어 기반으로 이해하는 능력은 몹시 부족하였음. [포스텍이 가진 고유의 기술] 본 연구에서는 기존의 자기 지도 학습 기반 비전 모델인 DINOv2 를 기반으로 훌륭한 시각적 이해도를 가진 모델로부터 언어-영상의 픽셀 기반 이해 능력을 갖는 고성능 언어 기반 영상 인식 모델을 개발함 [연구의 의미] 픽셀 기반 언어 인식 능력은 픽셀 기반 추가 기술들이 필요한 고도의 작업이었으나, 본 연구에서 개발한 모델은 image-text encoder 에서 이미 훌륭한 픽셀-언어 이해도를 보유하고 있기 때문에 각종 추가 테크닉 없이도 언어 기반 영상 분할 평가 방식에서 고성능을 달성함. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 최고 수준 학회인 CVPR 2025 에 2025년 6월에 발표와 출판을 앞두고 있음. [성과와 관련된 실적] Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski. DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment. CVPR 2025. [성과와 관련된 이미지]
조민수 교수 2025.03.10 943 -
[이근배/옥정슬 교수] Revisiting Early Detection of Sexual Predators via Turn-level Optimization
[연구의 필요성] 온라인 그루밍(Online grooming)은 성범죄자가 아동 피해자를 온라인 상에서 교묘하게 조종하고, 오프라인으로 유인하는 심각한 사회적 위협입니다. 따라서 이를 예방하기 위해 조기 탐지 (eSPD: early Sexual Predator Prediction) 가 필수적입니다. 하지만 기존 eSPD 방법들은 대화 단위 (chat-level)의 위험 라벨에 의존하여, 대화 내부 각각의 발화 (turn)에 대한 올바른 representation을 만들지 못했습니다. 이는 위험 발화에 대한 weak supervision이 발생하고, 최적 조기 탐지 시점을 효과적으로 결정하지 못하는 문제를 안고 있습니다. 따라서, 우리는 발화 단위(turn-level) 위험 라벨을 사용하고, 최적의 조기 탐지 시점을 결정하기 위해 강화학습 기반 방법론을 도입하고자 합니다. [포스텍이 가진 고유의 기술] 이 테스크를 수행하기 위해 크게 2가지를 진행했습니다. 첫째로 유혹 커뮤니케이션 이론 (LCT: Luring Communication Theory)에서 도출된 발화 단위 전략을 활용하여 발화 단위 위험 라벨 (turn-level risk label)을 정의했습니다. 이를 바탕으로 발화 단위의 새로운 벤치마크 데이터셋, 평가지표인 Turn-level eSPD를 정의했습니다. 둘째로 우리는 최적의 조기 탐지 시점을 효과적으로 식별하기 위해 새로운 속도 조절 강화학습 (SCoRL: Speed-Control Reinforcement Learning) 방법을 제안했습니다. SCoRL 프레임워크는 Turn-level eSPD 데이터셋과 속도 조절 보상 함수 (Speed-Control Reward)를 활용하여 탐지의 신속성과 정확성 간의 균형을 맞춥니다. [연구의 의미] 본 연구는 크게 2가지 의미가 있습니다. 우선 이 연구는 기존 eSPD가 가지고 있는 위험 발화에대한 weak supervision 문제를 지적했습니다. 이는 대화 단위 위험 라벨이 원인으로 LCT 이론을 바탕으로 발화 단위 위험 라벨을 정의하고, 이를 기반으로 한 벤치마크를 제안했습니다. 그리고 이 연구는 eSPD task에서 최초로 신속성과 정확성 모두 최적화 시킬 수 있는 방법론을 제안했습니다. 특히 speed라는 값을 기반으로 한 속도 조절 보상 함수를 제안하며, 기존 naïve 방식의 보상 함수와의 차별성을 보여주었고, 구체적인 학습 방법 및 코드를 공개하였습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 NAACL 2025 main long paper로 accept 되었습니다. 조기감지가 필요한 다른 분야로도 연구를 확장할 계획입니다. [성과와 관련된 실적] 본 연구는 NAACL 2025 main long paper로 accept 되었습니다. [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.03.06 667 -
[이근배/옥정슬 교수] DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition
[연구의 필요성] 현재의 난청 또는 발음 장애(Dysarthria)를 가진 환자들의 음성 인식(DSR, Dysarthric Speech Recognition) 은 일반적인 자동 음성 인식(ASR, Automatic Speech Recognition)에 비해 정확도가 현저히 떨어집니다. 이는 발음의 명확성이 낮고, 발음 방식이 사람마다 다르게 나타나기 때문입니다. 기존 연구들은 데이터 증강(Data Augmentation)과 화자 적응 모델(Speaker Adaptive Training)을 사용해 문제를 해결하려 했지만, 추가적인 데이터나 외부 모델이 필요하여 실용성이 떨어졌습니다. 본 연구에서는 대조 학습(Contrastive Learning, CL)을 활용하여 다양한 발음 패턴에도 불구하고 공통적인 음소(Phoneme)를 인식할 수 있도록 학습하는 방법을 제안합니다. 특히, 기존 연구들이 문장 또는 단어 수준에서 음성을 분석한 것과 달리, 본 연구에서는 음소(Phoneme) 수준에서의 대조 학습(Phoneme-level Contrastive Learning, PCL) 을 적용하여 보다 세밀한 발음 차이를 구별하고자 합니다. [포스텍이 가진 고유의 기술] Dynamic Phoneme-level Contrastive Learning (DyPCL) 기법 기존의 단어 수준(word-level) 대조 학습 대신 음소 수준(phoneme-level)에서 대조 학습을 수행하여 발음이 다른 화자 간의 차이를 효과적으로 줄입니다. 일반적인 대조 학습은 고정된 음소 정렬 방식을 사용하지만, DyPCL은 Dynamic CTC Alignment(동적 CTC 정렬) 을 적용하여 음소 정렬을 학습 과정에서 실시간으로 조정합니다. Dynamic CTC Alignment 기존 강제 정렬(Forced Alignment) 방식은 일반적인 음성을 기준으로 학습되었기 때문에 난청 환자의 음성을 제대로 정렬하지 못하는 문제가 있었습니다. 본 연구에서는 CTC 모델의 출력을 실시간으로 정렬하여 보다 정확한 음소별 표현을 추출할 수 있도록 개선했습니다. Dynamic Curriculum Learning (동적 커리큘럼 학습) 음소 간의 유사도를 측정하여 학습 난이도를 조절하는 음소 기반(Phoneme-based) 커리큘럼 학습 기법을 적용했습니다. 초기에 비교적 쉬운 음소 구별을 학습한 후, 점진적으로 구별하기 어려운 음소를 학습하도록 설계하여 모델이 보다 정교한 패턴을 학습할 수 있도록 했습니다. [연구의 의미] 본 연구는 난청 및 발음 장애 환자의 음성 인식 성능을 획기적으로 향상시키는 새로운 접근법을 제안합니다. 기존의 단어 수준 모델들이 충분한 성능을 보이지 못했던 반면, DyPCL 기법은 음소 수준에서 보다 미세한 차이를 학습할 수 있도록 설계되어 기존 모델 대비 22.10%의 단어 오류율(WER) 감소 효과를 달성했습니다. 특히, 본 연구는 추가적인 데이터 증강이나 외부 모델에 의존하지 않고도 하나의 ASR 모델만으로 학습이 가능하도록 설계되었으며, 이를 통해 실용성을 극대화했습니다. 더 나아가, 난청 화자의 음성을 보다 명확하게 인식할 수 있도록 보조하는 인공지능 기반 음성 인터페이스 개발에 중요한 기여를 할 수 있을 것으로 기대됩니다. [연구결과의 진행 상태 및 향후 계획] 현재 본 연구는 UASpeech 데이터셋을 활용하여 DyPCL의 성능을 검증하였으며, 실험 결과 기존 모델 대비 전반적인 성능 향상을 확인하였습니다. 특히, 매우 낮은 명료도(Very Low, VL) 그룹에서 단어 오류율(WER)을 58.49%에서 49.45%로 감소시키는 성과를 거두었습니다. DyPCL이 다양한 환경에서도 일관된 성능을 유지할 수 있도록, 다른 난청 음성 데이터셋(UASpeech 외 다양한 데이터셋)에서 추가 실험을 진행할 예정입니다. [성과와 관련된 실적] Wonjun Lee, Solee Im, Heejin Do, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee, NAACL 2025 main conference [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.03.06 544 -
[이근배 교수] Towards Prompt Generalization: Grammar-aware Cross-Prompt Automated Essay Scoring
[연구의 필요성] 자동화된 에세이 채점 기술 (Automated Essay Scoring; AES)은 학습자의 작문 능력을 평가하고 피드백을 제공하는 중요한 기술로 자리 잡고 있다. 최근 연구들은 특정 문항(prompt)에 종속적인 평가에서 벗어나, 새로운 문항에서도 일반화가 가능한 교차 문항(cross-prompt) AES 시스템 구축에 집중하고 있다. 이는 실제 교육 환경에서 다양한 주제의 에세이를 효과적이고 일관되게 평가하기 위한 필수적인 발전이다. 하지만, 기존 방법들은 여전히 특정 문항의 에세이-점수 데이터를 기반으로 학습되기 때문에, 새로운 문항에 대한 일반화된 에세이 표현을 얻는 데 어려움이 있다. 특히, 문법 및 문장 유창성과 같은 비 문맥적(prompt-agnostic) 특성에서 낮은 성능을 보이는 한계가 존재한다. 이에 본 연구는 문법 오류 교정(Grammar Error Correction; GEC)을 활용한 문항 일반화 AES 모델을 제안하며, 원본 및 교정된 에세이를 비교 학습함으로써 보다 일반적인 작문 특성을 효과적으로 학습하도록 설계했다. [포스텍이 가진 고유의 기술] 본 연구에서는 자동화된 에세이 채점 시스템의 문항 일반화 성능을 향상시키기 위해, 문법 오류 교정을 활용하여 원본과 교정된 에세이를 모델 내부적으로 비교하고 학습하는 문법 인식 기반 교차 문항 자동 에세이 채점 시스템(Grammar-aware Cross-Prompt Automated Essay Scoring; GAPS)을 제안한다. GAPS는 문법적으로 보정된 작문 텍스트를 효과적으로 활용하여 문항 독립적인(prompt-agnostic) 작문 특성을 직관적으로 포착할 수 있도록 설계되었으며, 원본 및 교정된 에세이 간의 정보 공유(Knowledge Sharing) 메커니즘을 도입하여 모델이 보다 일반화된 평가 기준을 학습하도록 유도한다. 이를 통해 기존 모델이 성능 저하를 보이던 문법(Conventions), 문장 유창성(Sentence Fluency) 등의 비 문맥적 특성뿐만 아니라, 내용(Content), 서사성(Narrativity) 등의 의미적 요소의 채점까지 개선하는 효과를 달성한다. [연구의 의미] 제안된 방법은 교차 문항 환경에서 기존 문항 종속적 학습의 한계를 극복하기 위해, 문항 독립적인 문법적 요소를 모델이 내부적으로 포착하도록 설계하여 일반화 능력을 향상시켰다. 이를 통해 AES 모델이 새로운 문항에서도 일관된 성능을 유지할 수 있도록 하였으며, 문법 및 문장 유창성과 같은 비 문맥적 특성뿐만 아니라 내용 및 서사성과 같은 의미적 요소까지 균형 있게 평가할 수 있음을 실험적으로 검증하였다. 본 연구는 AI 기반 자동 평가 시스템의 확장성을 높이는 데 기여할 수 있으며, 향후 지능형 교육 시스템, 온라인 학습 플랫폼, 언어 평가 도구 등 다양한 응용 분야에서 실질적으로 활용될 가능성을 제시한다. [연구결과의 진행 상태 및 향후 계획] 현재 본 연구에서는 GEC 성능에 대한 의존성을 따로 다루거나 최적화하지 않고, 보편적인 transformer 기반의 GEC 모델을 활용하였다. 하지만, 향후 다양한 GEC 모델을 최적화하여 도입하는 추가 연구를 통해 AES의 채점 품질을 더욱 향상시키고자 한다. 특히, GEC 모델의 품질이 AES 성능에 미치는 영향을 분석하고, GEC 품질이 낮거나 불완전한 경우에도 강건한 평가가 가능한지 검증할 계획이다. 또한, 현재 실험된 영어 데이터셋뿐만 아니라 다국어(Multilingual) 환경에서도 GAPS의 적용 가능성을 검토할 예정이다. [성과와 관련된 실적] 본 연구는 자연어 처리 분야의 최우수 학회 NAACL 2025 Findings에 발표될 예정이다. [성과와 관련된 이미지]
이근배 교수 2025.03.06 553 -
[이근배 교수] Prompt-Guided Selective Masking Loss for Context-Aware Emotive Text-to-Speech
[연구의 필요성] 기존 연구들은 대화 문맥을 활용하여 감성적 음성을 합성하는 데 주력해왔으나, 이러한 접근 방식은 실제 인간 대화에서 특정 단어가 감정적으로 강조되는 현상을 효과적으로 반영하지 못하는 한계를 지닌다. 즉, 기존 방법론은 발화 전체의 스타일을 전반적인 조건으로 활용하는 데 집중한 나머지, 감정 전달에 있어 중요한 국소적 음향 단서의 역할을 간과하고 있다. 또한, 대부분의 기존 연구에서는 감정 라벨 또는 참조 음성을 사용자가 수동으로 지정해야 하기 때문에 구조적 제약이 존재한다. 본 연구는 이러한 한계를 극복하기 위해, 대형 언어 모델(LLM)을 활용하여 대화 문맥으로부터 감정 태그를 자동으로 추출하고, 목표 발화 내에서 감성적으로 중요한 핵심 단어를 식별함으로써, 사용자 개입 없이 감성적 음성을 생성할 수 있는 자동화된 파이프라인을 제안한다. [포스텍이 가진 고유의 기술] 본 연구는 대화 문맥을 고려한 감성 음성 합성(EDSS)에서 전반적인 감정 태그와 국소적인 감성 단서를 동시에 활용하는 새로운 접근 방식을 제안한다. 이를 위해, (1) LLM을 활용하여 대화 문맥 기반 감정 태그를 자동 생성하고, (2) 감정적으로 중요한 키워드를 식별하며, (3) 선택적 오디오 마스킹 로스를 통해 감성적 특징을 보다 정교하게 학습하는 방식을 도입하였다. 또, 기존의 감성 음성 합성 모델이 특정 감정 라벨이나 참조 음성을 필요로 하는 반면, 본 연구는 사용자 개입 없이도 감성적이며 자연스러운 음성을 생성할 수 있는 모델을 개발했다. 실험 결과, 제안된 모델은 기존의 접근법보다 감정 표현력과 발화 자연스러움 측면에서 높은 성능을 보였다. [연구의 의미] 본 연구는 감성 음성 합성에서 문맥 정보와 국소적인 감성 단서를 결합한 최초의 연구로서, 기존 방법론의 한계를 극복하고 보다 자연스럽고 감성적인 음성을 생성하는 새로운 방법론을 제시한다. 이러한 방법론은 감성 대화 음성 합성뿐만 아니라, 음성 인터페이스, 인간-컴퓨터 상호작용 등 다양한 분야에서 활용될 수 있을 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 NAACL 2025에서 발표될 예정이며 향후 멀티모달 시나리오로 확장할 계획이다. [성과와 관련된 실적] Yejin Jeon, Youngjae Kim, Jihyun Lee, Gary Geunbae Lee, NAACL 2025 (accepted) [성과와 관련된 이미지]
이근배 교수 2025.03.06 555 -
[이근배 교수] Multimodal Cognitive Reframing Therapy via Multi-hop Psychotherapeutic Reasoning
[연구의 필요성] 기존 연구에서는 대형 언어 모델 (LLM)의 인지 재구성 (cognitive reframing) 치료에 대한 가능성을 보여주었지만, 주로 텍스트 기반 접근법에 집중하여 실제 심리 치료에서 중요한 비언어적 증거(예: 얼굴 표정)를 간과하는 경향이 있었다. 효과적인 상담을 위해서는 환자의 감정을 인식하고 이해하는 것이 필수적이지만, 기존의 LLM 기반 치료 시스템은 이를 반영하지 못해 실제 대면 치료와 큰 차이가 존재했다. 이에 따라, 시각-언어 모델 (VLM)을 활용한 멀티모달 접근 방식이 필요하며, 이를 통해 AI 기반 심리 치료 상담의 효과를 더욱 향상시킬 수 있다. [포스텍이 가진 고유의 기술] 본 연구는 Multimodal Cognitive Reframing Therapy를 다룬 초기 연구로, 기존의 텍스트 중심 상담 모델을 넘어 비언어적 요소를 반영하는 AI 심리 상담 시스템을 개발하였다. 이를 위해 Multi Modal-Cognitive Support Conversation (M2CoSC)이라는 새로운 멀티모달 데이터셋을 구축하였으며, 이는 심리 치료 대화와 환자의 얼굴 표정을 함께 제공한다. 또한, 본 연구에서는 Multi-hop Psychotherapeutic Reasoning 기법을 도입하여, AI가 환자의 얼굴 표정 및 대화를 단계적으로 분석하고 상담 과정에서 이를 효과적으로 활용할 수 있도록 하였다. 실험 결과, M2CoSC를 활용한 VLM이 기존 텍스트 기반 LLM보다 상담의 공감 능력이 뛰어남울 확인하였으며, 다단계 추론 기법과 함께 활용할 경우가 가장 우수한 성능을 보였다. [연구의 의미] 본 연구는 Multimodal Cognitive Reframing Therapy를 다룬 최초의 연구로서, 기존 심리 치료 AI 모델이 간과했던 비언어적 요소를 반영하는 새로운 접근 방식을 제시했다는 점에서 큰 의의를 갖는다. 특히, 얼굴 표정을 활용한 정서 분석과 다단계 추론 기법을 결합하여, AI가 보다 공감적이고 논리적인 상담을 제공할 수 있도록 하였다. 이러한 방법론은 AI 기반 심리 치료뿐만 아니라, 다양한 대화형 AI 시스템에서 비언어적 정보 이해 능력을 향상시키는 데 기여할 수 있을 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 NAACL 2025에서 발표될 예정이며 향후 표정 변화, 몸짓 등 다양한 멀티모달 정보를 통합하여 보다 현실적인 심리 치료 시나리오로 확장할 계획이다. [성과와 관련된 실적] Subin Kim*, Hoonrae Kim*, Heejin Do, Gary Geunbae Lee, NAACL 2025 (accepted) [성과와 관련된 이미지]
이근배 교수 2025.03.06 569 -
[이근배 교수] PicPersona-TOD: A Dataset for Personalizing Utterance Style in Task-Oriented Dialogue with Image Persona
[연구의 필요성] Task-Oriented Dialogue (TOD) 시스템은 사용자의 요청을 이해하고 적절한 정보를 제공하는 AI 기반 대화 시스템이다. 기존 TOD 시스템의 발화 스타일은 정보 전달의 정확성에 집중해 왔으나, 정보 전달만을 목적으로 하였기 때문에, 발화 스타일이 획일적이며 사용자와의 감성적 연결이 부족하다는 한계를 가진다. 특히, 기존의 텍스트 기반 TOD 모델들은 대화를 하고있는 개개인의 세부적인 특성을 실시간으로 반영하지 못해 자연스러운 맞춤형 응답을 제공하는 데 어려움이 있었다. 이를 해결하기 위해, 사용자 이미지를 활용한 새로운 방식의 페르소나 기반 TOD 시스템을 제안한다. [포스텍이 가진 고유의 기술] 본 연구에서는 vision language model (VLM) 을 활용하여 기존 TOD 시스템을 뛰어넘는 개인화된 대화 모델을 개발 하였다. 사용자 이미지를 통해 연령, 감정, 스타일 등의 비언어적 정보를 추출하는 과정과, 이를 LLM과 결합하여 대화의 자연스러움과 개인화를 강화하엿다. 또한 생성된 데이터셋을 의미와 정확도에 맞춘 필터링을 통해 품질을 높였다. 여기에 Google Maps 및 Wikipedia 등의 외부 지식을 연동하여, 단순한 개인화뿐만 아니라 정보의 신뢰성과 정확성을 동시에 확보할 수 있도록 설계하였다. 이를 통해, 보다 정교한 개인 맞춤형 응답을 제공하는 TOD 시스템을 구현하였다. [연구의 의미] 사용자 이미지를 활용하여 TOD 시스템의 발화 스타일을 개인화함으로써, 기존 모델의 획일적인 응답 방식과 감성적 연결 부족 문제를 해결하였고, 이를 통해 사용자 맞춤형 대화 경험을 제공하는 새로운 접근법을 제시한다. [연구결과의 진행 상태 및 향후 계획] 실험 결과, 기존 TOD 시스템 대비 개인화된 응답의 자연스러움과 사용자 만족도가 향상됨을 확인하였다. 추후에는 사용자 피드백을 반영한강화학습을 통해 해당 데이터를 사용하는 모델들의 의 성능을 지속적으로 개선 할 예정이다. [성과와 관련된 실적] NAACL 2025 학회 Accept(Jihyun Lee, Yejin Jeon, Seungyeon Seo, Gary Geunbae Lee) [성과와 관련된 이미지]
이근배 교수 2025.03.04 555 -
[이근배 교수] K-COMP: Retrieval-Augmented Medical Domain Question Answering With Knowledge-Injected Compressor
[연구의 필요성] 기존의 RAG 시스템은 폐쇄 도메인에서 전문 지식을 포함한 긴 문서를 검색하지만, LLM이 이를 신뢰하지 못하고 환각(hallucination) 문제를 일으킬 수 있다. 또한, 질문과 무관한 정보가 포함되어 모델이 중요한 내용을 인식하지 못할 가능성이 크다. 이를 해결하기 위해, 질문에 필요한 사전 지식을 생성하고 문서 압축 과정에서 반영하는 새로운 접근이 필요하다. [포스텍이 가진 고유의 기술] 본 연구는 LLM을 지식 기반 압축기 (knowledge-injected compressor) 로 활용하여, 검색된 문서에서 질문과의 관련성이 높은 정보를 선별 및 요약하고, 도메인 지식을 주입하는 방식으로 신뢰도를 향상시키는 방법을 제안한다. 이를 위해 폐쇄 도메인에 등장하는 엔티티가 마스킹된 질문을 decoder-only model이 인식하고, auto-regressive 방식으로 엔티티에 관련된 간단한 지식을 생성하여 쿼리에서의 의도를 인코딩한다. 이를 바탕으로, causal knowledge injection의 기법을 활용하여, 모델이 핵심 정보를 효과적으로 내재화하고 도메인 관련 지식을 풍부하게 포함하는 요약문을 생성하도록 유도한다. 이러한 지식 증강 과정을 통해 검색된 문서와 질문 간의 정렬성을 높이고, 최종적으로 답변의 정확성을 향상시키는 것을 목표로 한다. [연구의 의미] 본 연구는 폐쇄 도메인에서 검색된 문서를 효과적으로 활용할 수 있는 새로운 RAG 접근법을 제안하며, 의료 도메인 실험을 통해 연구의 성능 향상을 검증하였습니다. 또한, 데이터가 부족한 환경에서도 강건한 성능을 보이며, 법률·과학·금융 등 다양한 도메인에 적용할 가능성을 제시합니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제학술대회인 NAACL2025에 소개될 예정이다. 추후에는 의료 도메인 뿐만 아니라, 다른 closed-domain setting에서도 해당 방법론을 확장할 방법을 모색하려고 한다. [성과와 관련된 실적] Jeonghun Cho, Gary Geunbae Lee, NAACL 2025 [성과와 관련된 이미지]
이근배 교수 2025.03.04 561 -
[안희갑 교수] Minimum Convex Hull and Maximum Overlap of Two Convex Polytopes
[연구의 필요성] 형태 매칭 문제는 알고리즘 분야에서 근본적인 문제로, 이미지 처리, 컴퓨터 비전, 머신 러닝 등 다양한 컴퓨터 관련 분야에서 널리 활용된다. 두 물체의 유사성을 측정하는 방법으로는 두 물체의 볼록 헐 최소영역이나 두 물체의 겹침 최대영역을 계산하는 방식이 있다. 특히, 2차원에서 두 물체의 볼록 헐 최소영역을 구하는 알고리즘은 O(n log n) 시간 복잡도를 가지며, 2012년에 해당 알고리즘이 발표되었다. 이 이후로 개선된 알고리즘이 존재하지 않았고, 이 문제를 해결하는 최적의 알고리즘을 개발하는 것은 여전히 큰 난제이다. [포스텍이 가진 고유의 기술] 본 기술의 핵심 아이디어는 면적 함수 상에서 주어진 선과 최적의 점의 위치 관계를 효율적으로 구하는 알고리즘을 개발한 것이다. 이를 위해 먼저 면적 함수를 선으로 제한했을 때 최적의 점을 구하는 알고리즘을 활용하여 위치 관계를 구할 수 있음을 증명했다. 그리고 기존에 계산된 값을 바탕으로 두 물체의 볼록 헐 영역을 직접 구하지 않고, 선 위의 최적 점을 구하는 알고리즘을 개발했다. 이를 통해 두 물체의 꼭짓점 개수와 무관한 시간 복잡도를 갖는 알고리즘을 도출할 수 있었다. 마지막으로, 위의 방법과 cutting algorithm을 재귀적으로 적용하여 최적의 알고리즘을 완성했다. [연구의 의미] 본 연구는 알고리즘 분야에서 50년 이상 미해결된 난제를 해결한 중요한 연구이다. 이 기술은 고차원으로의 확장이 가능하며, 최대 겹침 문제에도 적용할 수 있어 다양한 문제에 응용이 가능하다. [연구결과의 진행 상태 및 향후 계획] 본 연구 결과로 2차원 볼록 헐 최소화 문제에 대한 최적 알고리즘을 제시했다. 또한, 고차원 및 다양한 문제들에 대해서도 기존 결과들의 시간 복잡도를 상당히 개선했다. 본 논문에 제시된 알고리즘을 통해, 강체 운동 조건 하에서의 문제를 해결하는 정확한 알고리즘을 개발할 수 있을 것으로 기대된다. [성과와 관련된 실적] Mook Kwon Jung, Seokyun Kang, Hee-Kap Ahn. Minimum Convex Hull and Maximum Overlap of Two Convex Polytopes. 36th ACM-SIAM Symposium on Discrete Algorithms (SODA 2025) [성과와 관련된 이미지]
안희갑 교수 2025.01.21 966