최신연구
-
[이근배 교수] Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation
[연구의 필요성] Ladder Diagram (LD)는 산업 현장에서 사용되는 컨트롤러인 Programmable Logic Controller (PLC)를 제어하는데 자주 활용되는 시각 기반 프로그래밍 언어(VPL)이다. LLM은 텍스트 기반 프로그래밍 언어 생성에는 뛰어난 성과를 보여왔지만, 시각 기반 프로그래밍 언어, 그 중에서도 특히 LD와 같이 다양한 도메인 특화 configuration이 존재하는 언어의 경우에는 생성하기 어려웠다. 이러한 프로그램은 산업 현장 자동화에 필수적이기에, LD와 같은 프로그램을 자동 생성할 수 있다면 산업 자동화를 크게 가속할 수 있게 된다. [포스텍이 가진 고유의 기술] 본 연구에서는 기존에 VPL을 생성하는데 자주 사용되었던 프롬프트 기반 방법론으로는 LD를 생성하는데 어려움이 있음을 먼저 밝혀냈다. 이에, 2-stage로 구성된 학습 기반 방법론을 제시하였다. 먼저, Retrieval-Augmented Fine-Tuning으로 LD program이 비슷한 맥락에서 프로그램의 일부를 재사용하는 경향이 있다는 점을 학습 과정에서 활용하여 성능을 크게 높일 수 있었다. 이어서, 생성 정확도를 더 높이기 위해 VPL을 그래프 형태로 취급해 원본 프로그램에서 손상을 가해 preference pair를 만들고 이를 이용하여 DPO를 수행하여 성능을 더욱 향상시켰다. [연구의 의미] 본 연구는 기존에 LLM으로 생성할 수 없었던 LD를 생성할 수 있게 해냈다는 것에서 의미를 가진다. 또한 본 연구에서 제시하는 방법론은 그래프 형태로 환원될 수 있는 VPL에 일반적으로 적용이 가능한 방법이기에 LD뿐만이 아닌 다른 VPL을 학습 기반으로 생성하는 경우에도 도움이 될 것이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제학술대회인 ACL 2025에 소개될 예정이다. 추후에는 해당 방법론을 다른 VPL에 적용하여 기술의 일반성을 검증하고자 한다. [성과와 관련된 실적] Deokhyung Kang*, Jeonghun Cho*, Yejin Jeon, Sunbin Jang, Minsub Lee, Jawoon Cho, Gary Geunbae Lee, Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation, ACL 2025 (*: Equal contribution) [성과와 관련된 이미지]
이근배 교수 2025.06.17 859 -
[이근배 교수] Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document De
[연구의 필요성] Retrieval Augmented Generation(RAG) 기술 사용시 공격자가 LLM의 비정상적 및 악의적 응답 생성을 위한 문서를 데이터베이스에 주입하여 사용자의 만족도 및 RAG 기술의 안전성 측면에서 위험성이 존재함. [포스텍이 가진 고유의 기술] 문서를 검색하는 과정에서 발생하는 Retriever의 gradient와 BERT와 같은 Masked Language Model(MLM)의 masked token 예측 능력을 활용해 악성 문서의 수상한 부분을 탐지하여 악성 문서를 필터링함. [연구의 의미] 사용자는 본 연구를 기존 RAG 시스템에 추가적인 장치 없이 간단하게 적용할 수 있으며, 다른 방어 기법들보다 낮은 연산 비용으로 악성 문서들을 효율적으로 필터링할 수 있음. 다양한 공격 기법에 대하여 90% 이상의 필터링 성능을 보였으며, 향후 방어기법에 적응하는 공격기법에 확장 예정. [연구결과의 진행 상태 및 향후 계획] 아예 말을 하지 못하는 사람을 대상으로, 얼굴 사진을 통해 목소리 정보를 예측하고, 예측된 목소리를 기반으로 음성을 생성하는 보조기술 연구를 진행하고자 합니다 [성과와 관련된 실적] Published to Findings of the Association for Computational Linguistics: ACL 2025 [성과와 관련된 이미지]
이근배 교수 2025.06.17 799 -
[최승문 교수] SkinHaptics: 자기 촉각 상호작용을 향상시키기 위한 피부 부드러움 인지 및 가상 신체 구현 기술 탐구
[연구의 필요성] 가상현실에서 사용자에게 촉각 피드백을 전달하기 위해서는 일반적으로 햅틱 장치를 손에 쥐거나 착용해야 한다. 자기 촉각(self-touch)은 사용자가 자신의 신체 일부를 다른 신체 부위로 만지는 행위에서 발생하는 촉각 극으로 외부 햅틱 장치 없이도 촉각 피드백을 전달할 수 있는 가능성을 지닌다. 기존의 자가 촉각 연구의 주요 쟁점은 사용자가 자신의 신체를 만지고 있다는 것을 인식함으로써 생기는 몰입 저하와 풍부한 촉각 피드백을 전달하기 어렵다는 점이다. 본 연구에서는 부드럽고 변형 가능한 객체에 촉각 피드백을 제공하기 위한 SkinHaptics를 제안하여 자가 촉각 상호작용에서 나타난 연구 간극을 메꾸고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 외부 장치 없이 사용자의 신체를 햅틱 자극의 매개로 활용하는 자기 촉각 개념을 확장하여, 피부의 부드러움 지각과 가상 신체 체화 기술을 결합한 새로운 햅틱 인터페이스인 SkinHaptics를 제안하였다. SkinHaptics는 기존의 자기 촉각 접근법들이 다루지 않았던 피부 부위의 물리적 특성과 지각 능력, 시각-촉각 표현 방식을 포괄적으로 탐구하였다. 우선, 사용자의 손의 다양한 부위와 제스처를 조합하여 피부의 부드러움을 정량적으로 측정하고, 사용자가 감지할 수 있는 부드러움 차이의 범위와 분해능을 도출하였다. 또한, 자가 촉각 연구에서 문제가 되는 사용자가 자신의 신체를 만지고 있다는 인식을 줄이기 위해, 가상현실에서 제시되는 가상 손-객체 시각 표현 방식을 조작하고, 이들의 체화감 및 햅틱 경험에 미치는 영향을 비교 분석하였다. 그 결과, 자기 손에 대한 체화감을 낮추는 표현 방식이 햅틱 경험 향상에 효과적임을 밝혔다. [연구의 의미] 본 연구는 사용자의 손을 햅틱 인터페이스로 활용하여, 외부 장치 없이도 가상 객체의 다양한 부드러움을 표현하라 수 있는 방법을 제시하였다. 또한, 시각적 표현을 다르게 하여 체화 수준을 조절함으로써 자기 촉각 경험을 향상시킬 수 있는 방법을 제안하였다. 이는 자기 촉각 상호작용을 위한 설계와 구현에 있어 새로운 방향을 제시한 것으로, 향후 자기 촉각을 사용한 햅틱 인터페이스 기술의 기반이 될 수 있다. [연구결과의 진행 상태 및 향후 계획] 후속 연구에서는 손을 넘어 다양한 신체 부위로의 적용 가능성을 탐색하고, 피부 온도와 같은 외부 환경 요인이 햅틱 지각에 미치는 영향을 제어함으로써, 더 일관되고 안정적인 피드백 품질을 확보하는 방안을 함께 모색할 계획이다. 또한 제스처 수행 정확도를 높이기 위한 가이드 기술과, 보다 넓은 부드러움 표현 범위를 확보하기 위한 웨어러블 요소의 통합도 고려 중이다. [성과와 관련된 실적] 국제 학술대회 논문: Jungeun Lee, Minha Jeon, Jinyoung Lee, Seungmoon Choi, and Seungjae Oh. SkinHaptics: Exploring Skin Softness Perception and Virtual Body Embodiment Techniques to Enhance Self-Haptic Interactions. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems. CHI ’25. ACM. [성과와 관련된 이미지] [그림 1] Head-mounted diplay를 착용한 사용자가 가상 현실 속 가상 물체를 누르고 있다. 부드러운 변형가능한 물체의 햅틱 효과를 제공하는 자기 햅틱 인터페이스 방법론인 SkinHaptics는 사용자가 자신의 손을 눌러 물체의 다양한 부드러움을 체험할 수 있도록 한다. [그림 2] SkinHaptics의 사용 시나리오.
최승문 교수 2025.06.13 908 -
[최승문 교수] 다감각 콘텐츠에서 목표 사용자 경험을 실현하는 햅틱 모션 효과 자동 조정
[연구의 필요성] 햅틱 모션 효과는 영상 속 시청각 정보와 정렬된 물리적 움직임 효과로, 다감각 콘텐츠의 몰입감을 높이는 핵심 요소이다. 효과 설계자는 영상 속 시각적 움직임을 참고하여 모션 효과 생성을 시작하고, 콘텐츠의 맥락이나 예술적 연출을 반영하기 위해 조정 단계를 거친다. 이 조정 단계는 바람직한 사용자 경험을 위해 필수적이지만, 모션이 여러 축으로 구성되어 설계 공간이 크기 때문에 조정에 따른 결과를 예측하기가 복잡하다. 이에 따라 모션 효과의 제작에는 반복적인 조정이 수반되며, 많은 시간과 비용이 소모된다. 이를 지원하기 위한 조정 자동화 연구가 필요하다. [포스텍이 가진 고유의 기술] 본 연구는 모션 효과를 통해 특정 지각적·정서적 느낌을 유도하는 자동 조정 방법을 제안하고 효과성을 검증하였다. 본 방법은 조정 대상인 모션 효과와 해당 효과를 통해 유도하고자 하는 느낌을 형용사 점수 형태로 입력 받아, 자동 조정 과정을 거쳐 목표 경험을 유도하는 수정된 모션 효과를 출력한다. 특히 설계자가 설정하는 목표 경험 값들은 모션과 영상을 같이 감상하는 상태에서 설정되게 되는데, 모션 조정 시에는 영상 효과를 제거하고 진행함으로써, 관객이 조정된 모션을 영상과 함께 감상하여도 목표 경험이 효과적으로 유도 가능하다. [연구의 의미] 본 연구는 효과 설계에서 예술적 판단에 해당하는 설계 의도가 최적의 사용자 경험에 필수적인 요소임에도 자동화가 어려운 영역임을 인지하고, 이러한 의도를 보다 쉽게 반영할 수 있는 형태로 모션 생성을 수행하였다. 기존 모션 생성 방식과는 달리, 모션의 파형 변화가 사용자 경험에 구체적으로 어떤 영향을 미치는지 투명하게 파악할 수 있다는 점에서 방법 제시 외에도 지각적인 인사이트를 줄 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 전체 세 개의 사용자 실험을 통해 모션 조정 기법을 설계, 검증, 보완하였다. 향후에는 다양한 사용자 집단 및 콘텐츠 유형에 대해 본 기술의 적용 가능성을 확장하고, 진동, 소리 등 다른 감각 자극과의 통합 조정 기법 개발로 나아갈 계획이다. 또한, 전문가 의견을 바탕으로 실무에 적용 가능한 저작 도구 개발도 검토 중이다. [성과와 관련된 실적] 국제 학회 논문: Lee, J., Jeong, D., Han, S. H., & Choi, S. (2025, April). Automatic Tuning of Haptic Motion Effects to Evoke Specific Feelings in Multisensory Content. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (pp. 1–19). https://doi.org/10.1145/3706598.3713908 [성과와 관련된 이미지] Figure 1 본 모션 자동 조정 방법의 티저 이미지. Figure 2 본 모션 자동 조정 방법의 결과. 입력 모션 파형(위)을 같이 입력 받은 다양한 목표 경험(점수 1 또는 점수 2)을 낼 수 있게 조정된 모션 효과 결과(중간, 아래)이다.
최승문 교수 2025.06.13 905 -
[최승문 교수] VR 게임을 위한 실시간 의미론적 소리-전신 햅틱 효과 전환 알고리즘 개발
[연구의 필요성] 햅틱스 기술은 미래 핵심 기술인 확장 현실(XR)에서의 경험 향상을 위해 필수적이라 평가받고 있다. 하지만 햅틱 효과 저작의 비용과 난이도 때문에 햅틱 콘텐츠의 생산은 XR 콘텐츠의 생산에 비해 그 속도가 매우 느린 편이다. 햅틱 효과의 자동 생성 알고리즘은 이를 획기적으로 해결해줄 수 있으며, 그 중에서도 소리-햅틱 전환 알고리즘은 효과성과 효율성 측면에서 인정받고 있다. 하지만 현재 많이 쓰이는 단순한 전환 알고리즘으로는 적절한 실시간 전신 햅틱 효과를 생성하기는 불가능하다. 이는 사건의 의미를 실시간으로 파악하고, 이에 적절한 햅틱 효과를 제공해야 하기 때문이다. 따라서 본 연구에서는 VR 게이머들을 위하여, 실시간 소리 의미 분석 및 전신 햅틱 효과 제공 시스템을 개발하고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 FPS 게임을 대상으로, 순차 학습(Sequential learning) 모델을 통하여 소리의 사건을 분류하였다. 이를 바탕으로 각 사건에 적합한 전신 햅틱 패턴을 생성하였으며, 관통 및 이동하는 느낌을 제공하기 위한 촉각적 착각(Tactile illusion) 방식도 포함된다. 일련의 과정은 실시간으로 동작하며, 이 시스템을 기존에 많이 쓰이는 소리 신호처리 방식과 비교하였다. 최종적으로 게임 경험(적절성, 만족도 등)이 향상됨을 확인하였으며, 이를 통해 실시간 의미론적 소리-전신 진동 전환 알고리즘이 어떤 식으로 사용자 경험을 변화시키는지 정량/정성적으로 분석하였다. [연구의 의미] 본 연구는 단순히 VR 게임 경험을 향상시킬 수 있는 시스템을 개발한 것을 넘어, 소리 기반의 전신 햅틱 효과를 전문가 없이도 자동 생성 가능함을 보였다. 이는 본 기술을 발전시켜 상용 제품에 활용하게 되었을 때, XR 게임, 교육, 엔터테인먼트, 메타버스 등에서 몰입감 높은 실감형 콘텐츠의 제작에 활용될 수 있으며, 콘텐츠 개발의 진입장벽을 낮출 수 있음을 의미한다. 또한, 현재 기초적인 단계에서 상용화된 햅틱스 기술의 대중화에 기여할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 해당 가능성을 보이고 일부 사례에 적용해 본 초기 연구로, 소리 의미 감지기의 성능 향상, 햅틱 효과 품질의 향상, 콘텐츠의 확장 등 다양한 측면에서 개선할 점이 존재한다. 특히, 소리 의미 감지기가 분류할 수 있는 소리의 종류를 다양화시키고 그 성능을 개선한다면 이는 단순 전신 햅틱 효과의 생성 뿐 아니라 많은 햅틱 어플리케이션에서 활용 가능하다. 또한, 현재 햅틱 패턴 디자인이 필요한 부분도 모두 전자동화 할 수 있는 연구를 수행할 수 있다. [성과와 관련된 실적] 국제 학술대회 논문: Gyeore Yun and Seungmoon Choi. 2025. Real-time Semantic Full-Body Haptic Feedback Converted from Sound for Virtual Reality Gameplay. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). [성과와 관련된 이미지] [그림 1] FPS 게임의 실시간으로 소리를 분석, 적절한 전신 햅틱 효과를 제공하는 시스템의 개요 [그림 2] 기존의 소리 신호처리 방식(NS-ALL)과 비교하여 사용자 경험 측면에서 전반적으로 우수한 성능을 보이는 본 연구의 시스템(S-CORR)
최승문 교수 2025.06.13 796 -
[이근배/옥정슬 교수] DeRAGEC: Denoising Named Entity Candidates with Synthetic Rationale for ASR Error Correction
[연구의 필요성] ASR(Automatic Speech Recognition) 시스템은 대규모 언어 모델을 활용한 Generative Error Correction (GEC) 방식으로 오류를 보정할 수 있지만, 초기 가설(hypotheses)에 없는 고유명사(Named Entities, NEs) 를 효과적으로 보정하기 어렵습니다. 특히 ASR 결과에 존재하지 않거나 빈도가 낮은 고유명사들은 LLM의 편향으로 인해 잘 복구되지 않는 한계가 있었습니다. 이 문제를 해결하기 위해 외부 데이터베이스에서 NE 후보를 검색하는 RAGEC(Retrieval-Augmented GEC) 방식이 제안되었지만, 이 방식은 검색된 NE 후보군에 노이즈(irrelevant NEs)가 섞여 있어 여전히 보정 성능을 저해합니다. 따라서, 검색된 NE 후보군의 명확한 노이즈 제거가 필요하다는 문제가 본 연구의 출발점입니다. [포스텍이 가진 고유의 기술] DeRAGEC 프레임워크: 기존 RAGEC 방식에 명확한 NE 후보군 노이즈 제거를 위한 기법을 도입했습니다. 특히, 다음과 같은 기술들이 특징적입니다. - Phonetic & Semantic Enrichment: 각 NE 후보에 대해 음성 유사도 점수와 위키피디아 정의를 결합. - Synthetic Rationale Generation: NE 후보의 관련성을 설명하는 합성된 논리(rationale) 를 생성. - Training-free Denoising Gate: 별도의 학습 과정 없이, 위에서 생성된 rationale을 사용해 불필요한 NE 후보를 제거. 이러한 기술들은 phonetic query, 합성된 rationale을 활용하여 기존 RAGEC의 한계를 극복하는 고유한 접근법입니다. [연구의 의미] - ASR 성능 개선: 초기 ASR 가설에서 놓친 고유명사를 더 정확히 복구하여, 고유명사 인식률(NE hit ratio)과 전체 오류율(WER)을 동시에 개선. - 훈련 없는 방법론: 기존 접근방식들은 모델을 새롭게 학습해야 했으나, 본 연구의 DeRAGEC는 추가 훈련 없이 in-context learning만으로 고유명사 노이즈를 제거. - 합성된 논리의 활용: 자동화된 synthetic rationale 생성으로, 투명하고 일관성 있는 NE 후보군 필터링 가능. [연구결과의 진행 상태 및 향후 계획] 1) 진행 상태: - CommonVoice와 STOP 데이터셋에서 실험을 수행. - DeRAGEC는 기존 ASR만 사용한 경우 대비 28%의 상대적 WER 감소 달성. - RAGEC 및 ORACLE 방식과 비교해도 가장 우수한 NE 보정 성능을 보임. - 연구 결과와 소스코드를 공개: github.com/solee0022/deragec 2) 향후 계획: - 합성된 논리의 학습적 활용: 현재는 추가 학습 없이 reasoning에 활용하지만, 향후 이 rationale을 모델 훈련에 접목하여 성능을 더 끌어올리는 연구 예정. - 다양한 ASR/후처리 모델 적용성 확인: DeRAGEC의 일반화 가능성을 다양한 ASR 및 후처리 모델에서 검증. - 대체적인 denoising 접근법 탐색: 다른 노이즈 제거 방식(예: thresholding, 통계 기반 filtering 등)과 비교/보완 연구 계획. [성과와 관련된 실적] Solee Im*, Wonjun Lee*, Jinmyeong An, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee Annual Meeting of the Association for Computational Linguistics (ACL) 2025 Findings, Accepted [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.06.13 1897 -
[이근배 교수] Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning
[연구의 필요성] 구음장애(Dysarthria)는 뇌졸중, 파킨슨병, 뇌성마비 등 다양한 신경근육계 질환으로 인해 발음이 부정확하고 발화가 어눌해지는 증상입니다. 이는 원활한 언어 소통을 어렵게 만들며, 환자의 자존감 저하, 사회적 고립, 삶의 질 저하로 이어질 수 있습니다. 이러한 환자들이 자신의 목소리로 명료한 음성을 합성할 수 있는 기술을 갖게 된다면, 의사소통의 자율성과 삶의 질을 크게 향상시킬 수 있습니다. 그러나 실제 구음장애 화자가 제공할 수 있는 음성은 짧고 발음이 불분명한 경우가 많아, 기존 다화자 음성 합성 기술을 그대로 적용하기에는 한계가 있습니다. 따라서 이러한 제한된 조건에서도 화자의 고유한 음색 정보를 효과적으로 추출하고, 이를 바탕으로 명료한 음성을 생성할 수 있는 기술 개발이 중요합니다. [포스텍이 가진 고유의 기술] 본 연구에서는 구음장애 화자를 위한 개인 맞춤형 음성 합성을 위해 zero-shot 다화자 TTS 모델을 제안합니다. 기존 단일 인코더 방식과 달리, 이중 화자 인코더 기반의 knowledge anchoring 프레임워크를 도입하여 student 모델의 representation이 teacher 모델의 representation과 같아지도록 학습하였습니다. 동시에 student 모델에는 점진적으로 짧아지는 음성을 입력하는 커리큘럼 학습을 적용하였습니다. 이를 통해 발음이 어눌하고 짧은 음성에서도 화자의 고유 음색을 효과적으로 추출하고, 자연스러운 음성을 성공적으로 합성할 수 있었습니다. [연구의 의미] 본 연구는 발음이 비교적 불분명한 구음장애 화자에게서도 고유한 음성 특성을 효과적으로 추출하여, 이를 기반으로 개인 맞춤형 음성 보조 기술 개발이 가능함을 보여줍니다. [연구결과의 진행 상태 및 향후 계획] 아예 말을 하지 못하는 사람을 대상으로, 얼굴 사진을 통해 목소리 정보를 예측하고, 예측된 목소리를 기반으로 음성을 생성하는 보조기술 연구를 진행하고자 합니다. [성과와 관련된 실적] Yejin Jeon, Solee Im, Youngjae Kim, Gary Geunbae Lee / Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning/ Interspeech 2025 Acceptance [성과와 관련된 이미지]
이근배 교수 2025.06.13 816 -
[이근배 교수] EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic Maintenance
[연구의 필요성] 경량화된 대형 언어 모델(sLLMs)은 자원이 제한된 환경에서 활용도가 높지만, 업무 지향(task-oriented) 대화 시스템에서는 주제 일관성(topic consistency)을 유지하는 데 어려움을 겪는다. 이는 특히 서비스 챗봇과 같은 실사용 시나리오에서 중요하며, 잘못된 정보 전달, 사용자 신뢰도 저하, 보안 문제 등을 야기할 수 있다. 기존의 파인튜닝이나 프롬프트 엔지니어링 방식은 자원 비용이 크거나 복잡한 상황에서 효과가 제한적이다. 따라서, 별도의 학습 없이 주제 일관성을 유지할 수 있는 경량의 정렬 기법이 요구된다. [포스텍이 가진 고유의 기술] 입력이 on-topic인지 off-topic인지에 따라 언어 모델 내부의 레이어별 생성 엔트로피가 다르게 나타나는 점에 착안하여, 이를 이용한 엔트로피 기반 스티어링 강도 조절 기법을 개발하였다. 스티어링 벡터(Steering Vector)는 기존처럼 고정 강도로 적용하는 대신, 입력의 엔트로피 값을 기준으로 동적으로 조정되어, off-topic 입력에는 강하게, on-topic 입력에는 약하게 작용한다. 이를 통해 주제 일관성은 강화하면서도 자연스러운 응답 품질을 유지할 수 있다. 이 방식은 모델 파라미터를 변경하지 않고도 적용 가능하며, 별도의 학습 없이 실시간 제어가 가능한 경량 정렬 기술이라는 점에서 기존 방법과 차별된다. [연구의 의미] 본 연구는 경량 LLM 기반 대화 시스템의 핵심 문제였던 주제 유지 능력 부족 문제를 해결하기 위해, 모델 학습 없이도 시나리오 일관성을 유지할 수 있는 EnSToM(Entropy-scaled Steering vectors for Topic Maintenance)을 제안하였다. EnSToM은 입력의 엔트로피 분포를 분석해 상황에 따라 스티어링 벡터의 적용 강도를 조절하며, 이로써 잘못된 거부나 과도한 제약 없이 유연하고 정밀한 응답이 가능해진다. 실험 결과, 기존 방법 대비 주제 일탈 질문 거부 정확도가 최대 52.9% 향상되었고, 전반적인 정확도 역시 큰 폭으로 개선되었다. 이는 경량 모델에서도 고성능의 안전하고 신뢰할 수 있는 대화 시스템 구축 가능성을 입증하는 중요한 성과다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ACL 2025에 채택되어 발표될 예정이며, 현재 Minstral-8B 모델과 같은 타 모델로의 확장 가능성도 검증 완료되었다. 향후 연구진은 다양한 도메인 및 멀티태스크 확장을 통해 EnSToM의 범용성을 강화하고, 계수 선택 자동화 및 학습 기반 최적화 기법 추가 등으로 실사용 환경에서의 적용성을 한층 높일 계획이다. [성과와 관련된 실적] Heejae Suh, Yejin Jeon, Deokhyung Kang, Taehee Park, Yejin Min, Gary Geunbae Lee,EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic Maintenance, Annual Meeting of the Association for Computational Linguistics (ACL) 2025 Findings, Accepted [성과와 관련된 이미지]
이근배 교수 2025.06.13 1693 -
[한욱신 교수] HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval
[연구의 필요성] 개방형 도메인에서 테이블과 텍스트를 활용한 질의응답 시스템은 효과적인 정보 검색과 복잡한 추론 능력을 요구한다. 그러나 기존 연구들은 크게 두 가지 접근법을 취하고 있다. 하나는 질의 전에 테이블과 텍스트를 사전에 결합하는 '초기 융합(Early Fusion)'으로, 이는 종종 질의와 무관한 내용을 포함하거나 질의 의존적인 관계를 놓치게 된다. 다른 하나는 질의가 주어진 후 동적으로 테이블과 텍스트 간 연결을 형성하는 '후기 융합(Late Fusion)'으로, 다수의 가능한 테이블-텍스트 조합을 고려하는 과정에서 오류가 누적될 가능성이 존재한다. 또한 두 접근법 모두 다중 단계(multi-hop) 추론과 집계(aggregation) 질의에 대한 추론이 미흡한 공통된 한계를 가지고 있다. 따라서 기존 접근법들의 한계를 극복하고 보다 정확하고 정교한 정보 검색 및 추론을 가능하게 하는 혁신적 접근법이 필요하다. [포스텍이 가진 고유의 기술] 본 연구진은 검색 문제를 테이블 조각과 문단 간의 초기 융합(early fusion)을 통해 구축된 이분 데이터 그래프(bipartite data graph) 상에서, 질문과 관련된 부분 그래프(subgraph)를 효과적으로 탐색하는 문제로 재정의하였다. 이를 위해 단계별 세분화 전략을 적용한 세 단계의 검색 파이프라인 HELIOS를 제안하였다. 첫 번째 단계에서는 엣지 단위(edge-level)의 다중 벡터 검색기(multi-vector retriever)를 활용하여 고정밀 후보 서브그래프를 추출하고, 두 번째 단계에서는 질의와 정합성이 높은 노드를 식별한 후 선택적으로 확장하여 초기 융합에서 누락되었던 질의 의존적 연결을 복원한다. 마지막 단계에서는 확장된 그래프를 중심 노드 기반의 별 모양 부분 그래프(star-shaped subgraph)들로 분해하고, 대형 언어 모델이 집계 및 다중 단계 추론을 수행함으로써, 관련 정보를 포함한 문서나 테이블만을 선택하여 최종 출력으로 제공한다. [연구의 의미] 본 연구는 기존 테이블-텍스트 기반 질의응답 시스템이 안고 있던 비정밀한 검색과 단편적인 추론이라는 두 가지 핵심 한계를 동시에 해결하고자, 검색 과정을 그래프 기반 문제로 재정의하고, 단계별 세분화 전략을 갖춘 새로운 프레임워크 HELIOS를 제안하였다는 점에서 큰 의의를 가진다. HELIOS는 테이블과 문단 간 초기 융합으로 구축된 이분 그래프에서 질의와 관련된 정보를 정밀하게 탐색하고, 대형 언어 모델을 통한 집계 및 다중 단계 추론을 결합함으로써 복잡한 질의에도 정확하게 응답할 수 있도록 설계되었다. OTT-QA 벤치마크 실험 결과, HELIOS는 기존 최고 성능 모델 대비 최대 42.6%의 답변 회수율(recall) 향상과 39.9%의 nDCG 개선을 달성하였다. 이는 단순한 검색 정확도를 넘어, 하위 질의응답 시스템 전체의 성능을 실질적으로 향상시킨 결과로, 향후 개방형 질의응답 시스템의 성능 개선에 핵심적인 기술적 기반이 될 것으로 기대된다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제 학술 대회인 ACL 2025 메인 컨퍼런스에 채택되어 발표 및 출판될 예정이다. 앞으로 연구진은 테이블과 텍스트뿐 아니라 이미지 등 다양한 멀티모달 데이터로 확장하여 보다 광범위한 분야에 적용 가능한 범용적 검색 시스템으로 발전시킬 계획이다. 또한, LLM의 환각(hallucination)을 줄이기 위해 자기 평가(self-evaluation) 기술을 도입하는 등의 추가 연구를 진행 중이다. [성과와 관련된 실적] Sungho Park, Joohyung Yun, Jongwuk Lee, Wook-Shin Han. "HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval", ACL 2025 Main Conference. [성과와 관련된 이미지] 그림 1. 기존 방법들이 질의 관련 문서를 정확히 검색하지 못하는 세 가지 사례를 보여주는 예시그림 2. HELIOS 프레임워크의 전반적인 동작 과정그림 3. HELIOS의 질의 기반 노드 확장 과정 예시
한욱신 교수 2025.06.04 1074



