최신연구
-
[김형훈 교수] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
[연구의 필요성] 대화 시스템의 발전으로 챗봇은 인간과 유사한 방식으로 상호작용할 수 있을 만큼 정교하게 발전해 왔다. 최근에는 텍스트뿐만 아니라 이미지와 오디오 등 다양한 모달리티를 포함한 멀티모달 기능이 챗봇에 통합되면서, 보다 풍부한 대화가 가능해지고 있다. 그러나 지금까지의 멀티모달 챗봇 연구는 대부분 이미지 중심으로, 주어진 이미지에 대한 질문이나 지시에 단순히 응답하는 수준에 머물러 있다. 또한, 인간의 '눈'에 해당하는 시각 정보는 활용되고 있지만, '귀'에 해당하는 청각 정보를 이해하고 대화에 통합하려는 시도는 부족하다. 특히 이미지와 오디오를 결합한 통합적 접근은 아직 연구가 거의 이루어지지 않았으며, 멀티세션이나 멀티파티와 같은 복잡하고 동적인 현실 세계와 유사한 대화 시나리오에 멀티모달 기능을 접목한 연구도 부족하다. [포스텍이 가진 고유의 기술] 본 연구에서는 멀티모달, 멀티세션, 멀티파티가 최초로 통합된 대화 데이터셋인 M³C를 제안한다. M³C는 하나의 대화 에피소드가 세 개의 연속된 세션으로 구성되어 있으며, 총 4명의 화자가 등장한다. 각 세션에는 고정된 메인 화자와 함께 나머지 3명 중 2명의 화자가 참여해, 총 3명이 대화를 나눈다. 대화는 동일한 공간적, 시간적 맥락에서 이루어지며, 화자들은 주어진 이미지와 오디오를 실시간으로 보고 듣는 듯한 몰입감 속에서 상호작용한다. 또한 연구진은 M³C 데이터셋을 기반으로 학습된 모델도 함께 제안하였다. 제안한 모델은 연속된 세션 간의 대화 내용을 멀티모달 메모리로 구성하고, 현재 진행 중인 세션에서 필요한 메모리를 이미지, 오디오, 텍스트 등 모달리티에 관계없이 동일한 임베딩 공간 내에서 검색할 수 있다는 장점을 갖는다. [연구의 의미] 기존의 멀티모달 대화 데이터셋과 모델은 이미지 중심적이며, 멀티세션이나 멀티파티와 같은 동적인 시나리오를 통합한 사례가 부족하였다. 본 연구는 멀티모달, 멀티세션, 멀티파티를 최초로 통합한 데이터셋과 모델을 제안하였다는 점에서 큰 의의가 있다. 특히 기존 연구들이 멀티모달 요소에 대해 단순히 질문에 응답하거나 묘사하는 방식에 그쳤던 것과 달리, 본 연구에서는 실제로 화자들이 이미지와 오디오를 보고 듣는 듯한 맥락에서 자연스럽게 대화에 반영할 수 있도록 하여 멀티모달 대화의 수준을 강화하였다. 또한, 제안된 모델은 이전 세션의 메모리를 검색할 때 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리하고 검색할 수 있어, 기존 방식보다 더 유연하고 효과적인 검색이 가능하다는 점에서도 의의가 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 최우수 학회인 ACL 2025 Main에 수락되어 발표될 예정이다. 향후 연구진들은 인간의 대화 환경에 보다 유사하고 복잡한 상황에서도 자연스럽게 상호작용할 수 있는 강인한 멀티모달 챗봇을 연구하고, 이를 임바디드와 같은 가상환경에도 확장, 적용할 계획이다. [성과와 관련된 실적] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions Jihyoung Jang*, Minwook Bae*, Minji Kim, Dilek Hakkani-Tur, and Hyounghun Kim. Proceedings of ACL 2025. [성과와 관련된 이미지] Figure 1. Example of M³C Figure 2. Overall architecture of our model
김형훈 교수 2025.06.17 107 -
[이근배 교수] Multi-Facet Blending for Faceted Query-by-Example Retrieval
[연구의 필요성] Query-by-Example (QBE)는 주어진 문서(query document)와 유사한 문서를 찾는 작업입니다. 그러나 하나의 문서는 보통 여러 facet (e.g. scientific paper의 경우 background, method, result)을 포함하고 있기 때문에, 어떤 관점에서 유사성을 판단해야 하는지 모호한 경우가 많습니다. 기존의 QBE 접근 방식은 주로 citation 정보에 기반해 학습되므로, scientific paper domain에 한정되며, 미리 정해진 facet에 대해서만 유사 문서를 검색할 수 있다는 한계가 있습니다. 이에 우리는 도메인에 구애받지 않고, 사용자가 정의한 facet 중심의 유사 문서를 효과적으로 검색할 수 있는 새로운 QBE 방법을 제안합니다. [포스텍이 가진 고유의 기술] 이를 위해 우리는 여러 facet을 조합하여 데이터를 증강하는 FaBle (Multi-Facet Blending) 기법을 제안합니다. 먼저, LLM을활용해 각 facet에 대해 유사한(similar) 및 비유사한(dissimilar) facet 쌍을 생성하고, 이를 조합하여 facet별 positive/negative 문서 쌍을 구성합니다. 이러한 triplet 데이터를 기반으로 triplet loss를 적용해, 특정 facet에 집중한 유사 문서 검색이 가능하도록 모델을 학습합니다. 또한, 제안하는 방법의 도메인 일반화 가능성과 robustness를 입증하고, 향후 faceted QBE의 확장성을 탐색하기 위해 교육 아이템 도메인에서의 테스트셋 FEIR(Faceted Educational Exam Item Retrieval)을 새롭게 구축했습니다. [연구의 의미] 본 연구는 도메인에 구애받지 않고, 사용자 정의 facet에 따라 보다 세분화된 문서 검색이 가능하도록 하는 augmentation 기법을 제안합니다. 또한, 기존에 scientific paper domain에 국한되었던 faceted QBE를 넘어, 교육 도메인에 특화된 새로운 테스트셋 FEIR을 함께 제안합니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 ACL 2025에서 발표될 예정 [성과와 관련된 실적] Heejin Do*, Sangwon Ryu*, Jonghwi Kim, Gary Geunbae Lee, “Multi-Facet Blending for Faceted Query-by-Example Retrieval”, ACL 2025 [성과와 관련된 이미지]
이근배 교수 2025.06.17 76 -
[이근배 교수] Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation
[연구의 필요성] Ladder Diagram (LD)는 산업 현장에서 사용되는 컨트롤러인 Programmable Logic Controller (PLC)를 제어하는데 자주 활용되는 시각 기반 프로그래밍 언어(VPL)이다. LLM은 텍스트 기반 프로그래밍 언어 생성에는 뛰어난 성과를 보여왔지만, 시각 기반 프로그래밍 언어, 그 중에서도 특히 LD와 같이 다양한 도메인 특화 configuration이 존재하는 언어의 경우에는 생성하기 어려웠다. 이러한 프로그램은 산업 현장 자동화에 필수적이기에, LD와 같은 프로그램을 자동 생성할 수 있다면 산업 자동화를 크게 가속할 수 있게 된다. [포스텍이 가진 고유의 기술] 본 연구에서는 기존에 VPL을 생성하는데 자주 사용되었던 프롬프트 기반 방법론으로는 LD를 생성하는데 어려움이 있음을 먼저 밝혀냈다. 이에, 2-stage로 구성된 학습 기반 방법론을 제시하였다. 먼저, Retrieval-Augmented Fine-Tuning으로 LD program이 비슷한 맥락에서 프로그램의 일부를 재사용하는 경향이 있다는 점을 학습 과정에서 활용하여 성능을 크게 높일 수 있었다. 이어서, 생성 정확도를 더 높이기 위해 VPL을 그래프 형태로 취급해 원본 프로그램에서 손상을 가해 preference pair를 만들고 이를 이용하여 DPO를 수행하여 성능을 더욱 향상시켰다. [연구의 의미] 본 연구는 기존에 LLM으로 생성할 수 없었던 LD를 생성할 수 있게 해냈다는 것에서 의미를 가진다. 또한 본 연구에서 제시하는 방법론은 그래프 형태로 환원될 수 있는 VPL에 일반적으로 적용이 가능한 방법이기에 LD뿐만이 아닌 다른 VPL을 학습 기반으로 생성하는 경우에도 도움이 될 것이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제학술대회인 ACL 2025에 소개될 예정이다. 추후에는 해당 방법론을 다른 VPL에 적용하여 기술의 일반성을 검증하고자 한다. [성과와 관련된 실적] Deokhyung Kang*, Jeonghun Cho*, Yejin Jeon, Sunbin Jang, Minsub Lee, Jawoon Cho, Gary Geunbae Lee, Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation, ACL 2025 (*: Equal contribution) [성과와 관련된 이미지]
이근배 교수 2025.06.17 79 -
[이근배 교수] Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document De
[연구의 필요성] Retrieval Augmented Generation(RAG) 기술 사용시 공격자가 LLM의 비정상적 및 악의적 응답 생성을 위한 문서를 데이터베이스에 주입하여 사용자의 만족도 및 RAG 기술의 안전성 측면에서 위험성이 존재함. [포스텍이 가진 고유의 기술] 문서를 검색하는 과정에서 발생하는 Retriever의 gradient와 BERT와 같은 Masked Language Model(MLM)의 masked token 예측 능력을 활용해 악성 문서의 수상한 부분을 탐지하여 악성 문서를 필터링함. [연구의 의미] 사용자는 본 연구를 기존 RAG 시스템에 추가적인 장치 없이 간단하게 적용할 수 있으며, 다른 방어 기법들보다 낮은 연산 비용으로 악성 문서들을 효율적으로 필터링할 수 있음. 다양한 공격 기법에 대하여 90% 이상의 필터링 성능을 보였으며, 향후 방어기법에 적응하는 공격기법에 확장 예정. [연구결과의 진행 상태 및 향후 계획] 아예 말을 하지 못하는 사람을 대상으로, 얼굴 사진을 통해 목소리 정보를 예측하고, 예측된 목소리를 기반으로 음성을 생성하는 보조기술 연구를 진행하고자 합니다 [성과와 관련된 실적] Published to Findings of the Association for Computational Linguistics: ACL 2025 [성과와 관련된 이미지]
이근배 교수 2025.06.17 74 -
[최승문 교수] SkinHaptics: 자기 촉각 상호작용을 향상시키기 위한 피부 부드러움 인지 및 가상 신체 구현 기술 탐구
[연구의 필요성] 가상현실에서 사용자에게 촉각 피드백을 전달하기 위해서는 일반적으로 햅틱 장치를 손에 쥐거나 착용해야 한다. 자기 촉각(self-touch)은 사용자가 자신의 신체 일부를 다른 신체 부위로 만지는 행위에서 발생하는 촉각 극으로 외부 햅틱 장치 없이도 촉각 피드백을 전달할 수 있는 가능성을 지닌다. 기존의 자가 촉각 연구의 주요 쟁점은 사용자가 자신의 신체를 만지고 있다는 것을 인식함으로써 생기는 몰입 저하와 풍부한 촉각 피드백을 전달하기 어렵다는 점이다. 본 연구에서는 부드럽고 변형 가능한 객체에 촉각 피드백을 제공하기 위한 SkinHaptics를 제안하여 자가 촉각 상호작용에서 나타난 연구 간극을 메꾸고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 외부 장치 없이 사용자의 신체를 햅틱 자극의 매개로 활용하는 자기 촉각 개념을 확장하여, 피부의 부드러움 지각과 가상 신체 체화 기술을 결합한 새로운 햅틱 인터페이스인 SkinHaptics를 제안하였다. SkinHaptics는 기존의 자기 촉각 접근법들이 다루지 않았던 피부 부위의 물리적 특성과 지각 능력, 시각-촉각 표현 방식을 포괄적으로 탐구하였다. 우선, 사용자의 손의 다양한 부위와 제스처를 조합하여 피부의 부드러움을 정량적으로 측정하고, 사용자가 감지할 수 있는 부드러움 차이의 범위와 분해능을 도출하였다. 또한, 자가 촉각 연구에서 문제가 되는 사용자가 자신의 신체를 만지고 있다는 인식을 줄이기 위해, 가상현실에서 제시되는 가상 손-객체 시각 표현 방식을 조작하고, 이들의 체화감 및 햅틱 경험에 미치는 영향을 비교 분석하였다. 그 결과, 자기 손에 대한 체화감을 낮추는 표현 방식이 햅틱 경험 향상에 효과적임을 밝혔다. [연구의 의미] 본 연구는 사용자의 손을 햅틱 인터페이스로 활용하여, 외부 장치 없이도 가상 객체의 다양한 부드러움을 표현하라 수 있는 방법을 제시하였다. 또한, 시각적 표현을 다르게 하여 체화 수준을 조절함으로써 자기 촉각 경험을 향상시킬 수 있는 방법을 제안하였다. 이는 자기 촉각 상호작용을 위한 설계와 구현에 있어 새로운 방향을 제시한 것으로, 향후 자기 촉각을 사용한 햅틱 인터페이스 기술의 기반이 될 수 있다. [연구결과의 진행 상태 및 향후 계획] 후속 연구에서는 손을 넘어 다양한 신체 부위로의 적용 가능성을 탐색하고, 피부 온도와 같은 외부 환경 요인이 햅틱 지각에 미치는 영향을 제어함으로써, 더 일관되고 안정적인 피드백 품질을 확보하는 방안을 함께 모색할 계획이다. 또한 제스처 수행 정확도를 높이기 위한 가이드 기술과, 보다 넓은 부드러움 표현 범위를 확보하기 위한 웨어러블 요소의 통합도 고려 중이다. [성과와 관련된 실적] 국제 학술대회 논문: Jungeun Lee, Minha Jeon, Jinyoung Lee, Seungmoon Choi, and Seungjae Oh. SkinHaptics: Exploring Skin Softness Perception and Virtual Body Embodiment Techniques to Enhance Self-Haptic Interactions. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems. CHI ’25. ACM. [성과와 관련된 이미지] [그림 1] Head-mounted diplay를 착용한 사용자가 가상 현실 속 가상 물체를 누르고 있다. 부드러운 변형가능한 물체의 햅틱 효과를 제공하는 자기 햅틱 인터페이스 방법론인 SkinHaptics는 사용자가 자신의 손을 눌러 물체의 다양한 부드러움을 체험할 수 있도록 한다. [그림 2] SkinHaptics의 사용 시나리오.
최승문 교수 2025.06.13 121 -
[최승문 교수] 다감각 콘텐츠에서 목표 사용자 경험을 실현하는 햅틱 모션 효과 자동 조정
[연구의 필요성] 햅틱 모션 효과는 영상 속 시청각 정보와 정렬된 물리적 움직임 효과로, 다감각 콘텐츠의 몰입감을 높이는 핵심 요소이다. 효과 설계자는 영상 속 시각적 움직임을 참고하여 모션 효과 생성을 시작하고, 콘텐츠의 맥락이나 예술적 연출을 반영하기 위해 조정 단계를 거친다. 이 조정 단계는 바람직한 사용자 경험을 위해 필수적이지만, 모션이 여러 축으로 구성되어 설계 공간이 크기 때문에 조정에 따른 결과를 예측하기가 복잡하다. 이에 따라 모션 효과의 제작에는 반복적인 조정이 수반되며, 많은 시간과 비용이 소모된다. 이를 지원하기 위한 조정 자동화 연구가 필요하다. [포스텍이 가진 고유의 기술] 본 연구는 모션 효과를 통해 특정 지각적·정서적 느낌을 유도하는 자동 조정 방법을 제안하고 효과성을 검증하였다. 본 방법은 조정 대상인 모션 효과와 해당 효과를 통해 유도하고자 하는 느낌을 형용사 점수 형태로 입력 받아, 자동 조정 과정을 거쳐 목표 경험을 유도하는 수정된 모션 효과를 출력한다. 특히 설계자가 설정하는 목표 경험 값들은 모션과 영상을 같이 감상하는 상태에서 설정되게 되는데, 모션 조정 시에는 영상 효과를 제거하고 진행함으로써, 관객이 조정된 모션을 영상과 함께 감상하여도 목표 경험이 효과적으로 유도 가능하다. [연구의 의미] 본 연구는 효과 설계에서 예술적 판단에 해당하는 설계 의도가 최적의 사용자 경험에 필수적인 요소임에도 자동화가 어려운 영역임을 인지하고, 이러한 의도를 보다 쉽게 반영할 수 있는 형태로 모션 생성을 수행하였다. 기존 모션 생성 방식과는 달리, 모션의 파형 변화가 사용자 경험에 구체적으로 어떤 영향을 미치는지 투명하게 파악할 수 있다는 점에서 방법 제시 외에도 지각적인 인사이트를 줄 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 전체 세 개의 사용자 실험을 통해 모션 조정 기법을 설계, 검증, 보완하였다. 향후에는 다양한 사용자 집단 및 콘텐츠 유형에 대해 본 기술의 적용 가능성을 확장하고, 진동, 소리 등 다른 감각 자극과의 통합 조정 기법 개발로 나아갈 계획이다. 또한, 전문가 의견을 바탕으로 실무에 적용 가능한 저작 도구 개발도 검토 중이다. [성과와 관련된 실적] 국제 학회 논문: Lee, J., Jeong, D., Han, S. H., & Choi, S. (2025, April). Automatic Tuning of Haptic Motion Effects to Evoke Specific Feelings in Multisensory Content. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (pp. 1–19). https://doi.org/10.1145/3706598.3713908 [성과와 관련된 이미지] Figure 1 본 모션 자동 조정 방법의 티저 이미지. Figure 2 본 모션 자동 조정 방법의 결과. 입력 모션 파형(위)을 같이 입력 받은 다양한 목표 경험(점수 1 또는 점수 2)을 낼 수 있게 조정된 모션 효과 결과(중간, 아래)이다.
최승문 교수 2025.06.13 113 -
[최승문 교수] VR 게임을 위한 실시간 의미론적 소리-전신 햅틱 효과 전환 알고리즘 개발
[연구의 필요성] 햅틱스 기술은 미래 핵심 기술인 확장 현실(XR)에서의 경험 향상을 위해 필수적이라 평가받고 있다. 하지만 햅틱 효과 저작의 비용과 난이도 때문에 햅틱 콘텐츠의 생산은 XR 콘텐츠의 생산에 비해 그 속도가 매우 느린 편이다. 햅틱 효과의 자동 생성 알고리즘은 이를 획기적으로 해결해줄 수 있으며, 그 중에서도 소리-햅틱 전환 알고리즘은 효과성과 효율성 측면에서 인정받고 있다. 하지만 현재 많이 쓰이는 단순한 전환 알고리즘으로는 적절한 실시간 전신 햅틱 효과를 생성하기는 불가능하다. 이는 사건의 의미를 실시간으로 파악하고, 이에 적절한 햅틱 효과를 제공해야 하기 때문이다. 따라서 본 연구에서는 VR 게이머들을 위하여, 실시간 소리 의미 분석 및 전신 햅틱 효과 제공 시스템을 개발하고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 FPS 게임을 대상으로, 순차 학습(Sequential learning) 모델을 통하여 소리의 사건을 분류하였다. 이를 바탕으로 각 사건에 적합한 전신 햅틱 패턴을 생성하였으며, 관통 및 이동하는 느낌을 제공하기 위한 촉각적 착각(Tactile illusion) 방식도 포함된다. 일련의 과정은 실시간으로 동작하며, 이 시스템을 기존에 많이 쓰이는 소리 신호처리 방식과 비교하였다. 최종적으로 게임 경험(적절성, 만족도 등)이 향상됨을 확인하였으며, 이를 통해 실시간 의미론적 소리-전신 진동 전환 알고리즘이 어떤 식으로 사용자 경험을 변화시키는지 정량/정성적으로 분석하였다. [연구의 의미] 본 연구는 단순히 VR 게임 경험을 향상시킬 수 있는 시스템을 개발한 것을 넘어, 소리 기반의 전신 햅틱 효과를 전문가 없이도 자동 생성 가능함을 보였다. 이는 본 기술을 발전시켜 상용 제품에 활용하게 되었을 때, XR 게임, 교육, 엔터테인먼트, 메타버스 등에서 몰입감 높은 실감형 콘텐츠의 제작에 활용될 수 있으며, 콘텐츠 개발의 진입장벽을 낮출 수 있음을 의미한다. 또한, 현재 기초적인 단계에서 상용화된 햅틱스 기술의 대중화에 기여할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 해당 가능성을 보이고 일부 사례에 적용해 본 초기 연구로, 소리 의미 감지기의 성능 향상, 햅틱 효과 품질의 향상, 콘텐츠의 확장 등 다양한 측면에서 개선할 점이 존재한다. 특히, 소리 의미 감지기가 분류할 수 있는 소리의 종류를 다양화시키고 그 성능을 개선한다면 이는 단순 전신 햅틱 효과의 생성 뿐 아니라 많은 햅틱 어플리케이션에서 활용 가능하다. 또한, 현재 햅틱 패턴 디자인이 필요한 부분도 모두 전자동화 할 수 있는 연구를 수행할 수 있다. [성과와 관련된 실적] 국제 학술대회 논문: Gyeore Yun and Seungmoon Choi. 2025. Real-time Semantic Full-Body Haptic Feedback Converted from Sound for Virtual Reality Gameplay. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). [성과와 관련된 이미지] [그림 1] FPS 게임의 실시간으로 소리를 분석, 적절한 전신 햅틱 효과를 제공하는 시스템의 개요 [그림 2] 기존의 소리 신호처리 방식(NS-ALL)과 비교하여 사용자 경험 측면에서 전반적으로 우수한 성능을 보이는 본 연구의 시스템(S-CORR)
최승문 교수 2025.06.13 111 -
[이근배/옥정슬 교수] DeRAGEC: Denoising Named Entity Candidates with Synthetic Rationale for ASR Error Correction
[연구의 필요성] ASR(Automatic Speech Recognition) 시스템은 대규모 언어 모델을 활용한 Generative Error Correction (GEC) 방식으로 오류를 보정할 수 있지만, 초기 가설(hypotheses)에 없는 고유명사(Named Entities, NEs) 를 효과적으로 보정하기 어렵습니다. 특히 ASR 결과에 존재하지 않거나 빈도가 낮은 고유명사들은 LLM의 편향으로 인해 잘 복구되지 않는 한계가 있었습니다. 이 문제를 해결하기 위해 외부 데이터베이스에서 NE 후보를 검색하는 RAGEC(Retrieval-Augmented GEC) 방식이 제안되었지만, 이 방식은 검색된 NE 후보군에 노이즈(irrelevant NEs)가 섞여 있어 여전히 보정 성능을 저해합니다. 따라서, 검색된 NE 후보군의 명확한 노이즈 제거가 필요하다는 문제가 본 연구의 출발점입니다. [포스텍이 가진 고유의 기술] DeRAGEC 프레임워크: 기존 RAGEC 방식에 명확한 NE 후보군 노이즈 제거를 위한 기법을 도입했습니다. 특히, 다음과 같은 기술들이 특징적입니다. - Phonetic & Semantic Enrichment: 각 NE 후보에 대해 음성 유사도 점수와 위키피디아 정의를 결합. - Synthetic Rationale Generation: NE 후보의 관련성을 설명하는 합성된 논리(rationale) 를 생성. - Training-free Denoising Gate: 별도의 학습 과정 없이, 위에서 생성된 rationale을 사용해 불필요한 NE 후보를 제거. 이러한 기술들은 phonetic query, 합성된 rationale을 활용하여 기존 RAGEC의 한계를 극복하는 고유한 접근법입니다. [연구의 의미] - ASR 성능 개선: 초기 ASR 가설에서 놓친 고유명사를 더 정확히 복구하여, 고유명사 인식률(NE hit ratio)과 전체 오류율(WER)을 동시에 개선. - 훈련 없는 방법론: 기존 접근방식들은 모델을 새롭게 학습해야 했으나, 본 연구의 DeRAGEC는 추가 훈련 없이 in-context learning만으로 고유명사 노이즈를 제거. - 합성된 논리의 활용: 자동화된 synthetic rationale 생성으로, 투명하고 일관성 있는 NE 후보군 필터링 가능. [연구결과의 진행 상태 및 향후 계획] 1) 진행 상태: - CommonVoice와 STOP 데이터셋에서 실험을 수행. - DeRAGEC는 기존 ASR만 사용한 경우 대비 28%의 상대적 WER 감소 달성. - RAGEC 및 ORACLE 방식과 비교해도 가장 우수한 NE 보정 성능을 보임. - 연구 결과와 소스코드를 공개: github.com/solee0022/deragec 2) 향후 계획: - 합성된 논리의 학습적 활용: 현재는 추가 학습 없이 reasoning에 활용하지만, 향후 이 rationale을 모델 훈련에 접목하여 성능을 더 끌어올리는 연구 예정. - 다양한 ASR/후처리 모델 적용성 확인: DeRAGEC의 일반화 가능성을 다양한 ASR 및 후처리 모델에서 검증. - 대체적인 denoising 접근법 탐색: 다른 노이즈 제거 방식(예: thresholding, 통계 기반 filtering 등)과 비교/보완 연구 계획. [성과와 관련된 실적] Solee Im*, Wonjun Lee*, Jinmyeong An, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee Annual Meeting of the Association for Computational Linguistics (ACL) 2025 Findings, Accepted [성과와 관련된 이미지]
이근배/옥정슬 교수 2025.06.13 121 -
[이근배 교수] Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning
[연구의 필요성] 구음장애(Dysarthria)는 뇌졸중, 파킨슨병, 뇌성마비 등 다양한 신경근육계 질환으로 인해 발음이 부정확하고 발화가 어눌해지는 증상입니다. 이는 원활한 언어 소통을 어렵게 만들며, 환자의 자존감 저하, 사회적 고립, 삶의 질 저하로 이어질 수 있습니다. 이러한 환자들이 자신의 목소리로 명료한 음성을 합성할 수 있는 기술을 갖게 된다면, 의사소통의 자율성과 삶의 질을 크게 향상시킬 수 있습니다. 그러나 실제 구음장애 화자가 제공할 수 있는 음성은 짧고 발음이 불분명한 경우가 많아, 기존 다화자 음성 합성 기술을 그대로 적용하기에는 한계가 있습니다. 따라서 이러한 제한된 조건에서도 화자의 고유한 음색 정보를 효과적으로 추출하고, 이를 바탕으로 명료한 음성을 생성할 수 있는 기술 개발이 중요합니다. [포스텍이 가진 고유의 기술] 본 연구에서는 구음장애 화자를 위한 개인 맞춤형 음성 합성을 위해 zero-shot 다화자 TTS 모델을 제안합니다. 기존 단일 인코더 방식과 달리, 이중 화자 인코더 기반의 knowledge anchoring 프레임워크를 도입하여 student 모델의 representation이 teacher 모델의 representation과 같아지도록 학습하였습니다. 동시에 student 모델에는 점진적으로 짧아지는 음성을 입력하는 커리큘럼 학습을 적용하였습니다. 이를 통해 발음이 어눌하고 짧은 음성에서도 화자의 고유 음색을 효과적으로 추출하고, 자연스러운 음성을 성공적으로 합성할 수 있었습니다. [연구의 의미] 본 연구는 발음이 비교적 불분명한 구음장애 화자에게서도 고유한 음성 특성을 효과적으로 추출하여, 이를 기반으로 개인 맞춤형 음성 보조 기술 개발이 가능함을 보여줍니다. [연구결과의 진행 상태 및 향후 계획] 아예 말을 하지 못하는 사람을 대상으로, 얼굴 사진을 통해 목소리 정보를 예측하고, 예측된 목소리를 기반으로 음성을 생성하는 보조기술 연구를 진행하고자 합니다. [성과와 관련된 실적] Yejin Jeon, Solee Im, Youngjae Kim, Gary Geunbae Lee / Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning/ Interspeech 2025 Acceptance [성과와 관련된 이미지]
이근배 교수 2025.06.13 137