최신연구
[김형훈 교수] Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
- 등록일2025.06.17
- 조회수341
-
교수김형훈
[연구의 필요성]
대화 시스템의 발전으로 챗봇은 인간과 유사한 방식으로 상호작용할 수 있을 만큼 정교하게 발전해 왔다. 최근에는 텍스트뿐만 아니라 이미지와 오디오 등 다양한 모달리티를 포함한 멀티모달 기능이 챗봇에 통합되면서, 보다 풍부한 대화가 가능해지고 있다. 그러나 지금까지의 멀티모달 챗봇 연구는 대부분 이미지 중심으로, 주어진 이미지에 대한 질문이나 지시에 단순히 응답하는 수준에 머물러 있다. 또한, 인간의 '눈'에 해당하는 시각 정보는 활용되고 있지만, '귀'에 해당하는 청각 정보를 이해하고 대화에 통합하려는 시도는 부족하다. 특히 이미지와 오디오를 결합한 통합적 접근은 아직 연구가 거의 이루어지지 않았으며, 멀티세션이나 멀티파티와 같은 복잡하고 동적인 현실 세계와 유사한 대화 시나리오에 멀티모달 기능을 접목한 연구도 부족하다.
[포스텍이 가진 고유의 기술]
본 연구에서는 멀티모달, 멀티세션, 멀티파티가 최초로 통합된 대화 데이터셋인 M³C를 제안한다. M³C는 하나의 대화 에피소드가 세 개의 연속된 세션으로 구성되어 있으며, 총 4명의 화자가 등장한다. 각 세션에는 고정된 메인 화자와 함께 나머지 3명 중 2명의 화자가 참여해, 총 3명이 대화를 나눈다. 대화는 동일한 공간적, 시간적 맥락에서 이루어지며, 화자들은 주어진 이미지와 오디오를 실시간으로 보고 듣는 듯한 몰입감 속에서 상호작용한다. 또한 연구진은 M³C 데이터셋을 기반으로 학습된 모델도 함께 제안하였다. 제안한 모델은 연속된 세션 간의 대화 내용을 멀티모달 메모리로 구성하고, 현재 진행 중인 세션에서 필요한 메모리를 이미지, 오디오, 텍스트 등 모달리티에 관계없이 동일한 임베딩 공간 내에서 검색할 수 있다는 장점을 갖는다.
[연구의 의미]
기존의 멀티모달 대화 데이터셋과 모델은 이미지 중심적이며, 멀티세션이나 멀티파티와 같은 동적인 시나리오를 통합한 사례가 부족하였다. 본 연구는 멀티모달, 멀티세션, 멀티파티를 최초로 통합한 데이터셋과 모델을 제안하였다는 점에서 큰 의의가 있다. 특히 기존 연구들이 멀티모달 요소에 대해 단순히 질문에 응답하거나 묘사하는 방식에 그쳤던 것과 달리, 본 연구에서는 실제로 화자들이 이미지와 오디오를 보고 듣는 듯한 맥락에서 자연스럽게 대화에 반영할 수 있도록 하여 멀티모달 대화의 수준을 강화하였다. 또한, 제안된 모델은 이전 세션의 메모리를 검색할 때 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리하고 검색할 수 있어, 기존 방식보다 더 유연하고 효과적인 검색이 가능하다는 점에서도 의의가 있다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 자연어처리 최우수 학회인 ACL 2025 Main에 수락되어 발표될 예정이다. 향후 연구진들은 인간의 대화 환경에 보다 유사하고 복잡한 상황에서도 자연스럽게 상호작용할 수 있는 강인한 멀티모달 챗봇을 연구하고, 이를 임바디드와 같은 가상환경에도 확장, 적용할 계획이다.
[성과와 관련된 실적]
Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
Jihyoung Jang*, Minwook Bae*, Minji Kim, Dilek Hakkani-Tur, and Hyounghun Kim. Proceedings of ACL 2025.
[성과와 관련된 이미지]
Figure 1. Example of M³C
Figure 2. Overall architecture of our model