최신연구

[김원화 교수] HGM³: Hierarchical Generative Masked Motion Modeling with Hard Token Mining

2025-03-18
  • 127

[연구의 필요성]
텍스트 기반 모션 생성은 애니메이션, 로보틱스, AR/VR 등 다양한 분야에서 활용될 수 있는 중요한 기술이다. 최근 마스킹 기반 모션 생성 모델이 주목받고 있지만, 자연어의 모호성과 인간 모션의 복잡성으로 인해 여전히 어려운 문제로 남아 있다. 기존 모델들은 무작위 마스킹을 사용하여 모션 데이터를 학습하지만, 이러한 방식은 중요한 패턴을 효과적으로 학습하지 못하는 한계가 있다. 또한, 텍스트를 단일 문장 임베딩으로 변환하여 모션을 생성하는 기존 방식은 복잡한 모션 시퀀스를 생성하는 데 한계를 보이며, 세부적인 동작 표현이 부족할 수 있다. 본 연구에서는 이러한 한계를 극복하는 텍스트 기반 모션 생성 모델을 개발하였다.

[포스텍이 가진 고유의 기술]
(1) 본 연구에서는 Hard Token Mining(HTM) 기법을 도입하여, 학습이 어려운 모션 패턴을 효과적으로 식별하고 이를 집중적으로 학습하는 전략을 제안하였다. 교사-학생(Teacher-Student) 모델 구조를 활용하여, 교사 모델이 학습 난이도가 높은 모션 영역을 식별하고 마스킹하면 학생 모델이 이를 복원하며 학습한다. 쉬운 패턴부터 학습하고 점진적으로 난이도를 높이는 방식을 적용하였다.
(2) 입력 텍스트를 모션 수준(motion-level), 행동 수준(action-level), 세부 수준(specific-level)으로 분해하여 계층적으로 표현하고, 이를 Generative Masked Motion Model에 적용하였다. Graph Attention Network(GAT)을 활용하여 각 수준에서 중요한 정보를 추출하고, 이를 모델의 입력 조건으로 사용하여 보다 문맥적으로 자연스럽고 정밀한 모션을 생성할 수 있도록 하였다.

[연구의 의미]
본 연구는 텍스트 기반 모션 생성의 새로운 방향을 제시하며, 문맥에 적합한 고품질의 모션 생성 능력을 향상시켰다. HTM 기법을 통해 중요한 동작을 우선적으로 학습하여 보다 자연스럽고 일관된 모션을 생성할 수 있다. 또한, 계층적 의미 그래프를 활용해 텍스트 정보를 다층적으로 반영함으로써, 모델이 다양한 문맥 정보를 효과적으로 학습할 수 있다. 이를 통해 애니메이션, 가상현실, 로보틱스 등 다양한 분야에서 활용 가능성이 크다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 인공지능 분야 최우수 국제 학술 대회인 International Conference on Learning Representations (ICLR 2025) 논문으로 채택되어 포스터로 발표될 예정이다. 향후 연구에서는 모델 경량화 또는 텍스트와 모션 간의 표현 차이를 더욱 정교하게 조정하는 방법을 고안하는 것을 목표로 한다.

[성과와 관련된 실적]
Minjae Jeong*, Yechan Hwang*, Jaejin Lee, Sungyoon Jung, Won Hwa Kim, “HGM³: Hierarchical Generative Masked Motion Modeling with Hard Token Mining”, International Conference on Learning Representations (ICLR), 2025.

[성과와 관련된 이미지]

목록