최신연구
[김원화 교수] Conditional Diffusion with Ordinal Regression: Longitudinal Data Generation for Neurodegenerative Disease Studies
[연구의 필요성]
알츠하이머와 같은 신경퇴행성 질환은 한번 악화되면 정상 상태로 돌아오기가 거의 불가능하기 때문에, 이러한 퇴행성 질환의 종적(longitudinal) 진행을 분석하는 것은 병의 조기 진단과 예방에 필수적이다. 하지만 종적 의료 데이터의 부족, 개인별 질병 진행 양상의 다양성과 같은 요인으로 인해 이러한 종적 연구에 어려움이 존재한다. 또한, 환자가 수년, 혹은 수십년에 걸쳐서 몇 년에 한번씩 병원에 방문해 진단을 받기 때문에, 데이터간 시간 간격이 불규칙하고 간격이 길어서 질병의 진행을 정확하게 모델링하기 어렵다. 따라서, 이러한 문제들을 해결하기 위한 신경퇴행성 질병에 대한 종적 연구가 필요하며, 특히 종적 데이터가 가지고 있는 시간에 따라 변화하는 특징들 (예: 나이, 질병 단계)을 고려할 수 있는 모델 개발이 필요하다.
[포스텍이 가진 고유의 기술]
(1) 본 연구에서는 종적 신경퇴행성 질환 데이터의 특징을 학습하여 실제와 유사한 데이터를 생성하는 생성형 인공지능 모델을 제시하였다.
(2) 특히, 시간의 흐름에 따라 순차적으로 변화하는 나이와 질병 단계를 생성 모델의 조건(condition)으로 활용해, 특정 나이와 질병단계를 가진 환자의 뇌의 상태(예: 대뇌피질 두께)를 순차적으로 생성할 수 있다. 따라서, 실제로 관찰되지 않은 시간(나이)에 해당하는 뇌의 상태를 생성하여 실제 획득한 데이터의 시간 간격이 크고 불규칙하더라도 종적 데이터를 효율적으로 모델링할 수 있다.
(3) 또한, 본 연구에서 제시한 종적 데이터 생성 모델은 집단 수준에서의 병의 특징과 개인별 차이에서 기인한 특징을 모두 고려하여 종적 데이터를 생성한다. 집단 수준의 질병의 특징은 ordinal regression 모델을 활용하여 집단 내에서 나이, 질병 단계와 같은 서수형 변수 (ordinal variable)들과 뇌의 상태 간의 관련성을 학습한다. 개인별 특성은 환자 별로 다른 시점에 측정한 데이터를 보간(interpolation)하여 학습한다.
(4) 의료 데이터의 특성상 데이터의 수가 부족한 문제가 있으므로, 나이와 질병 단계에 대한 조건뿐만 아니라 데이터셋에 대한 조건을 추가하여 여러 데이터셋을 통합 학습할 수 있는 방안을 제시한다.
[연구의 의미]
본 연구에서는 시간의 흐름에 따라 순차적으로 변화하는 나이, 질병 단계 등의 서수형 변수들을 활용해 신경퇴행성 질환 환자들의 종적 뇌 변화를 모델링하는 생성모델을 제시하였다. 수 년에 걸쳐 불규칙하게 획득한 적은 수의 종적 의료 데이터를 실제 데이터와 유사하게 생성이 가능하며, 이 때 질병 단계별로 유의미한 관련이 있는 뇌의 영역별 특징을 반영하여 데이터를 사실적으로 생성할 수 있다.
[연구결과의 진행 상태 및 향후 계획]
해당 연구는 머신 러닝 분야 우수 학회인 International Conference on Learning Representations (ICLR) 2025에 spotlight 논문(acceptance rate: 5.1%)으로 수락되었다. 향후 알츠하이머와 경도인지장애 환자들의 종적 데이터를 활용하여, 경도인지장애 환자들 중에서 가까운 미래에 알츠하이머로 병이 진행이 될지 여부를 분석하는 후속 연구를 진행할 계획이다.
[성과와 관련된 실적]
Hyuna Cho, Ziquan Wei, Seungjoo Lee, Tingting Dan, Guorong Wu, Won Hwa Kim
International Conference on Learning Representations (ICLR), 2025, Spotlight
[성과와 관련된 이미지]