최신연구
[유환조 교수] Learning Topology-Specific Experts for Molecular Property Prediction
[연구의 필요성]
모델을 구축할 때 일반적으로 데이터 세트가 클수록 더 다양하고 대표적인 샘플을 제공할 수 있으므로 모델이 더 효과적으로 학습하는 데 도움이 될 수 있다. 특히 딥러닝 모델의 경우 입력의 복잡한 표현을 학습하기 위해 많은양의 데이터가 필요하다.
하지만, 분자 특성 예측 모델을 위한 분자 데이터를 수집하는데는 다음과 같은 어려움이 있다. (1)분자를 합성하고 특성화하는 과정이 복잡하고 비용이 많이들기 때문에 일관되고 신뢰할 수 있는 방식으로 측정된 실험적 특성을 가진 분자 데이터 세트를 얻기 어려움. (2) 분자 데이터의 특성은 측정 기술, 실험조건 및 샘플 준비의 차이로 인해 달라질 수 있다. 이로 인해 딥러닝 모델 학습에 필수적인 데이터의 일관성과 정확성을 보장하기 어려움.
따라서, 딥러닝 모델의 데이터 수가 제한되어 있는 경우, 사용 가능한 데이터를 최대한 활용하고 모델의 성능을 개선하기 위한 기술이 필수적이다. 특히, 분자 그래프의 경우 이미지 도메인과 달리 전이학습, 데이터 증강 등의 기술의 일반적 적용이 어렵기 때문에 분자 데이터에 적용할 수 있는 모델 개발이 필수적이다.
[포스텍이 가진 고유의 기술]
본 연구에서는 여러가지 패턴을 가진 분자 데이터에 대해 단일 신경망 학습 시 성능이 저하될 수 있다는 관찰에 착안하여, 토폴로지별 특성 예측을 할 수 있는 전문가 모델을 활용하도록 제안한다. 각 전문가는 유사한 토폴로지를 공유하는 각 분자 그룹에 대해 토폴로지별 특징을 학습하고 이를 바탕으로 특성을 구별할 수 있는 차별적 특징을 식별하게 된다. 이를 위해 분자별 토폴로지 패턴에 따라 그룹화하는 군집화 기술과 군집화 된 분자를 각 전문가에게 할당하는 게이팅 모듈을 사용하였다. 또한, 분자의 토폴로지 특성을 포착하는데 특화 된 GNN 모델과, 분자 고유의 스캐폴드정보를 활용하였다. 전문가 모델은 분자 특성 예측 성능을 향상시켰으며, 학습에 사용되지 않은 새로운 형태의 분자에 대해서도 단일 모델 대비 높은 성능을 보여 주었다.
[연구의 의미]
본 연구는 분자 모델 예측 분야에서 아래와 같은 의미를 갖는다.
(1) 분석 제시: 단일 모델로 뚜렷한 구조 패턴을 가진 분자를 학습하는 것이 물성 예측을 위한 토폴로지별 특징을 포착하는 데 부정적인 영향을 미칠 수 있음을 보여준다.
(2) 분자 성능 예측을 위한 새로운 모델 제시: GNN과 분자 스캐폴드에 의해 유도된 토폴로지 정보를 활용하는 새로운 클러스터링 기반 게이팅 모듈을 통해 토폴로지별 전문가 모델을 제안한다.
(3) 분류 성능 및 일반화 성능 향상: 광범위한 실험을 통해 기존 GNN 모델의 성능을 향상시키는 일반적인 도구로서 전문가 모델의 효과를 검증하였다. 또한, 실험에 사용하지 않은 새로운 구조를 가진 분자에 대해서도 모델이 잘 일반화될 수 있음을 확인한였다.
[연구결과의 진행 상태 및 향후 계획]
전문가 모델에 사용한 분자 군집화 기술을 이용하여 원하는 특성을 지닌 분자 생성 모델 개발을위해 후속 연구를 진행중이다.
[성과와 관련된 실적]
– Suyeon Kim, Dongha Lee, SeongKu Kang, Seonghyeon Lee, Hwanjo Yu. Learning Topology-Specific Experts for Molecular Property Prediction. AAAI Conference on Artificial Intelligence (AAAI’23)