최신연구
-
[최승문 교수] 사용자 참여 디자인을 활용한 운전 시트용 진동촉각 경고
[연구의 필요성] 기존의 차량용 진동촉각 경고는 전문가가 패턴을 설계하고 사용자가 이를 평가하는 하향식 접근 방식을 따르고 있어, 일반 사용자의 기대와 직관을 충실하게 반영하지 못하고 있다. 또한, 일반 사용자로부터 구체적인 진동 패턴을 얻기 위해 진동 패턴을 쉽게 저작하고 바로 경험해볼 수 있는 적절한 도구가 필요하다. [포스텍이 가진 고유의 기술] 본 연구는 진동 패턴의 빠른 프로토타이핑과 상세한 편집이 가능한 진동 저작 도구를 개발하고, 이를 활용한 사용자 참여 디자인을 통해 여러 경고 시나리오에 대한 운전 시트용 진동촉각 경고 패턴들을 도출했다. 도출된 진동 패턴은 햅틱스 전문가가 설계한 진동촉각 경고들과 함께 다양한 주관적 경험 측면에서 비교 평가되었다. [연구의 의미] 사용자 저작 패턴의 분석을 통해 경고 시나리오 별 사용자가 선호하는 진동의 위치적, 시간적 특징을 파악하였다. 또한 사용자 저작 패턴과 전문가 설계 패턴의 비교를 통해 두 패턴 간 유사성과 차이점을 발견하고, 이를 통한 진동경고 설계 가이드라인을 도출하였다. 본 연구는 적절한 진동 저작 도구를 사용한 참여 디자인이 일반 사용자에게 익숙하지 않은 응용 분야에 대한 새로운 진동 신호를 설계할 때 유용할 수 있다는 점을 시사한다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 사용자 참여 디자인을 활용한 운전용 진동촉각 경고의 효용성을 평가하였다. 사용자 참여 디자인과 전문가 설계에서 모두 낮은 평가를 받은 경고 시나리오에 대한 추가 연구가 필요하며, 진동 저작 도구를 활용한 전문가 참여 디자인과의 비교 평가도 고려해볼 수 있을 것이다. [성과와 관련된 실적] 국제 학술대회 논문: Lee, D., Park, J., Kang, J., Yun, T., Park, D. C., & Choi, S. (2024). Participatory Design for In-Vehicle Vibrotactile Warnings on Driver’s Seat. EuroHaptics. [성과와 관련된 이미지] 그림 1. (a): 세 개의 진동촉각 구동기가 설치된 운전 시트. (b): 개발한 진동 저작 도구의 GUI. 그림 2. 경고 시나리오 별 진동 패턴 (PD: 사용자 저작 패턴, Location: 사건 위치를 강조하는 햅틱스 전문가 패턴, Sound: 상용 경고음을 모방하는 햅틱스 전문가 패턴)
최승문 교수 2024.05.14 2144 -
[최승문 교수] 몸통 진동 자극에 대한 방위각과 고도각 방향으로의 식별 능력 조사
[연구의 필요성] 기존의 햅틱 기술 연구는 주로 특정 신체 부위에 제한된 진동 자극을 적용해왔다. 그러나 시각 장애인의 내비게이션 지원이나 가상 현실에서의 방향 정보 전달을 향상시키기 위해, 더 많은 진동자를 부착할 수 있는 몸통에서의 진동 자극에 대한 인지적 실험이 필요하다. 본 연구는 몸통에 대한 방위각과 고도각 방향으로의 진동 식별 능력을 측정하여, 착용형 햅틱 슈트의 기술 발전을 도모한다. [포스텍이 가진 고유의 기술] 몸통 진동 자극을 통해 방향에 대한 인지적 능력을 측정하기 위해, 개인 맞춤형 햅틱 슈트를 설계했다. 이는 몸통에서의 방위각과 고도각 방향에 대하여 진동자를 정밀하게 제어할 수 있어, 사용자의 방향 인식 능력을 체계적으로 분석할 수 있다. 이를 통해 몸통의 방향에 따른 진동 식별 정확도를 측정하여, 몸통 인지 능력을 정량적으로 평가하였다. [연구의 의미] 몸통에 부착된 진동자의 방향별 식별 능력을 체계적으로 평가함으로써, 실제와 환상적 자극의 조합이 사용자의 방향 인식에 미치는 영향을 분석하였다. 이를 통해, 방위각과 고도각 방향의 진동 자극이 사용자의 공간 인식에 어떤 영향이 있는지를 파악했다. 또한, 연구 결과는 햅틱 슈트 설계에 있어서 사용자의 인식 정확도를 최대화할 수 있는 자극 제공 방법에 대한 중요한 가이드라인을 제공한다. 본 연구는 시각 장애인의 네비게이션 지원이나 가상 현실과 같은 응용 분야에서 햅틱 슈트의 활용 가능성을 확장하는 데 기여한다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 몸통에 대한 다양한 진동 자극의 방향 식별 능력을 평가하고, 이러한 자극이 인식 성능에 미치는 효과를 분석하였다. 추후 연구에서는 신체의 감각 민감도를 고려하여 진동 모터의 위치를 최적화하고, 다양한 방향의 자극 위치 변화 시 인식 성능을 평가할 계획입니다. 이러한 결과는 3D 공간 인식과 내비게이션을 위한 햅틱 인터페이스 설계에 중요한 기초 자료를 제공할 것입니다. [성과와 관련된 실적] 국제 학술대회 논문: Kim, J., Park, J., Park, C., Park, J. & Choi, S. (2024). Human Identification Performance of Vibrotactile Stimuli Applied on the Torso along Azimuth or Elevation. EuroHaptics. [성과와 관련된 이미지] 그림 1. 몸통에 대한 방위각 방향 (a), 고도각 방향 (b)으로의 진동 자극과 일반화 (c)
최승문 교수 2024.05.14 2537 -
[최승문 교수] 손목 진동 자극에 의한 초음파 자극의 인지적 세기 증진에 관한 타당성 연구
[연구의 필요성] 초음파를 이용한 비접촉 진동 촉각 경고 시스템은 사용자에게 물리적인 접촉 없이도 진동을 전달할 수 있는 혁신적인 기술이다. 하지만 이 기술은 약한 인지적 강도라는 주요한 문제점을 가지고 있어, 사용자 경험의 효율성을 제한하고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 초음파 자극의 인지적 세기를 향상시킬 수 있는 새로운 방법을 모색한다. [포스텍이 가진 고유의 기술] POSTECH의 연구팀은 진동촉각 경고 시스템을 개선하기 위해 손목에 짧은 진동 자극을 제공한 후 사용자의 손바닥에 초음파 자극을 전달하는 방법을 개발하였다. 이는 ‘진동 강화(tactile enhancement)’라는 인지 심리 현상을 활용한 것으로, 첫 번째 진동이 두 번째 진동의 감각을 강화시키는 원리를 적용한 것이다. 이 기술은 기존 초음파 자극 장치와 추가적인 장치 없이도 사용자의 인지 강도를 최대 1.7배까지 향상시킬 수 있다. [연구의 의미] 본 연구를 통해 손목에 제공되는 진동 자극이 손바닥에 전달되는 초음파 자극의 인지 강도를 증가시키는 효과를 확인하였다. 특히, 진동의 주파수가 낮을 때(RA-1 채널을 자극할 때)와 초음파 자극의 강도가 낮을 때 감각 강화 효과가 더욱 두드러졌다. 이러한 결과는 사용자에게 보다 강력하고 명확한 진동 경험을 제공할 수 있는 설계 가이드라인을 제시한다. 또한, 이 연구는 진동 저작 도구를 사용한 참여 디자인이 진동 신호 설계에 있어 사용자의 의견을 반영하는 데 효과적임을 보여준다. [연구결과의 진행 상태 및 향후 계획] 연구팀은 사용자 참여 디자인을 활용하여 초음파 자극의 인지 강도를 평가하였고, 초음파 패턴 자극을 활용한 추가 연구를 계획하고 있다. 또한 손목에 사용되는 것이 아니라 더욱 효과적인 인지 증진 방식을 탐구할 예정이다. 본 연구진들은 이를 통해 보다 사용성이 좋은 초음파 자극 인지 증진 시스템과 패턴 자극을 활용할 수 있는 가이드 라인을 탐구할 것이다. [성과와 관련된 실적] 국제 학술대회 논문: Kim, D., Choi, S. (2024) A Feasibility Study of Tactile Enhancement of Mid-Air Ultrasonic Stimulation by Wrist Vibration. EuroHaptics. [성과와 관련된 이미지] 그림 1. 연속 진동 자극을 활용한 초음파 자극의 인지 세기 증진 방식 예시 그림 2. 손목 진동 자극에 의한 초음파 자극의 인지 세기 증진 결과
최승문 교수 2024.05.14 2262 -
[김원화 교수] Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations
[연구의 필요성] Marked Temporal Point Process (MTPP)은 discrete한 시간대에 발생하는 이벤트를 모델링하기 위해 많이 사용되어 왔습니다. 딥러닝의 발달로 RNN, Transformer와 같이 이벤트 사이의 관계성을 네트워크를 활용하여 모델링하는 연구가 많은 관심을 받아왔습니다. 하지만 이런 모델링 방식들은 개별적인 이벤트가 전체 데이터에 어떠한 영향을 미치는지 분석하고 파악하는 것에 어려움을 겪습니다. 따라서 본 연구에서는 Neural ODEs를 활용해 개별 이벤트의 영향력을 모델링하는 framework를 제시하고, 제시한 framework의 표현력과 differential equation을 활용한 이점들을 분석합니다. [포스텍이 가진 고유의 기술] 일반적인 framework는 두개의 부분으로 구성되어 있습니다. 하나의 이벤트가 어떻게 이벤트의 발생 시기와, 발생한 이벤트의 종류에 영향을 주는 것인지를 표현하기 위해 2개의 프로세스로 나누어 예측합니다. 두개의 프로세스는 모두 hidden state의 프로세스로 표현된 후 decoding 과정을 거칩니다. 이때 multi-dimensional differential equation을 활용하여 이벤트들의 개별적 영향력을 동시에 효율적으로 모델링할 수 있습니다. 앞서 제시한 framework의 유효성을 검증하기 위하여 개별 이벤트의 영향력을 선형적으로 합치는 linear한 모델을 소개합니다. 이때 영향력의 구간을 hyper parameter로 지정하여 모든 시간대의 영향력을 동시에 모델링하는 학습 기법을 제안합니다. [연구의 의미] 본 연구의 시계열 데이터 생성 모델은 이벤트 사이의 영향력을 배제하고, 개별적인 이벤트로부터 전체 이벤트를 표현할 수 있다는 가능성을 제시하였습니다. 이러한 방법을 통해 MTPP를 구성하는 요소들의 영향력을 시각화하고 분석할 수 있습니다. 또한 ODE를 활용한 모델링 방식을 차용함에 따라서 다양한 미분 계산에서의 효율성을 보이고 학습 시간을 단축시킬 수 있었습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회 ICLR 2024에서 포스터로 발표될 예정입니다. 향후 graph를 포함한 다양한 도메인으로의 확장과, framework를 활용한 생존분석 등의 연구 또한 계획 중에 있습니다. [성과와 관련된 실적] Yujee Song, Donghyun Lee, Rui Meng, Won Hwa Kim, “Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations”, International Conference on Learning Representations (ICLR), 2024. [성과와 관련된 이미지]
김원화 교수 2024.05.09 1774 -
[김원화 교수] Modality-Agnostic Style Transfer for Holistic Feature Imputation
[연구의 필요성] 알츠하이머 병과 같은 신경퇴행성(neurodegenertaive) 질환의 조기 진단은 질병 진행을 지연시키기 위해 중요하다. 이와 관련한 인공지능 연구는 활발히 진행되고 있다. 특히 초기 단계에서는 뇌의 상태 변화가 크지 않기 때문에, 하나의 영상 모달리티에서만 정보를 얻어 알츠하이머 병을 진단하는 것은 어려울 수 있다. 따라서 진단 정확도를 향상시키기 위해 여러 영상 모달리티의 정보를 결합할 필요가 있다. 그러나 현실적으로 여러 영상 스캔에서 데이터를 얻는 것에는 제약이 있다. 특히, 시간과 비용적 부담이 큰 positron emission tomography (PET)보다는 magnetic resonance imaging (MRI)만을 촬영하는 경우가 많다. 이러한 상황에서 인공지능 생성 모델을 활용하여 환자의 다른 종류의 영상 모달리티 결과를 예측할 수 있다면, 임상적으로 알츠하이머 병 진단의 효율성을 높일 수 있다. 또한, 해당 방법으로 생성한 데이터들을 실제 데이터에 추가적으로 사용하여 알츠하이머 진단 모델을 학습하게 된다면 진단 정확도의 향상을 보일 수 있을 것이다. [포스텍이 가진 고유의 기술] 기존 image에 사용되던 style transfer의 개념을 data matrix에 적용하여 content를 알츠하이머 진행 정보로 정의하고, style을 imaging scan 정보로 정의하였다. 먼저, domain adversarial training 기법을 통해 여러 영상 모달리티 종류와 관계없이 알츠하이머 관련 정보만 embedding에 남기도록 하였다. 이후에 생성 모델인 GAN을 기반으로 해당 embedding으로부터 영상 모달리티 종류에 맞는 style을 입히도록 함으로서 해당 subject에 대해 원하는 영상 모달리티 종류의 추정치를 만들었다. [연구의 의미] 본 연구에서 제시한 인공지능 모델은 알츠하이머를 진단하기 위한 다양한 영상 모달리티 결과 값을 모두 직접 얻을 필요 없이, 하나의 실제 값으로도 병의 단계를 반영한 다른 종류의 영상 모달리티 추정치를 만들어준다는 점에서 시간 및 비용적인 측면에서 효율성을 높일 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 의료 인공지능 분야의 우수 국제 학회인 IEEE International Symposium on Biomedical Imaging (ISBI) 2024에서 구두로 발표될 예정이다. 향후 본 연구에서 제안된 방법론의 불필요한 요소들을 보완하여 더욱 효율적인 생성 모델을 만들고자 연구를 계획 중이다. [성과와 관련된 실적] Seunhun Baek, Jaeyoon Sim, Mustafa Dere, Minjeong Kim, Guorong Wu, Won Hwa Kim, “Modality-Agnostic Style Transfer for Holistic Feature Imputation”, ISBI 2024 [성과와 관련된 이미지]
김원화 교수 2024.05.09 2196 -
[이근배 교수] Explainable Multi-hop Question Generation: An End-to-End Approach without Intermediate Question Labeling
[연구의 필요성] 최근 대화형 인공지능 챗봇에 대한 수요가 증가함에 따라 사용자의 복잡한 질문에 응답할 수 있는 기술의 중요성이 커지고 있다. Multi-hop 질문이란 여러 문서에 대한 복합적인 추론을 통해 응답을 찾을 수 있는 복잡한 질문을 뜻한다. 이러한 Multi-hop 질문을 사람이 직접 생성하는 것은 많은 시간과 비용을 요구하기 때문에 본 연구에서는 주어진 문서와 응답을 기반으로 Multi-hop 질문들을 자동으로 생성할 수 있는 방법론을 제안한다. [포스텍이 가진 고유의 기술] 이전 관련 연구들에서는 입력 문서들과 응답의 인코딩 값을 기반으로 질문을 디코딩하는 end-to-end 접근법을 사용했다. 이러한 접근법은 세 개 이상의 문서를 참조하는 3-hop 이상의 복잡한 질문을 논리적으로 생성하는데 한계가 있다. 본 연구에서는 기존 방법론의 한계를 보완하는 End-to-End Question Rewriting (E2EQR) 모델을 제안한다. E2EQR은 1-hop 질문을 생성한 다음 이를 순차적으로 재작성하여 복잡성을 증가시킨다. E2EQR은 encoder-decoder 구조의 Transformer를 기반으로 하는 순환 신경망 구조를 가진다. 각 단계에서 모델은 입력 문서를 기반으로 이전 단계에서 생성된 질문을 재작성한다. 생성된 질문을 다음 단계에서 모델에 직접적으로 입력하는 대신, 이전 단계에서의 디코더 은닉 상태를 다음 단계 디코딩 과정에서 활용한다. 이를 통해 중간 단계 질문들에 대한 정답 없이 최종 생성 질문에 대한 정답만을 이용해 전체 모델을 훈련시키는 end-to-end 훈련이 가능해진다. E2EQR은 간단한 1-hop 질문 데이터부터 순차적으로 복잡한 질문 예제들을 학습하는 curriculum learning 방식을 통해 훈련되었으며, 초반에 학습한 쉬운 예제에 대한 catastrophic forgetting을 방지하면서도 서로 다른 복잡도의 예제들에 대해 균일한 성능 보이도록 하는 Adaptive Curriculum Learning 방식을 함께 제안한다. [연구의 의미] 본 연구에서 제안하는 방법론은 복잡한 질문을 효과적으로 생성할 뿐만 아니라 해당 질문을 복잡화하는 과정에서 생성된 중간 단계 질문들을 함께 제공한다. 따라서 질의응답 모델이 복잡한 질문을 논리적으로 추론할 수 있도록 하는 훈련 데이터를 생성하거나 교육용 문제 생성 등에 활용될 수 있다. 또한 복잡한 질문은 사람이 직접 오류를 판단하기 어려운데, 중간 단계에서 생성된 질문들의 오류를 조기에 판별함으로써 효과적으로 합성 데이터를 정제할 수 있다. [연구결과의 진행 상태 및 향후 계획] 질문 생성 모델은 질의응답 데이터를 기반으로 훈련된다. 다만 대부분의 질의응답 데이터셋들이 영어로 구축되어 있기 때문에 다른 언어에서의 활용이 어렵다. 따라서 기존 영어 데이터셋으로 훈련된 질문 생성 모델을 다른 언어에 활용할 수 있도록 하는 Cross-lingual Transfer 방법론을 연구할 계획이다. [성과와 관련된 실적] Seonjeong Hwang, Yunsu Kim, and Gary Geunbae Lee, “Explainable Multi-hop Question Generation: An End-to-End Approach without Intermediate Question Labeling”, LREC-COLING 2024 (accepted) [성과와 관련된 이미지] [그림 1] 3-hop 질문 생성을 위한 E2EQG 모델의 학습 과정 [그림2] E2EQR로 생성한 3-hop 질문 및 중간 단계 질문들의 예시
이근배 교수 2024.04.15 2565 -
[이근배 교수] Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents
[연구의 필요성] LLM과 RLHF와 같은 학습 방식의 등장으로 AI를 활용한 대화 모델은 풍부한 지식을 활용하면서도 사람들이 선호하는 응답을 생성하는 것이 가능해졌습니다. 그러나 대화 모델은 개발 의도와는 다르게 차별적이거나 비속어와 같은 독성(toxic) 발화들을 확률적으로 생성할 수 있다는 위험성이 내재하고 있습니다. 따라서 본 연구에서는 RLHF를 변형시킨 DPO를 활용하여 모델을 학습하되, 직접적으로 독성 발화 생성을 억제하는 학습 방식(Adversarial DPO, ADPO)을 제시했습니다. [포스텍이 가진 고유의 기술] 먼저 전체 학습 방식은 AI로부터 생성된 피드백으로 대화 모델을 학습하는 RLAIF 방식을 따릅니다. 다만, 처음 모델을 튜닝할 때 대화 데이터와 더불어 독성 대화 데이터를 같이 학습시킵니다. 구체적으로, 독성 대화 데이터를 학습할 때는 독성 토큰을 같이 입력하여 독성 토큰이 보이면 일부러 독성 발화를 생성할 수 있도록 유도합니다. 튜닝이 끝나면 튜닝에 사용되지 않은 대화 데이터를 입력해 모델의 응답을 여러번 생성하도록 하고, off-the-shelf LLM을 통해 생성된 응답들을 바람직한 응답과 바람직하지 않은 응답으로 분류합니다. 추가적으로 독성 토큰을 이용해 독성 응답도 생성하게끔 하여, 한 대화 데이터당 총 3개 (바람직한 응답, 바람직하지 않은 응답, 독성 응답)을 매핑합니다. 데이터 매핑이 완료되면 본 연구에서 제시한 ADPO Loss와 매핑된 데이터를 사용하여 모델을 학습시킵니다. 이 과정에서 모델은 바람직하지 않은 응답보다 바람직한 응답을 자주 생성하도록 훈련되며, 추가적으로 독성 응답보다 바람직한 응답을 더 자주 생성하도록 학습됩니다. [연구의 의미] 본 연구에서는 대화 모델의 바람직한 응답을 유도하고 독성 발화를 저해하는 학습 방식을 제시했으며, 기존 대화 데이터셋에 더해 독성 대화 데이터셋을 추가적으로 사용함으로써 튜닝에 이은 추가적인 학습으로 인한 모델의 대화 성능 하락을 최소화하였습니다. 실험 결과 독성 발화 빈도수를 크게 줄이면서도 기존 DPO 기법으로 학습하는 것보다 ADPO 기법으로 학습한 모델이 맥락성과 회피성에서 더욱 우수했다는 것을 확인하였습니다. [연구결과의 진행 상태 및 향후 계획] 독성 발화를 세분화하여 대화 모델의 안전성을 높일 수 있는 방법을 모색할 계획입니다. [성과와 관련된 실적] San Kim, Gary Geunbae Lee, NAACL Findings 2024 Accepted [성과와 관련된 이미지]
이근배 교수 2024.04.02 2192 -
[이근배 교수] Multi-Level Attention Aggregation for Language-Agnostic Speaker Replication
[연구의 필요성] 기본 음성합성 모델들이 생성하는 음성의 품질이 매우 자연스러워져서, 원하는 사람의 목소리로 음성을 합성하는 다중 화자 TTS 연구가 증가하고 있습니다. 그러나, 기존의 다중 화자 TTS는 특정 언어 내에서만 음성 합성이 가능하기 때문에, 학습 데이터와 다른 언어로 말하는 화자의 목소리를 따라하지 못하는 한계가 있습니다. 따라서, 본 연구에서는 이러한 unseen 언어로 말하는 화자에게도 해당 화자의 목소리로 음성 합성이 가능하도록 하는 방법을 탐색하였습니다. [포스텍이 가진 고유의 기술] 화자의 목소리는 pitch와 timbre 같은 다양한 특징으로 구성되어 있습니다. 이에 따라 기존의 다중 화자 TTS 연구는 이러한 정보를 학습하거나 사전 훈련된 화자 확인 모델을 사용하여 input reference audio에서 화자의 목소리 정보를 직접 추출하는 방법을 채택했습니다. 본 논문은 이러한 모든 방법을 사용하면서도, 다양한 정보를 어떻게 융합해야 언어와 무관하게 화자의 음성을 복제할 수 있는지를 탐구했습니다. 구체적으로는 사전 훈련된 화자 확인 모델을 통해 추출된 reference audio representation을 yin algorithm으로 추출한 pitch관련 representation과 cross attention을 진행하였습니다. 이후, 화자의 전역 timbre 정보를 컨볼루션 블록을 통해 추출하고 이를 이전 aggregation 단계의 아웃풋과 다시 cross attention을 통해 결합합니다. Generalizability를 향상시키기 위해 representation splitting을 진행하였고, 최종적으로 생성된 화자 표현을 기준 TTS 프레임워크에 condition으로 적용했습니다. [연구의 의미] 본 연구에서는 말하는 언어와 관계없이 화자의 목소리를 추출할 수 있는 새로운 task를 제안하였으며이를 위해 다양한 화자의 목소리 정보를 추출하고 융합하는 최적의 절차를 탐색하였습니다. 실험 결과, 정보 융합을 위한 2단계 절차를 거칠 때 언어와 상관없이 화자의 목소리를 대체적으로 잘 모방할 수 있는 것을 확인할 수 있었습니다. [연구결과의 진행 상태 및 향후 계획] 처음으로 제시한 테스크인만큼, 성능을 더 높일 수 있는 방법을 탐색할 계획입니다. [성과와 관련된 실적] Yejin Jeon, Gary Geunbae Lee, EACL 2024 Accepted [성과와 관련된 이미지]
이근배 교수 2024.03.14 2159 -
[유환조 교수] Noisy Label Detection by Discriminative Dynamics with Label Corruption
[연구의 필요성] 딥러닝 모델을 효과적으로 학습하기 위해서는 정확한 라벨을 가진 대규모 데이터셋을 확보하는 것이 매우 중요하다. 그러나 현실에서는 사용되는 데이터의 라벨이 오염되는 경우가 많은데, 이는 딥러닝 모델의 성능에 부정적인 영향을 미친다. 따라서, 오염된 라벨을 가진 샘플을 식별하고 수정함으로써, 원본 데이터 세트의 품질을 향상시키거나, 오염된 라벨에 강건한 모델을 개발하는것은 매우 중요하다. [포스텍이 가진 고유의 기술] 본 연구에서는 오염된 라벨 감지를 위해 라벨을 인위적으로 손상시킨 데이터를 추가 후, 정확한 라벨을 가진 샘플과 오염된 라벨을 가진 샘플의 학습 다이나믹스 차이를 학습하는 새로운 프레임워크를 제시한다. 구체적으로, 제시하는 모델은 학습 다이나믹스의의 잠재적 표현을 클러스터링하여 오염된 라벨을 식별한다. 이를 위해 먼저 원본 샘플들과 인위적으로 손상된 샘플의 학습 다이나믹스을 생성한다. 이후 다이나믹스 인코더를 사용해 훈련 궤적 내에서 판별 패턴을 인코딩하는 역학 표현을 계산하고 분류한다. [연구의 의미] 본 연구는 지도학습 기반의 딥러닝 모델 개발을 위해 필수적인 정확한 데이터를 확보하는 데 도움을 준다. 또한, 이 연구를 통해 데이터셋에 포함된 오염된 샘플을 식별하고 개선할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 컴퓨터 비전 분야 최우수 국제학술대회인 The IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024) 에 발표될 예정이다. 추후 본 연구 결과를 그래프 도메인에 접목시켜, 분자 그래프와 관련된 응용 분야에서의 활용 가능성을 탐구할 것이다. [성과와 관련된 실적] SY Kim, SK Kang, SK Chae, SH Jang, D Lee, H Yu, ” Learning Discriminative Dynamics with Label Corruption for Noisy Label Detection” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [성과와 관련된 이미지]
유환조 교수 2024.03.12 2289