최신연구
-
[최승문 교수] 가상 충돌을 위한 진동과 전기 자극을 결합한 다중촉감 햅틱 피드백
[연구의 필요성] 실내 가상 스포츠에서 발생하는 충돌 정보는 사용자에게 대부분 시각 정보로만 전달된다. 가상 스포츠에서 발생하는 즉각적인 충돌 정보를 현실적으로 제공하기 위해서는 가볍고 착용가능한 햅틱 장치를 통해 진동, 힘 등이 결합한 다중촉감 햅틱 자극이 제시되어야 한다. 전기 자극은 (Electrical Muscle Stimulation; EMS) 피부 위에 부착된 전극을 통해 전기 신호가 근육으로 도달하여 근수축을 유발하는 방법으로 쉽고 가볍기 때문에 다양한 신체 부위, 상황에서 사용하기 용이하나 다른 햅틱 자극과 결합되는 경우가 적다. 이 연구에서는 가상 충돌에 적합한 진동과 전기 자극을 결합한 다중촉감 햅틱 피드백 방법을 제시한다. [포스텍이 가진 고유의 기술] 본 연구에서는 진동과 전기 자극을 동시에 제공할 수 있으면서 가볍고 쉽게 착용할 수 있는 햅틱 장치를 개발하고, 장치의 세부 내용을 모두 공개하였다. 또한, 가상 충돌의 반응을 순간적이고 짧은 힘과 잔여 진동으로 나누고 각각을 EMS와 진동으로 표현하는 방법을 제안하였다. 사용자 실험을 통해 사용자가 역동적으로 움직임에 의해 발생하는 가상 충돌은 제안한 다중촉감 햅틱 피드백이 제시될 때 사용자의 경험을 가장 향상시키는 것을 확인하였다. 전기 자극과 진동을 결합한 다중촉감 햅틱 피드백 장치와 렌더링 방법은 포스텍만이 가진 고유 기술이라고 할 수 있다. [연구의 의미] 본 연구는 사용자의 역동적인 움직임에 발생하는 가상 충돌에 대해 전기 자극과 진동이 결합한 다중촉감 햅틱 피드백의 효과를 보여주었다. 연구 결과는 가상 스포츠뿐만 아니라 사용자의 역동적인 움직임에 의해 발생하는 사용자와 가상 물체사이의 상호작용에 대해 햅틱 자극을 렌더링 하는 데 활용될 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 다중촉감 햅틱 피드백을 손과 팔에 제시했을 때 가상 스포츠에서 사용자 경험을 조사하였다. 후속 연구에서는 자극 부위를 어깨까지 확장하여 더 큰 상체 움직임을 유발하고, 가상 스포츠 외의 상황에 적용하여 그 효과를 확인하고자 한다. [성과와 관련된 실적] 국제 저널 논문: Lee, J., & Choi, S. (2024). Multimodal Haptic Feedback for Virtual Collisions Combining Vibrotactile and Electrical Muscle Stimulation. IEEE Transactions on Haptics. [성과와 관련된 이미지] [그림 1] 개발한 가볍고 착용가능한 다중촉각 햅틱 장치. EMS 전극은 손등과 팔에 부착되어 손가락 굽힘 또는 손등 폄 동작을 생성하여 충돌 시 발생하는 힘을 표현한다. 진동 구동기는 손가락에 고정되어 충돌에서 발생하는 잔여 진동을 표현한다. [그림 2] 가상 테니스 및 복싱에서 제안한 장비 및 방법의 적용. 사용자가 라켓으로 공을 맞출 때 혹은 사용자가 주먹으로 상대의 얼굴을 가격할 때와 같이 가상 충돌이 발생하면 사용자의 손과 팔에 다중감각 햅틱 피드백이 제시된다.
최승문 교수 2024.02.05 2103 -
[최승문 교수] 짧은 소리와 촉각 사이의 교차 모달 음높이 매칭
[연구의 필요성] 소리와 촉각 진동 자극을 함께 사용하는 컨텐츠들이 증가하고 있다. 이에 따라 소리와 함께 사용하기에 적합한 진동 자극을 디자인하기위 한 연구들 또한 진행되고 있다. 소리와 함께 사용되는 진동은 소리와 일치감이 높을수록 사용자 경험이 증가하게 된다. 이러한 일치감을 증가시키기 위한 노력이 이루어지고 있으나, 청각과 촉각의 서로 다른 지각적 특성들이 이를 어렵게 만든다. [포스텍이 가진 고유의 기술] 본 연구는 짧은 소리와 음높이적으로 일치감 높은 진동 자극을 디자인하기 위한 연구로서 진동의 주파수 특성에 집중하여 짧은 소리를 위한 소리-촉각 변환 방법을 제공한다. 짧은 소리들과 어울리는 진동 주파수에 대한 데이터를 사용자로부터 수집하여 소리로부터 가장 일치감 높은 진동 주파수를 생성하는 함수를 구현하였다. [연구의 의미] 본 연구는 소리가 가지고 있는 주파수적 특성만으로 음높이적으로 가장 일치감 있는 진동 주파수를 생성하는 데 활용될 수 있다. 이를 활용하여 소리와 촉각이 함께 사용되는 컨텐츠에 적용시킨다면 사용자들에게 더 나은 시촉각 경험을 제공할 수 있다. 즉, 본 연구는 더 나은 사용자 경험을 제공하는 시-촉각 변환에 기여한다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 짧은 소리와 음높이적으로 가장 어울리는 진동 주파수를 알아보았다. 보다 더 높은 소리-진동 간의 일치감을 이끌어 내기 위해서는 음높이적 측면 뿐만 아니라, 일치감에 영향을 미치는 다른 특성들을 조사하여 이를 증진 시키는 연구를 진행하면 좋을 것이다. [성과와 관련된 실적] 국제 저널 논문: Kim, DG., Lee, J., Yun, G., & Choi, S. (2024). Sound-to-Touch Crossmodal Pitch Matching for Short Sounds. IEEE Transactions on Haptics. [성과와 관련된 이미지] 그림 1. 소리로부터 음높이적으로 가장 어울리는 진동을 생성하는 변환 과정. 그림 2. [Main Results] 소리종류에 따른 가장 어울리는 진동 주파수에 대한 점수
최승문 교수 2024.02.05 1417 -
[유환조 교수] Top-Personalized-K Recommendation
[연구의 필요성] 추천시스템 연구들은 딥러닝 모델을 이용하여 유저-아이템간의 랭킹 스코어를 학습하고, 랭킹 스코어가 높은 K개의 아이템을 추천하는 Top-K Recommendation 방식을 사용해왔다. 하지만, 유저 효용성을 고려하지 않고 고정된 크기의 추천을 제공하는 것은 관련 없는 항목을 포함하거나 관련 항목에 대한 노출을 제한할 수 있으므로 최적의 방법이 아니다. [포스텍이 가진 고유의 기술] 본 연구에서는 유저별 효용성(utility)를 고려하여 추천되는 아이템의 개수를 조절하는 Top-Personalized-K Recommendation을 제안한다. 이러한 방식을 위해서, 유저-아이템에 대한 보정된 신뢰도(calibrated confidence)를 추정하고, 기대 유저 효용 (expected user utility)를 계산한다. [연구의 의미] 본 연구는 시스템의 추천 결과에 대한 기대 유저 효용을 계산하고, 그 기댓값을 최대화하는 추천 개수를 선택하는 방식을 처음 제안한 연구로, 그 의미와 적용성이 큰 연구이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 데이터마이닝 분야 최우수 국제학술대회인 ACM The Web Conference (WWW 2024)에 발표될 예정이다. 추후 본 연구의 결과물을 sponsored advertisement, multi-domain recommendation 등에 적용하는 연구를 진행할 예정이다. [성과와 관련된 실적] Wonbin Kweon, Hwanjo Yu, “Top-Personalized-K Recommendation”, ACM The Web Conference (WWW), 2024. [성과와 관련된 이미지]
유환조 교수 2024.02.02 1762 -
[김원화/안성수 교수] Multi-resolution Spectral Coherence for Graph Generation with Score-based Diffusion
[연구의 필요성] 그래프는 분자 (molecular) 구조, 사회관계망, 교통 시스템, 뇌 구조 등 다양한 도메인에서 활용되는 데이터이다. 그래프 분석을 통해 데이터의 특성을 알아내면 해당 도메인에서 일어나는 현상을 이해할 수 있다. 하지만 그래프는 대개 불규칙한 구조로 이루어져 있으며, 노드와 에지의 결합 분포 (joint distribution)으로 구성되어 있기 때문에 그래프 분석에 어려움이 존재한다. 본 연구에서는 이러한 복잡한 그래프 분포에 내재된 특징을 잘 학습하여 새로운 그래프를 생성할 수 있는 그래프 생성 인공지능 모델을 개발하였다. [포스텍이 가진 고유의 기술] 웨이블릿 변환 (wavelet transform)의 개념을 그래프에 적용하여 다중 해상도 (multi-resolution)로 그래프를 분해하고, 이렇게 여러 해상도로 분할한 그래프 정보를 이용하여 그래프를 생성하는 그래프 생성 모델을 개발하였다. 또한, 이론적으로 그래프는 무한개의 해상도로 분해 가능하지만, 이 중에서 그래프 생성에 유용한 특정 해상도를 인공지능 모델이 스스로 선택하여 학습할 수 있다. 그래프를 구성하는 노드와 에지가 공통적으로 가지고 있는 그래프 전체에 대한 특징을 주파수 영역 (frequency domain)에서 추출할 수 있다. 이러한 주파수 영역에서의 노드-에지 공통 특징 (spectral coherence) 을 그래프 영역 (graph domain)에서 그래프 합성곱 (graph convolution) 형태로 손쉽게 구할 수 있는 수식을 고안하였다. [연구의 의미] 본 연구의 그래프 생성모델은 분자 데이터, 사회관계망 데이터 등 다양한 도메인의 그래프 데이터를 생성할 수 있다. 또한, 그래프 생성 과정에서 그래프의 중요한 특징이 반영된 해상도를 선별할 수 있고, 이를 통해 학습하고자 하는 그래프 데이터셋의 특성을 파악할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Conference on Neural Information Processing Systems (NeurIPS 2023) 에서 포스터로 발표되었다. 향후 뇌 그래프 등 다른 그래프 도메인에 본 연구를 적용해볼 계획이며, 또한 그래프 분류 등 다른 그래프 문제에도 본 연구에서 고안한 그래프 분석 기법을 적용해볼 것이다. [성과와 관련된 실적] Hyuna Cho, Minjae Jeong, Sooyeon Jeon, Sungsoo Ahn, Won Hwa Kim, “Multi-resolution Spectral Coherence for Graph Generation with Score-based DIffusion”, Neural Information Processing Systems (NeurIPS), 2023. [성과와 관련된 이미지]
김원화/안성수 교수 2024.01.18 1561 -
[김원화 교수] Learning to Approximate Adaptive Kernel Convolution on Graphs
[연구의 필요성] 이미지, 텍스트, 비디오 등 다양한 데이터를 활용하여 여러 분야에서 인공지능을 이용한 연구가 활발하게 진행되고 있다. 특히, 비유클리드 (non-Euclidian) 공간상에서 표현이 가능한 데이터의 경우에는 그래프 뉴럴 네트워크 (GNN)를 사용해서 성공적으로 분석할 수 있다. 예를 들어, 뇌신경영상 (neuroimage)을 활용하여 알츠하이머 병에 걸린 사람들의 뇌를 분석하는 것도 이에 해당하며, 이와 관련하여 최근에 연구가 활발하게 진행되고 있다. 하지만, 기존의 GNN연구들을 살펴보면 모델을 깊게 쌓으면서 각 노드로부터 인접한 정보들을 취합하게 되는데, 충분한 정보를 얻으려고 하는 과정에서 세부적인 정보나 패턴들이 사라지고 정보가 평탄해지는 oversmoothing 문제가 발생하게 된다. 이를 해결하기 위해서 최근 또다른 연구에서는 확산 커널 (diffusion kernel)을 사용해서 그래프를 재정의하고 정보를 모으는 경우도 많다. 하지만, kernel을 구성하기 위해서는 많은 연산량과 시간이 소모된다. 따라서 이러한 문제들을 해결하는 효율적이고 효과적인 그래프 컨볼루션 (graph convolution) 방법을 제안할 필요가 있다. [포스텍이 가진 고유의 기술] 인간의 구조적 뇌 네트워크 데이터를 포함하여 각 노드가 의미론적인 (semantic) 정보를 가지는 일반적인 그래프 데이터에서 분석이 가능한 효과적이고 빠른 속도의 인공지능 모델을 개발하였다. 본 연구에서 제시한 인공지능 모델은 그래프 상에서 각 노드가 어떠한 의미와 정보들을 가지고 있을 때, 노드 단계 혹은 그래프 단계에서의 특성들을 파악할 수 있다. 특히, 뇌신경영상을 분석할 때 알츠하이머에 걸린 뇌와 그렇지 않은 뇌의 차이점 및 그 특징들을 모델이 효율적으로 학습하여 병의 유무를 진단할 수 있으며, 본 연구에서 제시한 방법은 기존의 방법들과 비교했을 때 높은 정확도를 보일 수 있다. [연구의 의미] Non-Euclidian 공간 상에서 표현이 가능한 데이터는 무수히 많고, 이에 따라 각 데이터들을 효과적으로 파악하고 분석할 수 있는 것이 중요하다. 이를 가능하게 해주는 GNN 연구의 경우 최근에 더욱 활발하게 진행되고 있으며, 의료 현장에도 적용가능한 기술을 만드는 것 또한 중요하다. 본 연구에서 제시한 인공지능 모델은 기존의 문제점들을 해결함과 동시에 여러 구조의 그래프 네트워크를 정확하게 분석할 수 있으며, 특히 뇌신경영상을 통해 알츠하이머 병을 진단하는데 영향을 미치는 요소들의 특성을 파악할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Association for Advancement of Artificial Intelligence (AAAI) 2024에서 포스터로 발표될 예정이다. 향후 본 연구에서 제안된 방법론을 이용하여 효율적이면서 더욱 다양한 측면으로 알츠하이머가 진행되는 과정에 있거나 이미 진행이 된 사람들, 그리고 병이 없는 사람들의 뇌 MRI를 분석하는 연구를 계획 중이다. [성과와 관련된 실적] Jaeyoon Sim, Sooyeon Jeon, InJun Choi, Guorong Wu, Won Hwa Kim, “Learning to Approximate Adaptive Kernel Convolution on Graphs”, AAAI 2024 [성과와 관련된 이미지]
김원화 교수 2024.01.18 1663 -
[이근배 교수] Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
[연구의 필요성] 음성합성 기술의 발전으로 합성된 음성은 매우 자연스러워졌습니다. 이러한 발전으로 인해, 개인 맞춤형 음성합성 시스템에 대한 관심이 높아지고 있습니다. 특히, 특정 화자의 목소리로 음성을 합성하는 경우, 이는 미디어 측면 뿐만 아니라 고인의 목소리를 다시 듣게 해주는 기회로까지 이어지고 있습니다. 특정 화자의 목소리를 복제하기 위해서는 해당 화자의 목소리가 담긴 음성 파일들이 필요하며, 녹음된 오디오 파일로 음성합성 모델을 추가 학습해야 하는 경우가 많습니다(few-shot learning). 이러한 과정의 번거로움을 극복하기 위해 본 논문에서는 보다 효과적인 zero-shot 방법을 탐색하였습니다. [포스텍이 가진 고유의 기술] 특정 화자의 목소리를 사용하여 음성을 합성하려면 음성합성 모델이 두 가지 입력값을 필요로 합니다. 첫째로, 텍스트 형식의 문장이며, 둘째로는 해당 화자가 직접 발화한 오디오 파일입니다. 그러나 오디오 파일에서는 화자의 발화 내용과 합성할 실제 텍스트 문장이 정확히 일치하지 않을 수 있기 때문에, 오디오 파일에서는 화자의 목소리 정보만을 추출해야 합니다. 일반적으로는 오디오 파일에서 화자의 목소리 정보를 바로 추출하고자 하는데, 이렇게 할 경우 언어적 특성이 목소리 정보에 포함될 수 있는 content leakage 문제가 발생합니다. 이를 해결하기 위해 본 연구에서는 오디오 자체를 embedding한 전역 표현에서 내용 정보를 추출한 임베딩을 빼는 subtractive한 방법을 제안하였습니다. 더불어, 특정 화자의 목소리를 보다 정확하게 추출하기 위해 multi-stream transformer를 활용하여 여러 개의 embedding을 사용하였고, 최종적으로 추출된 타겟 화자 목소리 representation을 adaptive 레이어를 통해 기본(backbone) 음성합성 모델에 통합함으로써 실제 화자의 목소리와 유사한 음성을 합성할 수 있었습니다. [연구의 의미] 본 연구에서는 subtractive한 방법을 제안하였습니다. 제안된 방법론의 타당성을 검증하기 위해 다양한 메트릭을 활용하여 negation을 적용한 경우와 그렇지 않은 경우의 성능 차이, multi-stream Transformer의 활용 여부, 그리고 추출된 화자 목소리 representation을 backbone 음성합성 모델에 통합하는 위치와 횟수에 대한 실험을 진행하였습니다. 실험 결과, subtractive 방법을 통한 negated speaker representation을 사용하였을 때 특정 화자의 목소리로 원하는 텍스트 문장에 대한 음성 합성이 가능함을 확인할 수 있었습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 특정 화자의 목소리를 따라하기 위해 오디오 입력을 사용했다면, 앞으로는 다른 모달리티(modality)의 입력을 활용하여 음성을 합성할 수 있도록 연구를 확장할 계획입니다. [성과와 관련된 실적] Yejin Jeon, Yunsu Kim, Gary Geunbae Lee, “Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations”, AAAI 2024 Accepted [성과와 관련된 이미지]
이근배 교수 2024.01.09 2124 -
[박은혁 교수] OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models
[연구의 필요성] 대규모 언어 모델 (Large language models, LLM)은 큰 모델 크기와 학습 데이터를 바탕으로 문장 생성 및 다양한 분야에서 뛰어난 성능을 보이고 있다. 하지만 거대 모델의 큰 메모리 요구량으로 인해 미세 조정 (fine-tuning) 및 추론 (inference) 에 서버 규모 GPU 여러 장을 필요로 한다는 문제가 있다. 이런 문제를 해결하기 위해 모델 가중치의 비트 수를 낮추는 가중치 양자화 (weight quantization) 가 사용되지만, 이 때 표현 가능한 숫자 범위 또한 줄어들어 모델 추론 성능이 감소하는 문제가 존재한다. 본 연구의 결과물을 활용하면 대규모 언어 모델의 성능을 유지하면서 서비스에 필요한 GPU의 요구량을 크게 줄일 수 있다. [포스텍이 가진 고유의 기술] 대규모 언어 모델에 양자화를 적용할 시 성능이 감소하는 주요 원인은 활성화 값 (activation) 의 특정 채널에서 절대값이 매우 큰 이상치 (outlier) 가 발생하기 때문이다. 본 연구에서는 위 특성을 고려하여 활성화 이상치에 대한 가중치의 민감도를 정의하고 이를 기반으로 민감한 가중치는 높은 정밀도로 유지하는 혼합 정밀도 양자화 (mixed-precision quantization) 방법을 제안하였다. 우리의 방법은 최적화된 GPU 혼합 정밀도 연산 커널을 개발하여 기존의 방법에 비해서 매우 적은 오버헤드로 크게 향상된 성능을 보인다. 또한 양자화 후 높은 정밀도로 유지한 가중치만 조정하는 효율적인 미세 조정 기법을 제안하였고 기존 방법들에 비해 더 적은 학습 파라미터를 이용해 유사한 성능으로 조정됨을 보였다. [연구의 의미] 본 연구에서는 모델 가중치 양자화 시 낮은 비트 수의 장점을 유지하면서 원래 모델의 성능을 거의 보존하는 새로운 경량화 방법을 제안하였다. 그 과정에서 활성화 값 이상치가 가중치 양자화에 중요한 영향을 미침을 보였다. 아울러 해당 양자화 기법을 활용하여 미세 조정 시 메모리 사용량을 크게 줄이는 효율적인 조정 방법을 제안하였다. 이를 통해 메모리 용량이 제한된 일반 사용자용 GPU 등에서도 대규모 언어 모델의 추론 및 미세 조정이 가능하게 되어 언어 모델의 활용 및 연구의 장벽을 낮춘 것이 가장 큰 의미이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Association for the Advancement of Artificial Intelligence (AAAI) 2024에서 포스터로 발표될 예정이다. 향후 대규모 언어 모델의 효율적인 학습 및 실제 서비스를 낮은 비용으로 제공하기 위한 최적화 연구를 계획 중이다. [성과와 관련된 실적] Changhun Lee*, Jungyu Jin*, Taesu Kim, Hyungjun Kim, Eunhyeok Park, “OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models”, AAAI 2024 [성과와 관련된 이미지]
박은혁 교수 2024.01.04 2493 -
[박은혁 교수] Temporal Dynamic Quantization for Diffusion Models
[연구의 필요성] 새로운 데이터를 생성하는 기술인 생성 모델(Generative Model)은 인공지능의 핵심적인 기술 중 하나로, 실제 데이터와 유사한 높은 품질의 데이터를 만들 수 있는 기술이다. 여러 생성 모델중 최근 확산 모델 (Diffusion Model)이 높은 생성 품질로 최근 각광을 받고 있지만, 한 데이터를 생성하기 위해 순수한 노이즈로 부터 여러번 노이즈를 제거하는 과정을 거쳐야하기 때문에 수행시간이 느리다는 단점이 있다. 이러한 문제를 해결하기 위해 대표적으로 모델의 가중치와 활성화 값의 비트수를 낮추는 양자화(Quantization)가 대표적으로 사용되고 있지만, 아직 높은비트수에서도 성능이 크게 하락하는 문제가 있었다. [포스텍이 가진 고유의 기술] 확산 모델에서 양자화 시 성능이 하락하는 주요한 원인은 뉴럴 네트워크의 각 레이어의 활성화 값의 분포가 시간에 따라 크게 차이가 나기 때문이다. 본 연구에서는 이러한 분포차이에 대응하기 위해, 확산 모델의 시간 정보를 입력으로 하여 각 시간의 양자화 간격을 학습할수 있는 네트워크를 두는 방법을 제안하였다. 또한 네트워크의 빠른 학습을 위해 시간 정보를 여러 주파수의 성분을 가지는 피쳐로 바꾸는 주파수 인코딩(Frequency Encoding)과 네트워크의 초기 출력을 적절한 양자화 간격으로 초기화 하는 방법을 제시하였다. 실제로 우리의 방법을 적용했을때 기존 양자화 방법들보다 더 좋은 성능을 내는 것을 실험적으로 보여주었다. [연구의 의미] 본 연구에서는 확산 모델을 위한 안정적이고 성능이 뛰어난 경량화 방법을 제안하였다. 이를 통해 확산 모델을 모바일 기기나 임베디드 디바이스 같은 성능이 제한된 기기에서도 좋은 성능으로 구동할 수 있게 되었다는 것이 이번 연구의 의미이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 최우수 학술대회중 하나인 NeurIPS 2023에서 포스터로 발표되었다. 시간 정보만이 아닌 텍스트와 같은 여러 정보들을 함께 고려하여 더 좋은 양자화 파라미터를 탐색하는 것이 향후 계획이다. [성과와 관련된 실적] Junhyuk So*, Jungwon Lee*, Daehyun Ahn, Hyungjun Kim, Eunhyeok Park, “Temporal Dynamic Quantization for Diffusion Model”, NeurIPS 2023 [성과와 관련된 이미지]
박은혁 교수 2024.01.03 2522 -
[이남훈 교수] The Effects of Overparameterization on Sharpness-aware Minimization: An Empirical and Theoretical Analysis
[연구의 필요성] 과모수화된 신경망 (overparameterized neural network)을 학습시키는 것은 학습 손실 (training loss)은 같지만 일반화 성능은 다른 여러 개의 최소점을 만들어낸다. 최소점의 첨예도 (sharpness)와 일반화 오차 (generalization error) 간에 상관관계가 있다는 증거가 늘어나면서, 더 일반화가 잘 되는 솔루션을 위해 평탄한 최소점을 찾기 위한 최적화 방법들이 개발되어 왔다. 하지만, 과모수화가 이러한 첨예도 인식 최소화 (sharpness-aware minimization; SAM)에 미치는 영향에 대해서는 아직 많은 연구가 이루어지지 않은 상태이다.\ [포스텍이 가진 고유의 기술] 본 연구에서는 과모수화가 SAM에 중대한 영향을 끼치는 것을 경험적,이론적으로 분석하여 다음의 사실을 밝혀내었다. 1) 확률적 SAM이 과모수화 하에서는 선형 수렴 속도를 얻는다. 2) SAM의 선형 안정적인 최소점이 SGD에 비해 더 평탄하면서 균일하게 분포된 헤세 행렬 모멘트를 가진다. 3) 매개변수 수가 늘어남에 따라 SAM의 일반화 성능 향상폭이 늘어난다. 4) 같은 수의 매개변수를 가진 모델 중 밀접한 (dense) 모델에 비해 희박한 (sparse) 모델에서 SAM의 일반화 성능 향상폭이 더 커진다. [연구의 의미] 본 연구는 수렴 속도, 일반화 성능 등의 여러 측면에서 SAM이 과모수화된 모델을 학습시킬 때 가지는 여러 이점을 보여준다. 이는 현재 트렌드인 대규모/효율적 학습 환경에서 SAM이 지니고 있는 큰 잠재력을 보여주며 실제로 현업에서 대규모 모델을 학습시킬 때 SAM을 쓰는 것을 적극 고려해볼 수 있음을 시사한다. [연구결과의 진행 상태 및 향후 계획] 다른 첨예도 최소화 기법에 대해 분석을 확장하거나 다른 모델 압축 기법과 SAM의 상관관계에 대해서 분석하는 등으로 연구를 확장하는 것을 계획하고 있다. [성과와 관련된 실적] 2023 한국인공지능학회 추계학술대회 최우수논문상 수상 [성과와 관련된 이미지]
이남훈 교수 2023.12.08 2072