최신연구
-
[김원화/안성수 교수] Multi-resolution Spectral Coherence for Graph Generation with Score-based Diffusion
[연구의 필요성] 그래프는 분자 (molecular) 구조, 사회관계망, 교통 시스템, 뇌 구조 등 다양한 도메인에서 활용되는 데이터이다. 그래프 분석을 통해 데이터의 특성을 알아내면 해당 도메인에서 일어나는 현상을 이해할 수 있다. 하지만 그래프는 대개 불규칙한 구조로 이루어져 있으며, 노드와 에지의 결합 분포 (joint distribution)으로 구성되어 있기 때문에 그래프 분석에 어려움이 존재한다. 본 연구에서는 이러한 복잡한 그래프 분포에 내재된 특징을 잘 학습하여 새로운 그래프를 생성할 수 있는 그래프 생성 인공지능 모델을 개발하였다. [포스텍이 가진 고유의 기술] 웨이블릿 변환 (wavelet transform)의 개념을 그래프에 적용하여 다중 해상도 (multi-resolution)로 그래프를 분해하고, 이렇게 여러 해상도로 분할한 그래프 정보를 이용하여 그래프를 생성하는 그래프 생성 모델을 개발하였다. 또한, 이론적으로 그래프는 무한개의 해상도로 분해 가능하지만, 이 중에서 그래프 생성에 유용한 특정 해상도를 인공지능 모델이 스스로 선택하여 학습할 수 있다. 그래프를 구성하는 노드와 에지가 공통적으로 가지고 있는 그래프 전체에 대한 특징을 주파수 영역 (frequency domain)에서 추출할 수 있다. 이러한 주파수 영역에서의 노드-에지 공통 특징 (spectral coherence) 을 그래프 영역 (graph domain)에서 그래프 합성곱 (graph convolution) 형태로 손쉽게 구할 수 있는 수식을 고안하였다. [연구의 의미] 본 연구의 그래프 생성모델은 분자 데이터, 사회관계망 데이터 등 다양한 도메인의 그래프 데이터를 생성할 수 있다. 또한, 그래프 생성 과정에서 그래프의 중요한 특징이 반영된 해상도를 선별할 수 있고, 이를 통해 학습하고자 하는 그래프 데이터셋의 특성을 파악할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Conference on Neural Information Processing Systems (NeurIPS 2023) 에서 포스터로 발표되었다. 향후 뇌 그래프 등 다른 그래프 도메인에 본 연구를 적용해볼 계획이며, 또한 그래프 분류 등 다른 그래프 문제에도 본 연구에서 고안한 그래프 분석 기법을 적용해볼 것이다. [성과와 관련된 실적] Hyuna Cho, Minjae Jeong, Sooyeon Jeon, Sungsoo Ahn, Won Hwa Kim, “Multi-resolution Spectral Coherence for Graph Generation with Score-based DIffusion”, Neural Information Processing Systems (NeurIPS), 2023. [성과와 관련된 이미지]
김원화/안성수 교수 2024.01.18 2164 -
[김원화 교수] Learning to Approximate Adaptive Kernel Convolution on Graphs
[연구의 필요성] 이미지, 텍스트, 비디오 등 다양한 데이터를 활용하여 여러 분야에서 인공지능을 이용한 연구가 활발하게 진행되고 있다. 특히, 비유클리드 (non-Euclidian) 공간상에서 표현이 가능한 데이터의 경우에는 그래프 뉴럴 네트워크 (GNN)를 사용해서 성공적으로 분석할 수 있다. 예를 들어, 뇌신경영상 (neuroimage)을 활용하여 알츠하이머 병에 걸린 사람들의 뇌를 분석하는 것도 이에 해당하며, 이와 관련하여 최근에 연구가 활발하게 진행되고 있다. 하지만, 기존의 GNN연구들을 살펴보면 모델을 깊게 쌓으면서 각 노드로부터 인접한 정보들을 취합하게 되는데, 충분한 정보를 얻으려고 하는 과정에서 세부적인 정보나 패턴들이 사라지고 정보가 평탄해지는 oversmoothing 문제가 발생하게 된다. 이를 해결하기 위해서 최근 또다른 연구에서는 확산 커널 (diffusion kernel)을 사용해서 그래프를 재정의하고 정보를 모으는 경우도 많다. 하지만, kernel을 구성하기 위해서는 많은 연산량과 시간이 소모된다. 따라서 이러한 문제들을 해결하는 효율적이고 효과적인 그래프 컨볼루션 (graph convolution) 방법을 제안할 필요가 있다. [포스텍이 가진 고유의 기술] 인간의 구조적 뇌 네트워크 데이터를 포함하여 각 노드가 의미론적인 (semantic) 정보를 가지는 일반적인 그래프 데이터에서 분석이 가능한 효과적이고 빠른 속도의 인공지능 모델을 개발하였다. 본 연구에서 제시한 인공지능 모델은 그래프 상에서 각 노드가 어떠한 의미와 정보들을 가지고 있을 때, 노드 단계 혹은 그래프 단계에서의 특성들을 파악할 수 있다. 특히, 뇌신경영상을 분석할 때 알츠하이머에 걸린 뇌와 그렇지 않은 뇌의 차이점 및 그 특징들을 모델이 효율적으로 학습하여 병의 유무를 진단할 수 있으며, 본 연구에서 제시한 방법은 기존의 방법들과 비교했을 때 높은 정확도를 보일 수 있다. [연구의 의미] Non-Euclidian 공간 상에서 표현이 가능한 데이터는 무수히 많고, 이에 따라 각 데이터들을 효과적으로 파악하고 분석할 수 있는 것이 중요하다. 이를 가능하게 해주는 GNN 연구의 경우 최근에 더욱 활발하게 진행되고 있으며, 의료 현장에도 적용가능한 기술을 만드는 것 또한 중요하다. 본 연구에서 제시한 인공지능 모델은 기존의 문제점들을 해결함과 동시에 여러 구조의 그래프 네트워크를 정확하게 분석할 수 있으며, 특히 뇌신경영상을 통해 알츠하이머 병을 진단하는데 영향을 미치는 요소들의 특성을 파악할 수 있다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Association for Advancement of Artificial Intelligence (AAAI) 2024에서 포스터로 발표될 예정이다. 향후 본 연구에서 제안된 방법론을 이용하여 효율적이면서 더욱 다양한 측면으로 알츠하이머가 진행되는 과정에 있거나 이미 진행이 된 사람들, 그리고 병이 없는 사람들의 뇌 MRI를 분석하는 연구를 계획 중이다. [성과와 관련된 실적] Jaeyoon Sim, Sooyeon Jeon, InJun Choi, Guorong Wu, Won Hwa Kim, “Learning to Approximate Adaptive Kernel Convolution on Graphs”, AAAI 2024 [성과와 관련된 이미지]
김원화 교수 2024.01.18 2228 -
[이근배 교수] Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
[연구의 필요성] 음성합성 기술의 발전으로 합성된 음성은 매우 자연스러워졌습니다. 이러한 발전으로 인해, 개인 맞춤형 음성합성 시스템에 대한 관심이 높아지고 있습니다. 특히, 특정 화자의 목소리로 음성을 합성하는 경우, 이는 미디어 측면 뿐만 아니라 고인의 목소리를 다시 듣게 해주는 기회로까지 이어지고 있습니다. 특정 화자의 목소리를 복제하기 위해서는 해당 화자의 목소리가 담긴 음성 파일들이 필요하며, 녹음된 오디오 파일로 음성합성 모델을 추가 학습해야 하는 경우가 많습니다(few-shot learning). 이러한 과정의 번거로움을 극복하기 위해 본 논문에서는 보다 효과적인 zero-shot 방법을 탐색하였습니다. [포스텍이 가진 고유의 기술] 특정 화자의 목소리를 사용하여 음성을 합성하려면 음성합성 모델이 두 가지 입력값을 필요로 합니다. 첫째로, 텍스트 형식의 문장이며, 둘째로는 해당 화자가 직접 발화한 오디오 파일입니다. 그러나 오디오 파일에서는 화자의 발화 내용과 합성할 실제 텍스트 문장이 정확히 일치하지 않을 수 있기 때문에, 오디오 파일에서는 화자의 목소리 정보만을 추출해야 합니다. 일반적으로는 오디오 파일에서 화자의 목소리 정보를 바로 추출하고자 하는데, 이렇게 할 경우 언어적 특성이 목소리 정보에 포함될 수 있는 content leakage 문제가 발생합니다. 이를 해결하기 위해 본 연구에서는 오디오 자체를 embedding한 전역 표현에서 내용 정보를 추출한 임베딩을 빼는 subtractive한 방법을 제안하였습니다. 더불어, 특정 화자의 목소리를 보다 정확하게 추출하기 위해 multi-stream transformer를 활용하여 여러 개의 embedding을 사용하였고, 최종적으로 추출된 타겟 화자 목소리 representation을 adaptive 레이어를 통해 기본(backbone) 음성합성 모델에 통합함으로써 실제 화자의 목소리와 유사한 음성을 합성할 수 있었습니다. [연구의 의미] 본 연구에서는 subtractive한 방법을 제안하였습니다. 제안된 방법론의 타당성을 검증하기 위해 다양한 메트릭을 활용하여 negation을 적용한 경우와 그렇지 않은 경우의 성능 차이, multi-stream Transformer의 활용 여부, 그리고 추출된 화자 목소리 representation을 backbone 음성합성 모델에 통합하는 위치와 횟수에 대한 실험을 진행하였습니다. 실험 결과, subtractive 방법을 통한 negated speaker representation을 사용하였을 때 특정 화자의 목소리로 원하는 텍스트 문장에 대한 음성 합성이 가능함을 확인할 수 있었습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구에서는 특정 화자의 목소리를 따라하기 위해 오디오 입력을 사용했다면, 앞으로는 다른 모달리티(modality)의 입력을 활용하여 음성을 합성할 수 있도록 연구를 확장할 계획입니다. [성과와 관련된 실적] Yejin Jeon, Yunsu Kim, Gary Geunbae Lee, “Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations”, AAAI 2024 Accepted [성과와 관련된 이미지]
이근배 교수 2024.01.09 2736 -
[박은혁 교수] OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models
[연구의 필요성] 대규모 언어 모델 (Large language models, LLM)은 큰 모델 크기와 학습 데이터를 바탕으로 문장 생성 및 다양한 분야에서 뛰어난 성능을 보이고 있다. 하지만 거대 모델의 큰 메모리 요구량으로 인해 미세 조정 (fine-tuning) 및 추론 (inference) 에 서버 규모 GPU 여러 장을 필요로 한다는 문제가 있다. 이런 문제를 해결하기 위해 모델 가중치의 비트 수를 낮추는 가중치 양자화 (weight quantization) 가 사용되지만, 이 때 표현 가능한 숫자 범위 또한 줄어들어 모델 추론 성능이 감소하는 문제가 존재한다. 본 연구의 결과물을 활용하면 대규모 언어 모델의 성능을 유지하면서 서비스에 필요한 GPU의 요구량을 크게 줄일 수 있다. [포스텍이 가진 고유의 기술] 대규모 언어 모델에 양자화를 적용할 시 성능이 감소하는 주요 원인은 활성화 값 (activation) 의 특정 채널에서 절대값이 매우 큰 이상치 (outlier) 가 발생하기 때문이다. 본 연구에서는 위 특성을 고려하여 활성화 이상치에 대한 가중치의 민감도를 정의하고 이를 기반으로 민감한 가중치는 높은 정밀도로 유지하는 혼합 정밀도 양자화 (mixed-precision quantization) 방법을 제안하였다. 우리의 방법은 최적화된 GPU 혼합 정밀도 연산 커널을 개발하여 기존의 방법에 비해서 매우 적은 오버헤드로 크게 향상된 성능을 보인다. 또한 양자화 후 높은 정밀도로 유지한 가중치만 조정하는 효율적인 미세 조정 기법을 제안하였고 기존 방법들에 비해 더 적은 학습 파라미터를 이용해 유사한 성능으로 조정됨을 보였다. [연구의 의미] 본 연구에서는 모델 가중치 양자화 시 낮은 비트 수의 장점을 유지하면서 원래 모델의 성능을 거의 보존하는 새로운 경량화 방법을 제안하였다. 그 과정에서 활성화 값 이상치가 가중치 양자화에 중요한 영향을 미침을 보였다. 아울러 해당 양자화 기법을 활용하여 미세 조정 시 메모리 사용량을 크게 줄이는 효율적인 조정 방법을 제안하였다. 이를 통해 메모리 용량이 제한된 일반 사용자용 GPU 등에서도 대규모 언어 모델의 추론 및 미세 조정이 가능하게 되어 언어 모델의 활용 및 연구의 장벽을 낮춘 것이 가장 큰 의미이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 인공지능 분야 최우수 국제학술대회인 Association for the Advancement of Artificial Intelligence (AAAI) 2024에서 포스터로 발표될 예정이다. 향후 대규모 언어 모델의 효율적인 학습 및 실제 서비스를 낮은 비용으로 제공하기 위한 최적화 연구를 계획 중이다. [성과와 관련된 실적] Changhun Lee*, Jungyu Jin*, Taesu Kim, Hyungjun Kim, Eunhyeok Park, “OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models”, AAAI 2024 [성과와 관련된 이미지]
박은혁 교수 2024.01.04 3344 -
[박은혁 교수] Temporal Dynamic Quantization for Diffusion Models
[연구의 필요성] 새로운 데이터를 생성하는 기술인 생성 모델(Generative Model)은 인공지능의 핵심적인 기술 중 하나로, 실제 데이터와 유사한 높은 품질의 데이터를 만들 수 있는 기술이다. 여러 생성 모델중 최근 확산 모델 (Diffusion Model)이 높은 생성 품질로 최근 각광을 받고 있지만, 한 데이터를 생성하기 위해 순수한 노이즈로 부터 여러번 노이즈를 제거하는 과정을 거쳐야하기 때문에 수행시간이 느리다는 단점이 있다. 이러한 문제를 해결하기 위해 대표적으로 모델의 가중치와 활성화 값의 비트수를 낮추는 양자화(Quantization)가 대표적으로 사용되고 있지만, 아직 높은비트수에서도 성능이 크게 하락하는 문제가 있었다. [포스텍이 가진 고유의 기술] 확산 모델에서 양자화 시 성능이 하락하는 주요한 원인은 뉴럴 네트워크의 각 레이어의 활성화 값의 분포가 시간에 따라 크게 차이가 나기 때문이다. 본 연구에서는 이러한 분포차이에 대응하기 위해, 확산 모델의 시간 정보를 입력으로 하여 각 시간의 양자화 간격을 학습할수 있는 네트워크를 두는 방법을 제안하였다. 또한 네트워크의 빠른 학습을 위해 시간 정보를 여러 주파수의 성분을 가지는 피쳐로 바꾸는 주파수 인코딩(Frequency Encoding)과 네트워크의 초기 출력을 적절한 양자화 간격으로 초기화 하는 방법을 제시하였다. 실제로 우리의 방법을 적용했을때 기존 양자화 방법들보다 더 좋은 성능을 내는 것을 실험적으로 보여주었다. [연구의 의미] 본 연구에서는 확산 모델을 위한 안정적이고 성능이 뛰어난 경량화 방법을 제안하였다. 이를 통해 확산 모델을 모바일 기기나 임베디드 디바이스 같은 성능이 제한된 기기에서도 좋은 성능으로 구동할 수 있게 되었다는 것이 이번 연구의 의미이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 최우수 학술대회중 하나인 NeurIPS 2023에서 포스터로 발표되었다. 시간 정보만이 아닌 텍스트와 같은 여러 정보들을 함께 고려하여 더 좋은 양자화 파라미터를 탐색하는 것이 향후 계획이다. [성과와 관련된 실적] Junhyuk So*, Jungwon Lee*, Daehyun Ahn, Hyungjun Kim, Eunhyeok Park, “Temporal Dynamic Quantization for Diffusion Model”, NeurIPS 2023 [성과와 관련된 이미지]
박은혁 교수 2024.01.03 3188 -
[이남훈 교수] The Effects of Overparameterization on Sharpness-aware Minimization: An Empirical and Theoretical Analysis
[연구의 필요성] 과모수화된 신경망 (overparameterized neural network)을 학습시키는 것은 학습 손실 (training loss)은 같지만 일반화 성능은 다른 여러 개의 최소점을 만들어낸다. 최소점의 첨예도 (sharpness)와 일반화 오차 (generalization error) 간에 상관관계가 있다는 증거가 늘어나면서, 더 일반화가 잘 되는 솔루션을 위해 평탄한 최소점을 찾기 위한 최적화 방법들이 개발되어 왔다. 하지만, 과모수화가 이러한 첨예도 인식 최소화 (sharpness-aware minimization; SAM)에 미치는 영향에 대해서는 아직 많은 연구가 이루어지지 않은 상태이다.\ [포스텍이 가진 고유의 기술] 본 연구에서는 과모수화가 SAM에 중대한 영향을 끼치는 것을 경험적,이론적으로 분석하여 다음의 사실을 밝혀내었다. 1) 확률적 SAM이 과모수화 하에서는 선형 수렴 속도를 얻는다. 2) SAM의 선형 안정적인 최소점이 SGD에 비해 더 평탄하면서 균일하게 분포된 헤세 행렬 모멘트를 가진다. 3) 매개변수 수가 늘어남에 따라 SAM의 일반화 성능 향상폭이 늘어난다. 4) 같은 수의 매개변수를 가진 모델 중 밀접한 (dense) 모델에 비해 희박한 (sparse) 모델에서 SAM의 일반화 성능 향상폭이 더 커진다. [연구의 의미] 본 연구는 수렴 속도, 일반화 성능 등의 여러 측면에서 SAM이 과모수화된 모델을 학습시킬 때 가지는 여러 이점을 보여준다. 이는 현재 트렌드인 대규모/효율적 학습 환경에서 SAM이 지니고 있는 큰 잠재력을 보여주며 실제로 현업에서 대규모 모델을 학습시킬 때 SAM을 쓰는 것을 적극 고려해볼 수 있음을 시사한다. [연구결과의 진행 상태 및 향후 계획] 다른 첨예도 최소화 기법에 대해 분석을 확장하거나 다른 모델 압축 기법과 SAM의 상관관계에 대해서 분석하는 등으로 연구를 확장하는 것을 계획하고 있다. [성과와 관련된 실적] 2023 한국인공지능학회 추계학술대회 최우수논문상 수상 [성과와 관련된 이미지]
이남훈 교수 2023.12.08 2652 -
[이근배 교수] Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation
[연구의 필요성] 세계에는 수 많은 언어가 있지만, 대부분의 언어 기술 개발은 소수의 널리 사용되는 언어에 집중되어 있습니다. 저자원 언어 (low resource languages) 연구는 모든 언어 사용자에게 언어 기술의 혜택을 제공하는 것을 목표로 합니다. 저자원 언어에서의 음성인식 성능을 향상시키기 위해서 음성 데이터외의 텍스트 데이터를 활용할 수 있는 방법과 언어간 정보 교환 방법을 제시합니다. 또한 저자원 언어를 지원하는 기술을 개발함으로써, 보건, 교육, 법률 지원 등과 같은 다양한 자연어처리 서비스를 사용자의 모국어로 제공할 수 있습니다. [연구의 의미] 이 연구는 음성 인식(ASR)과 같은 언어 기술을 저자원 언어로 확장하는 데 중요한 기여를 합니다. 사용자의 발화를 음성기호를 먼저 인식한 후, 기계 번역 기술을 활용하여 언어별 텍스트로 변환하는 방법을 채택하여 언어간 음성의 특성을 더욱 잘 공유할 수 있습니다. 음성기호를 언어별 텍스트로 번역하는 과정에 다량의 텍스트 데이터를 활용하여 사전학습을 진행할 수 습니다. 또한 이러한 음성인식 과정을 최적화 할 수 있는 다양한 방법론을 제시합니다. 이를 통해 널리 사용되지 않는 언어들도 기술의 혜택을 받을 수 있게 됩니다. [연구결과의 진행 상태 및 향후 계획] 10개 국어의 음성인식을 지원하는 현 연구를 바탕으로 추가적인 데이터 확보 및 활용을 통해 인식 가능한 언어의 수를 늘리며 동시에 언어 간의 정보 공유를 극대화하여 기존 언어에서의 음성인식 성능 또한 향상시킬 계획입니다. [성과와 관련된 실적] Accepted, IEEE Workshop on Automatic Speech Recognition and Understanding, 2023 [성과와 관련된 이미지]
이근배 교수 2023.12.05 2431 -
[박찬익 교수] A Novel Cross-Shard Protocol for Hierarchical State Sharding Blockchain
[연구의 필요성] 블록체인 기반 서비스 확산을 위해서는 블록체인 성능 확장성을 높이는 것이 중요하다. 본 연구는 5/6세대 통신에서 구현되는 에지 컴퓨팅 특성을 활용하여 블록체인 성능 확장성을 높이는 것을 목표로 한다. 구체적으로, 에지 컴퓨팅은 계층성을 가지며 이는 상위 레벨의 대규모 클라우드 서버들과 하위 레벨의 소규모 에지 서버들로 구성되며, 각 레벨은 물리적 위치 기반의 샤딩 존으로 분할된다. 사용자들은 같은 존의 다른 사용자들과 대부분의 거래를 수행하며, 일부 사용자들은 다른 존으로 이동하여 새로운 존에서 거래를 수행할 수 있다. 따라서, 사용자 이동성을 적절히 다루지 않으면, 크로스 샤드 트랜잭션이 지속적으로 증가하므로 오버헤드가 커진다. [포스텍이 가진 고유의 기술] 위와 같은 에지 컴퓨팅의 특성을 고려하여, 개별 샤드를 처리하는 로컬 체인과 크로스 샤드를 처리하는 메인체인으로 구성된 새로운 계층적 블록체인 플랫폼을 제안하였다. 상위 메인체인에서의 합의 과정을 통해 효과적으로 크로스 샤드 트랜잭션 처리를 지원하며, 또한 사용자 이동성을 고려하는 동적 지역성 프로토콜을 지원한다. 기존 블록체인 트랜잭션 처리 구조인 실행-정렬-검증 (Execute-Order-Validate, XOV) 모델을 계층적 샤딩 환경에 맞춘 정렬-실행-정렬-검증 (Order-Execution-Order-Validation) 모델을 제안하여 실효성을 평가하였다. [연구의 의미] 최근 5/6세대 이동통신 (5G/6G) 네트워크 기술이 등장함에 따라, 그 근간이 되는 에지 컴퓨팅의 중요성이 날로 커지고 있다. 에지 컴퓨팅의 주요 서비스로는 사물 인터넷, 스마트 시티, 스마트 공장, 자율 주행 자동차, 자전거 및 차량 공유 서비스와 같은 긱 이코노미 (Gig economy), 하이퍼 로컬 서비스 등의 다양한 시나리오들을 포함한다. 하지만, 에지 컴퓨팅 환경상에서의 블록체인 연구는 에지 컴퓨팅 자원 할당/분배 등 자원 관리 측면에서 블록체인 기법을 적용하는 방향이 대부분이며, 블록체인 성능 확장성 해결을 위해 에지 컴퓨팅 환경을 직접적으로 활용하는 연구는 매우 초기 단계이다. 따라서, 본 연구는 이러한 방향으로의 초기 연구로써 높은 잠재성을 갖는다고 판단하며, 우리나라가 세계 최초로 상용화에 성공한 5세대 통신 뿐 아니라 향후 6세대 통신까지 글로벌 서비스 경쟁력을 확보하는 의미를 가진다. [연구결과의 진행 상태 및 향후 계획] 현재 연구의 초기 버전은 개발 및 평가가 완료되었으며 연구 신뢰성을 위해 국제 논문을 작성하여 피어 리뷰를 받고, 향후 실제 에지컴퓨팅 환경에 사용 가능한 플랫폼화 작업을 진행 중이다. [성과와 관련된 실적] 1. A Novel Cross-Shard Protocol for Hierarchical State Sharding Blockchain, Yongrae Jo, Chanik Park, The 29th ACM Symposium on Operating System Principles, Poster Presentation, October 23 – October 26, 2023, Koblenz 2. A Blockchain Sharding Protocol supporting Dynamic Locality in Mobile Edge Computing, Yongrae Jo, Chanik Park, the 13th International Conference on ICT Convergence (ICTC 2022), October 19 – October 21, 2022, Jeju 3. 에지 컴퓨팅을 위한 계층적 블록체인에서의 통합 실행 모델, 조용래, 박찬익, 2023 한국컴퓨터종합학술대회 4. MEC-Chain : 동적 지역성을 지원하는 고성능 블록체인, 조용래, 박찬익, 2022 한국컴퓨터종합학술대회 [성과와 관련된 이미지]
박찬익 교수 2023.12.04 2386 -
[김광선 교수] Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory
[연구의 필요성] 다양한 응용에서 다루는 데이터의 크기가 빠르게 증가함에 따라, 이를 가속하는 GPU의 메모리 용량 부족 문제가 점차 심화되고 있다. 현재 고성능 GPU에 사용되는 High-Bandwidth Memory(HBM)는 최신 딥러닝 모델 및 대규모 그래프 분석 등에서 요구하는 메모리 용량을 제공하지 못한다. 이로 인한 GPU 메모리 용량 초과(oversubscription) 문제는 CPU와 GPU 간의 반복적인 데이터 이동과 이로 인한 성능 저하를 유발한다. GPU 메모리 oversubscription을 피하기 위해 여러 GPU를 사용하거나 더 많은 메모리 장치를 가진 더 큰 GPU를 만들 수 있지만, 이는 GPU의 비용을 초선형으로 증가하게 만든다. 한편, 최근에 Storage-Class Memory (SCM)가 DRAM의 용량 제한 문제를 해결할 수 있는 잠재적인 해결책으로 주목받고 있다. 하지만 SCM으로 GPU의 DRAM을 완전히 대체하는 것은 높은 지연시간과 에너지 소비, 낮은 대역폭, 제한적인 내구성 때문에 문제가 된다. 이를 완화하기 위해 SCM과 DRAM 캐시를 함께 사용하는 것이 해결책이 될 수 있으나, 기존 DRAM 캐시 연구는 지연시간에 민감한 CPU 환경에 초점을 맞추었으며, GPU 워크로드와 SCM의 특성을 종합적으로 고려하지 않아 GPU 메모리 시스템에서 그대로 이용하기 적합하지 않다. 따라서, 본 연구는 GPU를 위해 SCM과 DRAM 캐시를 함께 사용하는 메모리 시스템을 설계하여 GPU 메모리 용량 제한을 비용 효율적으로 극복하는 방안을 제시한다. [포스텍이 가진 고유의 기술] 본 연구에서는 SCM으로 인한 성능 하락을 최소화하기 위해 SCM의 장치 특성과 GPU의 메모리 접근 패턴을 종합적으로 고려한 Score metric를 새롭게 정의하고 이를 기반으로 ‘GPU를 위한 SCM 인지 DRAM 캐시 우회 정책’을 제안했다. 또한 DRAM 캐시 태그 접근으로 인한 오버헤드를 최소화하며 유효 DRAM 대역폭을 증가시키기 위해 L2 캐시의 일부를 DRAM 캐시 라인 태그를 저장하는 용도로 사용하는 Configurable Tag Cache (CTC)를 제안했다. CTC miss로 인한 DRAM 캐시 태그 접근 오버헤드 또한 줄이기 위해 모든 DRAM 캐시 라인 태그 및 메타데이터를 각 DRAM 행 내 하나의 열에 공동 배치하는 Aggregated Metadata-In-Last-column (AMIL) DRAM cache 구조를 제안했다. 이 구조는 기존 Tag-And-Data (TAD) 방식의 DRAM 캐시 구조가 ECC 보호 기능을 유지하지 못하는 문제를 극복하기도 한다. [연구의 의미] 본 연구는 세계 최초로 GPU 워크로드를 고려한 효율적인 DRAM cache와 SCM 통합 메모리 시스템을 설계했다. 이는 GPU의 메모리 용량을 크게 증가시켜 메모리 oversubscription으로 인한 성능 저하를 해결한다. 또한, 본 연구는 SCM이 CPU 환경에 비해 GPU 환경에는 적합하지 않다는 인식을 깨고, GPU 시스템에서도 SCM의 성능 영향을 최소화하여 사용할 수 있음을 보였다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 2024년 컴퓨터 아키텍처 분야 최우수 국제학술대회인 IEEE International Symposium on High-Performance Computer Architecture (HPCA)에서 발표될 예정이다. 향후 대용량 메모리를 요구하는 초거대 AI를 위한 GPU기반 학습 및 추론 시스템에 HMS를 이용하여 성능을 높이고 비용을 낮추는 연구를 계획중이다. [성과와 관련된 실적] a. Jeongmin Hong, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong, and Gwangsun Kim, “Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory”, HPCA’24 (Accepted) b. Jeongmin Hong, Sungjun Cho, and Gwangsun Kim. “Overcoming Memory Capacity Wall of GPUs With Heterogeneous Memory Stack.” IEEE Computer Architecture Letters 21.2 (2022): 61-64 c. 김광선, 조성준, 홍정민. 하이브리드 메모리 장치 및 그 관리 방법. 국내 특허 출원 (출원번호: 10-2022-0172820). [성과와 관련된 이미지]
김광선 교수 2023.11.30 3515



