최신연구

[김광선 교수] Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory

2023-11-30
  • 2,079

[연구의 필요성]
다양한 응용에서 다루는 데이터의 크기가 빠르게 증가함에 따라, 이를 가속하는 GPU의 메모리 용량 부족 문제가 점차 심화되고 있다. 현재 고성능 GPU에 사용되는 High-Bandwidth Memory(HBM)는 최신 딥러닝 모델 및 대규모 그래프 분석 등에서 요구하는 메모리 용량을 제공하지 못한다. 이로 인한 GPU 메모리 용량 초과(oversubscription) 문제는 CPU와 GPU 간의 반복적인 데이터 이동과 이로 인한 성능 저하를 유발한다. GPU 메모리 oversubscription을 피하기 위해 여러 GPU를 사용하거나 더 많은 메모리 장치를 가진 더 큰 GPU를 만들 수 있지만, 이는 GPU의 비용을 초선형으로 증가하게 만든다. 한편, 최근에 Storage-Class Memory (SCM)가 DRAM의 용량 제한 문제를 해결할 수 있는 잠재적인 해결책으로 주목받고 있다. 하지만 SCM으로 GPU의 DRAM을 완전히 대체하는 것은 높은 지연시간과 에너지 소비, 낮은 대역폭, 제한적인 내구성 때문에 문제가 된다. 이를 완화하기 위해 SCM과 DRAM 캐시를 함께 사용하는 것이 해결책이 될 수 있으나, 기존 DRAM 캐시 연구는 지연시간에 민감한 CPU 환경에 초점을 맞추었으며, GPU 워크로드와 SCM의 특성을 종합적으로 고려하지 않아 GPU 메모리 시스템에서 그대로 이용하기 적합하지 않다. 따라서, 본 연구는 GPU를 위해 SCM과 DRAM 캐시를 함께 사용하는 메모리 시스템을 설계하여 GPU 메모리 용량 제한을 비용 효율적으로 극복하는 방안을 제시한다.

[포스텍이 가진 고유의 기술]
본 연구에서는 SCM으로 인한 성능 하락을 최소화하기 위해 SCM의 장치 특성과 GPU의 메모리 접근 패턴을 종합적으로 고려한 Score metric를 새롭게 정의하고 이를 기반으로 ‘GPU를 위한 SCM 인지 DRAM 캐시 우회 정책’을 제안했다. 또한 DRAM 캐시 태그 접근으로 인한 오버헤드를 최소화하며 유효 DRAM 대역폭을 증가시키기 위해 L2 캐시의 일부를 DRAM 캐시 라인 태그를 저장하는 용도로 사용하는 Configurable Tag Cache (CTC)를 제안했다. CTC miss로 인한 DRAM 캐시 태그 접근 오버헤드 또한 줄이기 위해 모든 DRAM 캐시 라인 태그 및 메타데이터를 각 DRAM 행 내 하나의 열에 공동 배치하는 Aggregated Metadata-In-Last-column (AMIL) DRAM cache 구조를 제안했다. 이 구조는 기존 Tag-And-Data (TAD) 방식의 DRAM 캐시 구조가  ECC 보호 기능을 유지하지 못하는 문제를 극복하기도 한다.

[연구의 의미]
본 연구는 세계 최초로 GPU 워크로드를 고려한 효율적인 DRAM cache와 SCM 통합 메모리 시스템을 설계했다. 이는 GPU의 메모리 용량을 크게 증가시켜 메모리 oversubscription으로 인한 성능 저하를 해결한다. 또한, 본 연구는 SCM이 CPU 환경에 비해 GPU 환경에는 적합하지 않다는 인식을 깨고, GPU 시스템에서도 SCM의 성능 영향을 최소화하여 사용할 수 있음을 보였다.

[연구결과의 진행 상태 및 향후 계획]
본 연구는 2024년 컴퓨터 아키텍처 분야 최우수 국제학술대회인 IEEE International Symposium on High-Performance Computer Architecture (HPCA)에서 발표될 예정이다.  향후 대용량 메모리를 요구하는 초거대 AI를 위한 GPU기반 학습 및 추론 시스템에 HMS를 이용하여 성능을 높이고 비용을 낮추는 연구를 계획중이다.

[성과와 관련된 실적]
a. Jeongmin Hong, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong, and Gwangsun Kim, “Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory”, HPCA’24 (Accepted)
b. Jeongmin Hong, Sungjun Cho, and Gwangsun Kim. “Overcoming Memory Capacity Wall of GPUs With Heterogeneous Memory Stack.” IEEE Computer Architecture Letters 21.2 (2022): 61-64
c. 김광선, 조성준, 홍정민. 하이브리드 메모리 장치 및 그 관리 방법. 국내 특허 출원 (출원번호: 10-2022-0172820).

[성과와 관련된 이미지]

목록