최신연구
[김광선 교수] PyTorchSim: A Comprehensive, Fast, and Accurate NPU Simulation Framework
- 등록일2025.08.05
- 조회수2174
-

교수김광선
[연구의 필요성]
거대언어모델 등 딥러닝 모델의 규모가 지속적으로 증가함에 따라, 이를 효율적으로 처리하기 위한 고성능, 고효율 연산기인 NPU(Neural Processing Units) 구조의 설계 고도화가 중요해지고 있다. NPU 구조 설계 과정에서는 성능 평가를 위한 시뮬레이터가 필수적이다. 하지만 기존의 NPU 시뮬레이터는 고속 처리, 멀티코어 및 멀티모델 실행, 벡터 연산을 포함한 범용 ISA, 컴파일러 연동, 데이터 의존적 타이밍 모델, 그리고 추론과 학습 모두를 포괄적으로 지원하지 못하는 한계를 가지고 있다. 이를 해결하기 위해 본 연구는 PyTorch 2 부터 지원되는 컴파일 모드와 통합된 새로운 NPU 시뮬레이션 프레임워크인 PyTorchSim을 제안한다.
[포스텍이 가진 고유의 기술]
PyTorchSim은 Systolic array 을 포함하는 다양한 가속 유닛들을 지원하도록 확장된 커스텀 RISC-V 기반 ISA를 기반으로 NPU를 모델링한다. PyTorchSim의 PyTorch 2 컴파일러 커스텀 백엔드는 MLIR과 LLVM을 기반으로 한 컴파일 과정을 통해 PyTorch 모델 코드를 타겟 ISA로 컴파일하고, 이를 확장된 Gem5와 Spike 시뮬레이터에서 실행함으로써 NPU 상에서 DNN의 타이밍 특성과 기능적 동작을 상세히 모델링한다. 또한 명령어 수준 시뮬레이션(Instruction-Level Simulation) 방식이 본질적으로 실행 속도가 느린 한계를 극복하기 위해, 타일 수준 시뮬레이션(Tile-Level Simulation, TLS) 기술을 개발하였다. 컴파일러 백엔드는 TLS를 위해 타일 단위의 의존성 그래프를 생성하여, 이 그래프 내에서 타일 단위의 결정론적(Deterministic)인 코어 연산 시간과 메모리 등 공유 자원 접근에 의한 비결정론적(Non-deterministic) 소요 시간을 구분하여 모델함으로써 높은 속도와 정확도를 모두 달성하였다.
[연구의 의미]
본 연구는 차세대 NPU 구조의 설계 및 최적화를 위한 고속, 정밀 시뮬레이션 기반을 제공한다는 점에서 학문적‧산업적으로 모두 중요한 의의를 가진다. 특히 딥러닝 컴파일러 및 자동미분(Auto-differentiation)을 지원하는 세계 최초의 오픈소스 NPU 시뮬레이터로서, 하드웨어 구조 뿐만 아니라 컴파일러 최적화의 성능 영향을 평가하고 모델 추론 뿐만 아니라 학습 단계까지 정확히 모델하여 NPU 설계에 활용을 가능하게 한다. 이로써 기존에 NPU 구조 연구가 이뤄지기 어려웠던 영역에서의 연구를 활성화하고, 하드웨어 발전에 의존하는 딥러닝 기술 발전 가속에 기여할 것으로 기대한다.
[연구결과의 진행 상태 및 향후 계획]
PyTorchSim은 오픈소스 프로젝트로서 NPU 구조 연구 커뮤니티의 참여를 유도함으로써 지속적인 딥러닝 모델 발전과 NPU 구조 및 컴파일러 등 소프트웨어 스택의 발전에 대응하며 개발을 지속할 계획이다. 또한 PyTorchSim을 고도화하여 현재 본 연구실에서 진행중인 딥러닝 가속 시스템 연구에 활용할 것이다. 특히 거대언어모델, 에이전트 AI 등 인공지능 기술 발전에 효과적이고 유연하게 대응할 수 있는 NPU 및 이에 기반한 데이터센터 규모 시스템의 하드웨어-소프트웨어 동시설계(Co-design) 연구 추진에 활용할 계획이다.
[성과와 관련된 실적]
Wonhyuk Yang*, Yunseon Shin*, Okkyun Woo*, Geonwoo Park, Hyungkyu Ham, Jeehoon Kang, Jongse Park, Gwangsun Kim, " PyTorchSim: A Comprehensive, Fast, and Accurate NPU Simulation Framework," To appear in the 58th IEEE/ACM International Symposium on Microarchitecture (MICRO) (Acceptance rate: 20.8%) (*: co-first authors)
Hyungkyu Ham∗, Wonhyuk Yang∗, Yunseon Shin, Okkyun Woo, Guseul Heo, Sangyeop Lee, Jongse Park, Gwangsun Kim, “ONNXim: A Fast, Cycle-level Multi-core NPU Simulator,” IEEE Computer Architecture Letters 23.2 (2024):219-222 (*: co-first authors)
[성과와 관련된 이미지]






