Large Language Model 경량화를 위한 INT8 기술의 적용과 한계

2022-10-12
  • 2,398

[Abstract]
GPT-3, HyperCLOVA, PaLM 등의 HyperScale 언어 모델의 등장으로, 거대 Generative Language Model을 사용한 새로운 AI 서 비 스 의 가 능 성 이 크게 열리고 있 으 나 , Discountinuous하게 늘어난 성능만큼이나 엄청난 Computation overhead로 인한 서 비스 비용이 문제가 되고 있습니다. 본 발표에서는 거대 Language Model을 위해 int8 uniform quantization 기술이 적 용 한 Microsoft의 ZeroQuant와 Facebook AI의 LLM.int8() 논문을 소개하며, 이 기술들이 가지는 한계와 앞으로 나아가야할 방향에 대 해 논할 것입니다.

[Biography]
2018년 KAIST 전기및전자공학과에서 이산 사건 시스템 모델링 및 시뮬레이션 분야로 박사학위를 받았습니다. 삼성 리서치에서 On-device AI 모델 압축과 H/W Accelerator 연구를 했으며. 네이버에 합류한 뒤로는 HyperCLOVA를 위한 Transformer 압축 기술 을 주로 연구/개발하고 있습니다. 딥러닝 모델과 컴퓨팅 시스템 사이의 간극을 좁히고 AI 모델의 서비스 비용을 줄이기 위한 방법을 주로 연구했으며(Quantization, Pruning 등) 이에 대한 논문들이 CVPR, Neurips, ICLR, EMNLP 등에 채택되었습니다.

LIST