Data Center/Data Center

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference)

Move-first 2025. 7. 21. 05:13


Part 4 LLM Training
Part 5 Finetuning
Part 6 LLM Inference

Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.

Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT

대상 모델: GPT-2, nanoGPT
실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석

전력 소모 패턴의 주요 특징

Fig 14. Power Consumption of inference of nanoGPT running on setup 2.
Fig 15. Power Consumption of Inference of GPT-2 medium running on setup 2.



1) 급격한 전력 변동

공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.
- 전력 피크: 약 300W까지 순간적으로 상승.
- 피크 지속 시간: 25~50초, 표준편차 약 50W로 변동성 큼.
- 최대 에너지 소모: 1.57kJ로, 짧지만 강렬한 연산 부하를 반영.

2) 모델별 차이

- nanoGPT는 GPT-2에 비해 더 자주, 더 짧은 전력 피크를 보이며, 이는 정보 처리 방식의 차이에서 기인할 수 있음.
- GPT-2는 상대적으로 피크가 덜 빈번하지만, 각 피크의 지속 시간이 더 길 수 있음.

3) Peak-to-Idle Ratio

- Peak to Idle Ratio: 두 모델 모두에서 관찰됨.
    - LLM 추론 작업의 동적 특성을 잘 보여줌.

3. 시스템 설계에 대한 시사점

- 전력 공급 및 관리
   짧은 시간 내에 전력 소모가 급격히 변동하므로, 전력 공급 시스템이 빠른 부하 변화를 견딜 수 있어야 함.
- 열 관리
    - 짧지만 강한 연산 부하로 인해 순간적으로 많은 열이 발생.
    - 냉각 시스템은 이러한 단기적 고열 상황에 신속히 대응할 수 있도록 설계되어야 함.
- 하드웨어 최적화
    - 빈번한 전력 피크와 아이들 상태 전환에 최적화된 하드웨어 및 소프트웨어 스케줄링 필요.


https://arxiv.org/html/2409.11416v1#S2.F2

The Unseen AI Disruptions for Power Grids: LLM-Induced Transients

Recent years have witnessed the explosive growth of AI applications, from edge devices to large-scale data centers. Large language models (LLMs) such as GPT-4, Llama 3, and BERT have largely pushed the boundaries of modern AI [1, 2, 3]. While such technic

arxiv.org