Part 4 LLM Training
Part 5 Finetuning
Part 6 LLM Inference
Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.
Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT
대상 모델: GPT-2, nanoGPT
실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석
전력 소모 패턴의 주요 특징


1) 급격한 전력 변동
공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.
- 전력 피크: 약 300W까지 순간적으로 상승.
- 피크 지속 시간: 25~50초, 표준편차 약 50W로 변동성 큼.
- 최대 에너지 소모: 1.57kJ로, 짧지만 강렬한 연산 부하를 반영.
2) 모델별 차이
- nanoGPT는 GPT-2에 비해 더 자주, 더 짧은 전력 피크를 보이며, 이는 정보 처리 방식의 차이에서 기인할 수 있음.
- GPT-2는 상대적으로 피크가 덜 빈번하지만, 각 피크의 지속 시간이 더 길 수 있음.
3) Peak-to-Idle Ratio
- Peak to Idle Ratio: 두 모델 모두에서 관찰됨.
- LLM 추론 작업의 동적 특성을 잘 보여줌.
3. 시스템 설계에 대한 시사점
- 전력 공급 및 관리
짧은 시간 내에 전력 소모가 급격히 변동하므로, 전력 공급 시스템이 빠른 부하 변화를 견딜 수 있어야 함.
- 열 관리
- 짧지만 강한 연산 부하로 인해 순간적으로 많은 열이 발생.
- 냉각 시스템은 이러한 단기적 고열 상황에 신속히 대응할 수 있도록 설계되어야 함.
- 하드웨어 최적화
- 빈번한 전력 피크와 아이들 상태 전환에 최적화된 하드웨어 및 소프트웨어 스케줄링 필요.
https://arxiv.org/html/2409.11416v1#S2.F2
The Unseen AI Disruptions for Power Grids: LLM-Induced Transients
Recent years have witnessed the explosive growth of AI applications, from edge devices to large-scale data centers. Large language models (LLMs) such as GPT-4, Llama 3, and BERT have largely pushed the boundaries of modern AI [1, 2, 3]. While such technic
arxiv.org
'Data Center > Data Center' 카테고리의 다른 글
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference) (0) | 2025.07.18 |
---|---|
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 5_(Finetuning) (0) | 2025.07.15 |
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 4 (LLM Training) (0) | 2025.07.12 |
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 3 (0) | 2025.07.07 |
AI Data center 에 필요한 Load(부하) 특성 _ Part 2 (0) | 2025.07.05 |