AI Datacenter의 부하(Load) 특성에 대해서 아래 링크를 기준으로 짧게 정리해 보았습니다.
AI Cmpute Node의 구성
AI 작업을 위해서는 아래와 같은 단위의 Component들이 최적화 될 수 있도록 구성이 필요합니다.
a) GPU: 여러 개의 고성능 GPU가 병렬 처리용으로 상호 연결되어 핵심 연산을 담당
b) CPU & 메모리: CPU와 대용량 고대여폭 메모리가 GPU를 지원
c) Storage 및 Netowrk: 빠르고 용량 큰 저장장치와 고속 네트워크 인터페이스로 데이터 처리 및 통신 강화.
d) 냉각 시스템: 고밀도 Rack에서 발생하는 열관리를 위한 냉각 기술 필수
e) 전력 공급: 효율성, 이중화를 고려한 다중 전원 공급 장치 필요
f) Architecture Balance: GPU, CPU, 메모리, 스토리 지 간의 최적화된 데이터 흐름과 계산 작업 필요


위와 같이 물리적으로 구성이 되었다면 본격적으로 AI Training이 시작되고, 이에 따른 Load(부하)가 발생이 됩니다.
AI와 관련된 부하는 다음과 같이 크게 3가지로 구분됩니다.
1. Training(훈련 단계)
- 가장 많은 전력 소비가 발생하며, GPU를 중심으로 모든 시스템 자원이 지속적으로 최대 가동 됨. 수일 ~ 수개월 동안 고부하 유지가 될 수 있음.
2. Fine-tuning(미세 조정 단계)
- 사전 훈련된 모델을 특정 작업에 맞제 조정하는 작업으로, 중간 ~ 높은 수준의 전력이 소비되나 Traning 시보다는 짧은 시간이 소요. CPU 사용률이 간헐적으로 높아지며, 전력 소비에 변동이 있음
3. Inference(추론단계)
- 가장 전은 저력이 소비 되비만 짧고 불규칙한 계산 작업이 특징으로 전력 소비가 급변할 수 있으며, 사용자 행동, 시간대, 외부 이벤트에 영향을 많이 받음.
다양한 전력 사용 패턴을 보여 낮은 지연 시간과 에너지 효율성 간의 균형을 맞추는 것이 중요
AI 전력 부하의 주요 특성
1. High Computational Intensity (높은 계산 강도)
특히 훈련 단계에서 엄청난 양의 floating-point operations(실수 연산)이 필요.
예) 최신 NLP 모델 훈련에는 10⁸ PetaFLOPS 이상이 요구됨. 이는 전통적인 HPC 작업보다 훨씬 높은 계산량이며, 막대한 에너지 소비로 이어짐.
2. 변동성과 예측 불가능성 (Variability and Unpredictability)
전력 소비는 계산 단계와 데이터 특성에 따라 빠르게 변동.
예) 딥러닝 훈련 중 역전파(backpropagation)가 순전파(forward pass)보다 더 많은 전력을 소모. LLM 추론은 사용자 행동에 따라 급격한 전력 피크 발생.
3. 확장성과 비선형 스케일링 (Scalability and Non-linear Scaling)
AI는 엣지 디바이스부터 대규모 데이터센터까지 다양하게 배치됨. 전력 소비는 수 와트에서 수 메가와트까지 확장 가능. 모델 크기가 커질수록 계산 요구와 전력 소비가 비선형적으로 증가. 반면, 반도체 기술 발전과 AI 가속기의 효율 향상은 예측을 복잡하게 만듦.
4. 알고리즘 민감도 (Algorithmic Sensitivity)
하이퍼파라미터나 알고리즘의 작은 변화가 전력 소비에 큰 영향을 줌.
예) 학습률이나 배치 크기 변경 → 수렴 시간 및 에너지 사용량 변화.
5. 24/7 운영 (24/7 Operation)
클라우드 서비스나 지속 학습 환경에서는 상시 운영됨.
예) LLM 훈련은 중단 없이 지속적인 모니터링 필요. 이는 일반적인 IT 부하보다 더 지속적이고 고강도의 전력 품질 요구를 동반.

https://arxiv.org/html/2409.11416v1#S2.F2
The Unseen AI Disruptions for Power Grids: LLM-Induced Transients
Recent years have witnessed the explosive growth of AI applications, from edge devices to large-scale data centers. Large language models (LLMs) such as GPT-4, Llama 3, and BERT have largely pushed the boundaries of modern AI [1, 2, 3]. While such technic
arxiv.org
'Data Center > Data Center' 카테고리의 다른 글
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 5_(Finetuning) (0) | 2025.07.15 |
---|---|
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 4 (LLM Training) (0) | 2025.07.12 |
AI Datacenter 에 필요한 Load(부하) 특성 _ Part 3 (0) | 2025.07.07 |
AI Data center 에 필요한 Load(부하) 특성 _ Part 2 (0) | 2025.07.05 |
CRAC(Computer Room Air Conditioner) Vs. CRAH(Computer Room Air Handler) (0) | 2025.05.08 |