Data Center/Data Center

AI Data center 에 필요한 Load(부하) 특성 _ Part 2

Move-first 2025. 7. 5. 05:16


AI 데이터센터에 얼마나 많은 전력이 사용되는지 측정하기 위해 사용되는 주요 전력 지표는 다음과 같습니다.

1. TDP (Thermal Design Power):
실제 하드웨어가 소비할 수 있는 최대 전력. (GPU에 소요되는 전력은 거의 대부분 열로 변환되기 때문에 열과 전력의 관계로 연결됨) 으로, 냉각 시스템 설계에 필수적이며 특히 대형 모델 훈련 시 TDP 한계까지 하드웨어가 작동함.
- 활용: 데이터센터의 용량 계획 및 장비 수명 관리

2. GPU Utilization (GPU 활용률)
GPU 자원이 얼마나 사용되고 있는지를 나타내는 비율로 직접적인 전력 측정은 아니지만, 전력 소비와  연관성이 큼.
- 활용: 워크로드 분산, 에너지 효율 최적화, 자원 통합 기회 파악에 유용.

3. PUE (Power Usage Effectiveness)
데이터센터 전체 에너지 소비 대비 컴퓨팅 장비에 전달된 에너지 비율로 AI 워크로드는 높은 계산 수요로 인해 PUE에 큰 영향을 미침.
- 활용: 에너지 효율적인 운영을 위해 냉각 솔루션 개선 필요.

4. Peak/Average Ratio (최대/평균 전력 비율)
최대 전력 소비량과 평균 전력 소비량의 비율로 AI 훈련은 일반적으로 지속적으로 높은 전력 소비를 보여 비율이 1에 가까움.
비교: 일반 데이터센터는 1.5~2.0 수준 → AI는 전력 공급 설계에 더 높은 안정성 요구.

5. Peak/Idle Ratio (최대/유휴 전력 비율)
AI work load가 활성 상태에서 유휴 상태로 전환될 때 전력 소비 변화의 크기를 나타내며, 훈련 중단 시 전력 소비가 급격히 감소 → 지역 전력 흐름에 큰 영향. 전력 시스템 설계 시, 빠른 상태 전환을 감당할 수 있는 인프라가 필요.

6. dP/dt (전력 변화율)
시간에 따른 전력 소비 변화 속도를 나타내며 AI 데이터센터에서 훈련이 갑작스럽게 중단되면, 수 초 이내에 내부 전력 흐름이 급변. ESS(에너지 저장 시스템)등이 이를 Cover하지 못하면 지역 전력망에 영향 발생. AI 워크로드의 동적 특성을 이해하고 관리하는 데 필수적인 지표.

기타 세부 지표:
a) Ramping Rate & Decline Rate Ramping Rate:
AI 작업 시작 시 전력 소비가 얼마나 빠르게 증가하는지를 나타냄
예: 대규모 훈련 시작 → GPU가 즉시 최대 부하로 작동.

b) Decline Rate:
작업 종료 또는 중단 시 전력 소비가 얼마나 빠르게 감소하는지를 나타냄
예: 훈련 종료 → 전력 소비 급감.

활용 분야:
전력 공급 시스템 설계
작업 스케줄링 최적화
ESS 용량 및 구성
전력망 안정성 확보


https://arxiv.org/html/2409.11416v1#S2.F2

The Unseen AI Disruptions for Power Grids: LLM-Induced Transients

Recent years have witnessed the explosive growth of AI applications, from edge devices to large-scale data centers. Large language models (LLMs) such as GPT-4, Llama 3, and BERT have largely pushed the boundaries of modern AI [1, 2, 3]. While such technic

arxiv.org