Data Center/Data Center

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 3

Move-first 2025. 7. 7. 05:06


Total Data Center Power Consumption
(MIT Supercloud Dataset 예시)

시스템 구성 및 Data 는 아래와 같이 구성되어 있으며 BERT*) 라는 모델을 사용하였을때 부하의 변동을 정리한 내용입니다.

System Overview
: TXGaia Cluster at MIT’s datacenter.
224 GPU-accelerated nodes, each with:
- Two 20-core Intel Xeon Gold 6248 CPUs (384GB RAM).
- Two NVIDIA Volta V100 GPUs (32GB RAM each).
- Additional CPU-only nodes.

Dataset Composition (~2.1 TB)
Time series data:
  - CPU & GPU utilization.
  - Memory usage.
  - GPU temperature.
  - Node state snapshots.
  - File I/O.
  - Scheduler logs.

*) BERT 모델 개요 (Bidirectional Encoder Representations from Transformers)
- BERT 는 NLP(자연어 처리) 분야에서 널리 사용되는 Transformer 기반의 사전 학습 모델로 대규모 비지도 텍스트 데이터로 학습되어, 문맥을 양방향으로 이해 가능.
- 데이터셋에는 CPU/GPU 사용률, 메모리 사용량, GPU 온도, 파일 입출력, 스케줄러 로그 등 다양한 시계열 시스템 데이터가 포함됨
- BERT 작업의 전력 소비 특성
  BERT 모델은 전력 소비가 매우 동적(dynamic)으로, 최대 약 50kW까지 도달할 수 있으며, 낮은 전력 상태와 높은 전력 상태를 자주 반복함. 이러한 변화는 모델의 작동 단계에 따라 발생하며, 데이터 로딩 순방향 계산 (forward pass) 역전파 (backward pass) 파라미터 업데이트에 따름  

Power Consumption of BErT in MIT Supercloud Dataset (4일간 기록)

- 4일동안 Peack power는 48.7kw, Aver. 17.8kw, Standard deviation: 12.39kw 을 기록함 ( 전력 소비의 시간에 따른 변화 → 급격한 상승과 하강이 반복됨.)

Power Consumption CDF of BERT

그래프를 해석해 보자면 아래와 같습니다.
(가로축은 Power Draw(장치나 시스템이 작동하면서 소비하는 전력의 양),  세로축은 유지되는 시간 비중입니다. 예를 들어 0~8kw 구간에서 시간 비중이 35~45%라면 0~8kw 사용하는 시간이 전체 사용 시간의 35~45% 라는 뜻입니다.)

BERT 모델을 사용했을 때 전력이 순간적으로 50kw까지도 올라갔지만 4일(96시간) 중에 약 2시간 남짓에 불과합니다. 하지만 그 짧은 시간을 cover하기 위해 냉각. 전원. 그리드 설계 난이도를 결정합니다.


세로축은 일어날 확률을, 가로축은 Ramping rate 즉 변화 정도를 나타냅니다. ramping rate가 거의 0 ~ 0.5 kw 범위에 있을때 나타날 확률이 가장 높게 나타납니다.(위로 뾰족) 즉 대부분의 순간에는 전력의 변화가 크지 않지만 가끔식 1초에 10~20kW까지 up/dwon이 있어 설계시에는 +-20kw/s 램프를 수 초 동안 견딜 수 있는 크기로 BESS, UPS등이 설계되어야 합니다.

그럼 다음 Part 4에서 Case Study를 통해 조금 더 load fluctuation(부하변동)에 대해서 더 알아보도록 하겠습니다.