Data Center/Data Center

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 5_(Finetuning)

Move-first 2025. 7. 15. 05:17


Part 4 LLM Training
Part 5 Finetuning
Part 6 LLM Inference

Part 5에서는 Finetuning 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.

Case 2. GPT2-Medium 파인튜닝 시 AMD 7900 XTX GPU 전력 소비 패턴

Fig 13. Power Consumption of GPT-2 medium fine - tuned on AMD GPU 7900 XTX.


GPT2-medium 모델을 AMD 7900 XTX GPU에서 AMD의 가이드에 따라 파인튜닝할 때, 학습 단계별로 뚜렷한 전력 소비 패턴이 나타나며, 전력 소비 그래프(Fig. 13 참조)는 파인튜닝 과정에서 GPU 활용이 어떻게 변화하는지 네 가지 주요 단계를 나타냅니다.


단계별 전력 소비 패턴

1. 초기화 및 세팅 단계 (0–350초)
    - 전력 소비가 일시적으로 급증한 뒤, 낮은 수준으로 떨어짐
    - 모델 초기화, 데이터 로딩, 옵티마이저 세팅 과정에서 나타남
2. 초기 학습 및 러닝레이트 워밍업 (350–1700초)
    - 전력 소비가 250~330W 사이에서 크게 변동하며, 정기적으로 급격히 떨어지는 구간이 반복됨
    - 러닝레이트 워밍업과 파라미터의 급격한 업데이트, 그리고 평가 단계에서 나타남
3. 후반 학습 및 러닝레이트 감소 (1700–3100초)
    - 전력 소비가 여전히 높지만, 변동 폭이 줄어들며 더 일관된 패턴을 보임
    - 러닝레이트가 감소 구간에 진입하고, 파라미터 업데이트가 정교해지면서 나타나는 현상
4. 학습 완료 및 종료 (3100–3200초)
    - 전력 소비가 급격히 감소하며, 학습이 종료시점에 나타남

- 주요 학습 단계에서 전력 소비는 주로 250~330W 범위에서 변동합니다.
- 평가 구간에서는 전력이 거의 0W까지 떨어집니다.
- 각 단계별 전력 소비 패턴은 GPU의 동적 활용과 AI 학습 환경에서의 효율적 전력 관리의 중요성을 보여줌



https://arxiv.org/html/2409.11416v1#S2.F2

The Unseen AI Disruptions for Power Grids: LLM-Induced Transients

Recent years have witnessed the explosive growth of AI applications, from edge devices to large-scale data centers. Large language models (LLMs) such as GPT-4, Llama 3, and BERT have largely pushed the boundaries of modern AI [1, 2, 3]. While such technic

arxiv.org