Data Center 8

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT대상 모델: GPT-2, nanoGPT실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석전력 소모 패턴의 주요 특징1) 급격한 전력 변동공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.- 전력 피크: 약 300W까지 순간적으로 상승.- 피크 지속 시간: 25~50초, 표준편차 약 50..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT대상 모델: GPT-2, nanoGPT실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석전력 소모 패턴의 주요 특징1) 급격한 전력 변동공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.- 전력 피크: 약 300W까지 순간적으로 상승.- 피크 지속 시간: 25~50초, 표준편차 약 50..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 5_(Finetuning)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 5에서는 Finetuning 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다. Case 2. GPT2-Medium 파인튜닝 시 AMD 7900 XTX GPU 전력 소비 패턴GPT2-medium 모델을 AMD 7900 XTX GPU에서 AMD의 가이드에 따라 파인튜닝할 때, 학습 단계별로 뚜렷한 전력 소비 패턴이 나타나며, 전력 소비 그래프(Fig. 13 참조)는 파인튜닝 과정에서 GPU 활용이 어떻게 변화하는지 네 가지 주요 단계를 나타냅니다.단계별 전력 소비 패턴 1. 초기화 및 세팅 단계 (0–350초) - 전력 소비가 일시적으로 급증한 뒤, 낮은 수준으로 떨어짐 - 모..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 4 (LLM Training)

지난 Part 3에 이어서 동일한 모델로 Case Study 사례를 분석해 보도록 하겠습니다. 앞으로 살펴볼 Load(부하)의 변동은 1) LLM Training, 2) Finetuning, 3) LLM Inferenence(추론) 까지 총 3가지 종류의 Work에서 보여주는 부하(Load) 변동성 입니다. Case Study : LLM Traning Case study를 위해서 NVIDIA, AMD 사의 GPU와 GPT-2 124M 과 nanoGPT 모델 두가지를 적용하여 Test를 진행 하였습니다. 1. NVIDIA RTX 4090 (w/ GPT-2 124M) _ 124M paramteters a. 학습시간: 22시간 b. 전력 : 평균 414W (최대전력 461w) ..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 3

Total Data Center Power Consumption(MIT Supercloud Dataset 예시)시스템 구성 및 Data 는 아래와 같이 구성되어 있으며 BERT*) 라는 모델을 사용하였을때 부하의 변동을 정리한 내용입니다. System Overview : TXGaia Cluster at MIT’s datacenter. 224 GPU-accelerated nodes, each with: - Two 20-core Intel Xeon Gold 6248 CPUs (384GB RAM). - Two NVIDIA Volta V100 GPUs (32GB RAM each). - Additional CPU-only nodes.Dataset Composition (~2.1 TB) Time series ..

AI Data center 에 필요한 Load(부하) 특성 _ Part 2

AI 데이터센터에 얼마나 많은 전력이 사용되는지 측정하기 위해 사용되는 주요 전력 지표는 다음과 같습니다. 1. TDP (Thermal Design Power): 실제 하드웨어가 소비할 수 있는 최대 전력. (GPU에 소요되는 전력은 거의 대부분 열로 변환되기 때문에 열과 전력의 관계로 연결됨) 으로, 냉각 시스템 설계에 필수적이며 특히 대형 모델 훈련 시 TDP 한계까지 하드웨어가 작동함. - 활용: 데이터센터의 용량 계획 및 장비 수명 관리 2. GPU Utilization (GPU 활용률) GPU 자원이 얼마나 사용되고 있는지를 나타내는 비율로 직접적인 전력 측정은 아니지만, 전력 소비와 연관성이 큼. - 활용: 워크로드 분산, 에너지 효율 최적화, 자원 통합 기회 파악에 유용. 3. PUE ..

AI Data center 에 필요한 Load(부하) 특성 _ Part 1

AI Datacenter의 부하(Load) 특성에 대해서 아래 링크를 기준으로 짧게 정리해 보았습니다. AI Cmpute Node의 구성 AI 작업을 위해서는 아래와 같은 단위의 Component들이 최적화 될 수 있도록 구성이 필요합니다. a) GPU: 여러 개의 고성능 GPU가 병렬 처리용으로 상호 연결되어 핵심 연산을 담당 b) CPU & 메모리: CPU와 대용량 고대여폭 메모리가 GPU를 지원c) Storage 및 Netowrk: 빠르고 용량 큰 저장장치와 고속 네트워크 인터페이스로 데이터 처리 및 통신 강화.d) 냉각 시스템: 고밀도 Rack에서 발생하는 열관리를 위한 냉각 기술 필수e) 전력 공급: 효율성, 이중화를 고려한 다중 전원 공급 장치 필요f) Architecture Balance: ..

CRAC(Computer Room Air Conditioner) Vs. CRAH(Computer Room Air Handler)

CRAC(Computer Room Air Conditioner)과 CRAH(Computer Room Air Handler)는 데이터센터 냉각에 사용되는 주요 시스템으로 유사한 역할을 하지만 작동 방식과 효율성 측면에서 차이가 있습니다. 1. 냉각 방식CRAC : 압축식 냉각 사이틀을 사용하며 냉매가 시스템 내부에서 직접 순환하며 냉각하는 방식CRAH : 냉수(Chilled Water)를 사용하며, 외부 냉각시스템(중앙 냉각수 공급장치)에서 공급되는 냉각수가 코일을 통과하여 냉각하는 방식 2. 구성 요소CRAC : 압축기, 응축기, 팽창밸브, 증발기가 일체형으로 구성CRAH :냉각 코일과 팬으로 구성되며, 압축기 없음(냉각은 외부 냉각수 시스템에 의존)3. 에너지 효율성CRAC : 일반적으로 에너지 효율은..