load 6

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT대상 모델: GPT-2, nanoGPT실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석전력 소모 패턴의 주요 특징1) 급격한 전력 변동공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.- 전력 피크: 약 300W까지 순간적으로 상승.- 피크 지속 시간: 25~50초, 표준편차 약 50..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 6_(LLM Inference)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 6에서는 LLM Inference 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다.Case 3. LLM Inference Power Consumption: GPT-2 vs. nanoGPT대상 모델: GPT-2, nanoGPT실험 조건: GPU 기반 LLM 추론(inference) 과정의 전력 소모 패턴 분석전력 소모 패턴의 주요 특징1) 급격한 전력 변동공통점: 두 모델 모두 추론 과정에서 저전력(Idle) 상태와 고전력(Active) 상태를 빠르게 오가며, 전력 소모가 급격히 변화함.- 전력 피크: 약 300W까지 순간적으로 상승.- 피크 지속 시간: 25~50초, 표준편차 약 50..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 5_(Finetuning)

Part 4 LLM TrainingPart 5 FinetuningPart 6 LLM Inference Part 5에서는 Finetuning 시의 부하(Load) 변동에 대해서 살펴보도록 하겠습니다. Case 2. GPT2-Medium 파인튜닝 시 AMD 7900 XTX GPU 전력 소비 패턴GPT2-medium 모델을 AMD 7900 XTX GPU에서 AMD의 가이드에 따라 파인튜닝할 때, 학습 단계별로 뚜렷한 전력 소비 패턴이 나타나며, 전력 소비 그래프(Fig. 13 참조)는 파인튜닝 과정에서 GPU 활용이 어떻게 변화하는지 네 가지 주요 단계를 나타냅니다.단계별 전력 소비 패턴 1. 초기화 및 세팅 단계 (0–350초) - 전력 소비가 일시적으로 급증한 뒤, 낮은 수준으로 떨어짐 - 모..

AI Datacenter 에 필요한 Load(부하) 특성 _ Part 3

Total Data Center Power Consumption(MIT Supercloud Dataset 예시)시스템 구성 및 Data 는 아래와 같이 구성되어 있으며 BERT*) 라는 모델을 사용하였을때 부하의 변동을 정리한 내용입니다. System Overview : TXGaia Cluster at MIT’s datacenter. 224 GPU-accelerated nodes, each with: - Two 20-core Intel Xeon Gold 6248 CPUs (384GB RAM). - Two NVIDIA Volta V100 GPUs (32GB RAM each). - Additional CPU-only nodes.Dataset Composition (~2.1 TB) Time series ..

AI Data center 에 필요한 Load(부하) 특성 _ Part 2

AI 데이터센터에 얼마나 많은 전력이 사용되는지 측정하기 위해 사용되는 주요 전력 지표는 다음과 같습니다. 1. TDP (Thermal Design Power): 실제 하드웨어가 소비할 수 있는 최대 전력. (GPU에 소요되는 전력은 거의 대부분 열로 변환되기 때문에 열과 전력의 관계로 연결됨) 으로, 냉각 시스템 설계에 필수적이며 특히 대형 모델 훈련 시 TDP 한계까지 하드웨어가 작동함. - 활용: 데이터센터의 용량 계획 및 장비 수명 관리 2. GPU Utilization (GPU 활용률) GPU 자원이 얼마나 사용되고 있는지를 나타내는 비율로 직접적인 전력 측정은 아니지만, 전력 소비와 연관성이 큼. - 활용: 워크로드 분산, 에너지 효율 최적화, 자원 통합 기회 파악에 유용. 3. PUE ..

AI Data center 에 필요한 Load(부하) 특성 _ Part 1

AI Datacenter의 부하(Load) 특성에 대해서 아래 링크를 기준으로 짧게 정리해 보았습니다. AI Cmpute Node의 구성 AI 작업을 위해서는 아래와 같은 단위의 Component들이 최적화 될 수 있도록 구성이 필요합니다. a) GPU: 여러 개의 고성능 GPU가 병렬 처리용으로 상호 연결되어 핵심 연산을 담당 b) CPU & 메모리: CPU와 대용량 고대여폭 메모리가 GPU를 지원c) Storage 및 Netowrk: 빠르고 용량 큰 저장장치와 고속 네트워크 인터페이스로 데이터 처리 및 통신 강화.d) 냉각 시스템: 고밀도 Rack에서 발생하는 열관리를 위한 냉각 기술 필수e) 전력 공급: 효율성, 이중화를 고려한 다중 전원 공급 장치 필요f) Architecture Balance: ..