카테고리 없음

Data Center] xAI 데이터센터 콜로시스(Colossus)

Move-first 2026. 6. 20. 09:19

지난 글에 이어 xAI의 데이터센터인 Colossus 에 대해서 좀 더 상세히 알아보겠습니다.

경제 Datacenter] SpaceX latency와 network 한계로 Anthropic에 Colossus 1의 computing 대여

 

경제 Datacenter] SpaceX latency와 network 한계로 Anthropic에 Colossus 1의 computing 대여

SNS에 최근 나스닥에 상장한 SpaceX 주가와 관련하여 Bloomberg 기사를 인용한 글들이 많이 보여서 어떤 내용인지 쓰~윽 정리해 보았습니다. 1. SpaceX IPO 기업공시(S-1 Filing)Bloomberg 기사도 있지만 최근 Sp

move-first.tistory.com

 

 

xAi의 데이터센터는 colossus 1 과 colossus 2로 구분되며 colossus 1의 경우 Phase 1과 Phase 2로 두 번에 걸쳐 나누어 건설을 하였습니다. Colossus 1은 Grok 3 모델 학습을 위해서 만들어 진 것으로 알려지고 있으며, Colossus 2는 Grok 5모델을 학습 시키기 위한 데이터센터로 알려져 있습니다. 그러나 지난 글에서 언급한 것과 같이 대규모 cluster를 구성하였지만 GPU 를 혼합 방식으로 구축하여 성능 좋은 GPU가 학습을 완료 하여도 성능이 떨어지는 GPU가 학습을 마칠때 까지 기다리는 이른바 병목 현상으로 Anthropic에 임대하기로 결정한 것으로 알려지면서 SNS에서 화재가 되기도 했습니다. 

 

Colossus (supercomputer) — Grokipedia

 

 

1. xAI의 Colossus 데이터센터는 무엇인가?

 

AI의 Colossus는 Eleon Musk 의 AI 회사 xAI가 멤피스(Memphis_Tennessee)에 구축한 대규모 AI 학습용 데이터센터이자 슈퍼컴퓨터 클러스터임. 주로 그록(Grok_Grok 3모델 학습용) 같은 xAI 모델을 학습시키는 데 쓰이며, 일반적인 범용 데이터센터보다 AI 연산에 맞춰 설계된 것이 특징. 122일 만에 10만장의 GPU(H100) 클러스터를 구축하고 이후 약 3개월(92일) 만에 GPU를 약 23만장으로 추가 확장하면서 ‘122일의 기적’이라는 별칭이 붙음

 

Reference:  Colossus (supercomputer) — Grokipedia

 

Colossus (supercomputer) — Grokipedia

Colossus is a supercomputer cluster built by xAI, Elon Musk's artificial intelligence company. Initially comprising 100,000 NVIDIA H100 GPUs and launched in September 2024 as the world's largest AI tr

grokipedia.com

 

2. xAI Data Center의 위치

 

Colossus 1: Boxtown 지역의 옛 Electrolux 공장 (785,000 sqft) 이용

Colossus 2: 데이터센터는 Memphis and 발전소는 Southaven, Mississipi 에 위치.

                    100만 sqft 창고 (Warehouse)+ 추가 부지(100에이커 이상) + Mississippi 확장

 

3. xAI Data Center Colossus의 Spec은?

 

 3.1 GPU 구성

  Colossus 1 : 230,000 (150,000(H100)+50,000(H200)+30,000(BG200))

  Colossus 2: 550,000 (GB200~GB300 중심)

   https://gearmusk.com/2025/07/23/xai-colossus-2-supercomputer-20b/

 

xAI Colossus 2 Supercomputer Targets Million-GPU Milestone with $20B Investment - Gear Musk

Elon Musk has revealed significant updates on xAI’s supercomputing infrastructure development, highlighting the company’s ambitious push toward unprecedented computational scale. Organization’s current system, Colossus 1, served as the training found

gearmusk.com

 

 

 3.2 전력 공급 

  Colossus 1: 300MW

   ⇒ Phase 1에서는 가스터빈 주력 + Megapack 백업(정전/피크 수요 대응) → Phase 2에서는 그리드 주력 + 터빈 백업 + Megapack(안정화)

     a.) Phase 1(초기 150MW):

       Gas turbine 35대 설치(총 422MW 용량 (Voltagrid 2.5MW + Solar Turbines 16MW SMT-130) + ESS (150MW Tesla Megapack (168 개) 백업

     b.) Phase 2(추가 150MW, 24년 11월):

          TVA 150MW 승인, May 2025: 1 기차 변전소 완전 연결 + 150MW Tesla Megapack (168 개) 백업

 

  Colossus 2: 1GW급 → 2GW로 확장 목

   Gas Turbine 41대 설치(1.2GW)+ Tesla Megapack(420개, 1.64GWh/800MW)

 

 

4. 어떻게 짧은 시간에 이 거대한 데이터센터를 건설했나?

  기존 건물 활용: 기존 공장(Colossus1) 활용 & 대형 Warehouse(Colossus2) 활용

  기능 분리: Colossus 2는 Compute Building, Support/ Infra Building, Office/ operation 분리하여 확장

  전력확보: 트럭 크기 가스터빈 수십대를 이용하여 임시로 전력을 공급함으로서 발전소 건설+전력망 연결에 걸리는 시간을 우회

Colossus 2의 냉각방식은 119대의(약 200MW 냉각용량) 공랭식 칠러를 직접배치하여 전통식 수랭식 칠러 + 냉각타워 방식보다 약 1/2.5배 단축 + 건축물 옥상이 아닌 외부에 설치함으로써 건축 완료를 기다릴 필요 없이 구축.

 

 

 

조금 바쁘시더라도 요 ~ 영상은 꼭 보세요 ^^

https://youtu.be/Jf8EPSBZU7Y?si=NZPztJl9bSM8JoN-

 

 

 

 

https://www.nextbigfuture.com/2025/09/xai-colossus-2-first-gigawatt-ai-data-center.html

https://introl.com/blog/xai-memphis-colossus-100000-gpu-supercomputer-infrastructure

https://sustainabilitymag.com/news/elon-musks-xai-imports-overseas-power-to-fuel-data-centre

https://youtu.be/Jf8EPSBZU7Y?si=NZPztJl9bSM8JoN-

https://fortune.com/2024/09/03/elon-musk-xai-nvidia-colossus/

 

Elon Musk’s just fired up ‘Colossus’—the world’s largest Nvidia GPU supercomputer | Fortune

Musk is already planning on doubling its compute capacity in a few months, and Tesla shareholders could end up benefiting as well.

fortune.com