본문 바로가기
  • cozyland
생활정보

메타(Meta)가 공개한 두 개의 대규모 GPU 클러스터 알아보기

by 대등 2024. 10. 8.

메타(Meta)가 최근 공개한 두 개의 대규모 GPU 클러스터는 인공지능(AI) 인프라 확장의 중요한 이정표로 평가됩니다. 특히, 차세대 대형 언어 모델인 Llama 3 훈련을 위해 설계된 이 클러스터는 메타의 AI 연구 및 개발 역량을 극대화하고, 복잡한 AI 모델 훈련을 위한 안정적이고 고성능의 컴퓨팅 환경을 제공합니다.

 

CPU 이미지

클러스터 사양

이번에 공개된 클러스터는 각각 24,576개의 NVIDIA H100 GPU로 구성되어 있으며, 이는 이전의 16,000 A100 GPU로 구성된 클러스터에 비해 대폭 향상된 성능을 자랑합니다. 이러한 GPU 증가는 대규모 데이터와 복잡한 모델을 처리할 수 있는 능력을 제공하여, 특히 자연어 처리, 이미지 생성, 음성 인식과 같은 다양한 AI 응용 프로그램에서 성과를 내는 데 필수적인 자원입니다 .

 

네트워크 아키텍처

메타의 두 클러스터는 네트워크 설계에서 차별화를 보입니다. 하나는 RoCE(RDMA over Converged Ethernet) 기술을 기반으로 하며, Arista 7800 스위치와 함께 사용됩니다. 다른 하나는 NVIDIA의 Quantum2 InfiniBand 기술을 사용하여 풀-바이섹션 대역폭을 지원합니다. 이 두 가지 네트워크 옵션은 클러스터의 확장성과 성능을 극대화하기 위한 전략적 선택으로, 각각 다른 용도의 훈련 작업을 최적화하는 데 사용됩니다 .

하드웨어 플랫폼

두 클러스터 모두 Meta의 Grand Teton 플랫폼을 기반으로 구축되었습니다. 이 플랫폼은 GPU 기반의 대규모 AI 작업을 처리할 수 있도록 설계되었으며, 이전의 Zion-EX 플랫폼에 비해 4배 더 높은 호스트-GPU 대역폭2배 더 넓은 컴퓨팅 및 데이터 네트워크 대역폭을 제공합니다. 또한, Meta의 Open Rack v3 아키텍처가 적용되어, 유연한 랙 구성이 가능하며 데이터 센터 환경에 최적화된 전력 효율을 제공합니다 .

스토리지 시스템

AI 훈련에 필수적인 스토리지 시스템도 개선되었습니다. 메타는 Tectonic이라는 자체 개발한 분산 파일 시스템을 사용하며, Hammerspace와 협력하여 병렬 네트워크 파일 시스템(NFS)을 개발했습니다. 이 스토리지 솔루션은 수천 개의 GPU에서 훈련 중 생성된 체크포인트 데이터를 빠르게 저장하고 불러오는 기능을 제공하며, 특히 대규모 데이터셋을 처리하는 데 최적화되어 있습니다 .

 

미래 확장 계획

메타는 2024년 말까지 350,000개의 NVIDIA H100 GPU를 확보하여 현재 인프라를 대규모로 확장할 계획입니다. 이러한 확장은 메타의 총 컴퓨팅 성능이 600,000 H100 GPU에 달하는 수준으로 증가할 것이며, 이로 인해 더 큰 모델을 훈련하고 복잡한 AI 연구를 진행할 수 있는 기반이 마련될 것입니다 .

결론

메타의 두 신규 GPU 클러스터는 차세대 AI 모델 개발의 핵심적인 인프라로, Llama 3와 같은 대형 언어 모델의 훈련을 통해 AI 기술의 한계를 더욱 확장할 것입니다. 특히, 클러스터 간의 네트워크 차별화, 고도화된 스토리지 시스템, 그리고 대규모 확장을 통해 메타는 AI 혁신의 선두주자로 자리 잡을 것입니다.