Cloud-DevOps

Multi-node GPU Cluster

naksani 2023. 12. 23. 22:26
728x90

Compute Service 그룹  →

 

대규모 고성능 AI 연산을 위한 다량의 GPU 제공 서비스.

 

Multi-node GPU Cluster는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 Bare Metal Server 2대 이상을 사용하여 다수의 GPU를 클러스터링 할 수 있으며, Samsung Cloud Platform의 고성능 스토리지 및 네트워킹 상품과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다.


특징

  • 손쉬운 GPU 아키텍처 구성

Samsung Cloud Platform의 Multi-node GPU Cluster는 고성능 NVIDIA SuperPOD 아키텍처를 적용한 Bare Metal Server를 제공하여, GPU를 활용한 다수의 사용자 또는 대규모 AI 모델 학습의 고성능 분산 워크로드 처리가 가능합니다.

 

  • 고성능 네트워크 연계

Multi-node GPU Cluster는 Samsung Cloud Platform의 네트워크 자원과 연동하여 고성능이 필요한 AI Job을 수행할 수 있습니다. InfiniBand 스위치를 이용하여 GPU Direct RDMA (Remote Direct Memory Address) 환경을 구성함으로써 GPU 메모리간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.

 

  • 고성능 스토리지 연계

Multi-node GPU Cluster 는 Samsung Cloud Platform의 다양한 스토리지 자원과 연계하여 사용할 수 있습니다. 고속 네트워크와 직접 연동한 고성능 SSD NAS File Storage 또는 NVMe 병렬 Filesystem Storage를 사용 가능하며, Block Storage 및 Object Storage도 연계하여 사용 가능합니다.


구성도와 상세기능

 
  • GPU Bare Metal Server 생성/관리

NVIDIA GPU 8장을 장착한 표준 GPU Bare Metal Server 제공

Internal NVMe Disk, NVIDIA NVSwitch, NVIDIA NVLink

RDMA SW Stack의 OS 표준 이미지 제공 (OS : Ubuntu)

 

  • 고성능 처리

InfiniBand 스위치를 이용하여 GPU Direct RDMA 환경 구성

A100 : 서버별 800Gbps, H100 : 서버별 1,600Gbps

고성능 SSD File Storage 제공 (A100, H100)

AFA File Storage 100Gbps Ethernet 연결

 

  • 스토리지 및 네트워크 연동

OS 디스크 외 추가 연결 스토리지 (Block, Object) 제공

서브넷/IP 및 VPC Firewall 연계 설정

 

제공하는 GPU별 사양

A100(80G)*8,  H100(80G)*8

 

  • 요금 기준

Multi-node GPU cluster 요금은 무약정 및 약정(1,3년)에 따라 결정됩니다.

최초 신청 시에는 최소 2개 서버 이상 신청해야 하며, 이후 추가 신청 시에는 1개 서버 단위로 가능합니다.

무약정 선택시 시간단위의 요금이 적용되고, 1년 또는 3년 약정 선택시 월단위 요금이 적용됩니다.

Server 정지 시에도 이용 요금은 사용 시와 동일하게 부과됩니다.

월단위 요금은 1개월(매월 1일~말일) 기준 이용료이며, 월중 신청/해지시에는 일할 계산됩니다.

약정기간내 해지시 위약금이 발생하고, 해지위약금은 [월요금x50%x약정기간 잔여개월수] 로 산정합니다.

OS는 오픈소스 Ubuntu 버전을 제공합니다.

모든 요금은 부가세 미포함 요금입니다.

 

'Cloud-DevOps' 카테고리의 다른 글

DevOps Tools Service  (0) 2023.12.24
Compute Service  (1) 2023.12.23
Virtual Server DR  (1) 2023.12.23
IAM  (1) 2023.12.23
VM Migration  (1) 2023.12.23