BigData-DataAnalytics

AI&MLOPS PLATFORM

naksani 2023. 12. 17. 11:30
728x90

AI/ML service 그룹 →

 

Kubernetes 기반의 머신 러닝 플랫폼.

 

AI&MLOps Platform은 머신러닝 모델의 개발, 학습, 배포 과정 전체 파이프라인의 반복적인 작업을 자동화하는 머신러닝 플랫폼입니다. Kubernetes 기반의 AI/MLOps 환경을 제공하며, 학습 데이터와 모델, 운영 데이터의 통합적인 관리가 가능합니다.


  • Cloud Native MLOps 환경 제공

AI&MLOps Platform은 클라우드에 최적화된 머신러닝 모델 개발 환경을 제공하며, Kubernetes 기반으로 다양한 오픈소스와의 연계가 편리합니다.

 

  • 머신 러닝 개발 및 운영 편의성

TensorFlow, PyTorch, scikit-learn, Keras 등 다양한 머신러닝 프레임워크를 지원하는 표준화된 환경을 제공합니다. 머신러닝 모델의 개발, 학습, 배포 과정의 전체 Pipeline을 자동화하여 제공함으로써 모델 구성 및 생성이 쉽고 재사용이 용이합니다.

 

  • Add-on Feature 지속 추가

분산학습 Job 실행 및 모니터링, 추론서비스 관리 및 분석, Job Queue 관리 등 MLOps 환경 구성을 위한 다양한 기능을 제공하며, 잡 스케줄러(FIFO, Bin-packing, Gang 기반), GPU Fraction, GPU 자원 모니터링 등 효율적인 GPU 자원 활용을 위한 다양한 Add-on Feature들을 추가로 제공합니다. 특히, BM 기반의 Multi Node GPU 및 GPUDirect RDMA(Remote Direct Memory Access)를 통해 LLM(Large Language Model)과 자연어처리(NLP)의 Job 속도를 획기적으로 개선할 수 있습니다.


  • 아키텍처 구성도

 

  • 기본 기능

AI 플랫폼 생성 (자동배포/구성) , 조회 (플랫폼 버전, 자원 현황), 삭제

Jupyter Notebook 제공 (모델개발, 학습, 추론)

머신 러닝 Pipeline Workflow 자동화

 

  • 추가 기능 (AI&MLOps Platform에서 가능)

Advanced AI/ML 플랫폼 대시보드

AI/ML Notebook Server : Base 이미지, 사용자 정의 이미지

AI/ML Job : Job 생성, 템플릿, 아카이브, 스케줄링, 실행, 모니터링 ※ GPU 자원 모니터링, GPU Fraction 지원

 

  • 사용자 이미지 빌드 및 관리

AI JumpStarter 및 실험 추적 관리 (ETM : Experiment Tracking Management)

Serving : 대시보드, 모델 등록/관리, Inferencing, Predictions 및 시각화

플랫폼 자원 관리 : 프로젝트별 자원 사용량 관리, 자원 사용량 모니터링

프로젝트 사용자/권한 관리, Admin 기능, 플랫폼 Configuration 조정 기능

 

  • 요금 기준

AI&MLOps Platform 서비스는 Kubeflow.Mini 와 AI&MLOps Platform 중 선택한 요금과 vCore당 라이선스 요금의 합으로 시간단위 과금합니다.

서비스 구성을 위한 선행상품(Kubernetes Engine, Virtual Server, Storage 등)은 별도 과금합니다.

'BigData-DataAnalytics' 카테고리의 다른 글

TEXT API  (0) 2023.12.17
AICR  (0) 2023.12.17
AI/ML service  (0) 2023.12.17
QUICK QUERY  (0) 2023.12.17
DATA WRANGLER  (0) 2023.12.17