네이버 클라우드 플랫폼 웹 콘솔에 접근하지 않고 마스터 서버에서 CLI 명령으로 클러스터에 서버 노드를 바로 생성하거나 서버 노드를 전체 혹은 개별로 정지하거나 재시작할 수 있습니다. 또한 서버 노드를 부분적으로 증설, 삭제, 반납할 수도 있습니다.
네이버 클라우드 플랫폼 웹 콘솔에 접근하지 않고 마스터 서버에서 CLI 명령으로 NAS 스토리지를 생성하거나 증설할 수 있습니다. 단 1회의 명령만으로 전체 노드에서 NAS를 동시에 마운트 하거나 언마운트 할 수 있어 사용자의 코드와 학습 데이터를 안전하게 보호할 수 있습니다. 또한 클러스터 의존성을 낮추고 코드, 데이터 등의 배포 및 공유 문제도 해결할 수 있습니다. 기본 NAS 스토리지는 500GB를 제공하며 추가 증설이 가능해 TB 급의 학습 데이터로 처리할 수 있습니다.
마스터 서버에서 수정한 사항이 자동으로 서버 노드에 반영됩니다. 따라서 사용자는 기존에 단일 서버(VM)에서 실행하던 코드를 일부만 수정하여 TensorFlow Cluster 환경을 운영할 수 있습니다. 작업 서버에서 작업이 모두 종료된 후에는 파라미터 서버 응답을 자동으로 정지시켜 주는 기능도 포함하고 있어 재작업 시 별도의 클린징(PROCESS KILL) 작업이 필요하지 않습니다.
Cluster에서 수행되는 Job은 백그라운드로 실행되며 로그는 마스터 서버에 Redirection되어 통합됩니다. CLI 모니터 명령어로 서버 노드의 로그를 실시간으로 조회할 수 있고 CLI 히스토리 명령으로 그동안 수행했던 작업 리스트를 조회할 수 있습니다.
아래 5가지의 서버 스펙이 기본으로 제공되며 선택할 수 있습니다. (GPU 서버 타입은 향후 지원 예정)- MINI (vCpu 4개, Mem 16GB, HDD 50GB) – 클러스터 테스트 용도나 적은 워크로드 처리에 적합한 서버- BASIC (vCpu 8개, Mem 32GB, HDD 50GB) – 중간 규모의 워크로드 처리에 적합한 서버- HIGH (vCpu 16개, Mem 32GB, HDD 50GB) – 큰 규모의 워크로드 처리에 적합한 서버- GPU1 (GPU 1개, GPU Mem 24GB, vCpu 4개, Mem 30GB, SSD 50GB) – 단일 GPU를 클러스터 노드 수 만큼 확장하여 사용- GPU2 (GPU 2개, GPU Mem 48GB, vCpu 8개, Mem 60GB, SSD 50GB) – 듀얼 GPU를 클러스터 노드 수 만큼 확장하여 매우 큰 워크로드 처리 가능(단, 노드는 동일한 스펙 타입으로 구성되며 모든 노드가 워커 서버 노드로 인식됨. 파라미터 서버 노드의 개수는 지정 가능)
Ncloud Tensorflow Cluster는 구글 브레인팀에서 개발한 오픈소스 머신러닝 소프트웨어 라이브러리인 Tensorflow를 이용하고 있습니다.
운영체제 | 제공 버전 | 요금(월) |
---|---|---|
Ubuntu 16.04 (추후 GPU 서버노드 추가 예정) ※ 단 신속한 서버 생성을 위해 마스터노드에는 TensorFlow가 설치되어 있지않아 필요한 경우 사용자 설치가 필요 – 매뉴얼 참조 | Tensorflow 1.3 (Stable Latest) (TensorFlow 버전업 속도에 따라 배포되는 패키지의 버전은 유동적일 수 있습니다.) | ※ 클러스터 테스트 용도나 적은 워크로드 처리를 위한 권장 스펙: vCpu 4, Mem 16G인 경우 서버 노드당 월 - |
(VAT 별도)