Spark 클러스터 생성

완료됨

Azure Databricks 포털을 사용하여 Azure Databricks 작업 영역에서 하나 이상의 클러스터를 만들 수 있습니다.

Screenshot of the Create Cluster interface in the Azure Databricks portal.

클러스터를 만들 때 다음을 비롯한 구성 설정을 지정할 수 있습니다.

  • 클러스터의 이름.
  • 클러스터 모드, 이는 다음이 될 수 있습니다.
    • 표준: 여러 작업자 노드가 필요한 단일 사용자 워크로드에 적합합니다.
    • 높은 동시성: 여러 사용자가 클러스터를 동시에 사용하는 워크로드에 적합합니다.
    • 단일 노드: 단일 작업자 노드만 필요한 소규모 워크로드 또는 테스트에 적합합니다.
  • 클러스터에서 사용할 Databricks 런타임의 버전, 이는 Spark의 버전과 Python, Scala, 설치되는 다른 구성 요소와 같은 개별 구성 요소를 지정합니다.
  • 클러스터의 작업자 노드에 사용되는 VM(가상 머신) 유형.
  • 클러스터에 있는 최대 및 최소 작업자 노드 수.
  • 클러스터의 드라이버 노드에 사용되는 VM 유형.
  • 클러스터에서 자동 스케일링을 지원하여 클러스터 크기를 동적으로 조정할지 여부.
  • 클러스터가 자동으로 종료되기 전에 유휴 상태를 유지할 수 있는 기간.

Azure에서 클러스터 리소스를 관리하는 방법

Azure Databricks 작업 영역을 만들 때 Databricks 어플라이언스는 구독에서 Azure 리소스로 배포됩니다. 작업 영역에서 클러스터를 만들 때 드라이버 및 작업자 노드와 기타 구성 옵션 모두에 사용할 VM(가상 머신)의 유형과 크기를 지정하지만, Azure Databricks는 클러스터의 다른 모든 측면을 관리합니다.

Databricks 어플라이언스는 구독에서 관리되는 리소스 그룹으로 Azure에 배포됩니다. 이 리소스 그룹에는 가상 네트워크, 보안 그룹, 스토리지 계정을 비롯한 기타 필수 리소스와 함께 클러스터에 대한 드라이버 및 작업자 VM이 포함됩니다. 예약된 작업과 같은 클러스터의 모든 메타데이터는 내결함성을 위해 지역 복제 기능을 갖춘 Azure Database에 저장됩니다.

내부적으로 AKS(Azure Kubernetes Service)는 최신 세대의 Azure 하드웨어(Dv3 VM)에서 실행되는 컨테이너를 통해 Azure Databricks 제어 평면과 데이터 평면을 실행하는 데 사용되며 NvMe SSD는 가속화된 네트워킹이 포함된 고성능 Azure 가상 머신에서 100us 대기 시간을 제공할 수 있습니다. Azure Databricks에서는 Azure의 이러한 기능을 활용하여 Spark 성능을 향상시킵니다. 이 관리형 리소스 그룹의 서비스가 준비되면 Azure Databricks UI 및 자동 스케일링 및 자동 종료와 같은 기능을 통해 Databricks 클러스터를 관리할 수 ​​있습니다.

Diagram of Azure Databricks architecture.

참고 항목

클러스터 시작 시간을 줄이기 위해 클러스터를 유휴 노드의 풀에 연결하는 옵션도 있습니다. 자세한 내용은 Azure Databricks 설명서의 을 참조하세요.