다음을 통해 공유


빠른 시작: Azure Databricks를 사용하여 Azure Managed Apache Spark 클러스터 배포

Apache Cassandra용 Azure Managed Instance는 관리형 오픈 소스 Apache Cassandra 데이터 센터의 자동화된 배포 및 크기 조정 작업을 제공합니다. 이 기능은 하이브리드 시나리오를 가속화하고 지속적인 유지 관리를 줄이는 데 도움이 됩니다.

이 빠른 시작에서는 Azure Portal을 사용하여 Azure Managed Instance for Apache Cassandra 클러스터의 Azure 가상 네트워크 내에 완전히 관리되는 Apache Spark 클러스터를 만드는 방법을 보여 줍니다. Azure Databricks에서 Spark 클러스터를 만들 것입니다. 나중에 Notebook을 만들거나 클러스터에 연결하고, 여러 데이터 원본의 데이터를 읽고, 인사이트를 분석할 수 있습니다.

Azure 가상 네트워크에 Azure Databricks 배포(가상 네트워크 삽입)에 대한 자세한 지침을 통해 자세히 알아볼 수도 있습니다.

필수 조건

Azure 구독이 없는 경우 시작하기 전에 체험 계정을 만듭니다.

Azure Databricks 클러스터 만들기

다음 단계에 따라 Apache Cassandra용 Azure Managed Instance가 있는 가상 네트워크에 Azure Databricks 클러스터를 만듭니다.

  1. Azure Portal에 로그인합니다.

  2. 왼쪽 창에서 리소스 그룹을 찾습니다. 관리되는 인스턴스가 배포된 가상 네트워크가 포함된 리소스 그룹으로 이동합니다.

  3. 가상 네트워크 리소스를 열고 주소 공간을 기록해 둡니다.

    가상 네트워크의 주소 공간을 가져올 위치를 보여 주는 스크린샷

  4. 리소스 그룹에서 추가 를 선택하고 검색 필드에서 Azure Databricks 를 검색합니다.

    Azure Databricks에 대한 검색을 보여 주는 스크린샷

  5. 만들기를 선택하여 Azure Databricks 계정을 만듭니다.

    만들기가 선택된 Azure Databricks 제품을 보여 주는 스크린샷

  6. 다음 값을 입력합니다.

    • 작업 영역 이름: Azure Databricks 작업 영역의 이름을 제공합니다.
    • 지역: 가상 네트워크와 동일한 지역을 선택해야 합니다.
    • 가격 책정 계층: 표준, 프리미엄 또는 평가판을 선택합니다. 이러한 계층에 대한 자세한 내용은 Azure Databricks 가격 책정 페이지를 참조하세요.

    Azure Databricks 계정의 작업 영역 이름, 지역 및 가격 책정 계층을 입력할 수 있는 대화 상자를 보여 주는 스크린샷

  7. 네트워킹 탭 선택하고 다음 세부 정보를 입력합니다.

    • VNet(Virtual Network)에 Azure Databricks 작업 영역 배포: 예를 선택합니다.
    • Virtual Network: 드롭다운 목록에서 관리되는 인스턴스가 있는 가상 네트워크를 선택합니다.
    • 공용 서브넷 이름: 공용 서브넷의 이름을 입력합니다.
    • 공용 서브넷 CIDR 범위: 공용 서브넷에 대한 IP 범위를 입력합니다.
    • 프라이빗 서브넷 이름: 프라이빗 서브넷의 이름을 입력합니다.
    • 프라이빗 서브넷 CIDR 범위: 프라이빗 서브넷에 대한 IP 범위를 입력합니다.

    범위가 충돌하지 않도록 더 높은 범위를 선택합니다. 필요한 경우 시각적 서브넷 계산기를 사용하여 범위를 나눕니다.

    두 개의 동일한 네트워크 주소가 강조 표시된 Visual Subnet 계산기를 보여 주는 스크린샷.

    다음 스크린샷은 네트워킹 창의 예제 세부 정보를 보여줍니다.

    지정된 공용 및 프라이빗 서브넷 이름을 보여 주는 스크린샷.

  8. 검토 + 만들기를 선택한 다음 만들기를 선택하여 작업 영역을 배포합니다.

  9. 작업 영역을 만든 후 작업 영역을 엽니다.

  10. Azure Databricks 포털로 리디렉션됩니다. 포털에서 새 클러스터를 선택합니다.

  11. 새 클러스터 창에서 다음 필드 이외의 모든 필드에 대해 기본값을 적용합니다.

    • 클러스터 이름: 클러스터의 이름을 입력합니다.
    • Databricks 런타임 버전: Spark 3.x 지원을 위해 Azure Databricks 런타임 버전 7.5 이상을 선택하는 것이 좋습니다.

    Azure Databricks 런타임 버전이 선택된 새 클러스터 대화 상자를 보여 주는 스크린샷.

  12. 고급 옵션을 확장하고 다음 구성을 추가합니다. 노드 IP 및 자격 증명을 바꿔야 합니다.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Apache Spark Cassandra 커넥터 라이브러리를 클러스터에 추가하여 네이티브 및 Azure Cosmos DB Cassandra 엔드포인트 모두에 연결합니다. 클러스터에서 라이브러리>새로 설치>Maven을 선택한 다음 Maven com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 필드에 추가합니다.

    Azure Databricks에서 Maven 패키지를 검색하는 방법을 보여 주는 스크린샷

  14. 설치를 선택합니다.

리소스 정리

이 관리되는 인스턴스 클러스터를 계속 사용하지 않려면 다음 단계에 따라 삭제합니다.

  1. Azure Portal의 왼쪽 메뉴에서 리소스 그룹을 선택합니다.
  2. 목록에서 이 빠른 시작을 위해 만든 리소스 그룹을 선택합니다.
  3. 리소스 그룹 개요 창에서 리소스 그룹 삭제를 선택합니다.
  4. 다음 창에서 삭제할 리소스 그룹의 이름을 입력한 다음 삭제를 선택합니다.

다음 단계

이 빠른 시작에서는 Azure Managed Instance for Apache Cassandra 클러스터의 가상 네트워크 내에 완전히 관리되는 Apache Spark 클러스터를 만드는 방법을 알아보았습니다. 다음으로 클러스터 및 데이터 센터 리소스를 관리하는 방법을 알아봅니다.