Udostępnij za pomocą


Szybki start: wdrażanie zarządzanego klastra Apache Spark platformy Azure przy użyciu usługi Azure Databricks

Wystąpienie zarządzane platformy Azure dla systemu Apache Cassandra udostępnia zautomatyzowane operacje wdrażania i skalowania dla zarządzanych centrów danych Apache Cassandra typu open source. Ta funkcja przyspiesza scenariusze hybrydowe i pomaga zmniejszyć ciągłą konserwację.

W tym przewodniku szybkiego startu pokazano, jak za pomocą portalu Azure utworzyć w pełni zarządzany klaster Apache Spark w wirtualnej sieci platformy Azure na potrzeby wystąpienia zarządzanego klastra Apache Cassandra. Klaster Spark jest tworzony w usłudze Azure Databricks. Później możesz tworzyć lub dołączać notesy do klastra, odczytywać dane z różnych źródeł danych i analizować szczegółowe informacje.

Aby dowiedzieć się więcej, zapoznaj się ze szczegółowymi instrukcjami dotyczącymi wdrażania usługi Azure Databricks w sieci wirtualnej platformy Azure (iniekcja sieci wirtualnej).

Wymagania wstępne

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Tworzenie klastra usługi Azure Databricks

Wykonaj następujące kroki, aby utworzyć klaster Azure Databricks w sieci wirtualnej z wystąpieniem zarządzanym Azure dla Apache Cassandra.

  1. Zaloguj się w witrynie Azure Portal.

  2. W okienku po lewej stronie znajdź pozycję Grupy zasobów. Przejdź do grupy zasobów zawierającej sieć wirtualną, w której wdrożono wystąpienie zarządzane.

  3. Otwórz zasób sieci wirtualnej i zanotuj przestrzeń adresową.

    Zrzut ekranu pokazujący, gdzie uzyskać przestrzeń adresową sieci wirtualnej.

  4. W grupie zasobów wybierz pozycję Dodaj i wyszukaj ciąg Azure Databricks w polu wyszukiwania.

    Zrzut ekranu przedstawiający wyszukiwanie usługi Azure Databricks.

  5. Wybierz pozycję Utwórz , aby utworzyć konto usługi Azure Databricks.

    Zrzut ekranu przedstawiający ofertę Azure Databricks z wybraną opcją Utwórz.

  6. Wprowadź następujące wartości:

    • Nazwa obszaru roboczego: podaj nazwę obszaru roboczego usługi Azure Databricks.
    • Region: upewnij się, że wybrano ten sam region co sieć wirtualna.
    • Warstwa cenowa: wybierz pozycję Standardowa, Premium lub Wersja próbna. Aby uzyskać więcej informacji na temat tych warstw, zobacz stronę cennika usługi Azure Databricks.

    Zrzut ekranu przedstawiający okno dialogowe, w którym można wprowadzić nazwę, region i warstwę cenową obszaru roboczego dla konta usługi Azure Databricks.

  7. Wybierz kartę Sieć i wprowadź następujące szczegóły:

    • Wdróż obszar roboczy usługi Azure Databricks w sieci wirtualnej: wybierz pozycję Tak.
    • Sieć wirtualna: z listy rozwijanej wybierz sieć wirtualną, w której istnieje wystąpienie zarządzane.
    • Nazwa podsieci publicznej: wprowadź nazwę podsieci publicznej.
    • Zakres CIDR podsieci publicznej: wprowadź zakres adresów IP dla podsieci publicznej.
    • Nazwa podsieci prywatnej: wprowadź nazwę podsieci prywatnej.
    • Zakres CIDR podsieci prywatnej: wprowadź zakres adresów IP dla podsieci prywatnej.

    Aby uniknąć kolizji zakresu, upewnij się, że wybrano wyższe zakresy. W razie potrzeby użyj wizualnego kalkulatora podsieci, aby podzielić zakresy.

    Zrzut ekranu przedstawiający Visual Subnet Calculator z dwoma wyróżnionymi identycznymi adresami sieciowymi.

    Poniższy zrzut ekranu przedstawia przykładowe szczegóły w okienku sieci.

    Zrzut ekranu przedstawiający określone nazwy podsieci publicznej i prywatnej.

  8. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz , aby wdrożyć obszar roboczy.

  9. Otwórz obszar roboczy po jego utworzeniu.

  10. Nastąpi przekierowanie do portalu usługi Azure Databricks. W portalu wybierz pozycję Nowy klaster.

  11. W okienku Nowy klaster zaakceptuj wartości domyślne dla wszystkich pól innych niż następujące pola:

    • Nazwa klastra: wprowadź nazwę klastra.
    • Wersja środowiska uruchomieniowego usługi Databricks: zalecamy wybranie środowiska uruchomieniowego usługi Azure Databricks w wersji 7.5 lub nowszej dla obsługi platformy Spark 3.x.

    Zrzut ekranu przedstawiający okno dialogowe Nowy klaster z wybraną wersją środowiska uruchomieniowego usługi Azure Databricks.

  12. Rozwiń pozycję Opcje zaawansowane i dodaj następującą konfigurację. Pamiętaj, aby zastąpić adresy IP węzłów oraz poświadczenia.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Dodaj bibliotekę łącznika Apache Spark Cassandra do klastra, aby nawiązać połączenie z punktami końcowymi natywnymi i punktami końcowymi cassandra usługi Azure Cosmos DB. W klastrze wybierz pozycję Biblioteki>Zainstaluj nowe>Maven, a następnie dodaj com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 w polu Współrzędne Maven.

    Zrzut ekranu przedstawiający wyszukiwanie pakietów Maven w usłudze Azure Databricks.

  14. Wybierz Zainstaluj.

Czyszczenie zasobów

Jeśli nie zamierzasz nadal używać tego klastra wystąpień zarządzanych, wykonaj następujące kroki, aby go usunąć:

  1. W menu po lewej stronie witryny Azure Portal wybierz pozycję Grupy zasobów.
  2. Z listy wybierz grupę zasobów, którą utworzyłeś dla tego Quickstartu.
  3. W okienku Przegląd grupy zasobów wybierz pozycję Usuń grupę zasobów.
  4. W następnym okienku wprowadź nazwę grupy zasobów do usunięcia, a następnie wybierz pozycję Usuń.

Następny krok

W tym przewodniku Szybki start przedstawiono sposób tworzenia w pełni zarządzanego klastra Apache Spark w sieci wirtualnej wystąpienia zarządzanego platformy Azure dla klastra Apache Cassandra. Następnie dowiedz się, jak zarządzać zasobami klastra i centrum danych.