Schnellstart: Bereitstellen eines verwalteten Apache Spark-Clusters mit Azure Databricks

2024-08-15

Azure Managed Instance for Apache Cassandra verfügt über automatisierte Bereitstellungs- und Skalierungsvorgänge für verwaltete Open-Source-basierte Apache Cassandra-Rechenzentren. Diese Funktion trägt zur Beschleunigung von Hybridszenarien sowie zur Verringerung laufender Wartungsmaßnahmen bei.

In dieser Schnellstartanleitung erfahren Sie, wie Sie über das Azure-Portal einen vollständig verwalteten Apache Spark-Cluster innerhalb des virtuellen Azure-Netzwerks Ihres Clusters vom Typ „Azure Managed Instance for Apache Cassandra“ erstellen. Der Spark-Cluster wird in Azure Databricks erstellt. Später können Sie Notebooks erstellen oder an den Cluster anfügen, Daten aus verschiedenen Datenquellen lesen und Erkenntnisse analysieren.

Weitere Informationen sowie eine ausführliche Anleitung finden Sie unter Bereitstellen von Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNET-Einschleusung).

Voraussetzungen

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Erstellen eines Azure Databricks-Clusters

Gehen Sie wie folgt vor, um einen Azure Databricks-Cluster in einem virtuellen Netzwerk zu erstellen, in dem sich Azure Managed Instance for Apache Cassandra befindet:

Melden Sie sich beim Azure-Portal an.
Suchen Sie im linken Navigationsbereich nach Ressourcengruppen. Navigieren Sie zur Ressourcengruppe, die das virtuelle Netzwerk mit Ihrer bereitgestellten verwalteten Instanz enthält.
Öffnen Sie die Ressource Virtual Network, und notieren Sie sich den Adressraum:
Wählen Sie in der Ressourcengruppe die Option Hinzufügen aus, und suchen Sie im Suchfeld nach Azure Databricks:
Wählen Sie Erstellen aus, um ein Azure Databricks-Konto zu erstellen:
Geben Sie die folgenden Werte ein:
- Arbeitsbereichsname: Geben Sie einen Namen für Ihren Databricks-Arbeitsbereich an.
- Region: Wählen Sie die Region aus, in der sich Ihr virtuelles Netzwerk befindet.
- Tarif: Wählen Sie zwischen Standard, Premium und Testversion. Weitere Informationen zu diesen Tarifen, finden Sie unter Azure Databricks – Preise.
Wählen Sie als Nächstes die Registerkarte Netzwerk aus, und geben Sie Folgendes ein:
- Azure Databricks-Arbeitsbereich in Ihrem eigenen virtuellen Netzwerk bereitstellen: Wählen Sie Ja aus.
- Virtuelles Netzwerk: Wählen Sie in der Dropdownliste das virtuelle Netzwerk aus, in dem sich Ihre verwaltete Instanz befindet.
- Name des öffentlichen Subnetzes: Geben Sie einen Namen für das öffentliche Subnetz ein.
- CIDR-Bereich des öffentlichen Subnetzes: Geben Sie einen IP-Adressbereich für das öffentliche Subnetz ein.
- Name des privaten Subnetzes: Geben Sie einen Namen für das private Subnetz ein.
- CIDR-Bereich für privates Subnetz: Geben Sie einen IP-Adressbereich für das private Subnetz ein.
Wählen Sie höhere Bereiche aus, um Bereichskonflikte zu vermeiden. Verwenden Sie bei Bedarf einen visuellen Subnetzrechner, um die Bereiche zu unterteilen:

Der folgende Screenshot zeigt den Bereich „Netzwerk“ mit Beispielangaben:
Wählen Sie Überprüfen und erstellen und anschließend Erstellen aus, um den Arbeitsbereich bereitzustellen.
Wählen Sie nach Abschluss der Erstellung die Option Arbeitsbereich starten aus.
Sie werden zum Azure Databricks-Portal weitergeleitet. Wählen Sie im Portal Neuer Cluster aus.
Passen Sie im Bereich Neuer Cluster nur die folgenden Felder an, und übernehmen Sie ansonsten die Standardwerte:
- Clustername: Geben Sie einen Namen für den Cluster ein.
- Databricks Runtime-Version: Es wird empfohlen, mindestens die Databricks-Runtimeversion 7.5 auszuwählen, um Spark 3.x-Unterstützung zu erhalten.

Erweitern Sie Erweiterte Optionen, und fügen Sie die folgende Konfiguration hinzu. Ersetzen Sie dabei die IP-Adressen der Knoten sowie die Anmeldeinformationen:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Fügen Sie dem Cluster die Apache Spark-Cassandra-Connectorbibliothek hinzu, um eine Verbindung mit nativen Endpunkten sowie mit Azure Cosmos DB-Cassandra-Endpunkten herzustellen. Wählen Sie in Ihrem Cluster Bibliotheken>Neue>Maveninstallieren und fügen Sie dann com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 in Maven-Koordinaten hinzu.

Bereinigen von Ressourcen

Falls Sie diesen Managed Instance-Cluster nicht mehr benötigen, löschen Sie ihn wie folgt:

Wählen Sie im linken Menü des Azure-Portals die Option Ressourcengruppen aus.
Wählen Sie in der Liste die Ressourcengruppe aus, die Sie für diesen Schnellstart erstellt haben.
Wählen Sie im Ressourcengruppenbereich Übersicht die Option Ressourcengruppe löschen aus.
Geben Sie in dem nächsten Fenster den Namen der zu löschenden Ressourcengruppe ein, und wählen Sie dann Löschen aus.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie gelernt, wie Sie einen vollständig verwalteten Apache Spark-Cluster innerhalb des virtuellen Netzwerks Ihres Clusters vom Typ „Azure Managed Instance for Apache Cassandra“ erstellen. Im nächsten Artikel erfahren Sie, wie Sie die Cluster- und Rechenzentrumsressourcen verwalten:

Verwalten von Azure Managed Instance for Apache Cassandra-Ressourcen mit der Azure CLI

Freigeben über

Schnellstart: Bereitstellen eines verwalteten Apache Spark-Clusters mit Azure Databricks

Voraussetzungen

Erstellen eines Azure Databricks-Clusters

Bereinigen von Ressourcen

Nächste Schritte

Feedback

Zusätzliche Ressourcen