Quickstart: Een beheerd Apache Spark-cluster implementeren met Azure Databricks
Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde open-source Apache Cassandra-datacenters. Deze functie versnelt hybride scenario's en vermindert doorlopend onderhoud.
In deze quickstart ziet u hoe u de Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in de Azure-Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of koppelen aan het cluster, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.
U kunt ook meer informatie vinden met gedetailleerde instructies voor Het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).
Vereisten
Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.
Een Azure Databricks-cluster maken
Volg deze stappen om een Azure Databricks-cluster te maken in een Virtual Network met azure Managed Instance voor Apache Cassandra:
Meld u aan bij de Azure-portal.
Zoek resourcegroepen in het linkernavigatiedeelvenster. Navigeer naar de resourcegroep die de Virtual Network bevat waar uw beheerde exemplaar is geïmplementeerd.
Open de resource Virtual Network en noteer de adresruimte:
Selecteer in de resourcegroep Toevoegen en zoek naar Azure Databricks in het zoekveld:
Selecteer Maken om een Azure Databricks-account te maken:
Voer de volgende waarden in:
- Naam van werkruimte Geef een naam op voor uw Databricks-werkruimte.
- Regio Zorg ervoor dat u dezelfde regio selecteert als uw Virtual Network.
- Prijscategorie Kies tussen Standard, Premium of Trial. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.
Selecteer vervolgens het tabblad Netwerken en voer de volgende gegevens in:
- Azure Databricks-werkruimte implementeren in uw Virtual Network (VNet) Selecteer Ja.
- Virtual Network Kies in de vervolgkeuzelijst de Virtual Network waar uw beheerde exemplaar zich bevindt.
- Naam van openbaar subnet Voer een naam in voor het openbare subnet.
- CIDR-bereik van openbaar subnet Voer een IP-bereik in voor het openbare subnet.
- Naam van privésubnet Voer een naam in voor het privésubnet.
- CIDR-bereik van privésubnet Voer een IP-bereik in voor het privésubnet.
Als u bereikconflicten wilt voorkomen, moet u hogere bereiken selecteren. Gebruik indien nodig een visuele subnetcalculator om de bereiken te verdelen:
In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:
Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.
Start Werkruimte nadat deze is gemaakt.
U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.
Accepteer in het deelvenster Nieuw cluster standaardwaarden voor alle velden behalve de volgende velden:
- Clusternaam Voer een naam in voor het cluster.
- Databricks Runtime-versie U wordt aangeraden Databricks Runtime versie 7.5 of hoger te selecteren voor ondersteuning voor Spark 3.x.
Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de IP-adressen en referenties van het knooppunt vervangt:
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP> spark.cassandra.auth.password cassandra spark.cassandra.connection.port 9042 spark.cassandra.auth.username cassandra spark.cassandra.connection.ssl.enabled true
Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel systeemeigen als Azure Cosmos DB Cassandra-eindpunten. Selecteer in uw cluster Bibliotheken>Nieuwe>Maven installeren en voeg vervolgens Maven-coördinaten toe
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0
.
Resources opschonen
Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:
- Selecteer Resourcegroepen in het linkermenu van Azure Portal.
- Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
- Selecteer in het deelvenster Overzicht van de resourcegroep de optie Resourcegroep verwijderen.
- Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.
Volgende stappen
In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in de Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. Vervolgens leert u hoe u de cluster- en datacenterresources beheert: