Quickstart: Een beheerd Apache Spark-cluster implementeren met Azure Databricks

Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde open-source Apache Cassandra-datacenters. Deze functie versnelt hybride scenario's en vermindert doorlopend onderhoud.

In deze quickstart ziet u hoe u de Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in de Azure-Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of koppelen aan het cluster, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.

U kunt ook meer informatie vinden met gedetailleerde instructies voor Het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).

Vereisten

Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.

Een Azure Databricks-cluster maken

Volg deze stappen om een Azure Databricks-cluster te maken in een Virtual Network met azure Managed Instance voor Apache Cassandra:

  1. Meld u aan bij de Azure-portal.

  2. Zoek resourcegroepen in het linkernavigatiedeelvenster. Navigeer naar de resourcegroep die de Virtual Network bevat waar uw beheerde exemplaar is geïmplementeerd.

  3. Open de resource Virtual Network en noteer de adresruimte:

    Schermopname die laat zien waar u de adresruimte van uw Virtual Network kunt ophalen.

  4. Selecteer in de resourcegroep Toevoegen en zoek naar Azure Databricks in het zoekveld:

    Schermopname van een zoekopdracht naar Azure Databricks.

  5. Selecteer Maken om een Azure Databricks-account te maken:

    Schermopname van azure Databricks-aanbieding met de knop Maken geselecteerd.

  6. Voer de volgende waarden in:

    • Naam van werkruimte Geef een naam op voor uw Databricks-werkruimte.
    • Regio Zorg ervoor dat u dezelfde regio selecteert als uw Virtual Network.
    • Prijscategorie Kies tussen Standard, Premium of Trial. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.

    Schermopname van een dialoogvenster waarin u de naam, regio en prijscategorie van de werkruimte voor het Databricks-account kunt invoeren.

  7. Selecteer vervolgens het tabblad Netwerken en voer de volgende gegevens in:

    • Azure Databricks-werkruimte implementeren in uw Virtual Network (VNet) Selecteer Ja.
    • Virtual Network Kies in de vervolgkeuzelijst de Virtual Network waar uw beheerde exemplaar zich bevindt.
    • Naam van openbaar subnet Voer een naam in voor het openbare subnet.
    • CIDR-bereik van openbaar subnet Voer een IP-bereik in voor het openbare subnet.
    • Naam van privésubnet Voer een naam in voor het privésubnet.
    • CIDR-bereik van privésubnet Voer een IP-bereik in voor het privésubnet.

    Als u bereikconflicten wilt voorkomen, moet u hogere bereiken selecteren. Gebruik indien nodig een visuele subnetcalculator om de bereiken te verdelen:

    Schermopname van de Visual Subnet Calculator met twee gemarkeerde identieke netwerkadressen.

    In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:

    Schermopname van de opgegeven namen van openbare en persoonlijke subnetten.

  8. Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.

  9. Start Werkruimte nadat deze is gemaakt.

  10. U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.

  11. Accepteer in het deelvenster Nieuw cluster standaardwaarden voor alle velden behalve de volgende velden:

    • Clusternaam Voer een naam in voor het cluster.
    • Databricks Runtime-versie U wordt aangeraden Databricks Runtime versie 7.5 of hoger te selecteren voor ondersteuning voor Spark 3.x.

    Schermopname van het dialoogvenster Nieuw cluster met een Databricks Runtime-versie geselecteerd.

  12. Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de IP-adressen en referenties van het knooppunt vervangt:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel systeemeigen als Azure Cosmos DB Cassandra-eindpunten. Selecteer in uw cluster Bibliotheken>Nieuwe>Maven installeren en voeg vervolgens Maven-coördinaten toe com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 .

Schermopname van het zoeken naar Maven-pakketten in Databricks.

Resources opschonen

Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:

  1. Selecteer Resourcegroepen in het linkermenu van Azure Portal.
  2. Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
  3. Selecteer in het deelvenster Overzicht van de resourcegroep de optie Resourcegroep verwijderen.
  4. Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.

Volgende stappen

In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in de Virtual Network van uw Azure Managed Instance voor Apache Cassandra-cluster. Vervolgens leert u hoe u de cluster- en datacenterresources beheert: