Partager via


Démarrage rapide : Déployer un cluster Apache Spark managé Azure avec Azure Databricks

Azure Managed Instance pour Apache Cassandra offre des opérations de déploiement et de mise à l’échelle automatisées pour les centres de données Apache Cassandra open source managés. Cette fonctionnalité accélère les scénarios hybrides et permet de réduire la maintenance continue.

Ce guide de démarrage rapide montre comment utiliser le portail Azure pour créer un cluster Apache Spark entièrement managé à l’intérieur du réseau virtuel Azure de votre cluster Azure Managed Instance pour Apache Cassandra. Vous créez le cluster Spark dans Azure Databricks. Plus tard, vous pourrez créer ou attacher des notebooks au cluster, lire des données de différentes sources, et analyser des insights.

Vous pouvez également en savoir plus avec des instructions détaillées sur déployer Azure Databricks dans votre réseau virtuel Azure (injection de réseau virtuel) .

Prérequis

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Créer un cluster Azure Databricks

Procédez comme suit pour créer un cluster Azure Databricks dans un réseau virtuel avec Azure Managed Instance pour Apache Cassandra :

  1. Connectez-vous au portail Azure.

  2. Dans le volet gauche, recherchez les groupes de ressources. Accédez à votre groupe de ressources qui contient le réseau virtuel sur lequel votre instance managée est déployée.

  3. Ouvrez la ressource de réseau virtuel et notez l’espace d’adressage.

    Capture d’écran montrant où obtenir l’espace d’adressage de votre réseau virtuel.

  4. Dans le groupe de ressources, sélectionnez Ajouter et rechercher Azure Databricks dans le champ de recherche.

    Capture d’écran montrant une recherche pour Azure Databricks.

  5. Sélectionnez Créer pour créer un compte Azure Databricks.

    Capture d’écran montrant l’offre Azure Databricks avec Créer sélectionné.

  6. Saisissez les valeurs suivantes :

    • Nom de l’espace de travail : indiquez un nom pour votre espace de travail Azure Databricks.
    • Région : veillez à sélectionner la même région que votre réseau virtuel.
    • Niveau tarifaire : sélectionnez Standard, Premium ou Version d’évaluation. Pour plus d’informations sur ces niveaux, consultez la page de tarification d’Azure Databricks.

    Capture d’écran montrant une boîte de dialogue dans laquelle vous pouvez entrer le nom, la région et le niveau tarifaire de l’espace de travail pour le compte Azure Databricks.

  7. Sélectionnez l’onglet Mise en réseau , puis entrez les détails suivants :

    • Déployer un espace de travail Azure Databricks dans votre réseau virtuel (VNet) : sélectionnez Oui.
    • Réseau virtuel : dans la liste déroulante, choisissez le réseau virtuel où existe votre instance managée.
    • Nom du sous-réseau public : entrez un nom pour le sous-réseau public.
    • Plage CIDR du sous-réseau public : entrez une plage IP pour le sous-réseau public.
    • Nom du sous-réseau privé : entrez un nom pour le sous-réseau privé.
    • Plage CIDR de sous-réseau privé : entrez une plage IP pour le sous-réseau privé.

    Pour éviter les collisions d’étendues, sélectionnez des plages plus grandes. Si nécessaire, utilisez une calculatrice de sous-réseau visuel pour diviser les plages.

    Capture d’écran montrant la calculatrice de sous-réseau visuel avec deux adresses réseau identiques mises en surbrillance.

    La capture d’écran suivante montre des exemples de détails sur le volet réseau.

    Capture d’écran montrant les noms de sous-réseaux publics et privés spécifiés.

  8. Sélectionnez Vérifier + créer, puis créer pour déployer l’espace de travail.

  9. Ouvrez l’espace de travail une fois l’espace de travail créé.

  10. Vous êtes redirigé vers le portail Azure Databricks. Dans le portail, sélectionnez Nouveau cluster.

  11. Dans le volet Nouveau cluster , acceptez les valeurs par défaut pour tous les champs autres que les champs suivants :

    • Nom du cluster : entrez un nom pour le cluster.
    • Version du runtime Databricks : nous vous recommandons de sélectionner azure Databricks runtime version 7.5 ou ultérieure pour la prise en charge de Spark 3.x.

    Capture d’écran montrant la boîte de dialogue Nouveau cluster avec une version du runtime Azure Databricks sélectionnée.

  12. Développez Options avancées et ajoutez la configuration suivante. Veillez à remplacer les adresses IP de nœud et les informations d’identification.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Ajoutez la bibliothèque du connecteur Apache Spark Cassandra à votre cluster pour vous connecter aux points de terminaison Cassandra natifs et Azure Cosmos DB. Dans votre cluster, sélectionnez Bibliothèques>Installer nouveau>Maven, puis ajoutez com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 dans le champ Coordonnées Maven.

    Capture d’écran montrant la recherche de packages Maven dans Azure Databricks.

  14. Sélectionnez Installer.

Nettoyer les ressources

Si vous ne souhaitez pas continuer à utiliser ce cluster d’instances managées, procédez comme suit pour le supprimer :

  1. Dans le menu de gauche du portail Azure, sélectionnez Groupes de ressources.
  2. Dans la liste, sélectionnez le groupe de ressources que vous avez créé pour ce guide de démarrage rapide.
  3. Dans le volet Vue d’ensemble du groupe de ressources, sélectionnez Supprimer un groupe de ressources.
  4. Dans le volet suivant, entrez le nom du groupe de ressources à supprimer, puis sélectionnez Supprimer.

Étape suivante

Dans ce guide de démarrage rapide, vous avez appris à créer un cluster Apache Spark entièrement managé à l’intérieur du réseau virtuel de votre cluster Azure Managed Instance pour Apache Cassandra. Découvrez ensuite comment gérer les ressources du cluster et du centre de données.