Partager via


Démarrage rapide : Créer un cluster Apache Spark dans Azure HDInsight à l’aide du portail Azure

Dans ce guide de démarrage rapide, vous utilisez le portail Azure pour créer un cluster Apache Spark dans Azure HDInsight. Vous créez ensuite un notebook Jupyter et utilisez-le pour exécuter des requêtes Spark SQL sur des tables Apache Hive. Azure HDInsight est un service d’analytique open source managé, complet et à spectre complet pour les entreprises. Le framework Apache Spark pour HDInsight permet une analytique données et des calculs sur cluster rapides à l’aide du traitement en mémoire. Jupyter Notebook vous permet d’interagir avec vos données, de combiner du code avec du texte markdown et d’effectuer des visualisations simples.

Pour obtenir des explications détaillées sur les configurations disponibles, consultez Configurer des clusters dans HDInsight. Pour plus d’informations sur l’utilisation du portail pour créer des clusters, consultez Créer des clusters dans le portail.

Si vous utilisez plusieurs clusters ensemble, vous souhaiterez peut-être créer un réseau virtuel ; Si vous utilisez un cluster Spark, vous pouvez également utiliser Hive Warehouse Connector. Pour plus d’informations, consultez Planifier un réseau virtuel pour Azure HDInsight et Intégrer Apache Spark et Apache Hive à Hive Warehouse Connector.

Important

La facturation pour les clusters HDInsight est calculée au prorata par minute, que vous les utilisiez ou non. Veillez à supprimer votre cluster une fois que vous avez terminé de l’utiliser. Pour plus d’informations, consultez la section Nettoyer les ressources de cet article.

Prerequisites

Un compte Azure avec un abonnement actif. Créez un compte gratuitement.

Créer un cluster Apache Spark dans HDInsight

Vous utilisez le portail Azure pour créer un cluster HDInsight qui utilise des Blobs de stockage Azure comme stockage pour le cluster. Pour plus d’informations sur l’utilisation de Data Lake Storage Gen2, consultez Démarrage rapide : Configurer des clusters dans HDInsight.

  1. Connectez-vous au portail Azure.

  2. Dans le menu du haut, sélectionnez + Créer une ressource.

    Capture d’écran du portail Azure comment créer une ressource.

  3. Sélectionnez Analytics>Azure HDInsight pour accéder à la page Créer un cluster HDInsight .

  4. Sous l’onglet Informations de base , fournissez les informations suivantes :

    Propriété Descriptif
    Subscription Dans la liste déroulante, sélectionnez l’abonnement Azure utilisé pour le cluster.
    groupe de ressources Dans la liste déroulante, sélectionnez votre groupe de ressources existant ou Créer.
    Nom du cluster Entrez un nom globalement unique.
    Région Dans la liste déroulante, sélectionnez une région où le cluster est créé.
    Zone de disponibilité Facultatif : spécifiez une zone de disponibilité dans laquelle déployer votre cluster
    Type de cluster Sélectionnez le type de cluster pour ouvrir une liste. Dans la liste, sélectionnez Spark.
    Version du cluster Lorsque le type de cluster est sélectionné, ce champ est automatiquement renseigné avec la version par défaut.
    Nom d’utilisateur de connexion du cluster Entrez le nom d’utilisateur de connexion du cluster. Le nom par défaut est administrateur. Vous utilisez ce compte pour vous connecter au bloc-notes Jupyter ultérieurement dans le guide de démarrage rapide.
    Mot de passe de connexion du cluster Entrez le mot de passe de connexion du cluster.
    Nom d’utilisateur SSH (Secure Shell) Entrez le nom d’utilisateur SSH. Le nom d’utilisateur SSH utilisé pour ce démarrage rapide est sshuser. Par défaut, ce compte partage le même mot de passe que le compte de nom d’utilisateur de connexion au cluster.

    Capture d’écran montrant créer un cluster HDInsight avec l’onglet De base sélectionné.

  5. Sélectionnez Suivant : Stockage >> pour passer à la page Stockage .

  6. Sous Stockage, fournissez les valeurs suivantes :

    Propriété Descriptif
    Type de stockage principal Utilisez la valeur par défaut stockage Azure.
    Méthode de sélection Utilisez la valeur par défaut Sélectionner dans la liste.
    Compte de stockage principal Utilisez la valeur renseignée automatiquement.
    Conteneur Utilisez la valeur renseignée automatiquement.

    Capture d’écran montrant créer un cluster HDInsight avec l’onglet Stockage sélectionné.

    Sélectionnez Vérifier + créer pour continuer.

  7. Sous Vérifier + créer, sélectionnez Créer. La création du cluster prend environ 20 minutes. Il faut que le cluster soit créé pour pouvoir passer à la prochaine session.

Si vous rencontrez un problème avec la création de clusters HDInsight, il se peut que vous n’ayez pas les autorisations appropriées pour le faire. Pour plus d’informations, consultez la configuration requise pour le contrôle d’accès.

Créer un notebook Jupyter

Jupyter Notebook est un environnement de notebook interactif qui prend en charge différents langages de programmation. Le notebook vous permet d’interagir avec vos données, de combiner du code avec du texte markdown et d’effectuer des visualisations simples.

  1. À partir d’un navigateur web, accédez à https://CLUSTERNAME.azurehdinsight.net/jupyter, où CLUSTERNAME est le nom de votre cluster. Si vous y êtes invité, entrez les informations d’identification de connexion du cluster.

  2. Sélectionnez New>PySpark pour créer un notebook.

    Créez un notebook Jupyter pour exécuter une requête Spark SQL interactive.

    Un nouveau notebook est créé et ouvert avec le nom Untitled(Untitled.pynb).

Exécuter des instructions APACHE Spark SQL

SQL (Langage de requête structurée) est le langage le plus courant et le plus couramment utilisé pour interroger et définir des données. Spark SQL fonctionne comme extension d’Apache Spark pour le traitement des données structurées à l’aide de la syntaxe SQL familière.

  1. Vérifiez que le noyau est prêt. Le noyau est prêt lorsque vous voyez un cercle creux en regard du nom du noyau dans le bloc-notes. Le cercle solide indique que le noyau est occupé.

    Capture d’écran montrant une fenêtre Jupyter avec un indicateur PySpark.

    Lorsque vous démarrez le notebook pour la première fois, le noyau effectue certaines tâches en arrière-plan. Attendez que le noyau soit prêt.

  2. Collez le code suivant dans une cellule vide, puis appuyez sur Maj + Entrée pour exécuter le code. La commande répertorie les tables Hive sur le cluster :

    %%sql
    SHOW TABLES
    

    Lorsque vous utilisez un notebook Jupyter avec votre cluster HDInsight, vous obtenez une présélection sqlContext que vous pouvez utiliser pour exécuter des requêtes Hive à l’aide de Spark SQL. %%sql indique à Jupyter Notebook d’utiliser la présélection sqlContext pour exécuter la requête Hive. La requête récupère les 10 premières lignes d’une table Hive (hivesampletable) fournie par défaut avec tous les clusters HDInsight. Il faut environ 30 secondes pour obtenir les résultats. Le résultat se présente ainsi :

    Capture d’écran montrant une fenêtre Jupyter pour le bloc-notes créé dans ce démarrage rapide. s’agit du démarrage rapide." border="true":::

    Chaque fois que vous exécutez une requête dans Jupyter, le titre de la fenêtre du navigateur web affiche un état (Occupé) ainsi que le titre du bloc-notes. Vous voyez également un cercle plein en regard du texte PySpark dans le coin supérieur droit.

  3. Exécutez une autre requête pour afficher les données dans hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    L’écran doit s’actualiser pour afficher la sortie de la requête.

    Sortie de requête Hive dans HDInsight. Insight" border="true":::

  4. Dans le menu Fichier du bloc-notes, sélectionnez Fermer et Arrêter. L’arrêt du notebook libère les ressources du cluster.

Nettoyer les ressources

HDInsight enregistre vos données dans Stockage Azure ou Azure Data Lake Storage. Vous pouvez donc supprimer en toute sécurité un cluster lorsqu’il n’est pas utilisé. Vous devez également payer pour un cluster HDInsight, même quand vous ne l’utilisez pas. Étant donné que les frais pour le cluster sont bien plus élevés que les frais de stockage, mieux vaut supprimer les clusters quand ils ne sont pas utilisés. Si vous envisagez de travailler sur le didacticiel répertorié dans les étapes suivantes immédiatement, vous souhaiterez peut-être conserver le cluster.

Revenez au portail Azure, puis sélectionnez Supprimer.

Portail Azure : supprimez un cluster HDInsight. sight cluster" border="true":::

Vous pouvez également sélectionner le nom du groupe de ressources pour ouvrir la page du groupe de ressources, puis sélectionner Supprimer le groupe de ressources. En supprimant le groupe de ressources, vous supprimez à la fois le cluster HDInsight et le compte de stockage par défaut.

Étapes suivantes

Dans ce guide de démarrage rapide, vous avez appris à créer un cluster Apache Spark dans HDInsight et à exécuter une requête Spark SQL de base. Passez au tutoriel suivant pour apprendre à utiliser un cluster HDInsight pour exécuter des requêtes interactives sur des exemples de données.