Tutoriel : Analyser les données d’Apache Spark à l’aide de Power BI dans HDInsight

Dans ce tutoriel, vous allez apprendre à utiliser Microsoft Power BI pour visualiser des données dans un cluster Apache Spark dans Azure HDInsight.

Dans ce tutoriel, vous allez apprendre à :

  • Visualiser les données Spark à l’aide de Power BI

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Prérequis

Vérifier les données

Le bloc-notes Jupyter Notebook que vous avez créé dans le tutoriel précédent comprend du code pour créer une table hvac. Cette table est basée sur le fichier CSV disponible sur tous les clusters HDInsight Spark à l'emplacement \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Utilisez la procédure suivante pour vérifier les données.

  1. Dans le notebook Jupyter, collez le code suivant, puis appuyez sur MAJ + ENTRÉE. Le code vérifie l’existence des tables.

    %%sql
    SHOW TABLES
    

    Le résultat se présente ainsi :

    Capture d’écran illustrant des tables dans Spark.

    Si vous avez fermé le bloc-notes avant de commencer ce didacticiel, hvactemptable est nettoyée et n’est donc pas incluse dans la sortie. Seules les tables Hive qui sont stockées dans le metastore (colonne isTemporary définie sur False) sont accessibles à partir des outils décisionnels. Dans ce didacticiel, vous vous connectez à la table hvac que vous avez créée.

  2. Collez le code suivant dans une cellule vide, puis appuyez sur MAJ + ENTRÉE. Le code vérifie les données de la table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Le résultat se présente ainsi :

    Capture d’écran illustrant des lignes à partir d’une table hvac dans Spark.

  3. Dans le menu Fichier du Notebook, sélectionnez Fermer et interrompre. Arrêtez le bloc-notes pour libérer les ressources.

Visualiser les données

Dans cette section, vous utilisez Power BI pour créer des visualisations, des rapports et tableaux de bord à partir des données de cluster Spark.

Création d’un rapport dans Power BI Desktop

Les premières étapes de l’utilisation de Spark consistent à se connecter au cluster dans Power BI Desktop, à charger des données à partir du cluster et à créer une visualisation de base reposant sur ces données.

  1. Ouvrez Power BI Desktop. Si l’écran de démarrage s’ouvre, fermez-le.

  2. Sous l'onglet Accueil, accédez à Obtenir les données>Autres...

    Capture d’écran illustrant l’obtention de données dans Power BI Desktop à partir de HDInsight Apache Spark.

  3. Entrez Spark dans la zone de recherche, sélectionnez Azure HDInsight Spark, puis choisissez Se connecter.

    Capture d’écran illustrant l’obtention de données dans Power BI à partir d’Apache Spark BI.

  4. Entrez l'URL de votre cluster (sous la forme mysparkcluster.azurehdinsight.net) dans la zone de texte Serveur.

  5. Sous Mode de connectivité des données, sélectionnez DirectQuery. Sélectionnez ensuite OK.

    Vous pouvez utiliser l’un ou l’autre des deux modes de connectivité des données avec Spark. Si vous utilisez DirectQuery, les modifications sont répercutées dans les rapports sans que la totalité du jeu de données soit actualisée. Si vous importez des données, vous devez actualiser le jeu de données pour voir les modifications. Pour plus d’informations sur la façon d’utiliser DirectQuery et sur quand y recourir, consultez Utilisation de DirectQuery dans Power BI.

  6. Entrez les informations du compte de connexion HDInsight, puis sélectionnez Se connecter. Le nom du compte par défaut est administrateur.

  7. Sélectionnez la table hvac, attendez que l'aperçu des données s'affiche, puis sélectionnez Charger.

    Capture d’écran illustrant le nom d’utilisateur et le mot de passe du cluster Spark.

    Power BI Desktop dispose de toutes les informations nécessaires pour se connecter au cluster Spark et charger des données à partir de la hvac table. La table et ses colonnes sont affichées dans le volet Champ.

  8. Visualisez l’écart entre la température cible et la température réelle de chaque bâtiment :

    1. Dans le volet VISUALISATIONS, sélectionnez Graphique en aires.

    2. Faites glisser le champ BuildingID vers Axe et les champs ActualTemp et TargetTemp vers Valeurs.

      Capture d’écran illustrant l’ajout de colonne de valeurs.

      Le diagramme a l’aspect suivant :

      Capture d’écran illustrant la somme de graphique en aires.

      Par défaut, la visualisation affiche la somme des valeurs des champs ActualTemp et TargetTemp. Sélectionnez la flèche bas en regard d'ActualTemp et TragetTemp dans le volet Visualisations ; vous pouvez voir que Somme est sélectionné.

    3. Cliquez sur la flèche bas en regard d'ActualTemp et TragetTemp dans le volet Visualisations ; sélectionnez Moyenne pour obtenir une moyenne des températures réelle et cible de chaque bâtiment.

      Capture d’écran illustrant une moyenne de valeurs.

      La visualisation de vos données sera semblable à celle illustrée dans la capture d’écran. Déplacez le curseur sur la visualisation pour obtenir des info-bulles contenant des données pertinentes.

      Capture d’écran illustrant un graphique en aires

  9. Accédez à Fichier>Enregistrer, entrez le nom BuildingTemperature du fichier, puis sélectionnez Enregistrer.

Publier le rapport sur le service Power BI (facultatif)

Le service Power BI vous permet de partager des rapports et tableaux de bord dans toute votre organisation. Dans cette section, vous publiez tout d’abord le jeu de données et le rapport. Ensuite, vous épinglez le rapport à un tableau de bord. Les tableaux de bord sont généralement utilisés pour se concentrer sur un sous-ensemble de données dans un rapport. Vous n’avez qu’une seule visualisation dans votre rapport, mais il est toujours utile de parcourir les étapes.

  1. Ouvrez Power BI Desktop.

  2. Sous l’onglet Accueil, sélectionnez Publier.

    Capture d’écran illustrant la publication à partir de Power BI Desktop.

  3. Sélectionnez un espace de travail où publier votre jeu de données et votre rapport, puis cliquez sur Sélectionnez. Dans l’image suivante, l’option par défaut Mon espace de travail est sélectionnée.

    Capture d’écran illustrant la sélection d’espace de travail dans lequel publier un jeu de données et générer des rapports.

  4. Une fois la publication réussie, sélectionnez Ouvrir « BuildingTemperature.pbix » dans Power BI.

    Capture d’écran illustrant la publication de la réussite, cliquer pour entrer les informations d’identification.

  5. Dans le service Power BI, sélectionnez Entrer les informations d’identification.

    Capture d’écran illustrant comment entrer des informations d’identification dans le service Power BI.

  6. Sélectionnez Modifier les informations d’identification.

    Capture d’écran illustrant la modification des informations d’identification dans le service Power BI.

  7. Entrez les informations du compte de connexion HDInsight, puis sélectionnez Se connecter. Le nom du compte par défaut est administrateur.

    Capture d’écran illustrant la connexion au cluster Spark.

  8. Dans le volet gauche, accédez à Espaces de travail>Mon espace de travail>RAPPORTS, puis sélectionnez BuildingTemperature.

    Capture d’écran illustrant Rapport figurant sous rapports dans le volet de gauche.

    Vous devez également voir BuildingTemperature sous JEUX DE DONNÉES dans le volet gauche.

    Le visuel que vous avez créé dans Power BI Desktop est désormais disponible dans le service Power BI.

  9. Pointez votre curseur sur la visualisation, puis sélectionnez l’icône d’épingle dans le coin supérieur droit.

    Capture d’écran illustrant un rapport dans le service Power BI.

  10. Sélectionnez « Nouveau tableau de bord », entrez le nom Building temperature, puis sélectionnez Épingler.

    Capture d’écran illustrant une épingle dans un nouveau tableau de bord.

  11. Dans le rapport, sélectionnez Accéder au tableau de bord.

Votre visuel est épinglé au tableau de bord ; vous pouvez ajouter d’autres visuels au rapport et les épingler au même tableau de bord. Pour plus d’informations sur les rapports et les tableaux de bord, consultez Rapports dans Power BI et Tableaux de bord dans le service Power BI.

Nettoyer les ressources

Après avoir terminé ce didacticiel, vous souhaiterez peut-être supprimer le cluster. Avec HDInsight, vos données sont stockées dans le stockage Azure. Vous pouvez ainsi supprimer un cluster en toute sécurité s’il n’est pas en cours d’utilisation. Vous devez également payer pour un cluster HDInsight, même quand vous ne l’utilisez pas. Étant donné que les frais pour le cluster sont bien plus élevés que les frais de stockage, mieux vaut supprimer les clusters quand ils ne sont pas utilisés.

Pour supprimer un cluster, consultez Supprimer un cluster HDInsight à l’aide de votre navigateur, de PowerShell ou d’Azure CLI.

Étapes suivantes

Dans ce tutoriel, vous avez appris à utiliser Microsoft Power BI pour visualiser des données dans un cluster Apache Spark dans Azure HDInsight. Passez à l’article suivant pour voir comment créer une application d’apprentissage automatique.