Tutoriel : Capturer des données Event Hubs au format Parquet et les analyser avec Azure Synapse Analytics

Ce tutoriel vous montre comment utiliser l’éditeur no code Stream Analytics pour créer un travail qui capture les données Event Hubs dans Azure Data Lake Storage Gen2 au format Parquet.

Ce tutoriel vous montre comment effectuer les opérations suivantes :

  • Déployer un générateur d'événements qui envoie des exemples d'événements à un hub d'événements
  • Créer un travail Stream Analytics à l’aide de l’éditeur sans code
  • Vérifier les données d’entrée et le schéma
  • Configurer une ressource Azure Data Lake Storage Gen2 sur laquelle les données du hub d’événements seront capturées
  • Exécuter la tâche Stream Analytics
  • Utiliser Azure Synapse Analytics pour interroger les fichiers Parquet

Prérequis

Avant de commencer, vous devez avoir suivi les étapes ci-dessous :

Créer un travail Stream Analytics sans éditeur de code

  1. Recherchez le groupe de ressources dans lequel le générateur d’événements TollApp a été déployé.

  2. Sélectionnez l’espace de noms Azure Event Hubs.

  3. Dans la page Espace de noms Event Hubs, sélectionnez Event Hubs sous Entités dans le menu de gauche.

  4. Sélectionnez l’instance entrystream.

    Capture d’écran montrant la sélection du hub d’événements.

  5. Dans la page Instance Event Hubs, sélectionnez Traiter les données sous la section Fonctionnalités du menu de gauche.

  6. Sélectionnez Démarrer sur la vignette Capturer des données dans ADLS Gen2 au format Parquet.

    Capture d’écran montrant la sélection de la vignette **Capturer des données dans ADLS Gen2 au format Parquet**.

  7. Nommez votre travail parquetcapture, puis sélectionnez Créer.

    Capture d’écran de la page Nouveau travail Stream Analytics.

  8. Dans la page de configuration du hub d’événements, confirmez les paramètres suivants, puis sélectionnez Connecter.

    • Groupe de consommateurs : valeur par défaut

    • Type de sérialisation de vos données d’entrée : JSON

    • Mode d’authentification utilisé par le travail pour se connecter à votre hub d’événements : chaîne de connexion.

      Capture d’écran de la page de configuration de votre hub d’événements.

  9. Dans quelques secondes, vous verrez s’afficher des exemples de données d’entrée ainsi que le schéma. Vous pouvez choisir de supprimer des champs, de les renommer ou de modifier le type de données.

    Capture d’écran montrant les champs et l’aperçu des données.

  10. Sélectionnez la vignette Azure Data Lake Storage Gen2 sur votre canevas et configurez-la en spécifiant

    • L’abonnement dans lequel se trouve votre compte Azure Data Lake Gen2
    • Le nom du compte de stockage, qui doit être le même compte ADLS Gen2 que celui utilisé avec votre espace de travail Azure Synapse Analytics dans la section Conditions préalables.
    • Le conteneur à l’intérieur duquel les fichiers Parquet seront créés.
    • Le modèle de chemin doit être défini sur {date}/{time}
    • Les valeurs du modèle de date et d’heure par défaut doivent être aaaa-mm-jj et HH.
    • Sélectionnez Se connecter.

    Capture d’écran montrant les paramètres de configuration du Data Lake Storage.

  11. Sélectionnez Enregistrer dans le ruban supérieur pour enregistrer votre travail, puis Démarrer pour exécuter votre tâche. Une fois le travail démarré, sélectionnez X dans le coin droit pour fermer la page du travail Stream Analytics.

    Capture d’écran montrant la fenêtre Démarrer le travail Stream Analytics.

  12. Vous verrez ensuite la liste de tous les travaux Stream Analytics créés à l’aide de l’éditeur sans code. Et au bout de deux minutes, votre travail passe à l’état En cours d’exécution. Sélectionnez le bouton Actualiser sur la page pour voir l’état passer de Création -> Démarrage -> En cours d’exécution.

    Capture d’écran montrant la liste des travaux Stream Analytics.

Afficher la sortie dans votre compte Azure Data Lake Storage Gen2

  1. Recherchez le compte Azure Data Lake Storage Gen2 que vous avez utilisé à l’étape précédente.

  2. Accédez au conteneur que vous avez utilisé à l’étape précédente. Vous verrez les fichiers Parquet créés en fonction du modèle de chemin {date}/{time} utilisé à l’étape précédente.

    Capture d'écran montrant les fichiers parquet capturés dans Azure Data Lake Storage Gen 2.

Interroger des données capturées au format Parquet avec Azure Synapse Analytics

Interroger avec Azure Synapse Spark

  1. Recherchez votre espace de travail Azure Synapse Analytics et ouvrez Synapse Studio.

  2. Créez un pool Apache Spark serverless dans votre espace de travail s’il n’en existe pas déjà un.

  3. Dans Synapse Studio, accédez au hub Développer et créez un Notebook.

  4. Créez une cellule de code et collez-y le code suivant. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Pour Attacher à dans la barre d’outils, sélectionnez votre pool Spark dans la liste déroulante.

  6. Sélectionnez Exécuter tout pour afficher les résultats

    Capture d’écran des résultats de l’exécution spark dans Azure Synapse Analytics.

Interroger avec Azure Synapse SQL serverless

  1. Dans le hub Développer, créez un script SQL.

    Capture d'écran montrant la page Développer avec le menu nouveau script SQL sélectionné.

  2. Collez le script suivant et exécutez-le à l’aide du point de terminaison SQL serverless intégré. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Capture d’écran des résultats du script SQL dans Azure Synapse Analytics.

Nettoyer les ressources

  1. Recherchez votre instance Event Hubs et consultez la liste des travaux Stream Analytics dans la section Traitement des données. Arrêtez tous les travaux en cours d’exécution.
  2. Accédez au groupe de ressources que vous avez utilisé lors du déploiement du générateur d’événements TollApp.
  3. Sélectionnez Supprimer le groupe de ressources. Tapez le nom du groupe de ressources pour confirmer la suppression.

Étapes suivantes

Dans ce tutoriel, vous avez appris à créer un travail Stream Analytics sans éditeurs de code pour capturer des flux de données Event Hubs au format Parquet. Vous avez ensuite utilisé Azure Synapse Analytics pour interroger les fichiers Parquet à l’aide de Synapse Spark et de Synapse SQL.