Tutoriel : Capturer des données Event Hubs au format Parquet et les analyser avec Azure Synapse Analytics

Article
08/03/2023

Ce tutoriel vous montre comment utiliser l’éditeur no code Stream Analytics pour créer un travail qui capture les données Event Hubs dans Azure Data Lake Storage Gen2 au format Parquet.

Ce tutoriel vous montre comment effectuer les opérations suivantes :

Déployer un générateur d'événements qui envoie des exemples d'événements à un hub d'événements
Créer un travail Stream Analytics à l’aide de l’éditeur sans code
Vérifier les données d’entrée et le schéma
Configurer une ressource Azure Data Lake Storage Gen2 sur laquelle les données du hub d’événements seront capturées
Exécuter la tâche Stream Analytics
Utiliser Azure Synapse Analytics pour interroger les fichiers Parquet

Prérequis

Avant de commencer, vous devez avoir suivi les étapes ci-dessous :

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit.
Déployez l’application de générateur d’événements TollApp sur Azure. Définissez le paramètre « interval » sur 1 et utilisez un nouveau groupe de ressources pour cette étape.
Créez un espace de travail Azure Synapse Analytics avec un compte Data Lake Storage Gen2.

Créer un travail Stream Analytics sans éditeur de code

Recherchez le groupe de ressources dans lequel le générateur d’événements TollApp a été déployé.
Sélectionnez l’espace de noms Azure Event Hubs.
Dans la page Espace de noms Event Hubs, sélectionnez Event Hubs sous Entités dans le menu de gauche.
Sélectionnez l’instance entrystream.
Dans la page Instance Event Hubs, sélectionnez Traiter les données sous la section Fonctionnalités du menu de gauche.
Sélectionnez Démarrer sur la vignette Capturer des données dans ADLS Gen2 au format Parquet.
Nommez votre travail parquetcapture, puis sélectionnez Créer.
Dans la page de configuration du hub d’événements, confirmez les paramètres suivants, puis sélectionnez Connecter.
- Groupe de consommateurs : valeur par défaut
- Type de sérialisation de vos données d’entrée : JSON
- Mode d’authentification utilisé par le travail pour se connecter à votre hub d’événements : chaîne de connexion.
Dans quelques secondes, vous verrez s’afficher des exemples de données d’entrée ainsi que le schéma. Vous pouvez choisir de supprimer des champs, de les renommer ou de modifier le type de données.
Sélectionnez la vignette Azure Data Lake Storage Gen2 sur votre canevas et configurez-la en spécifiant
- L’abonnement dans lequel se trouve votre compte Azure Data Lake Gen2
- Le nom du compte de stockage, qui doit être le même compte ADLS Gen2 que celui utilisé avec votre espace de travail Azure Synapse Analytics dans la section Conditions préalables.
- Le conteneur à l’intérieur duquel les fichiers Parquet seront créés.
- Le modèle de chemin doit être défini sur {date}/{time}
- Les valeurs du modèle de date et d’heure par défaut doivent être aaaa-mm-jj et HH.
- Sélectionnez Se connecter.
Sélectionnez Enregistrer dans le ruban supérieur pour enregistrer votre travail, puis Démarrer pour exécuter votre tâche. Une fois le travail démarré, sélectionnez X dans le coin droit pour fermer la page du travail Stream Analytics.
Vous verrez ensuite la liste de tous les travaux Stream Analytics créés à l’aide de l’éditeur sans code. Et au bout de deux minutes, votre travail passe à l’état En cours d’exécution. Sélectionnez le bouton Actualiser sur la page pour voir l’état passer de Création -> Démarrage -> En cours d’exécution.

Afficher la sortie dans votre compte Azure Data Lake Storage Gen2

Recherchez le compte Azure Data Lake Storage Gen2 que vous avez utilisé à l’étape précédente.
Accédez au conteneur que vous avez utilisé à l’étape précédente. Vous verrez les fichiers Parquet créés en fonction du modèle de chemin {date}/{time} utilisé à l’étape précédente.

Interroger des données capturées au format Parquet avec Azure Synapse Analytics

Interroger avec Azure Synapse Spark

Recherchez votre espace de travail Azure Synapse Analytics et ouvrez Synapse Studio.
Créez un pool Apache Spark serverless dans votre espace de travail s’il n’en existe pas déjà un.
Dans Synapse Studio, accédez au hub Développer et créez un Notebook.
Créez une cellule de code et collez-y le code suivant. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.
```
%%pyspark
df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
display(df.limit(10))
df.count()
df.printSchema()
```
Pour Attacher à dans la barre d’outils, sélectionnez votre pool Spark dans la liste déroulante.
Sélectionnez Exécuter tout pour afficher les résultats

Interroger avec Azure Synapse SQL serverless

Dans le hub Développer, créez un script SQL.
Collez le script suivant et exécutez-le à l’aide du point de terminaison SQL serverless intégré. Remplacez conteneur et adlsname par le nom du conteneur et du compte ADLS Gen2 utilisé à l’étape précédente.
```
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]
```

Nettoyer les ressources

Recherchez votre instance Event Hubs et consultez la liste des travaux Stream Analytics dans la section Traitement des données. Arrêtez tous les travaux en cours d’exécution.
Accédez au groupe de ressources que vous avez utilisé lors du déploiement du générateur d’événements TollApp.
Sélectionnez Supprimer le groupe de ressources. Tapez le nom du groupe de ressources pour confirmer la suppression.

Étapes suivantes

Dans ce tutoriel, vous avez appris à créer un travail Stream Analytics sans éditeurs de code pour capturer des flux de données Event Hubs au format Parquet. Vous avez ensuite utilisé Azure Synapse Analytics pour interroger les fichiers Parquet à l’aide de Synapse Spark et de Synapse SQL.

Traitement des flux sans code avec Azure Stream Analytics

Partager via