Exploration des fichiers Avro capturés dans Azure Event Hubs
Cet article fournit le schéma des fichiers Avro capturés par Azure Event Hubs ainsi que quelques outils permettant de les explorer.
schéma
Les fichiers Avro générés par Event Hubs Capture présentent le schéma Avro suivant :
Explorateur de stockage Azure
Vous pouvez vérifier que des fichiers capturés ont été créés dans le compte de stockage Azure à l’aide d’outils tels que l’Explorateur Stockage Azure. Vous pouvez télécharger les fichiers localement pour les utiliser.
Un moyen facile d’explorer les fichiers Avro consiste à utiliser la boîte à outils Avro d’Apache. Vous pouvez également utiliser Apache Spark pour effectuer un traitement distribué complexe sur les données ingérées.
Utiliser Apache Spark
Apache Spark est un « moteur d’analyse unifié pour le traitement des données à grande échelle ». Il prend en charge différents langages, y compris SQL, et peut facilement accéder à Stockage Blob Azure. Il existe quelques options pour exécuter Apache Spark dans Azure, et chacune fournit un accès facile au Stockage Blob Azure :
- HDInsight : adressage des fichiers dans le stockage Azure
- Azure Databricks : Stockage Blob Azure. Consultez l’exemple suivant : Streaming à grande échelle avec Event Hubs Capture.
- Azure Kubernetes Service
Utiliser les outils Avro
Les outils Avro sont disponibles sous la forme d’un package jar. Après avoir téléchargé le fichier jar, vous pouvez voir le schéma d’un fichier Avro spécifique en exécutant la commande suivante :
java -jar avro-tools-1.9.1.jar getschema <name of capture file>
Cette commande renvoie
{
"type":"record",
"name":"EventData",
"namespace":"Microsoft.ServiceBus.Messaging",
"fields":[
{"name":"SequenceNumber","type":"long"},
{"name":"Offset","type":"string"},
{"name":"EnqueuedTimeUtc","type":"string"},
{"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Body","type":["null","bytes"]}
]
}
Vous pouvez également utiliser les outils Avro pour convertir le fichier au format JSON et effectuer d’autres traitements.
Pour effectuer un traitement plus avancé, téléchargez et installez Avro pour la plateforme de votre choix. Au moment de la rédaction de cet article, les implémentations sont disponibles pour C, C++, C#, Java, NodeJS, Perl, PHP, Python et Ruby.
Apache Avro propose des guides de mise en route complets pour Javaet Python. Vous pouvez également lire l’article Prise en main d’Event Hubs Capture.
Étapes suivantes
Event Hubs Capture est la solution la plus simple pour charger des données dans Azure. À l’aide d’Azure Data Lake, d’Azure Data Factory et d’Azure HDInsight, vous pouvez effectuer un traitement par lots, ainsi que d’autres analyses en utilisant des outils et des plateformes de votre choix, à l’échelle requise. Pour en savoir plus sur cette fonctionnalité, lisez les articles suivants :