Vastgelegde Avro-bestanden verkennen in Azure Event Hubs

Dit artikel bevat het schema voor Avro-bestanden die zijn vastgelegd door Azure Event Hubs en enkele hulpprogramma's om de bestanden te verkennen.

Schema

De Avro-bestanden die door Event Hubs Capture worden geproduceerd, hebben het volgende Avro-schema:

Afbeelding van het schema van Avro-bestanden die zijn vastgelegd door Azure Event Hubs.

Azure Storage Explorer

U kunt controleren of vastgelegde bestanden zijn gemaakt in het Azure Storage-account met behulp van hulpprogramma's zoals Azure Storage Explorer. U kunt bestanden lokaal downloaden om eraan te werken.

Een eenvoudige manier om Avro-bestanden te verkennen, is met behulp van het Jar-bestand Avro-hulpprogramma's van Apache. U kunt Apache Spark ook gebruiken om complexe gedistribueerde verwerking van de opgenomen gegevens uit te voeren.

Apache Spark gebruiken

Apache Spark is een 'geïntegreerde analyse-engine voor grootschalige gegevensverwerking'. Het ondersteunt verschillende talen, waaronder SQL, en heeft eenvoudig toegang tot Azure Blob Storage. Er zijn een aantal opties voor het uitvoeren van Apache Spark in Azure en elke optie biedt eenvoudige toegang tot Azure Blob Storage:

Avro-hulpprogramma's gebruiken

Avro Tools zijn beschikbaar als jar-pakket. Nadat u het JAR-bestand hebt gedownload, kunt u het schema van een specifiek Avro-bestand zien door de volgende opdracht uit te voeren:

java -jar avro-tools-1.9.1.jar getschema <name of capture file>

Deze opdracht retourneert

{

    "type":"record",
    "name":"EventData",
    "namespace":"Microsoft.ServiceBus.Messaging",
    "fields":[
                 {"name":"SequenceNumber","type":"long"},
                 {"name":"Offset","type":"string"},
                 {"name":"EnqueuedTimeUtc","type":"string"},
                 {"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Body","type":["null","bytes"]}
             ]
}

U kunt ook Avro Tools gebruiken om het bestand te converteren naar JSON-indeling en andere verwerkingen uit te voeren.

Als u meer geavanceerde verwerking wilt uitvoeren, downloadt en installeert u Avro voor uw keuze van het platform. Op het moment van schrijven zijn er implementaties beschikbaar voor C, C++, C#, Java, NodeJS, Perl, PHP, Python en Ruby.

Apache Avro heeft volledige Aan de slag handleidingen voor Java en Python. U kunt ook het artikel Aan de slag met Event Hubs Capture lezen.

Volgende stappen

Event Hubs Capture is de eenvoudigste manier om gegevens in Azure te krijgen. Met Behulp van Azure Data Lake, Azure Data Factory en Azure HDInsight kunt u batchverwerking en andere analyses uitvoeren met behulp van vertrouwde hulpprogramma's en platforms van uw keuze, op elke schaal die u nodig hebt. Zie de volgende artikelen voor meer informatie over deze functie.