Zkoumání zachycených souborů Avro v Azure Event Hubs

Tento článek obsahuje schéma pro soubory Avro zachycené Azure Event Hubs a několik nástrojů pro prozkoumání souborů.

Schéma

Soubory Avro vytvořené službou Event Hubs Capture mají následující schéma Avro:

Obrázek znázorňující schéma souborů Avro zachycených Azure Event Hubs

Průzkumník služby Azure Storage

Pomocí nástrojů, jako je Průzkumník služby Azure Storage, můžete ověřit, že se v účtu Azure Storage vytvořily zachycené soubory. Soubory si můžete stáhnout místně a pracovat na nich.

Snadný způsob, jak prozkoumat soubory Avro, je použít soubor JAR nástrojů Avro od Apache. Apache Spark můžete také použít k provádění komplexního distribuovaného zpracování ingestovaných dat.

Použití Apache Sparku

Apache Spark je "jednotný analytický modul pro rozsáhlé zpracování dat". Podporuje různé jazyky, včetně SQL, a může snadno přistupovat ke službě Azure Blob Storage. Existuje několik možností spuštění Apache Sparku v Azure a každá z nich poskytuje snadný přístup k úložišti objektů blob v Azure:

Použití nástrojů Avro

Nástroje Avro jsou k dispozici jako balíček jar. Po stažení souboru JAR můžete spuštěním následujícího příkazu zobrazit schéma konkrétního souboru Avro:

java -jar avro-tools-1.9.1.jar getschema <name of capture file>

Tento příkaz vrátí

{

    "type":"record",
    "name":"EventData",
    "namespace":"Microsoft.ServiceBus.Messaging",
    "fields":[
                 {"name":"SequenceNumber","type":"long"},
                 {"name":"Offset","type":"string"},
                 {"name":"EnqueuedTimeUtc","type":"string"},
                 {"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
                 {"name":"Body","type":["null","bytes"]}
             ]
}

Pomocí nástrojů Avro můžete také převést soubor do formátu JSON a provést další zpracování.

Pokud chcete provádět pokročilejší zpracování, stáhněte a nainstalujte Avro pro platformu, kterou si zvolíte. V době psaní tohoto textu jsou k dispozici implementace pro C, C++, C#, Java, NodeJS, Perl, PHP, Python a Ruby.

Apache Avro obsahuje kompletní průvodce Začínáme pro Javu a Python. Můžete si také přečíst článek Začínáme se službou Event Hubs Capture .

Další kroky

Zachytávání služby Event Hubs je nejjednodušší způsob, jak dostat data do Azure. Pomocí Azure Data Lake, Azure Data Factory a Azure HDInsight můžete provádět dávkové zpracování a další analýzy pomocí známých nástrojů a platforem podle vašeho výběru v libovolném měřítku. Další informace o této funkci najdete v následujících článcích.