Zkoumání zachycených souborů Avro v Azure Event Hubs
Tento článek obsahuje schéma pro soubory Avro zachycené Azure Event Hubs a několik nástrojů pro prozkoumání souborů.
Schéma
Soubory Avro vytvořené službou Event Hubs Capture mají následující schéma Avro:
Průzkumník služby Azure Storage
Pomocí nástrojů, jako je Průzkumník služby Azure Storage, můžete ověřit, že se v účtu Azure Storage vytvořily zachycené soubory. Soubory si můžete stáhnout místně a pracovat na nich.
Snadný způsob, jak prozkoumat soubory Avro, je použít soubor JAR nástrojů Avro od Apache. Apache Spark můžete také použít k provádění komplexního distribuovaného zpracování ingestovaných dat.
Použití Apache Sparku
Apache Spark je "jednotný analytický modul pro rozsáhlé zpracování dat". Podporuje různé jazyky, včetně SQL, a může snadno přistupovat ke službě Azure Blob Storage. Existuje několik možností spuštění Apache Sparku v Azure a každá z nich poskytuje snadný přístup k úložišti objektů blob v Azure:
- HDInsight: Adresovat soubory ve službě Azure Storage
- Azure Databricks: Azure Blob Storage. Podívejte se na následující ukázku: Streamování ve velkém se službou Event Hubs Capture.
- Azure Kubernetes Service
Použití nástrojů Avro
Nástroje Avro jsou k dispozici jako balíček jar. Po stažení souboru JAR můžete spuštěním následujícího příkazu zobrazit schéma konkrétního souboru Avro:
java -jar avro-tools-1.9.1.jar getschema <name of capture file>
Tento příkaz vrátí
{
"type":"record",
"name":"EventData",
"namespace":"Microsoft.ServiceBus.Messaging",
"fields":[
{"name":"SequenceNumber","type":"long"},
{"name":"Offset","type":"string"},
{"name":"EnqueuedTimeUtc","type":"string"},
{"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Body","type":["null","bytes"]}
]
}
Pomocí nástrojů Avro můžete také převést soubor do formátu JSON a provést další zpracování.
Pokud chcete provádět pokročilejší zpracování, stáhněte a nainstalujte Avro pro platformu, kterou si zvolíte. V době psaní tohoto textu jsou k dispozici implementace pro C, C++, C#, Java, NodeJS, Perl, PHP, Python a Ruby.
Apache Avro obsahuje kompletní průvodce Začínáme pro Javu a Python. Můžete si také přečíst článek Začínáme se službou Event Hubs Capture .
Další kroky
Zachytávání služby Event Hubs je nejjednodušší způsob, jak dostat data do Azure. Pomocí Azure Data Lake, Azure Data Factory a Azure HDInsight můžete provádět dávkové zpracování a další analýzy pomocí známých nástrojů a platforem podle vašeho výběru v libovolném měřítku. Další informace o této funkci najdete v následujících článcích.