Zkoumání zachycených souborů Avro ve službě Azure Event Hubs
Tento článek obsahuje schéma souborů Avro zachycených službou Azure Event Hubs a několik nástrojů pro prozkoumání souborů.
Schéma
Soubory Avro vytvořené službou Event Hubs Capture mají následující schéma Avro:
Azure Storage Explorer
Pomocí nástrojů, jako je Průzkumník služby Azure Storage, můžete ověřit, že se zachycené soubory vytvořily v účtu azure Storage. Soubory si můžete stáhnout místně, abyste na nich mohli pracovat.
Snadný způsob, jak prozkoumat soubory Avro, je použití souboru JAR Avro Tools z Apache. Apache Spark můžete také použít k provádění komplexního distribuovaného zpracování přijatých dat.
Použití Apache Sparku
Apache Spark je "jednotný analytický modul pro zpracování velkých objemů dat". Podporuje různé jazyky, včetně SQL, a umožňuje snadný přístup ke službě Azure Blob Storage. Existuje několik možností, jak spustit Apache Spark v Azure a každý z nich poskytuje snadný přístup ke službě Azure Blob Storage:
- HDInsight: Adresní soubory ve službě Azure Storage
- Azure Databricks: Azure Blob Storage. Podívejte se na následující ukázku: Streamování ve velkém měřítku pomocí funkce Event Hubs Capture.
- Azure Kubernetes Service
Použití nástrojů Avro
Nástroje Avro jsou k dispozici jako balíček JAR. Po stažení souboru JAR můžete zobrazit schéma konkrétního souboru Avro spuštěním následujícího příkazu:
java -jar avro-tools-1.9.1.jar getschema <name of capture file>
Tento příkaz vrátí
{
"type":"record",
"name":"EventData",
"namespace":"Microsoft.ServiceBus.Messaging",
"fields":[
{"name":"SequenceNumber","type":"long"},
{"name":"Offset","type":"string"},
{"name":"EnqueuedTimeUtc","type":"string"},
{"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Body","type":["null","bytes"]}
]
}
Pomocí nástrojů Avro můžete také převést soubor do formátu JSON a provádět další zpracování.
Pokud chcete provádět pokročilejší zpracování, stáhněte a nainstalujte Avro pro vaši volbu platformy. V době psaní tohoto textu jsou k dispozici implementace pro C, C++, C#, Java, NodeJS, Perl, PHP, Python a Ruby.
Apache Avro obsahuje kompletní příručky Začínáme pro Javu a Python. Můžete si také přečíst článek Začínáme se službou Event Hubs Capture .
Další kroky
Služba Event Hubs Capture představuje nejjednodušší způsob, jak získat data do Azure. Pomocí Azure Data Lake, Azure Data Factory a Azure HDInsight můžete provádět dávkové zpracování a další analýzy pomocí známých nástrojů a platforem podle vašeho výběru v libovolném měřítku. Další informace o této funkci najdete v následujících článcích.