Rögzített Avro-fájlok felderítése Azure Event Hubs
Ez a cikk a Azure Event Hubs által rögzített Avro-fájlok sémáját és néhány eszközt tartalmaz a fájlok felfedezéséhez.
Séma
Az Event Hubs Capture által létrehozott Avro-fájlok a következő Avro-sémával rendelkeznek:
Azure Storage Explorer
Ellenőrizheti, hogy a rögzített fájlok az Azure Storage-fiókban lettek-e létrehozva olyan eszközökkel, mint a Azure Storage Explorer. A fájlok helyi letöltésével dolgozhat rajtuk.
Az Avro-fájlok megismerésének egy egyszerű módja az Apache Avro Tools jar-fájljának használata. Az Apache Spark használatával összetett elosztott feldolgozást is végezhet a betöltött adatokon.
Az Apache Spark használata
Az Apache Spark egy "egységes elemzési motor nagy léptékű adatfeldolgozáshoz". Támogatja a különböző nyelveket, beleértve az SQL-t is, és könnyen hozzáférhet az Azure Blob Storage-hoz. Az Apache Spark azure-beli futtatásának néhány lehetősége van, és mindegyik egyszerű hozzáférést biztosít az Azure Blob Storage-hoz:
- HDInsight: Címfájlok az Azure Storage-ban
- Azure Databricks: Azure Blob Storage. Tekintse meg a következő mintát: Streamelés nagy léptékben az Event Hubs Capture használatával.
- Azure Kubernetes Service
Az Avro-eszközök használata
Az Avro Tools jar-csomagként érhető el. A jar-fájl letöltése után az alábbi parancs futtatásával megtekintheti egy adott Avro-fájl sémáját:
java -jar avro-tools-1.9.1.jar getschema <name of capture file>
Ez a parancs visszaadja a
{
"type":"record",
"name":"EventData",
"namespace":"Microsoft.ServiceBus.Messaging",
"fields":[
{"name":"SequenceNumber","type":"long"},
{"name":"Offset","type":"string"},
{"name":"EnqueuedTimeUtc","type":"string"},
{"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Body","type":["null","bytes"]}
]
}
Az Avro-eszközökkel JSON formátumba konvertálhatja a fájlt, és egyéb feldolgozást végezhet.
Ha speciálisabb feldolgozást szeretne végezni, töltse le és telepítse az Avro-t a választott platformhoz. Az írás időpontjában a C, C++, C#, Java, NodeJS, Perl, PHP, Python és Ruby implementációk érhetők el.
Az Apache Avro teljes Első lépések java- és Python-útmutatókkal rendelkezik. Az Event Hubs Capture használatának első lépéseit ismertető cikket is elolvashatja.
Következő lépések
Az Event Hubs Capture a legegyszerűbb módja az adatok Azure-ba való beolvasásának. Az Azure Data Lake, a Azure Data Factory és az Azure HDInsight használatával tetszőleges léptékben végezhet kötegelt feldolgozást és egyéb elemzéseket az Ön által választott jól ismert eszközökkel és platformokkal. A funkcióval kapcsolatos további információkért tekintse meg az alábbi cikkeket.