Gegevens uit Event Hubs vastleggen in Parquet-indeling
In dit artikel wordt uitgelegd hoe u de editor zonder code gebruikt om streaminggegevens in Event Hubs automatisch vast te leggen in een Azure Data Lake Storage Gen2-account in de Parquet-indeling.
Vereisten
Een Azure Event Hubs naamruimte met een Event Hub en een Azure Data Lake Storage Gen2-account met een container om de vastgelegde gegevens op te slaan. Deze resources moeten openbaar toegankelijk zijn en kunnen zich niet achter een firewall of in een virtueel Azure-netwerk bevinden.
Als u geen Event Hub hebt, kunt u er een maken door de instructies in Quickstart: Een Event Hub maken te volgen.
Als u geen Data Lake Storage Gen2-account hebt, maakt u er een door de instructies in Een opslagaccount maken te volgen
De gegevens in uw Event Hubs moeten worden geserialiseerd in JSON-, CSV- of Avro-indeling. Voor testdoeleinden selecteert u Gegevens genereren (preview) in het linkermenu, selecteert u Aandelengegevens voor gegevensset en selecteert u vervolgens Verzenden.
Een taak configureren om gegevens vast te leggen
Gebruik de volgende stappen om een Stream Analytics-taak te configureren voor het vastleggen van gegevens in Azure Data Lake Storage Gen2.
Navigeer in de Azure Portal naar uw Event Hub.
Selecteer in het linkermenu onder Functiesde optie Gegevens verwerken. Selecteer vervolgens Start op de kaart Gegevens vastleggen in ADLS Gen2 in Parquet-indeling .
Voer een naam in voor uw Stream Analytics-taak en selecteer vervolgens Maken.
Geef het serialisatietype van uw gegevens op in de Event Hubs en de verificatiemethode die de taak gebruikt om verbinding te maken met Event Hubs. Selecteer vervolgens Connect.
Wanneer de verbinding tot stand is gebracht, ziet u het volgende:
Velden die aanwezig zijn in de invoergegevens. U kunt Veld toevoegen kiezen of u kunt het drie puntsymbool naast een veld selecteren om de naam ervan te verwijderen, de naam ervan te wijzigen of de naam ervan te wijzigen.
Een livevoorbeeld van binnenkomende gegevens in de tabel Voorbeeld van gegevens in de diagramweergave. Het wordt regelmatig vernieuwd. U kunt Streamingvoorbeeld onderbreken selecteren om een statische weergave van de voorbeeldinvoer weer te geven.
Selecteer de tegel Azure Data Lake Storage Gen2 om de configuratie te bewerken.
Voer op de pagina Azure Data Lake Storage Gen2 configuratie de volgende stappen uit:
Selecteer het abonnement, de naam van het opslagaccount en de container in de vervolgkeuzelijst.
Zodra het abonnement is geselecteerd, moeten de verificatiemethode en de opslagaccountsleutel automatisch worden ingevuld.
Selecteer Parquet voor Serialisatie-indeling .
Voor streaming-blobs wordt verwacht dat het padpatroon van de map een dynamische waarde is. De datum moet deel uitmaken van het bestandspad voor de blob, waarnaar wordt verwezen als
{date}
. Zie Azure Stream Analytics custom blob output partitioning (Aangepaste blobuitvoerpartitionering in Azure Stream Analytics) voor meer informatie over aangepaste padpatronen.Selecteer Verbinding maken
Wanneer de verbinding tot stand is gebracht, ziet u velden die aanwezig zijn in de uitvoergegevens.
Selecteer Opslaan op de opdrachtbalk om uw configuratie op te slaan.
Selecteer Start op de opdrachtbalk om de streamingstroom te starten om gegevens vast te leggen. Ga vervolgens in het venster Stream Analytics-taak starten als volgende te werk:
Kies de begintijd van de uitvoer.
Selecteer het prijsplan.
Selecteer het aantal streaming-eenheden (SU) waarmee de taak wordt uitgevoerd. SU vertegenwoordigt de rekenresources die zijn toegewezen voor het uitvoeren van een Stream Analytics-taak. Zie Streaming-eenheden in Azure Stream Analytics voor meer informatie.
U ziet de Stream Analytics-taak op het tabblad Stream Analytics-taak van de pagina Gegevens verwerken voor uw Event Hub.
Uitvoer controleren
Selecteer op de pagina Event Hubs-exemplaar voor uw Event Hub de optie Gegevens genereren, selecteer Aandelengegevens voor gegevensset en selecteer vervolgens Verzenden om enkele voorbeeldgegevens naar de Event Hub te verzenden.
Controleer of de Parquet-bestanden worden gegenereerd in de Azure Data Lake Storage-container.
Selecteer Gegevens verwerken in het linkermenu. Ga naar het tabblad Stream Analytics-taken . Selecteer Metrische gegevens openen om deze te bewaken.
Hier volgt een voorbeeldschermopname van metrische gegevens met invoer- en uitvoer-gebeurtenissen.
Volgende stappen
U weet nu hoe u de Stream Analytics-editor zonder code kunt gebruiken om een taak te maken waarmee Event Hubs-gegevens worden vastgelegd voor Azure Data Lake Storage Gen2 in Parquet-indeling. Vervolgens vindt u meer informatie over Azure Stream Analytics en het bewaken van de taak die u hebt gemaakt.