Gegevens uit Event Hubs vastleggen in Parquet-indeling

In dit artikel wordt uitgelegd hoe u de editor zonder code gebruikt om streaminggegevens in Event Hubs automatisch vast te leggen in een Azure Data Lake Storage Gen2-account in de Parquet-indeling.

Vereisten

  • Een Azure Event Hubs naamruimte met een Event Hub en een Azure Data Lake Storage Gen2-account met een container om de vastgelegde gegevens op te slaan. Deze resources moeten openbaar toegankelijk zijn en kunnen zich niet achter een firewall of in een virtueel Azure-netwerk bevinden.

    Als u geen Event Hub hebt, kunt u er een maken door de instructies in Quickstart: Een Event Hub maken te volgen.

    Als u geen Data Lake Storage Gen2-account hebt, maakt u er een door de instructies in Een opslagaccount maken te volgen

  • De gegevens in uw Event Hubs moeten worden geserialiseerd in JSON-, CSV- of Avro-indeling. Voor testdoeleinden selecteert u Gegevens genereren (preview) in het linkermenu, selecteert u Aandelengegevens voor gegevensset en selecteert u vervolgens Verzenden.

    Schermopname van de pagina Gegevens genereren om voorbeeldgegevens van aandelen te genereren.

Een taak configureren om gegevens vast te leggen

Gebruik de volgende stappen om een Stream Analytics-taak te configureren voor het vastleggen van gegevens in Azure Data Lake Storage Gen2.

  1. Navigeer in de Azure Portal naar uw Event Hub.

  2. Selecteer in het linkermenu onder Functiesde optie Gegevens verwerken. Selecteer vervolgens Start op de kaart Gegevens vastleggen in ADLS Gen2 in Parquet-indeling .

    Schermopname van de gegevensstartkaarten van Event Hubs verwerken.

  3. Voer een naam in voor uw Stream Analytics-taak en selecteer vervolgens Maken.

    Schermopname van het venster Nieuwe Stream Analytics-taak waarin u de taaknaam invoert.

  4. Geef het serialisatietype van uw gegevens op in de Event Hubs en de verificatiemethode die de taak gebruikt om verbinding te maken met Event Hubs. Selecteer vervolgens Connect.

    Schermopname van de configuratie van de Event Hubs-verbinding.

  5. Wanneer de verbinding tot stand is gebracht, ziet u het volgende:

    • Velden die aanwezig zijn in de invoergegevens. U kunt Veld toevoegen kiezen of u kunt het drie puntsymbool naast een veld selecteren om de naam ervan te verwijderen, de naam ervan te wijzigen of de naam ervan te wijzigen.

    • Een livevoorbeeld van binnenkomende gegevens in de tabel Voorbeeld van gegevens in de diagramweergave. Het wordt regelmatig vernieuwd. U kunt Streamingvoorbeeld onderbreken selecteren om een statische weergave van de voorbeeldinvoer weer te geven.

      Schermopname van voorbeeldgegevens onder Voorbeeld van gegevens.

  6. Selecteer de tegel Azure Data Lake Storage Gen2 om de configuratie te bewerken.

  7. Voer op de pagina Azure Data Lake Storage Gen2 configuratie de volgende stappen uit:

    1. Selecteer het abonnement, de naam van het opslagaccount en de container in de vervolgkeuzelijst.

    2. Zodra het abonnement is geselecteerd, moeten de verificatiemethode en de opslagaccountsleutel automatisch worden ingevuld.

    3. Selecteer Parquet voor Serialisatie-indeling .

      Schermopname van de configuratiepagina Data Lake Storage Gen2.

    4. Voor streaming-blobs wordt verwacht dat het padpatroon van de map een dynamische waarde is. De datum moet deel uitmaken van het bestandspad voor de blob, waarnaar wordt verwezen als {date}. Zie Azure Stream Analytics custom blob output partitioning (Aangepaste blobuitvoerpartitionering in Azure Stream Analytics) voor meer informatie over aangepaste padpatronen.

      Eerste schermopname van het Blob-venster waarin u de verbindingsconfiguratie van een blob bewerkt.

    5. Selecteer Verbinding maken

  8. Wanneer de verbinding tot stand is gebracht, ziet u velden die aanwezig zijn in de uitvoergegevens.

  9. Selecteer Opslaan op de opdrachtbalk om uw configuratie op te slaan.

    Schermopname met de knop Opslaan geselecteerd op de opdrachtbalk.

  10. Selecteer Start op de opdrachtbalk om de streamingstroom te starten om gegevens vast te leggen. Ga vervolgens in het venster Stream Analytics-taak starten als volgende te werk:

    1. Kies de begintijd van de uitvoer.

    2. Selecteer het prijsplan.

    3. Selecteer het aantal streaming-eenheden (SU) waarmee de taak wordt uitgevoerd. SU vertegenwoordigt de rekenresources die zijn toegewezen voor het uitvoeren van een Stream Analytics-taak. Zie Streaming-eenheden in Azure Stream Analytics voor meer informatie.

      Schermopname van het venster Stream Analytics-taak starten waarin u de begintijd van de uitvoer, streaming-eenheden en foutafhandeling instelt.

  11. U ziet de Stream Analytics-taak op het tabblad Stream Analytics-taak van de pagina Gegevens verwerken voor uw Event Hub.

    Schermopname van de Stream Analytics-taak op de pagina Gegevens verwerken.

Uitvoer controleren

  1. Selecteer op de pagina Event Hubs-exemplaar voor uw Event Hub de optie Gegevens genereren, selecteer Aandelengegevens voor gegevensset en selecteer vervolgens Verzenden om enkele voorbeeldgegevens naar de Event Hub te verzenden.

  2. Controleer of de Parquet-bestanden worden gegenereerd in de Azure Data Lake Storage-container.

    Schermopname van de gegenereerde Parquet-bestanden in de ADLS-container.

  3. Selecteer Gegevens verwerken in het linkermenu. Ga naar het tabblad Stream Analytics-taken . Selecteer Metrische gegevens openen om deze te bewaken.

    Schermopname met de koppeling Metrische gegevens openen geselecteerd.

    Hier volgt een voorbeeldschermopname van metrische gegevens met invoer- en uitvoer-gebeurtenissen.

    Schermopname met metrische gegevens van de Stream Analytics-taak.

Volgende stappen

U weet nu hoe u de Stream Analytics-editor zonder code kunt gebruiken om een taak te maken waarmee Event Hubs-gegevens worden vastgelegd voor Azure Data Lake Storage Gen2 in Parquet-indeling. Vervolgens vindt u meer informatie over Azure Stream Analytics en het bewaken van de taak die u hebt gemaakt.