Zelfstudie: Event Hubs-gegevens vastleggen in Parquet-indeling en analyseren met Azure Synapse Analytics

In deze zelfstudie ziet u hoe u de Stream Analytics-editor zonder code kunt gebruiken om een taak te maken waarmee Event Hubs-gegevens worden vastgelegd in Azure Data Lake Storage Gen2 in de Parquet-indeling.

In deze zelfstudie leert u het volgende:

  • Een gebeurtenisgenerator implementeren die voorbeeld gebeurtenissen naar een Event Hub verzendt
  • Een Stream Analytics-taak maken met de editor zonder code
  • Invoergegevens en schema controleren
  • Configureren Azure Data Lake Storage Gen2 naar welke Event Hub-gegevens worden vastgelegd
  • De Stream Analytics-taak uitvoeren
  • Gebruik Azure Synapse Analytics om query's uit te voeren op de Parquet-bestanden

Vereisten

Voordat u begint, moet u de volgende stappen hebben voltooid:

Geen code-editor gebruiken om een Stream Analytics-taak te maken

  1. Zoek de resourcegroep waarin de TollApp-gebeurtenisgenerator is geïmplementeerd.

  2. Selecteer de Azure Event Hubs naamruimte.

  3. Selecteer op de pagina Event Hubs-naamruimtede optie Event Hubs onder Entiteiten in het menu links.

  4. Selecteer entrystream exemplaar.

    Schermopname van de selectie van de Event Hub.

  5. Selecteer op de pagina Event Hubs-exemplaarde optie Gegevens verwerken in de sectie Functies in het menu aan de linkerkant.

  6. Selecteer Start op de tegel Gegevens vastleggen in ADLS Gen2 in Parquet-indeling .

    Schermopname van de selectie van de tegel **Gegevens vastleggen in ADLS Gen2 in Parquet-indeling**.

  7. Geef uw taak parquetcapture een naam en selecteer Maken.

    Schermopname van de pagina Nieuwe Stream Analytics-taak.

  8. Bevestig op de configuratiepagina van de Event Hub de volgende instellingen en selecteer vervolgens Verbinding maken.

    • Consumentengroep: standaard

    • Serialisatietype van uw invoergegevens: JSON

    • Verificatiemodus die de taak gebruikt om verbinding te maken met uw Event Hub: Verbindingsreeks.

      Schermopname van de configuratiepagina voor uw Event Hub.

  9. Binnen enkele seconden ziet u voorbeeldinvoergegevens en het schema. U kunt ervoor kiezen om velden te verwijderen, de naam van velden te wijzigen of het gegevenstype te wijzigen.

    Schermopname van de velden en een voorbeeld van gegevens.

  10. Selecteer de tegel Azure Data Lake Storage Gen2 op het canvas en configureer deze door op te geven

    • Abonnement waarin uw Azure Data Lake Gen2-account zich bevindt
    • De naam van het opslagaccount moet hetzelfde ZIJN als het ADLS Gen2-account dat wordt gebruikt voor uw Azure Synapse Analytics-werkruimte in de sectie Vereisten.
    • Container waarin de Parquet-bestanden worden gemaakt.
    • Padpatroon ingesteld op {date}/{time}
    • Datum- en tijdpatroon als standaard jjjj-mm-dd en UU.
    • Selecteer Verbinding maken

    Schermopname van de configuratie-instellingen voor de Data Lake Storage.

  11. Selecteer Opslaan in het bovenste lint om uw taak op te slaan en selecteer vervolgens Start om de taak uit te voeren. Zodra de taak is gestart, selecteert u X in de rechterhoek om de stream analytics-taakpagina te sluiten.

    Schermopname van de pagina Stream Analytics-taak starten.

  12. Vervolgens ziet u een lijst met alle Stream Analytics-taken die zijn gemaakt met de editor zonder code. En binnen twee minuten krijgt uw taak de status Wordt uitgevoerd . Selecteer de knop Vernieuwen op de pagina om de status te wijzigen van Gemaakt -> Beginnend -> Actief.

    Schermopname van de lijst met Stream Analytics-taken.

Uitvoer weergeven in uw Azure Data Lake Storage Gen 2-account

  1. Zoek het Azure Data Lake Storage Gen2-account dat u in de vorige stap hebt gebruikt.

  2. Selecteer de container die u in de vorige stap hebt gebruikt. U ziet dat parquet-bestanden zijn gemaakt op basis van het padpatroon {date}/{time} dat in de vorige stap is gebruikt.

    Schermopname van de vastgelegde Parquet-bestanden in Azure Data Lake Storage Gen 2.

Query's uitvoeren op vastgelegde gegevens in Parquet-indeling met Azure Synapse Analytics

Query uitvoeren met Azure Synapse Spark

  1. Zoek uw Azure Synapse Analytics-werkruimte en open Synapse Studio.

  2. Maak een serverloze Apache Spark-pool in uw werkruimte als deze nog niet bestaat.

  3. Ga in de Synapse Studio naar de hub Ontwikkelen en maak een nieuw notebook.

  4. Maak een nieuwe codecel en plak de volgende code in die cel. Vervang container en adlsname door de naam van de container en het ADLS Gen2-account dat in de vorige stap is gebruikt.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Selecteer voor Koppelen aan op de werkbalk uw Spark-pool in de vervolgkeuzelijst.

  6. Selecteer Alles uitvoeren om de resultaten te bekijken

    Schermopname van spark-uitvoeringsresultaten in Azure Synapse Analytics.

Query's uitvoeren met Azure Synapse serverloze SQL

  1. Maak in de hub Ontwikkelen een nieuw SQL-script.

    Schermopname van de pagina Ontwikkelen met het menu Nieuw SQL-script geselecteerd.

  2. Plak het volgende script en voer het uit met behulp van het ingebouwde serverloze SQL-eindpunt . Vervang container en adlsname door de naam van de container en het ADLS Gen2-account dat in de vorige stap is gebruikt.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Schermopname van SQL-scriptresultaten in Azure Synapse Analytics.

Resources opschonen

  1. Zoek uw Event Hubs-exemplaar en bekijk de lijst met Stream Analytics-taken onder de sectie Gegevens verwerken . Stop alle taken die worden uitgevoerd.
  2. Ga naar de resourcegroep die u hebt gebruikt tijdens het implementeren van de TollApp-gebeurtenisgenerator.
  3. Selecteer Resourcegroep verwijderen. Typ de naam van de resourcegroep om het verwijderen te bevestigen.

Volgende stappen

In deze zelfstudie hebt u geleerd hoe u een Stream Analytics-taak maakt met behulp van de editor zonder code om Event Hubs-gegevensstromen in Parquet-indeling vast te leggen. Vervolgens hebt u Azure Synapse Analytics gebruikt om een query uit te voeren op de Parquet-bestanden met zowel Synapse Spark als Synapse SQL.