Dela via


Samla in data från Event Hubs i Parquet-format

Den här artikeln beskriver hur du använder kodredigeraren för att automatiskt samla in strömmande data i Event Hubs i ett Azure Data Lake Storage Gen2-konto i Parquet-format.

Förutsättningar

  • Ett Azure Event Hubs-namnområde med en händelsehubb och ett Azure Data Lake Storage Gen2-konto med en container för att lagra insamlade data. Dessa resurser måste vara offentligt tillgängliga och får inte finnas bakom en brandvägg eller skyddas i ett virtuellt Azure-nätverk.

    Om du inte har en händelsehubb skapar du en genom att följa anvisningarna i Snabbstart: Skapa en händelsehubb.

    Om du inte har något Data Lake Storage Gen2-konto skapar du ett genom att följa anvisningarna från Skapa ett lagringskonto

  • Data i dina Event Hubs måste serialiseras i antingen JSON-, CSV- eller Avro-format. I testsyfte väljer du Generera data (förhandsversion) på den vänstra menyn, väljer Lagerdata för datauppsättning och väljer sedan Skicka.

    Skärmbild som visar sidan Generera data för att generera exempel på lagerdata.

Konfigurera ett jobb för att samla in data

Använd följande steg för att konfigurera ett Stream Analytics-jobb för att samla in data i Azure Data Lake Storage Gen2.

  1. Gå till din händelsehubb i Azure-portalen.

  2. På den vänstra menyn väljer du Bearbeta data under Funktioner. Välj sedan Starta på kortet Avbilda data till ADLS Gen2 i Parquet-format.

    Skärmbild som visar startkorten för Process Event Hubs-data.

  3. Ange ett namn för Stream Analytics-jobbet och välj sedan Skapa.

    Skärmbild som visar fönstret Nytt Stream Analytics-jobb där du anger jobbnamnet.

  4. Ange serialiseringstypen för dina data i Event Hubs och den autentiseringsmetod som jobbet använder för att ansluta till Event Hubs. Välj sedan Anslut.

    Skärmbild som visar konfigurationen av Event Hubs-anslutningen.

  5. När anslutningen har upprättats visas:

    • Fält som finns i indata. Du kan välja Lägg till fält eller välja symbolen med tre punkter bredvid ett fält om du vill ta bort, byta namn på eller ändra dess namn.

    • Ett live-exempel på inkommande data i tabellen Dataförhandsgranskning under diagramvyn. Den uppdateras regelbundet. Du kan välja Pausa förhandsversionen av direktuppspelning för att visa en statisk vy över exempelindata.

      Skärmbild som visar exempeldata under Förhandsversion av data.

  6. Välj panelen Azure Data Lake Storage Gen2 för att redigera konfigurationen.

  7. Följ dessa steg på konfigurationssidan för Azure Data Lake Storage Gen2 :

    1. Välj prenumeration, lagringskontonamn och container i den nedrullningsbara menyn.

    2. När prenumerationen har valts ska autentiseringsmetoden och lagringskontonyckeln fyllas i automatiskt.

    3. Välj Parquet som serialiseringsformat .

      Skärmbild som visar konfigurationssidan för Data Lake Storage Gen2.

    4. För strömmande blobar förväntas katalogsökvägsmönstret vara ett dynamiskt värde. Det krävs för att datumet ska vara en del av filsökvägen för blobben – som refereras till som {date}. Mer information om anpassade sökvägsmönster finns i Anpassad partitionering av blobutdata i Azure Stream Analytics.

      Första skärmbilden som visar blobfönstret där du redigerar en blobs anslutningskonfiguration.

    5. Välj Anslut

  8. När anslutningen upprättas visas fält som finns i utdata.

  9. Spara konfigurationen genom att välja Spara i kommandofältet.

    Skärmbild som visar knappen Spara markerad i kommandofältet.

  10. Välj Starta i kommandofältet för att starta strömningsflödet för att samla in data. I fönstret Starta Stream Analytics-jobb:

    1. Välj starttid för utdata.

    2. Välj prisplanen.

    3. Välj det antal strömningsenheter (SU) som jobbet körs med. SU representerar de beräkningsresurser som allokeras för att köra ett Stream Analytics-jobb. Mer information finns i Strömmande enheter i Azure Stream Analytics.

      Skärmbild som visar fönstret Starta Stream Analytics-jobb där du anger starttid för utdata, strömningsenheter och felhantering.

  11. Du bör se streamanalysjobbet på fliken Stream Analytics-jobbsidan Bearbeta data för din händelsehubb.

    Skärmbild som visar Stream Analytics-jobbet på sidan Bearbeta data.

Verifiera utdata

  1. På sidan Event Hubs-instans för din händelsehubb väljer du Generera data, väljer Lagerdata för datauppsättning och väljer sedan Skicka för att skicka exempeldata till händelsehubben.

  2. Kontrollera att Parquet-filerna genereras i Azure Data Lake Storage-containern.

    Skärmbild som visar de genererade Parquet-filerna i Azure Data Lake Storage-containern.

  3. Välj Bearbeta data på den vänstra menyn. Växla till fliken Stream Analytics-jobb . Välj Öppna mått för att övervaka det.

    Skärmbild som visar länken Öppna mått markerad.

    Här är ett exempel på en skärmbild av mått som visar indata- och utdatahändelser.

    Skärmbild som visar mått för Stream Analytics-jobbet.

Överväganden vid användning av geo-replikeringsfunktionen i Event Hubs

Azure Event Hubs lanserade nyligen geo-replikeringsfunktionen i offentlig förhandsversion. Den här funktionen skiljer sig från geo-haveriberedskapsfunktionen i Azure Event Hubs.

När redundanstypen är Tvingad och replikeringskonsekvensen är asynkron garanterar Stream Analytics-jobbet inte exakt en gång utdata till en Azure Event Hubs-utdata.

Azure Stream Analytics, som producent med en händelsehubb som utdata, kan observera vattenstämpelfördröjning på jobbet under redundansväxlingen och under begränsningen av Event Hubs om replikeringsfördröjningen mellan primär och sekundär når den maximala konfigurerade fördröjningen.

Azure Stream Analytics, som konsument med Event Hubs som indata, kan observera vattenstämpelfördröjning på jobbet under redundansväxlingen och kan hoppa över data eller hitta duplicerade data när redundansväxlingen är klar.

På grund av dessa varningar rekommenderar vi att du startar om Stream Analytics-jobbet med lämplig starttid direkt efter att Event Hubs-redundansväxlingen har slutförts. Eftersom Geo-replikeringsfunktionen i Event Hubs är en offentlig förhandsversion rekommenderar vi inte heller att du använder det här mönstret för stream analytics-produktionsjobb just nu. Det aktuella Stream Analytics-beteendet förbättras innan funktionen Event Hubs Geo-replikering är allmänt tillgänglig och kan användas i Stream Analytics-produktionsjobb.

Nästa steg

Nu vet du hur du använder Stream Analytics utan kodredigerare för att skapa ett jobb som samlar in Event Hubs-data till Azure Data Lake Storage Gen2 i Parquet-format. Sedan kan du lära dig mer om Azure Stream Analytics och hur du övervakar jobbet som du skapade.