Sdílet prostřednictvím


Zachycení dat ze služby Event Hubs ve formátu Parquet

Tento článek vysvětluje, jak pomocí editoru kódu automaticky zachytit streamovaná data ve službě Event Hubs v účtu Azure Data Lake Storage Gen2 ve formátu Parquet.

Požadavky

  • Obor názvů služby Azure Event Hubs s centrem událostí a účtem Azure Data Lake Storage Gen2 s kontejnerem pro ukládání zachycených dat. Tyto prostředky musí být veřejně přístupné a nemůžou být za bránou firewall ani zabezpečeny ve virtuální síti Azure.

    Pokud centrum událostí nemáte, vytvořte ho podle následujících pokynů z rychlého startu: Vytvoření centra událostí.

    Pokud nemáte účet Data Lake Storage Gen2, vytvořte si ho podle pokynů v části Vytvoření účtu úložiště.

  • Data ve službě Event Hubs musí být serializovaná ve formátu JSON, CSV nebo Avro. Pro účely testování vyberte v nabídce vlevo v nabídce Generovat data (Preview), vyberte Data akcie pro datovou sadu a pak vyberte Odeslat.

    Snímek obrazovky zobrazující stránku Generovat data pro generování ukázkových dat akcií

Konfigurace úlohy pro zachytávání dat

Pomocí následujících kroků nakonfigurujte úlohu Stream Analytics pro zaznamenání dat ve službě Azure Data Lake Storage Gen2.

  1. Na webu Azure Portal přejděte do centra událostí.

  2. V nabídce vlevo vyberte Zpracovat data v části Funkce. Potom na kartě formátu Parquet vyberte Start na kartě Zachytávání dat do ADLS Gen2.

    Snímek obrazovky znázorňující úvodní karty dat služby Event Hubs

  3. Zadejte název úlohy Stream Analytics a pak vyberte Vytvořit.

    Snímek obrazovky s oknem nové úlohy Stream Analytics, kde zadáte název úlohy

  4. Zadejte typ serializace dat ve službě Event Hubs a metodu ověřování, kterou úloha používá pro připojení ke službě Event Hubs. Pak vyberte Připojit.

    Snímek obrazovky znázorňující konfiguraci připojení služby Event Hubs

  5. Po úspěšném navázání připojení se zobrazí:

    • Pole, která se nacházejí ve vstupních datech Můžete zvolit Přidat pole nebo můžete vybrat tři tečky vedle pole a volitelně odebrat, přejmenovat nebo změnit jeho název.

    • Živá ukázka příchozích dat v tabulce Náhled dat v zobrazení diagramu Pravidelně se aktualizuje. Pokud chcete zobrazit statické zobrazení ukázkového vstupu, můžete vybrat Možnost Pozastavit náhled streamování.

      Snímek obrazovky znázorňující ukázková data v části Náhled dat

  6. Výběrem dlaždice Azure Data Lake Storage Gen2 upravte konfiguraci.

  7. Na stránce konfigurace Azure Data Lake Storage Gen2 postupujte takto:

    1. V rozevírací nabídce vyberte předplatné, název účtu úložiště a kontejner.

    2. Po výběru předplatného by se metoda ověřování a klíč účtu úložiště měly vyplnit automaticky.

    3. Vyberte Parquet pro formát serializace .

      Snímek obrazovky se stránkou konfigurace Data Lake Storage Gen2

    4. U objektů blob streamování se očekává, že vzor cesty k adresáři bude dynamickou hodnotou. Vyžaduje se, aby datum bylo součástí cesty k souboru objektu blob – odkazováno jako {date}. Další informace o vlastních vzorech cest najdete v tématu o dělení výstupu vlastního objektu blob v Azure Stream Analytics.

      První snímek obrazovky znázorňující okno objektu blob, ve kterém upravíte konfiguraci připojení objektu blob

    5. Vyberte Připojit

  8. Po navázání připojení se zobrazí pole, která se nacházejí ve výstupních datech.

  9. Výběrem možnosti Uložit na panelu příkazů uložte konfiguraci.

    Snímek obrazovky znázorňující tlačítko Uložit vybrané na panelu příkazů

  10. Výběrem možnosti Start na panelu příkazů spusťte tok streamování, který zachytává data. Pak v okně spustit úlohu Stream Analytics:

    1. Zvolte čas spuštění výstupu.

    2. Vyberte cenový plán.

    3. Vyberte počet jednotek streamování (SU), se kterými se úloha spouští. SU představuje výpočetní prostředky přidělené ke spuštění úlohy Stream Analytics. Další informace najdete v tématu Jednotky streamování ve službě Azure Stream Analytics.

      Snímek obrazovky s oknem spustit úlohu Stream Analytics, kde nastavíte čas spuštění výstupu, jednotky streamování a zpracování chyb

  11. Na kartě Úloha Stream Analytics na stránce Zpracování dat centra událostí by se měla zobrazit úloha Stream Analytic.

    Snímek obrazovky znázorňující úlohu Stream Analytics na stránce Zpracování dat

Ověření výstupu

  1. Na stránce instance služby Event Hubs pro vaše centrum událostí vyberte Generovat data, vyberte Data Akcie pro datovou sadu a pak vyberte Odeslat a odešlete do centra událostí ukázková data.

  2. Ověřte, že se soubory Parquet generují v kontejneru Azure Data Lake Storage.

    Snímek obrazovky znázorňující vygenerované soubory Parquet v kontejneru Azure Data Lake Storage

  3. V nabídce vlevo vyberte Zpracovat data . Přepněte na kartu Úlohy Stream Analytics. Vyberte Otevřít metriky a monitorujte je.

    Snímek obrazovky znázorňující vybraný odkaz Otevřít metriky

    Tady je příklad snímku obrazovky s metrikami zobrazující vstupní a výstupní události.

    Snímek obrazovky znázorňující metriky úlohy Stream Analytics

Důležité informace o použití funkce geografické replikace služby Event Hubs

Služba Azure Event Hubs nedávno spustila funkci geografické replikace ve verzi Public Preview. Tato funkce se liší od funkce geografického zotavení po havárii služby Azure Event Hubs.

Pokud je typ převzetí služeb při selhání vynucený a konzistence replikace asynchronní, úloha Stream Analytics nezaručuje přesně jeden výstup výstupu do výstupu služby Azure Event Hubs.

Azure Stream Analytics, jako producent s centrem událostí výstup, může sledovat zpoždění meze úlohy během doby trvání převzetí služeb při selhání a během omezování službou Event Hubs v případě, že prodleva replikace mezi primární a sekundární dosáhne maximální nakonfigurované prodlevy.

Azure Stream Analytics, jako uživatel se službou Event Hubs jako vstupem, může během doby trvání převzetí služeb při selhání sledovat zpoždění vodoznaku a po dokončení převzetí služeb při selhání může přeskočit data nebo najít duplicitní data.

Vzhledem k těmto upozorněním doporučujeme restartovat úlohu Stream Analytics s odpovídajícím časem spuštění hned po dokončení převzetí služeb při selhání služby Event Hubs. Vzhledem k tomu, že funkce geografické replikace služby Event Hubs je ve verzi Public Preview, nedoporučujeme tento model používat pro produkční úlohy Stream Analytics v tuto chvíli. Aktuální chování Stream Analytics se zlepší, než bude funkce geografické replikace služby Event Hubs obecně dostupná a dá se použít v produkčních úlohách Stream Analytics.

Další kroky

Teď víte, jak pomocí editoru kódu Stream Analytics vytvořit úlohu, která zachycuje data služby Event Hubs do Azure Data Lake Storage Gen2 ve formátu Parquet. V dalším kroku se dozvíte více o Službě Azure Stream Analytics a o tom, jak monitorovat úlohu, kterou jste vytvořili.