Zachycení dat ze služby Event Hubs ve formátu Parquet
Tento článek vysvětluje, jak pomocí editoru kódu automaticky zachytit streamovaná data ve službě Event Hubs v účtu Azure Data Lake Storage Gen2 ve formátu Parquet.
Požadavky
Obor názvů služby Azure Event Hubs s centrem událostí a účtem Azure Data Lake Storage Gen2 s kontejnerem pro ukládání zachycených dat. Tyto prostředky musí být veřejně přístupné a nemůžou být za bránou firewall ani zabezpečeny ve virtuální síti Azure.
Pokud centrum událostí nemáte, vytvořte ho podle následujících pokynů z rychlého startu: Vytvoření centra událostí.
Pokud nemáte účet Data Lake Storage Gen2, vytvořte si ho podle pokynů v části Vytvoření účtu úložiště.
Data ve službě Event Hubs musí být serializovaná ve formátu JSON, CSV nebo Avro. Pro účely testování vyberte v nabídce vlevo v nabídce Generovat data (Preview), vyberte Data akcie pro datovou sadu a pak vyberte Odeslat.
Konfigurace úlohy pro zachytávání dat
Pomocí následujících kroků nakonfigurujte úlohu Stream Analytics pro zaznamenání dat ve službě Azure Data Lake Storage Gen2.
Na webu Azure Portal přejděte do centra událostí.
V nabídce vlevo vyberte Zpracovat data v části Funkce. Potom na kartě formátu Parquet vyberte Start na kartě Zachytávání dat do ADLS Gen2.
Zadejte název úlohy Stream Analytics a pak vyberte Vytvořit.
Zadejte typ serializace dat ve službě Event Hubs a metodu ověřování, kterou úloha používá pro připojení ke službě Event Hubs. Pak vyberte Připojit.
Po úspěšném navázání připojení se zobrazí:
Pole, která se nacházejí ve vstupních datech Můžete zvolit Přidat pole nebo můžete vybrat tři tečky vedle pole a volitelně odebrat, přejmenovat nebo změnit jeho název.
Živá ukázka příchozích dat v tabulce Náhled dat v zobrazení diagramu Pravidelně se aktualizuje. Pokud chcete zobrazit statické zobrazení ukázkového vstupu, můžete vybrat Možnost Pozastavit náhled streamování.
Výběrem dlaždice Azure Data Lake Storage Gen2 upravte konfiguraci.
Na stránce konfigurace Azure Data Lake Storage Gen2 postupujte takto:
V rozevírací nabídce vyberte předplatné, název účtu úložiště a kontejner.
Po výběru předplatného by se metoda ověřování a klíč účtu úložiště měly vyplnit automaticky.
Vyberte Parquet pro formát serializace .
U objektů blob streamování se očekává, že vzor cesty k adresáři bude dynamickou hodnotou. Vyžaduje se, aby datum bylo součástí cesty k souboru objektu blob – odkazováno jako
{date}
. Další informace o vlastních vzorech cest najdete v tématu o dělení výstupu vlastního objektu blob v Azure Stream Analytics.Vyberte Připojit
Po navázání připojení se zobrazí pole, která se nacházejí ve výstupních datech.
Výběrem možnosti Uložit na panelu příkazů uložte konfiguraci.
Výběrem možnosti Start na panelu příkazů spusťte tok streamování, který zachytává data. Pak v okně spustit úlohu Stream Analytics:
Zvolte čas spuštění výstupu.
Vyberte cenový plán.
Vyberte počet jednotek streamování (SU), se kterými se úloha spouští. SU představuje výpočetní prostředky přidělené ke spuštění úlohy Stream Analytics. Další informace najdete v tématu Jednotky streamování ve službě Azure Stream Analytics.
Na kartě Úloha Stream Analytics na stránce Zpracování dat centra událostí by se měla zobrazit úloha Stream Analytic.
Ověření výstupu
Na stránce instance služby Event Hubs pro vaše centrum událostí vyberte Generovat data, vyberte Data Akcie pro datovou sadu a pak vyberte Odeslat a odešlete do centra událostí ukázková data.
Ověřte, že se soubory Parquet generují v kontejneru Azure Data Lake Storage.
V nabídce vlevo vyberte Zpracovat data . Přepněte na kartu Úlohy Stream Analytics. Vyberte Otevřít metriky a monitorujte je.
Tady je příklad snímku obrazovky s metrikami zobrazující vstupní a výstupní události.
Důležité informace o použití funkce geografické replikace služby Event Hubs
Služba Azure Event Hubs nedávno spustila funkci geografické replikace ve verzi Public Preview. Tato funkce se liší od funkce geografického zotavení po havárii služby Azure Event Hubs.
Pokud je typ převzetí služeb při selhání vynucený a konzistence replikace asynchronní, úloha Stream Analytics nezaručuje přesně jeden výstup výstupu do výstupu služby Azure Event Hubs.
Azure Stream Analytics, jako producent s centrem událostí výstup, může sledovat zpoždění meze úlohy během doby trvání převzetí služeb při selhání a během omezování službou Event Hubs v případě, že prodleva replikace mezi primární a sekundární dosáhne maximální nakonfigurované prodlevy.
Azure Stream Analytics, jako uživatel se službou Event Hubs jako vstupem, může během doby trvání převzetí služeb při selhání sledovat zpoždění vodoznaku a po dokončení převzetí služeb při selhání může přeskočit data nebo najít duplicitní data.
Vzhledem k těmto upozorněním doporučujeme restartovat úlohu Stream Analytics s odpovídajícím časem spuštění hned po dokončení převzetí služeb při selhání služby Event Hubs. Vzhledem k tomu, že funkce geografické replikace služby Event Hubs je ve verzi Public Preview, nedoporučujeme tento model používat pro produkční úlohy Stream Analytics v tuto chvíli. Aktuální chování Stream Analytics se zlepší, než bude funkce geografické replikace služby Event Hubs obecně dostupná a dá se použít v produkčních úlohách Stream Analytics.
Další kroky
Teď víte, jak pomocí editoru kódu Stream Analytics vytvořit úlohu, která zachycuje data služby Event Hubs do Azure Data Lake Storage Gen2 ve formátu Parquet. V dalším kroku se dozvíte více o Službě Azure Stream Analytics a o tom, jak monitorovat úlohu, kterou jste vytvořili.