Ladění kanálů datové továrny

Dokončeno

Požadavky a očekávání zákazníků se mění ve vztahu k integraci dat. Potřeba, aby uživatelé mohli vyvíjet a ladit pracovní postupy extrakce transformace a načítání (ETL) a extrakce načítání a transformace (ELT), je proto imperativní.

Azure Data Factory vám může pomoct sestavovat a vyvíjet iterativní kanály služby Data Factory při vývoji řešení integrace dat. Vytvořením kanálu pomocí plátna kanálu můžete otestovat aktivity a kanály pomocí funkce Ladění.

Ve službě Azure Data Factory není potřeba publikovat změny v kanálu ani aktivitách, než budete chtít ladit. To je užitečné ve scénáři, ve kterém chcete otestovat změny a zjistit, jestli funguje podle očekávání, než je skutečně uložíte a publikujete.

Někdy nechcete ladit celý kanál, ale otestovat část kanálu. Spuštění ladění vám umožní provést právě to. Konec kanálu můžete otestovat nebo nastavit zarážku. Když to uděláte v režimu ladění, můžete během sestavování a ladění kanálu interaktivně zobrazit výsledky jednotlivých kroků.

Ladění a publikování kanálu

Při vytváření nebo úpravě spuštěného kanálu můžete zobrazit výsledky jednotlivých aktivit na kartě Výstup na plátně kanálu.

Po úspěšném testovacím spuštění a budete s výsledky spokojeni, můžete do kanálu přidat další aktivity a pokračovat v iterativním ladění. Pokud nejste spokojení nebo chcete kanál zastavit v ladění, můžete během probíhajícího testovacího spuštění zrušit. Mějte na paměti, že výběrem posuvníku ladění se kanál skutečně spustí. Proto pokud kanál obsahuje například aktivitu kopírování, testovací spuštění zkopíruje data ze zdroje do cíle.

Osvědčeným postupem je použít testovací složky v aktivitách kopírování a dalších aktivitách při ladění, takže když jste spokojení s výsledky a ladili kanál, přepnete na skutečné složky pro běžné operace.

K ladění kanálu vyberte na panelu nástrojů Ladit. Na kartě Výstup v dolní části okna se zobrazí stav spuštění kanálu.

Debug slider Azure Data Factory

Output tab Azure Data Factory Debug

Po úspěšném spuštění kanálu vyberte na horním panelu nástrojů možnost Publikovat vše. Touto akcí publikujete vytvořené entity (datové sady a kanály) do služby Data Factory.

Publish all changes and entities in Azure Data Factory

Počkejte, až se úspěšně publikovaná zpráva zobrazí. Pokud chcete zobrazit zprávy s oznámeními, vyberte v pravém horním rohu portálu možnost Zobrazit oznámení (ikona zvonku).

Bell button for notifications in Azure Data Factory

Ladění toku dat mapování

Během vytváření mapování Tok dat můžete interaktivně sledovat, jak se datové obrazce a transformace spouští, abyste je mohli ladit. Pokud chcete tuto funkci použít, je nejprve nutné zapnout funkci "Tok dat Debug".

Ladicí relaci je možné použít jak v Tok dat relacích návrhu, tak během provádění toků dat ladění kanálu. Po zapnutí režimu ladění ve skutečnosti sestavíte tok dat pomocí aktivního clusteru Spark. Jakmile je ladění vypnuté, cluster Spark se zavře. Máte na výběr, jaké výpočetní prostředky budete používat. Pokud používáte existující ladicí cluster, sníží se čas spuštění. U složitých nebo paralelních úloh ale můžete chtít aktivovat vlastní cluster za běhu.

Osvědčené postupy pro ladění toků dat jsou udržovat režim ladění zapnutý a kontrolovat a ověřovat obchodní logiku obsaženou v toku dat. Vizuální zobrazení transformací dat a obrazců vám pomůže zobrazit změny.

Pokud chcete tok dat otestovat v kanálu, který jste vytvořili, je nejlepší použít tlačítko Ladit na panelu kanálu. Náhled dat sice nezapisuje data, ale spuštění ladění v toku dat zapíše data, stejně jako ladění kanálu, do cíle jímky.

Nastavení ladění

Jak jsme popsali dříve, každá ladicí relace, která se spouští z uživatelského rozhraní služby Azure Data Factory, se považuje za novou relaci s vlastním clusterem Spark. Pokud chcete monitorovat relace, můžete pomocí zobrazení monitorování pro ladicí relaci spravovat ladicí relace podle nastavené služby Data Factory.

Pokud chcete zjistit, jestli je cluster Spark připravený k ladění, můžete zkontrolovat indikátor stavu clusteru v horní části návrhové plochy. Pokud je zelená, je připravená. Pokud cluster nebyl spuštěný při přechodu do režimu ladění, doba čekání může být přibližně 5 až 7 minut, protože clustery je potřeba spustit.

Osvědčeným postupem je, že po dokončení ladění vypnete režim ladění, aby se cluster Spark ukončil.

Při ladění můžete upravit náhled dat v toku dat tak, že vyberete Nastavení ladění. Příkladem změny náhledu dat může být omezení řádků nebo zdroj souborů pro případ, že použijete transformace zdroje. Když vyberete přípravnou propojenou službu, můžete jako zdroj použít Azure Synapse Analytics.

Pokud máte v Tok dat nebo některé z jejích odkazovaných datových sad parametry, můžete určit, jaké hodnoty se mají použít při ladění, a to výběrem karty Parametry. Během ladění se jímky nevyžadují a v toku dat se ignorují. Pokud chcete otestovat a zapsat transformovaná data do jímky, můžete tok dat spustit z kanálu a použít provádění ladění z kanálu.

Jak jsme popsali dříve, v Azure Data Factory je možné ladit pouze do určitého bodu nebo aktivity. Uděláte to tak, že v aktivitě použijete zarážku až do místa, kde chcete testovat, a pak vyberete Ladit. Možnost Ladit do se zobrazí jako prázdný červený kruh v pravém horním rohu prvku. Jakmile vyberete možnost Ladit do konce , změní se na vyplněný červený kruh, který označuje, že je zarážka povolená. Azure Data Factory pak zajistí, aby se test spustil jenom do té aktivity zarážky v kanálu. Tato funkce je užitečná, pokud chcete testovat pouze podmnožinu aktivit v kanálu.

Ve většině scénářů stačí funkce ladění ve službě Azure Data Factory. Někdy je ale nutné testovat změny v kanálu v klonovaném sandboxovém prostředí. Případ použití je takový, že máte parametrizované kanály ETL, které byste chtěli otestovat, jak se budou chovat, když aktivují přijetí souboru a přes přeskakující časové období. V tomto případě může být klonování prostředí sandboxu vhodnější.

Je dobré vědět o službě Azure Data Factory, protože se většinou účtuje jenom podle počtu spuštění, druhá služba Data Factory nemusí vést k dalším poplatkům.

Monitorování běhů ladění

Pokud chcete monitorovat spuštění ladění, můžete zkontrolovat kartu výstupu, ale jenom u nejnovějšího spuštění, ke kterému došlo v relaci procházení, protože se nezobrazuje historie. Pokud chcete zobrazit historii spuštění ladění nebo zobrazit všechna aktivní spuštění ladění, můžete přejít na kartu Monitorování .

Je potřeba mít na paměti, že služba Azure Data Factory uchovává historii spuštění ladění jenom po dobu 15 dnů. Ve vztahu k monitorování ladicích relací toku dat byste také přešli na kartu Monitorování .

Monitoring debug run Azure Data Factory