Režim ladění mapování toku dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Přehled

Ladicí režim toku dat ve službě Azure Data Factory a Synapse Analytics umožňuje interaktivně sledovat transformaci obrazce dat při sestavování a ladění toků dat. Ladicí relaci je možné použít jak v Tok dat relacích návrhu, tak při provádění ladění toků dat kanálu. Pokud chcete zapnout režim ladění, použijte tlačítko Tok dat Ladění v horním panelu plátna toku dat nebo plátna kanálu, pokud máte aktivity toku dat.

Snímek obrazovky znázorňující, kde je posuvník ladění 1

Snímek obrazovky znázorňující, kde je posuvník ladění 2

Po zapnutí posuvníku se zobrazí výzva k výběru konfigurace prostředí Integration Runtime, kterou chcete použít. Pokud zvolíte AutoResolveIntegrationRuntime, cluster s osmi jádry obecného výpočetního prostředí s výchozím 60minutovým časem naživo se rozsvítí. Pokud chcete před časovým limitem relace povolit víc nečinných týmů, můžete zvolit vyšší hodnotu TTL. Další informace o prostředích Integration Runtime toku dat najdete v tématu Výkon prostředí Integration Runtime.

Ladění výběru prostředí IR

Když je zapnutý režim ladění, interaktivně sestavíte tok dat pomocí aktivního clusteru Spark. Relace se zavře, jakmile vypnete ladění. Měli byste vědět o hodinových poplatcích účtovaných službou Data Factory během doby, kdy máte zapnutou relaci ladění.

Ve většině případů je vhodné vytvořit Tok dat v režimu ladění, abyste před publikováním práce mohli ověřit obchodní logiku a zobrazit transformace dat. Pomocí tlačítka Ladit na panelu kanálu otestujte tok dat v kanálu.

Poznámka:

Každá ladicí relace, kterou uživatel spustí z uživatelského rozhraní prohlížeče, je nová relace s vlastním clusterem Spark. Zobrazení monitorování můžete použít pro ladicí relace zobrazené na předchozích obrázcích k zobrazení a správě ladicích relací. Každou hodinu se vám budou účtovat poplatky za každou hodinu, kdy se každá ladicí relace spouští, včetně času TTL.

Tento videoklip hovoří o tipech, trikech a osvědčených postupech pro ladicí režim toku dat.

Stav clusteru

Indikátor stavu clusteru v horní části návrhové plochy se změní na zelenou, když je cluster připravený k ladění. Pokud je váš cluster již teplý, zobrazí se zelený indikátor téměř okamžitě. Pokud váš cluster ještě nebyl spuštěný, když jste přešli do režimu ladění, cluster Spark provede studené spuštění. Indikátor se roztáčí, dokud prostředí nebude připravené k interaktivnímu ladění.

Až ladění dokončíte, vypněte přepínač Ladění, aby se cluster Spark mohl ukončit a už se vám nebude účtovat aktivita ladění.

Nastavení ladění

Po zapnutí režimu ladění můžete upravit způsob zobrazení náhledu dat toku dat. Nastavení ladění lze upravit kliknutím na Ladicí Nastavení na panelu nástrojů plátna Tok dat. Tady můžete vybrat limit řádků nebo zdroj souborů, které se mají použít pro každou z transformací zdroje. Omezení řádků v tomto nastavení jsou pouze pro aktuální ladicí relaci. Můžete také vybrat přípravnou propojenou službu, která se má použít pro zdroj Azure Synapse Analytics.

Nastavení ladění

Pokud máte v Tok dat nebo některé z jejích odkazovaných datových sad parametry, můžete určit, jaké hodnoty se mají použít při ladění, a to výběrem karty Parametry.

Pomocí nastavení vzorkování zde můžete odkazovat na ukázkové soubory nebo ukázkové tabulky dat, abyste nemuseli měnit zdrojové datové sady. Tady můžete pomocí ukázkového souboru nebo tabulky zachovat stejná nastavení logiky a vlastností v toku dat při testování podmnožinou dat.

Parametry nastavení ladění

Výchozí prostředí IR používané pro režim ladění v tocích dat je malý 4jádrový jeden pracovní uzel se 4jádrovým uzlem jednoho ovladače. To funguje dobře s menšími vzorky dat při testování logiky toku dat. Pokud během náhledu dat rozbalíte limity řádků v nastavení ladění nebo nastavíte vyšší počet vzorkovaných řádků ve zdroji během ladění kanálu, můžete zvážit nastavení většího výpočetního prostředí v novém prostředí Azure Integration Runtime. Potom můžete restartovat ladicí relaci pomocí většího výpočetního prostředí.

Náhled dat

Při ladění se karta Náhled dat rozsvítí na dolním panelu. Bez zapnutého režimu ladění Tok dat zobrazuje pouze aktuální metadata na kartě Kontrola a z každé transformace. Náhled dat se dotazuje pouze na počet řádků, které jste nastavili jako limit v nastavení ladění. Výběrem možnosti Aktualizovat aktualizujte náhled dat na základě aktuálních transformací. Pokud se zdrojová data změnila, vyberte možnost Aktualizovat > znovu načíst ze zdroje.

Náhled dat

Sloupce v náhledu dat můžete seřadit a změnit jejich uspořádání přetažením. Kromě toho je v horní části panelu náhledu dat tlačítko pro export, které můžete použít k exportu dat náhledu do souboru CSV pro offline zkoumání dat. Pomocí této funkce můžete exportovat až 1 000 řádků dat náhledu.

Poznámka:

Zdroje souborů omezují jenom zobrazené řádky, nikoli řádky, které se čtou. U velmi velkých datových sad se doporučuje vzít malou část tohoto souboru a použít ji pro testování. V ladicím Nastavení můžete vybrat dočasný soubor pro každý zdroj, který je typem datové sady.

Při spuštění v režimu ladění v Tok dat nebudou vaše data zapsána do transformace jímky. Ladicí relace je určená k tomu, aby sloužila jako testovací sada pro vaše transformace. Během ladění se jímky nevyžadují a ve vašem toku dat se ignorují. Pokud chcete otestovat zápis dat do jímky, spusťte Tok dat z kanálu a použijte provádění ladění z kanálu.

Náhled dat je snímek transformovaných dat s využitím limitů řádků a vzorkování dat z datových rámců v paměti Sparku. Proto se v tomto scénáři nevyužívají ani neotestují ovladače jímky.

Poznámka:

Náhled dat zobrazuje čas podle nastavení národního prostředí prohlížeče.

Testování podmínek spojení

Při testování jednotek spojení, existuje nebo vyhledávání transformací se ujistěte, že pro svůj test používáte malou sadu známých dat. Pomocí možnosti Ladění Nastavení popsané výše můžete nastavit dočasný soubor, který se má použít pro testování. To je potřeba, protože při omezování nebo vzorkování řádků z velké datové sady nemůžete předpovědět, které řádky a které klíče se čtou do toku pro účely testování. Výsledek je nedeterministický, což znamená, že vaše podmínky spojení můžou selhat.

Rychlé akce

Jakmile uvidíte náhled dat, můžete vygenerovat rychlou transformaci pro typové vysílání, odebrání nebo úpravu sloupce. Vyberte záhlaví sloupce a pak vyberte jednu z možností z panelu nástrojů náhledu dat.

Snímek obrazovky s panelem nástrojů náhledu dat s možnostmi: Typecast, Modify, Statistics a Remove

Jakmile vyberete změnu, náhled dat se okamžitě aktualizuje. Výběrem možnosti Potvrdit v pravém horním rohu vygenerujete novou transformaci.

Snímek obrazovky s tlačítkem Potvrdit

Typecast a Modify generuje transformaci odvozeného sloupce a Remove generuje transformaci Select.

Snímek obrazovky znázorňující Nastavení odvozeného sloupce

Poznámka:

Pokud upravujete Tok dat, musíte před přidáním rychlé transformace znovu načíst náhled dat.

Profilace dat

Výběrem sloupce na kartě Náhled dat a kliknutím na Statistika na panelu nástrojů náhledu dat se zobrazí graf v pravé části datové mřížky s podrobnými statistikami o jednotlivých polích. Služba vytváří stanovení na základě vzorkování dat, u kterého typu grafu se má zobrazit. Pole s vysokou kardinalitou mají výchozí hodnotu NULL/NOT NULL grafy, zatímco kategorická a číselná data s nízkou kardinalitou zobrazují pruhové grafy zobrazující frekvenci hodnot dat. Zobrazí se také maximální délka řetězcových polí, minimální/maximální hodnoty v číselných polích, standardních dev, percentilech, počtech a průměru.

Statistiky sloupce

  • Jakmile dokončíte sestavování a ladění toku dat, spusťte ho z kanálu.
  • Při testování kanálu s tokem dat použijte možnost spuštění spuštění ladění kanálu .