Sdílet prostřednictvím


Kurz: Transformace dat pomocí mapování toků dat

APPLIES TO: Azure Data Factory Azure Synapse Analytics

Doporučení

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

V tomto kurzu použijete uživatelské rozhraní Azure Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage (ADLS) Gen2 do jímky ADLS Gen2 pomocí mapování toku dat. Model konfigurace v tomto kurzu lze rozšířit při transformaci dat pomocí mapování toku dat.

Tento kurz je určený pro obecné mapování toků dat. Toky dat jsou k dispozici ve Azure Data Factory i v kanálech Synapse. Pokud s toky dat ve Azure Synapse Pipelines začínáte, postupujte podle Tok dat pomocí Azure Synapse Pipelines.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvořte kanál s aktivitou Tok dat.
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění potrubí
  • Monitorování aktivity Tok dat

Požadavky

  • Azure předplatné. Pokud nemáte předplatné Azure, vytvořte si účet free Azure než začnete.
  • Azure Data Lake Storage Gen2 account. Úložiště ADLS používáte jako zdroj a odběratel dat. Pokud účet úložiště nemáte, přečtěte si článek Vytvoření účtu úložiště Azure postup jeho vytvoření.
  • Stáhněte si MoviesDB.csv zde. Pokud chcete soubor načíst z GitHub, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Nahrajte soubor do svého účtu úložiště v kontejneru s názvem 'sample-data'.

Vytvoření datové továrny

V tomto kroku vytvoříte Data Factory a otevřete rozhraní pro Data Factory, abyste vytvořili pipeline v Data Factory.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V horní nabídce vyberte Vytvořit prostředek>Analýza>Datová továrna:

    Výběr Data Factory v panelu

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny Azure musí být globicky jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

    Nová chyba v datové továrně: duplicitní název.

  4. Vyberte Azure předplatné, ve kterém chcete vytvořit službu Data Factory.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    1. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    2. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Další informace o skupinách prostředků najdete v tématu Užití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Oblast vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovnou mohou být v jiných oblastech.

  8. Vyberte Zkontrolovat a vytvořit a poté vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.

  10. Vyberte Spustit studio, abyste spustili Data Factory studio v samostatné kartě.

Vytvořte datový tok s aktivitou Tok dat

V tomto kroku vytvoříte potrubí, které obsahuje aktivitu Tok dat.

  1. Na domovské stránce Azure Data Factory vyberte Orchestrate.

    Screenshot, který zobrazuje domovskou stránku Azure Data Factory.

  2. Nyní je otevřeno okno pro nový kanál. Na kartě Obecné pro vlastnosti kanálu zadejte TransformMovies do pole Název kanálu.

  3. V podokně Aktivity rozbalte sekci Přesunout a transformovat. Přetáhněte aktivitu Tok dat z panelu na pracovní plochu kanálu.

    Screenshot znázorňující plátno kanálu, kde můžete vypustit Tok dat activity.

  4. Pojmenujte aktivitu toku dat DataFlow1.

  5. Na horním panelu plátna prokanalizačních procesů přepněte posuvník ladění toku dat do polohy zapnuto. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Klastrům Tok dat trvá 5 až 7 minut, než se zahřejí, a uživatelům se doporučuje nejprve zapnout ladicí režim, pokud plánují vyvíjet s Tok dat. Další informace naleznete v tématu Režim ladění.

    Snímek obrazovky, který ukazuje přepínač pro zapnutí ladění toku dat.

Sestavte transformační logiku na plátně toku dat.

V tomto kroku vytvoříte tok dat, který převezme moviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení komedií od roku 1910 do roku 2000. Tento soubor pak zapíšete zpět do úložiště ADLS.

  1. Na panelu pod plátnem přejděte do Nastavení aktivity toku dat a vyberte možnost Nový, který se nachází vedle pole toku dat. Tím se otevře plátno toku dat.

    Snímek obrazovky znázorňující, jak otevřít editor toku dat z editoru kanálů

  2. Na panelu Vlastnosti v části Obecné pojmenujte tok dat: TransformMovies.

  3. Na plátně toku dat přidejte zdroj zaškrtnutím políčka Přidat zdroj .

    Snímek obrazovky znázorňující pole Přidat zdroj

  4. Pojmenujte zdroj MoviesDB. Výběrem možnosti Nový vytvoříte novou zdrojovou datovou sadu.

    Snímek obrazovky znázorňující, kde po pojmenování zdroje vyberete Nový

  5. Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.

    Snímek obrazovky, kde se nachází dlaždice Azure Data Lake Storage Gen2.

  6. Zvolte OddělenýText. Zvolte Pokračovat.

    Snímek obrazovky znázorňující dlaždici DelimitedText

  7. Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nové.

    Snímek obrazovky s rozevíracím seznamem Propojené služby

  8. Na obrazovce vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu k připojení k našemu úložnému účtu. Výběrem možnosti Test připojení můžete ověřit, jestli byly vaše přihlašovací údaje zadány správně. Po dokončení vyberte Vytvořit.

    Screenshot okna k vytvoření nové propojené služby pro Azure Data Lake Storage.

  9. Jakmile se vrátíte na obrazovku pro vytvoření datové sady, zadejte, kde se soubor nachází pod polem Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Vzhledem k tomu, že soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Po dokončení vyberte OK.

    Snímek podokna na obrazovce k vytvoření datové sady.

  10. Pokud se váš ladicí cluster spustil, přejděte na kartu Data Preview ve zdrojové transformaci a vyberte Aktualizovat, abyste obdrželi snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.

    Snímek obrazovky znázorňující, kde můžete zobrazit náhled dat a ověřit, že je transformace správně nakonfigurovaná

  11. Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.

    Snímek obrazovky plátna pro tok dat.

  12. Pojmenujte váš transformační filtr jako FilterYears. Vyberte pole výrazu vedle položky Filtrovat a poté Otevřít tvůrce výrazů. Zde specifikujete podmínky filtrování.

    Snímek obrazovky znázorňující pole Filtrovat podle výrazu

  13. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tok dat Tvůrce výrazů.

    V tomto kurzu chcete filtrovat filmy žánrové komedie, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce toInteger() převést na celé číslo. Pro porovnání s doslovnými hodnotami roků 1910 a 2000 použijte operátory "větší než nebo rovno" (>=) a "menší než nebo rovno" (<=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednoťte rlike výraz se srovnáním s rokem, abyste získali:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Pokud máte aktivní ladicí cluster, můžete ověřit svou logiku výběrem možnosti Aktualizovat a zobrazit tak výstup výrazu ve srovnání s použitými vstupy. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

    Snímek obrazovky tvůrce výrazů filtru.

    Až budete hotovi s výrazem, vyberte Uložit a Dokončit .

  14. Načtením náhledu dat ověřte, že filtr funguje správně.

    Snímek obrazovky znázorňující náhled dat, který jste načetli.

  15. Další transformací, kterou přidáte, je Aggregate transformace v Schema modifier.

    Snímek obrazovky znázorňující modifikátor agregovaného schématu

  16. Pojmenujte agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, ve které film přišel.

    Snímek obrazovky znázorňující možnost rok na kartě Seskupovat podle v části Nastavení agregace

  17. Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Snímek obrazovky znázorňující možnost rok na kartě Agregace v části Nastavení agregace

  18. Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Výraz vypadá takto:

    avg(toInteger(Rating))

    Po dokončení vyberte Uložit a dokončit .

    Snímek obrazovky znázorňující uložený výraz

  19. Přejděte na kartu Náhled dat a podívejte se na výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.

    Snímek obrazovky s agregovaným náhledem.

  20. Dále chcete přidat Sink transformaci pod Destinace.

    Snímek obrazovky znázorňující, kam přidat transformaci jímky v části Cíl

  21. Pojmenujte svůj dřez Sink. Vyberte Nový a vytvořte datovou sadu jímky.

    Snímek obrazovky, který ukazuje, kde můžete pojmenovat jímku a vytvořit novou datovou sadu jímky

  22. Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.

    Screenshot, která zobrazuje dlaždici Azure Data Lake Storage Gen2, kterou můžete zvolit.

  23. Zvolte OddělenýText. Zvolte Pokračovat.

    Snímek obrazovky podokna pro výběr typu datové sady.

  24. Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 6. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do složky output v kontejneru sample-data. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Nastavte první řádek jako záhlaví jako true a jako schéma importu vyberte Žádné. Vyberte Dokončit.

    Snímek obrazovky stránky pro vytvoření jímky s vybraným prvním řádkem jako záhlavím.

Teď jste dokončili vytváření toku dat. Už můžete ho spustit ve své pipeline.

Spuštění a monitorování Tok dat

Kanál můžete diagnostikovat, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale při spuštění ladění se data zapisují do cílového umístění.

  1. Přejděte na plátno kanálu. Vyberte Ladit , aby se spustilo ladění.

    Snímek obrazovky znázorňující plátno kanálu se zvýrazněnou možností Ladění

  2. Ladění kanálu aktivit Tok dat používá aktivní ladicí cluster, ale inicializace trvá minimálně minutu. Průběh můžete sledovat na kartě Výstup. Jakmile je spuštění dokončeno úspěšně, umístěte kurzor nad spuštění a výběrem ikony brýlí otevřete podokno monitorování.

    Snímek obrazovky se stavem dokončeného pipeline se zvýrazněnými výstupními akcemi.

  3. Na panelu monitorování vyberte tlačítko Fáze , abyste viděli počet řádků a čas strávený v každém kroku transformace.

    Snímek obrazovky, který ukazuje podokno monitorování se zvýrazněným tlačítkem Fáze.

    Snímek obrazovky monitorovacího panelu, kde můžete vidět počet řádků a čas strávený v každém kroku transformace.

  4. Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

    Snímek obrazovky s podoknem pro monitorování transformace.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště blobů.

Potrubí v tomto kurzu spustí tok dat, který agreguje průměrné hodnocení komedií od roku 1910 do roku 2000 a zapisuje data do ADLS. Naučili jste se:

  • Vytvoření datové továrny
  • Vytvořte kanál s aktivitou Tok dat.
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění potrubí
  • Monitorování aktivity Tok dat

Přečtěte si další informace o jazyce výrazů toku dat.