Sdílet prostřednictvím


Kurz: Transformace dat pomocí mapování toků dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Doporučení

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po data science, analýzy v reálném čase, business intelligence a reportování. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu použijete uživatelské rozhraní (UX) Azure Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage (ADLS) Gen2 do jímky ADLS Gen2 pomocí mapování toku dat. Model konfigurace v tomto kurzu lze rozšířit při transformaci dat pomocí mapování toku dat.

Tento kurz je určený pro obecné mapování toků dat. Toky dat jsou k dispozici ve službě Azure Data Factory i v kanálech Synapse. Pokud s toky dat v kanálech Azure Synapse začínáte, postupujte podle pokynů v tématu Tok dat pomocí kanálů Azure Synapse.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvořte datový kanál s aktivitou Data Flow.
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění potrubí
  • Monitorovat aktivitu datového toku

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet Azure Data Lake Storage Gen2. Úložiště ADLS používáte jako zdroj a odběratel dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.
  • Stáhněte si MoviesDB.csv zde. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Nahrajte soubor do svého účtu úložiště v kontejneru s názvem 'sample-data'.

Vytvoření datové továrny

V tomto kroku vytvoříte Data Factory a otevřete rozhraní pro Data Factory, abyste vytvořili pipeline v Data Factory.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V horní nabídce vyberte Vytvořit prostředek>Analýza>Datová továrna:

    Výběr Data Factory v panelu

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

    Nová chyba v datové továrně: duplicitní název.

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    1. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    2. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Oblast vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Zkontrolovat a vytvořit a poté vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.

  10. Výběrem možnosti Spustit studio spustíte aplikaci Data Factory na samostatné kartě.

Vytvořit datový kanál s aktivitou Tok dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu Tok dat.

  1. Na domovské stránce služby Azure Data Factory vyberte Orchestrate.

    Snímek obrazovky znázorňující domovskou stránku služby Azure Data Factory

  2. Nyní je otevřeno okno pro nový kanál. Na kartě Obecné pro vlastnosti kanálu zadejte TransformMovies do pole Název kanálu.

  3. V podokně Aktivity rozbalte sekci Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

    Snímek obrazovky znázorňující plátno kanálu, kde můžete vypustit Tok dat aktivitu

  4. Pojmenujte aktivitu toku dat DataFlow1.

  5. Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Clusterům pro zpracování toků dat trvá 5 až 7 minut, než se zahřejí, a doporučuje se nejprve zapnout ladění, pokud plánujete vývoj v oblasti zpracování toků dat. Další informace naleznete v tématu Režim ladění.

    Snímek obrazovky, který ukazuje přepínač pro zapnutí ladění toku dat.

Sestavte transformační logiku na plátně toku dat.

V tomto kroku vytvoříte tok dat, který převezme moviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení komedií od roku 1910 do roku 2000. Tento soubor pak zapíšete zpět do úložiště ADLS.

  1. Na panelu pod plátnem přejděte do Nastavení aktivity toku dat a vyberte možnost Nový, který se nachází vedle pole toku dat. Tím se otevře plátno toku dat.

    Snímek obrazovky znázorňující, jak otevřít editor toku dat z editoru kanálů

  2. Na panelu Vlastnosti v části Obecné pojmenujte tok dat: TransformMovies.

  3. Na plátně toku dat přidejte zdroj zaškrtnutím políčka Přidat zdroj .

    Snímek obrazovky znázorňující pole Přidat zdroj

  4. Pojmenujte zdroj MoviesDB. Výběrem možnosti Nový vytvoříte novou zdrojovou datovou sadu.

    Snímek obrazovky znázorňující, kde po pojmenování zdroje vyberete Nový

  5. Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.

    Snímek obrazovky znázorňující dlaždici Azure Data Lake Storage Gen2

  6. Zvolte OddělenýText. Zvolte Pokračovat.

    Snímek obrazovky znázorňující dlaždici DelimitedText

  7. Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nové.

    Snímek obrazovky s rozevíracím seznamem Propojené služby

  8. Na obrazovce vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu k připojení k našemu úložnému účtu. Výběrem možnosti Test připojení můžete ověřit, jestli byly vaše přihlašovací údaje zadány správně. Po dokončení vyberte Vytvořit.

    Snímek obrazovky podokna pro vytvoření nové propojené služby pro Azure Data Lake Storage.

  9. Jakmile se vrátíte na obrazovku pro vytvoření datové sady, zadejte, kde se soubor nachází pod polem Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Vzhledem k tomu, že soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Po dokončení vyberte OK.

    Snímek obrazovky podokna pro vytvoření datové sady.

  10. Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat ve zdrojové transformaci a vyberte Aktualizovat , abyste získali snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.

    Snímek obrazovky znázorňující, kde můžete zobrazit náhled dat a ověřit, že je transformace správně nakonfigurovaná

  11. Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.

    Snímek obrazovky plátna toku dat.

  12. Pojmenujte váš transformační filtr jako FilterYears. Vyberte pole výrazu vedle položky Filtrovat a poté Otevřít tvůrce výrazů. Zde specifikujete podmínky filtrování.

    Snímek obrazovky znázorňující pole Filtrovat podle výrazu

  13. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v části Tvůrce výrazů toku dat.

    V tomto kurzu chcete filtrovat filmy žánrové komedie, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce toInteger() převést na celé číslo. Pro porovnání s doslovnými hodnotami roků 1910 a 2000 použijte operátory "větší než nebo rovno" (>=) a "menší než nebo rovno" (<=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednoťte rlike výraz se srovnáním s rokem, abyste získali:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Pokud máte aktivní ladicí cluster, můžete logiku ověřit tak, že vyberete Aktualizovat a zobrazíte výstup výrazu v porovnání s použitými vstupy. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

    Snímek obrazovky tvůrce výrazů filtru.

    Až budete hotovi s výrazem, vyberte Uložit a Dokončit .

  14. Načtením náhledu dat ověřte, že filtr funguje správně.

    Snímek obrazovky znázorňující náhled dat, který jste načetli.

  15. Další transformací, kterou přidáte, je Aggregate transformace v Schema modifier.

    Snímek obrazovky znázorňující modifikátor agregovaného schématu

  16. Pojmenujte agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, ve které film přišel.

    Snímek obrazovky znázorňující možnost rok na kartě Seskupovat podle v části Nastavení agregace

  17. Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Snímek obrazovky znázorňující možnost rok na kartě Agregace v části Nastavení agregace

  18. Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Výraz vypadá takto:

    avg(toInteger(Rating))

    Po dokončení vyberte Uložit a dokončit .

    Snímek obrazovky znázorňující uložený výraz

  19. Přejděte na kartu Náhled dat a podívejte se na výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.

    Snímek obrazovky s agregovaným náhledem.

  20. Dále chcete přidat Sink transformaci pod Destinace.

    Snímek obrazovky znázorňující, kam přidat transformaci jímky v části Cíl

  21. Pojmenujte svůj dřez Sink. Vyberte Nový a vytvořte datovou sadu jímky.

    Snímek obrazovky, který ukazuje, kde můžete pojmenovat jímku a vytvořit novou datovou sadu jímky

  22. Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.

    Snímek obrazovky znázorňující dlaždici Azure Data Lake Storage Gen2, kterou můžete zvolit

  23. Zvolte OddělenýText. Zvolte Pokračovat.

    Snímek obrazovky podokna pro výběr typu datové sady.

  24. Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 6. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do složky output v kontejneru sample-data. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Nastavte první řádek jako záhlaví jako true a jako schéma importu vyberte Žádné. Vyberte Dokončit.

    Snímek obrazovky stránky pro vytvoření jímky s vybraným prvním řádkem jako záhlavím.

Teď jste dokončili vytváření toku dat. Už můžete ho spustit ve své pipeline.

Spuštění a monitorování Toků dat

Kanál můžete diagnostikovat, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapisuje data do cíle jímky.

  1. Přejděte na plátno kanálu. Vyberte Ladit , aby se aktivovalo spuštění ladění.

    Snímek obrazovky znázorňující plátno kanálu se zvýrazněnou možností Ladění

  2. Ladění kanálu aktivit Tok dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat na kartě Výstup . Jakmile je spuštění úspěšné, umístěte kurzor na spuštění a výběrem ikony brýlí otevřete podokno monitorování.

    Snímek obrazovky se stavem dokončeného kanálu se zvýrazněnými výstupními akcemi.

  3. Na panelu monitorování vyberte tlačítko Fáze , abyste viděli počet řádků a čas strávený v každém kroku transformace.

    Snímek obrazovky, který ukazuje podokno monitorování se zvýrazněným tlačítkem Fáze.

    Snímek obrazovky monitorovacího panelu, kde můžete vidět počet řádků a čas strávený v každém kroku transformace.

  4. Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

    Snímek obrazovky s podoknem transformace monitorování.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště blobů.

Potrubí v tomto kurzu spustí tok dat, který agreguje průměrné hodnocení komedií od roku 1910 do roku 2000 a zapisuje data do ADLS. Naučili jste se:

  • Vytvoření datové továrny
  • Vytvořte datový kanál s aktivitou Data Flow.
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění potrubí
  • Monitorovat aktivitu datového toku

Přečtěte si další informace o jazyce výrazů toku dat.