Bezpečně transformovat data pomocí mapování toku dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu použijete uživatelské rozhraní služby Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage Gen2 na jímku Data Lake Storage Gen2 (oba umožňují přístup jenom k vybraným sítím) pomocí mapování toku dat ve spravované službě Data Factory. Virtual Network. Vzor konfigurace v tomto kurzu můžete rozšířit při transformaci dat pomocí mapování toku dat.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvořte kanál s aktivitou toku dat.
  • Vytvořte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění kanálu
  • Monitorujte aktivitu toku dat.

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet úložiště Azure. Používáte Data Lake Storage jako úložiště dat zdroje a jímky. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření. Ujistěte se, že účet úložiště umožňuje přístup pouze z vybraných sítí.

Soubor, který v tomto kurzu transformujeme, je moviesDB.csv, který najdete na tomto webu obsahu GitHubu. Pokud chcete načíst soubor z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí Azure Portal. Příklady odkazují na kontejner s názvem sample-data.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete uživatelské rozhraní služby Data Factory a vytvoříte kanál v datové továrně.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době podporují uživatelské rozhraní Data Factory jenom webové prohlížeče Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte Vytvořitdatovou továrnuanalýzy>prostředků>.

  3. Do pole Název na stránce Nová datová továrna zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Pokud se zobrazí chybová zpráva o hodnotě názvu, zadejte jiný název datové továrny (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    • Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
    • Vyberte Vytvořit nový a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí jenom podporovaná umístění. Úložiště dat (například Azure Storage a Azure SQL Database) a výpočetní prostředky (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Data Factory .

  10. Výběrem možnosti Otevřít Azure Data Factory Studio spusťte uživatelské rozhraní služby Data Factory na samostatné kartě.

Vytvoření prostředí Azure IR ve spravovaném Virtual Network služby Data Factory

V tomto kroku vytvoříte prostředí Azure IR a povolíte spravované Virtual Network služby Data Factory.

  1. Na portálu Data Factory přejděte na Spravovat a výběrem možnosti Nový vytvořte nové prostředí Azure IR.

    Snímek obrazovky znázorňující vytvoření nového prostředí Azure IR

  2. Na stránce nastavení prostředí Integration Runtime zvolte, které prostředí Integration Runtime se má vytvořit na základě požadovaných možností. V tomto kurzu vyberte Azure, v místním prostředí a potom klikněte na Pokračovat.

  3. Vyberte Azure a potom kliknutím na Pokračovat vytvořte prostředí Azure Integration Runtime.

    Snímek obrazovky znázorňující nové prostředí Azure IR

  4. V části Konfigurace virtuální sítě (Preview) vyberte Povolit.

    Snímek obrazovky znázorňující povolení nového prostředí Azure IR

  5. Vyberte Vytvořit.

Vytvoření kanálu s aktivitou toku dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.

  1. Na domovské stránce Azure Data Factory vyberte Orchestrate.

    Snímek obrazovky znázorňující domovskou stránku datové továrny se zvýrazněným tlačítkem Orchestrate

  2. V podokně vlastností kanálu zadejte transformMovies pro název kanálu.

  3. V podokně Aktivity rozbalte položku Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

  4. V automaticky otevírané nabídce Přidat tok dat vyberte Vytvořit nový tok dat a pak vyberte Mapování Tok dat. Až budete hotovi, vyberte OK .

    Snímek obrazovky znázorňující Tok dat mapování

  5. Pojmenujte svůj tok dat TransformMovies v podokně vlastností.

  6. Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění zapnutý. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clustery trvá 5 až 7 minut, než se zahřejí a uživatelům se doporučuje nejprve zapnout ladění, pokud plánují Tok dat vývoj. Další informace naleznete v tématu Režim ladění.

    Snímek obrazovky znázorňující posuvník ladění toku dat

Vytvoření logiky transformace na plátně toku dat

Po vytvoření toku dat se automaticky odešlete na plátno toku dat. V tomto kroku vytvoříte tok dat, který vezme soubor moviesDB.csv v Data Lake Storage a agreguje průměrné hodnocení komedií z roku 1910 do roku 2000. Pak tento soubor zapíšete zpátky do Data Lake Storage.

Přidání zdrojové transformace

V tomto kroku nastavíte Data Lake Storage Gen2 jako zdroj.

  1. Na plátně toku dat přidejte zdroj výběrem pole Přidat zdroj .

  2. Pojmenujte zdroj MoviesDB. Vyberte Nový a vytvořte novou zdrojovou datovou sadu.

  3. Vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.

  4. Vyberte Text s oddělovači a pak vyberte Pokračovat.

  5. Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby vyberte Nový.

  6. Na obrazovce pro vytvoření propojené služby pojmenujte vaši Data Lake Storage Gen2 propojenou službu ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu pro připojení k účtu úložiště.

  7. Ujistěte se, že jste povolili interaktivní vytváření. Povolení může chvíli trvat.

    Snímek obrazovky znázorňující interaktivní vytváření

  8. Vyberte Test připojení. Mělo by selhat, protože účet úložiště k němu neumožňuje přístup bez vytvoření a schválení privátního koncového bodu. V chybové zprávě byste měli vidět odkaz na vytvoření privátního koncového bodu, podle kterého můžete vytvořit spravovaný privátní koncový bod. Alternativou je přejít přímo na kartu Spravovat a podle pokynů v této části vytvořit spravovaný privátní koncový bod.

  9. Nechte dialogové okno otevřené a přejděte do svého účtu úložiště.

  10. Podle pokynů v této části schvalte privátní propojení.

  11. Zpět do dialogového okna. Znovu vyberte Test připojení a výběrem možnosti Vytvořit nasaďte propojenou službu.

  12. Na obrazovce pro vytvoření datové sady zadejte, kam se soubor nachází v poli Cesta k souboru . V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Protože soubor obsahuje záhlaví, zaškrtněte políčko První řádek jako záhlaví . Výběrem možnosti Z připojení nebo úložiště naimportujte schéma hlaviček přímo ze souboru v úložišti. Až budete hotovi, vyberte OK .

    Snímek obrazovky znázorňující zdrojová cesta

  13. Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat ve zdrojové transformaci a vyberte Aktualizovat a získejte snímek dat. Náhled dat můžete použít k ověření správné konfigurace transformace.

    Snímek obrazovky znázorňující kartu Náhled dat

Vytvoření spravovaného privátního koncového bodu

Pokud jste při otestování předchozího připojení nepoužíli hypertextový odkaz, postupujte podle cesty. Teď potřebujete vytvořit spravovaný privátní koncový bod, který se připojíte k propojené službě, kterou jste vytvořili.

  1. Přejděte na kartu Spravovat .

    Poznámka

    Karta Spravovat nemusí být dostupná pro všechny instance služby Data Factory. Pokud ho nevidíte, můžete získat přístup k privátním koncovým bodům výběrem možnosti Vytvořit>privátní koncový bodpřipojení>.

  2. Přejděte do části Spravované privátní koncové body .

  3. V části Spravované privátní koncové body vyberte + Nový.

    Snímek obrazovky znázorňující tlačítko Nové spravované privátní koncové body

  4. V seznamu vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte Pokračovat.

  5. Zadejte název účtu úložiště, který jste vytvořili.

  6. Vyberte Vytvořit.

  7. Po několika sekundách byste měli vidět, že privátní propojení vytvořené vyžaduje schválení.

  8. Vyberte privátní koncový bod, který jste vytvořili. Zobrazí se hypertextový odkaz, který vás povede ke schválení privátního koncového bodu na úrovni účtu úložiště.

    Snímek obrazovky znázorňující podokno Spravovat privátní koncový bod

  1. V účtu úložiště přejděte do připojení privátního koncového bodu v části Nastavení .

  2. Zaškrtněte políčko podle privátního koncového bodu, který jste vytvořili, a vyberte Schválit.

    Snímek obrazovky znázorňující tlačítko Schválit privátní koncový bod

  3. Přidejte popis a vyberte ano.

  4. Zpět do části Spravované privátní koncové body na kartě Spravovat ve službě Data Factory.

  5. Po asi minutě by se mělo zobrazit schválení pro váš privátní koncový bod.

Přidání transformace filtru

  1. Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidaná transformace je filtr.

    Snímek obrazovky znázorňující přidání filtru

  2. Pojmenujte transformační filtry FilterYears. Výběrem pole výrazu vedle filtru otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.

    Snímek obrazovky znázorňující filtry

  3. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tvůrce výrazů toku dat.

    • V tomto kurzu chcete filtrovat filmy v komiksovém žánru, který přišel mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho převést na celé číslo pomocí toInteger() funkce. K porovnání hodnot literálového roku 1910 a 2000 použijte operátory větší než nebo rovno< (>=). Sjednocujte tyto výrazy společně s operátorem a operátorem (&&). Výraz se objeví takto:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Pokud chcete zjistit, které filmy jsou komedie, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Pokud máte aktivní cluster ladění, můžete svou logiku ověřit výběrem možnosti Aktualizovat a zobrazit výstup výrazu ve srovnání s použitými vstupy. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazu toku dat.

      Snímek obrazovky znázorňující výraz filtru

    • Po dokončení výrazu vyberte Uložit a dokončit .

  4. Načtením náhledu dat ověřte, že filtr funguje správně.

    Snímek obrazovky znázorňující filtrovaný náhled dat

Přidání agregační transformace

  1. Další přidanou transformací je agregační transformace v části Modifikátor schématu.

    Snímek obrazovky znázorňující přidání agregace

  2. Pojmenujte agregační transformaci AggregateComedyRating. Na kartě Seskupit podle vyberte rok z rozevíracího seznamu a seskupte agregace podle roku, kdy film přišel.

    Snímek obrazovky znázorňující agregační skupinu

  3. Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Snímek obrazovky znázorňující název agregovaného sloupce

  4. Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Tento výraz vypadá takto:

    avg(toInteger(Rating))

  5. Po dokončení vyberte Uložit a dokončit .

    Snímek obrazovky znázorňující uložení agregace

  6. Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že tam jsou jenom dva sloupce, rok a AverageComedyRating.

Přidání transformace jímky

  1. Dále chcete přidat transformaci jímky v části Cíl.

    Snímek obrazovky znázorňující přidání jímky

  2. Pojmenujte jímku. Vyberte Nový a vytvořte datovou sadu jímky.

    Snímek obrazovky znázorňující vytvoření jímky

  3. Na stránce Nová datová sada vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.

  4. Na stránce Vybrat formát vyberte Oddělovač textu a pak vyberte Pokračovat.

  5. Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte stejnou propojenou službu ADLSGen2 , kterou jste vytvořili pro transformaci zdroje. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do výstupu složky v ukázkových datech kontejneru. Složka nemusí existovat předem a je možné ji dynamicky vytvořit. Zaškrtněte políčko První řádek jako záhlaví a zaškrtněte políčko Žádné pro schéma importu. Vyberte OK.

    Snímek obrazovky znázorňující cestu jímky

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit v kanálu.

Spuštění a monitorování toku dat

Kanál můžete ladit, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. I když náhled dat nezapisuje data, spuštění ladění zapíše data do cíle jímky.

  1. Přejděte na plátno kanálu. Vyberte Ladit , aby se aktivovalo spuštění ladění.

  2. Ladění aktivit toku dat využívá aktivní ladicí cluster, ale inicializace stále trvá aspoň minutu. Průběh můžete sledovat pomocí karty Výstup . Po úspěšném spuštění vyberte ikonu brýle pro podrobnosti o spuštění.

  3. Na stránce podrobností můžete zobrazit počet řádků a čas strávený na jednotlivých krocích transformace.

    Snímek obrazovky znázorňující spuštění monitorování

  4. Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Data můžete ověřit tak, že zkontrolujete úložiště objektů blob.

Souhrn

V tomto kurzu jste pomocí uživatelského rozhraní služby Data Factory vytvořili kanál, který kopíruje a transformuje data ze zdroje Data Lake Storage Gen2 do jímky Data Lake Storage Gen2 (obě umožňují přístup pouze k vybraným sítím) pomocí mapování toku dat ve spravovaném Virtual Network služby Data Factory.