Sdílet prostřednictvím


Transformace dat s využitím mapování toků dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu použijete uživatelské rozhraní azure Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage (ADLS) Gen2 do jímky ADLS Gen2 pomocí mapování toku dat. Model konfigurace v tomto kurzu lze rozšířit při transformaci dat pomocí mapování toku dat.

Poznámka:

Tento kurz je určený pro obecné mapování toků dat. Toky dat jsou k dispozici ve službě Azure Data Factory i v kanálech Synapse. Pokud s toky dat ve službě Azure Synapse Pipelines začínáte, postupujte podle Tok dat s využitím kanálů Azure Synapse.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvoření kanálu s aktivitou Tok dat
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění kanálu
  • Monitorování aktivity Tok dat

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet služby Azure Storage. Úložiště ADLS používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

Soubor, který transformujeme v tomto kurzu, je MoviesDB.csv, který najdete tady. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí webu Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete UX služby Data Factory, abyste vytvořili kanál v datové továrně.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků>:

    Výběr služby Data Factory v části

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

    Nová chybová zpráva datové továrny pro duplicitní název

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.

  10. Vyberte Vytvořit a monitorovat. Na samostatné kartě se spustí uživatelské rozhraní služby Data Factory.

Vytvoření kanálu s aktivitou Tok dat

V tomto kroku vytvoříte kanál, který obsahuje Tok dat aktivitu.

  1. Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).

    Snímek obrazovky znázorňující domovskou stránku ADF

  2. Na kartě Obecné pro kanál zadejte TransformMovies pro název kanálu.

  3. V podokně Aktivity rozbalte accordion Přesunout a transformovat . Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

    Snímek obrazovky znázorňující plátno kanálu, kde můžete vypustit Tok dat aktivitu

  4. V místní nabídce Přidání Tok dat vyberte Vytvořit nový Tok dat a pojmenujte transformMovies toku dat. Po dokončení klikněte na Dokončit.

    Snímek obrazovky znázorňující, kde při vytváření nového toku dat pojmenujete tok dat

  5. Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.

    Aktivita Tok dat

Vytvoření logiky transformace na plátně toku dat

Po vytvoření Tok dat se automaticky odešle na plátno toku dat. V případě, že nejste přesměrováni na plátno toku dat, přejděte na panel pod plátnem na Nastavení a vyberte Otevřít, které se nachází vedle pole toku dat. Tím se otevře plátno toku dat.

Snímek obrazovky znázorňující, jak otevřít editor toku dat z editoru kanálů

V tomto kroku vytvoříte tok dat, který vezme moviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení comedies z roku 1910 do roku 2000. Potom tento soubor zapíšete zpět do úložiště ADLS.

  1. Na plátně toku dat přidejte zdroj kliknutím na pole Přidat zdroj .

    Snímek obrazovky znázorňující pole Přidat zdroj

  2. Pojmenujte zdroj MoviesDB. Kliknutím na Nový vytvoříte novou zdrojovou datovou sadu.

    Snímek obrazovky znázorňující, kde po pojmenování zdroje vyberete Nový

  3. Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.

    Snímek obrazovky znázorňující dlaždici Azure Data Lake Storage Gen2

  4. Zvolte Text s oddělovači. Klikněte na Pokračovat.

    Snímek obrazovky znázorňující dlaždici DelimitedText

  5. Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nový.

    Snímek obrazovky s rozevíracím seznamem Propojené služby

  6. Na obrazovce vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu pro připojení k našemu účtu úložiště. Kliknutím na test připojení můžete ověřit, jestli byly vaše přihlašovací údaje zadány správně. Po dokončení klikněte na Vytvořit.

    Propojená služba

  7. Jakmile se vrátíte na obrazovku pro vytvoření datové sady, zadejte, kde se soubor nachází pod polem Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Vzhledem k tomu, že soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Po dokončení klikněte na OK.

    Datové sady

  8. Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat zdrojové transformace a kliknutím na Aktualizovat získejte snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.

    Snímek obrazovky znázorňující, kde můžete zobrazit náhled dat a ověřit, že je transformace správně nakonfigurovaná

  9. Vedle zdrojového uzlu na plátně toku dat klikněte na ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.

    plátno Tok dat

  10. Pojmenujte transformační filtr FilterYears. Kliknutím na pole výrazu vedle pole Filtrovat otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.

    Snímek obrazovky znázorňující pole Filtrovat podle výrazu

  11. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tok dat tvůrce výrazů.

    V tomto kurzu chcete filtrovat filmy žánrové komedie, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce převést na celé číslo toInteger() . K porovnání s hodnotami literálového roku 1910 a 2000 použijte operátory> větší než nebo rovno (=) a menší než nebo rovno< (=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Pokud máte aktivní ladicí cluster, můžete ověřit logiku kliknutím na Aktualizovat a zobrazit výstup výrazu ve srovnání se vstupy použitými. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

    Filtrovat

    Po dokončení výrazu klikněte na Uložit a dokončit .

  12. Načtením náhledu dat ověřte, že filtr funguje správně.

    Snímek obrazovky znázorňující náhled dat, který jste načtete

  13. Další přidanou transformací je agregační transformace v modifikátoru schématu.

    Snímek obrazovky znázorňující modifikátor agregovaného schématu

  14. Pojmenujte agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, ve které film přišel.

    Snímek obrazovky znázorňující možnost rok na kartě Seskupovat podle v části Nastavení agregace

  15. Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Kliknutím na pravé pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Snímek obrazovky znázorňující možnost rok na kartě Agregace v části Nastavení agregace

  16. Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Výraz vypadá takto:

    avg(toInteger(Rating))

    Po dokončení klikněte na Uložit a dokončit .

    Snímek obrazovky znázorňující uložený výraz

  17. Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.

    Agregovat

  18. Dále chcete v části Cíl přidat transformaci jímky.

    Snímek obrazovky znázorňující, kam přidat transformaci jímky v části Cíl

  19. Pojmenujte jímku. Kliknutím na Nový vytvoříte datovou sadu jímky.

    Snímek obrazovky, který ukazuje, kde můžete pojmenovat jímku a vytvořit novou datovou sadu jímky

  20. Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.

    Snímek obrazovky znázorňující dlaždici Azure Data Lake Storage Gen2, kterou můžete zvolit

  21. Zvolte Text s oddělovači. Klikněte na Pokračovat.

    Datová sada

  22. Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 6. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do složky output v kontejneru sample-data. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Nastavte první řádek jako záhlaví jako true a jako schéma importu vyberte Žádné. Klikněte na Dokončit.

    Jímka

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit ve svém kanálu.

Spuštění a monitorování Tok dat

Kanál můžete ladit, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapíše data do cíle jímky.

  1. Přejděte na plátno kanálu. Kliknutím na Tlačítko Ladit aktivujete spuštění ladění.

    Snímek obrazovky znázorňující plátno kanálu se zvýrazněnou možností Ladění

  2. Ladění kanálu aktivit Tok dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat pomocí karty Výstup . Po úspěšném spuštění kliknutím na ikonu brýle otevřete podokno monitorování.

    Kanál

  3. V podokně monitorování můžete zobrazit počet řádků a času strávených v jednotlivých krocích transformace.

    Snímek obrazovky znázorňující podokno monitorování, ve kterém vidíte počet řádků a čas strávený v jednotlivých krocích transformace

  4. Kliknutím na transformaci získáte podrobné informace o sloupcích a dělení dat.

    Sledování

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště objektů blob.

Kanál v tomto kurzu spustí tok dat, který agreguje průměrné hodnocení comedies z roku 1910 do roku 2000 a zapisuje data do ADLS. Naučili jste se:

  • Vytvoření datové továrny
  • Vytvoření kanálu s aktivitou Tok dat
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění kanálu
  • Monitorování aktivity Tok dat

Přečtěte si další informace o jazyce výrazů toku dat.