Transformace dat s využitím mapování toků dat

Článek
12/09/2023

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu použijete uživatelské rozhraní azure Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage (ADLS) Gen2 do jímky ADLS Gen2 pomocí mapování toku dat. Model konfigurace v tomto kurzu lze rozšířit při transformaci dat pomocí mapování toku dat.

Poznámka:

Tento kurz je určený pro obecné mapování toků dat. Toky dat jsou k dispozici ve službě Azure Data Factory i v kanálech Synapse. Pokud s toky dat ve službě Azure Synapse Pipelines začínáte, postupujte podle Tok dat s využitím kanálů Azure Synapse.

V tomto kurzu provedete následující kroky:

Vytvoření datové továrny
Vytvoření kanálu s aktivitou Tok dat
Sestavte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění kanálu
Monitorování aktivity Tok dat

Požadavky

Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
Účet služby Azure Storage. Úložiště ADLS používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

Soubor, který transformujeme v tomto kurzu, je MoviesDB.csv, který najdete tady. Pokud chcete načíst soubor z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí webu Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete UX služby Data Factory, abyste vytvořili kanál v datové továrně.

Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.
V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků>:
Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.
Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.
U položky Skupina prostředků proveďte jeden z následujících kroků:

a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

b. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
Jako Verzi vyberte V2.
V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.
Vyberte Vytvořit.
Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.
Vyberte Vytvořit a monitorovat. Na samostatné kartě se spustí uživatelské rozhraní služby Data Factory.

Vytvoření kanálu s aktivitou Tok dat

V tomto kroku vytvoříte kanál, který obsahuje Tok dat aktivitu.

Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).
Na kartě Obecné pro kanál zadejte TransformMovies pro název kanálu.
V podokně Aktivity rozbalte accordion Přesunout a transformovat . Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.
V místní nabídce Přidání Tok dat vyberte Vytvořit nový Tok dat a pojmenujte transformMovies toku dat. Po dokončení klikněte na Dokončit.
Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.

Vytvoření logiky transformace na plátně toku dat

Po vytvoření Tok dat se automaticky odešle na plátno toku dat. Pokud nejste přesměrováni na plátno toku dat, přejděte na panel pod plátnem na Nastavení a vyberte Otevřít, které se nachází vedle pole toku dat. Tím se otevře plátno toku dat.

Screenshot showing how to open the data flow editor from the pipeline editor.

V tomto kroku vytvoříte tok dat, který vezme soubor moviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení comedies z roku 1910 do roku 2000. Potom tento soubor zapíšete zpět do úložiště ADLS.

Na plátně toku dat přidejte zdroj kliknutím na pole Přidat zdroj .
Pojmenujte zdroj MoviesDB. Kliknutím na Nový vytvoříte novou zdrojovou datovou sadu.
Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.
Zvolte Text s oddělovači. Klikněte na Pokračovat.
Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nový.
Na obrazovce vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu pro připojení k našemu účtu úložiště. Kliknutím na test připojení můžete ověřit, jestli byly vaše přihlašovací údaje zadány správně. Po dokončení klikněte na Vytvořit.
Jakmile se vrátíte na obrazovku pro vytvoření datové sady, zadejte, kde se soubor nachází pod polem Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Vzhledem k tomu, že soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Po dokončení klikněte na OK.
Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat zdrojové transformace a kliknutím na Aktualizovat získejte snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.
Vedle zdrojového uzlu na plátně toku dat klikněte na ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.
Pojmenujte transformační filtr FilterYears. Kliknutím na pole výrazu vedle pole Filtrovat otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.
Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tok dat tvůrce výrazů.

V tomto kurzu chcete filtrovat filmy žánrové komedie, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce převést na celé číslo toInteger() . K porovnání s hodnotami literálového roku 1910 a 2000 použijte operátory> větší než nebo rovno (=) a menší než nebo rovno< (=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Pokud máte aktivní ladicí cluster, můžete ověřit logiku kliknutím na Aktualizovat a zobrazit výstup výrazu ve srovnání se vstupy použitými. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

Po dokončení výrazu klikněte na Uložit a dokončit .
Načtením náhledu dat ověřte, že filtr funguje správně.
Další přidanou transformací je agregační transformace v modifikátoru schématu.
Pojmenujte agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, ve které film přišel.
Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Kliknutím na pravé pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.
Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Výraz vypadá takto:

avg(toInteger(Rating))

Po dokončení klikněte na Uložit a dokončit .
Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.
Dále chcete v části Cíl přidat transformaci jímky.
Pojmenujte jímku. Kliknutím na Nový vytvoříte datovou sadu jímky.
Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.
Zvolte Text s oddělovači. Klikněte na Pokračovat.
Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 6. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do složky output v kontejneru sample-data. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Nastavte první řádek jako záhlaví jako true a jako schéma importu vyberte Žádné. Klikněte na Dokončit.

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit ve svém kanálu.

Spuštění a monitorování Tok dat

Kanál můžete ladit, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapíše data do cíle jímky.

Přejděte na plátno kanálu. Kliknutím na Tlačítko Ladit aktivujete spuštění ladění.
Ladění kanálu aktivit Tok dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat pomocí karty Výstup . Po úspěšném spuštění kliknutím na ikonu brýle otevřete podokno monitorování.
V podokně monitorování můžete zobrazit počet řádků a času strávených v jednotlivých krocích transformace.
Kliknutím na transformaci získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště objektů blob.

Kanál v tomto kurzu spustí tok dat, který agreguje průměrné hodnocení comedies z roku 1910 do roku 2000 a zapisuje data do ADLS. Naučili jste se:

Vytvoření datové továrny
Vytvoření kanálu s aktivitou Tok dat
Sestavte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění kanálu
Monitorování aktivity Tok dat

Přečtěte si další informace o jazyce výrazů toku dat.