Kurz: Transformace dat pomocí mapování toků dat

2025-06-23

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Doporučení

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po data science, analýzy v reálném čase, business intelligence a reportování. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu použijete uživatelské rozhraní (UX) Azure Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage (ADLS) Gen2 do jímky ADLS Gen2 pomocí mapování toku dat. Model konfigurace v tomto kurzu lze rozšířit při transformaci dat pomocí mapování toku dat.

Tento kurz je určený pro obecné mapování toků dat. Toky dat jsou k dispozici ve službě Azure Data Factory i v kanálech Synapse. Pokud s toky dat v kanálech Azure Synapse začínáte, postupujte podle pokynů v tématu Tok dat pomocí kanálů Azure Synapse.

V tomto kurzu provedete následující kroky:

Vytvoření datové továrny
Vytvořte datový kanál s aktivitou Data Flow.
Sestavte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění potrubí
Monitorovat aktivitu datového toku

Požadavky

Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
Účet Azure Data Lake Storage Gen2. Úložiště ADLS používáte jako zdroj a odběratel dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.
Stáhněte si MoviesDB.csv zde. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Nahrajte soubor do svého účtu úložiště v kontejneru s názvem 'sample-data'.

Vytvoření datové továrny

V tomto kroku vytvoříte Data Factory a otevřete rozhraní pro Data Factory, abyste vytvořili pipeline v Data Factory.

Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.
V horní nabídce vyberte Vytvořit prostředek>Analýza>Datová továrna:
Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.
Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.
U položky Skupina prostředků proveďte jeden z následujících kroků:
1. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
2. Vyberte Vytvořit novou a zadejte název skupiny prostředků.
Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
Jako Verzi vyberte V2.
V části Oblast vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.
Vyberte Zkontrolovat a vytvořit a poté vyberte Vytvořit.
Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.
Výběrem možnosti Spustit studio spustíte aplikaci Data Factory na samostatné kartě.

Vytvořit datový kanál s aktivitou Tok dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu Tok dat.

Na domovské stránce služby Azure Data Factory vyberte Orchestrate.
Nyní je otevřeno okno pro nový kanál. Na kartě Obecné pro vlastnosti kanálu zadejte TransformMovies do pole Název kanálu.
V podokně Aktivity rozbalte sekci Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.
Pojmenujte aktivitu toku dat DataFlow1.
Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Clusterům pro zpracování toků dat trvá 5 až 7 minut, než se zahřejí, a doporučuje se nejprve zapnout ladění, pokud plánujete vývoj v oblasti zpracování toků dat. Další informace naleznete v tématu Režim ladění.

Sestavte transformační logiku na plátně toku dat.

V tomto kroku vytvoříte tok dat, který převezme moviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení komedií od roku 1910 do roku 2000. Tento soubor pak zapíšete zpět do úložiště ADLS.

Na panelu pod plátnem přejděte do Nastavení aktivity toku dat a vyberte možnost Nový, který se nachází vedle pole toku dat. Tím se otevře plátno toku dat.
Na panelu Vlastnosti v části Obecné pojmenujte tok dat: TransformMovies.
Na plátně toku dat přidejte zdroj zaškrtnutím políčka Přidat zdroj .
Pojmenujte zdroj MoviesDB. Výběrem možnosti Nový vytvoříte novou zdrojovou datovou sadu.
Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.
Zvolte OddělenýText. Zvolte Pokračovat.
Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nové.
Na obrazovce vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu k připojení k našemu úložnému účtu. Výběrem možnosti Test připojení můžete ověřit, jestli byly vaše přihlašovací údaje zadány správně. Po dokončení vyberte Vytvořit.
Jakmile se vrátíte na obrazovku pro vytvoření datové sady, zadejte, kde se soubor nachází pod polem Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Vzhledem k tomu, že soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Po dokončení vyberte OK.
Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat ve zdrojové transformaci a vyberte Aktualizovat , abyste získali snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.
Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.
Pojmenujte váš transformační filtr jako FilterYears. Vyberte pole výrazu vedle položky Filtrovat a poté Otevřít tvůrce výrazů. Zde specifikujete podmínky filtrování.
Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v části Tvůrce výrazů toku dat.

V tomto kurzu chcete filtrovat filmy žánrové komedie, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce toInteger() převést na celé číslo. Pro porovnání s doslovnými hodnotami roků 1910 a 2000 použijte operátory "větší než nebo rovno" (>=) a "menší než nebo rovno" (<=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednoťte rlike výraz se srovnáním s rokem, abyste získali:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Pokud máte aktivní ladicí cluster, můžete logiku ověřit tak, že vyberete Aktualizovat a zobrazíte výstup výrazu v porovnání s použitými vstupy. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

Až budete hotovi s výrazem, vyberte Uložit a Dokončit .
Načtením náhledu dat ověřte, že filtr funguje správně.
Další transformací, kterou přidáte, je Aggregate transformace v Schema modifier.
Pojmenujte agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, ve které film přišel.
Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.
Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Výraz vypadá takto:

avg(toInteger(Rating))

Po dokončení vyberte Uložit a dokončit .
Přejděte na kartu Náhled dat a podívejte se na výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.
Dále chcete přidat Sink transformaci pod Destinace.
Pojmenujte svůj dřez Sink. Vyberte Nový a vytvořte datovou sadu jímky.
Zvolte Azure Data Lake Storage Gen2. Zvolte Pokračovat.
Zvolte OddělenýText. Zvolte Pokračovat.
Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 6. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do složky output v kontejneru sample-data. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Nastavte první řádek jako záhlaví jako true a jako schéma importu vyberte Žádné. Vyberte Dokončit.

Teď jste dokončili vytváření toku dat. Už můžete ho spustit ve své pipeline.

Spuštění a monitorování Toků dat

Kanál můžete diagnostikovat, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapisuje data do cíle jímky.

Přejděte na plátno kanálu. Vyberte Ladit , aby se aktivovalo spuštění ladění.
Ladění kanálu aktivit Tok dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat na kartě Výstup . Jakmile je spuštění úspěšné, umístěte kurzor na spuštění a výběrem ikony brýlí otevřete podokno monitorování.
Na panelu monitorování vyberte tlačítko Fáze , abyste viděli počet řádků a čas strávený v každém kroku transformace.
Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště blobů.

Potrubí v tomto kurzu spustí tok dat, který agreguje průměrné hodnocení komedií od roku 1910 do roku 2000 a zapisuje data do ADLS. Naučili jste se:

Vytvoření datové továrny
Vytvořte datový kanál s aktivitou Data Flow.
Sestavte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění potrubí
Monitorovat aktivitu datového toku

Přečtěte si další informace o jazyce výrazů toku dat.

Sdílet prostřednictvím

Kurz: Transformace dat pomocí mapování toků dat

Požadavky

Vytvoření datové továrny

Vytvořit datový kanál s aktivitou Tok dat

Sestavte transformační logiku na plátně toku dat.

Spuštění a monitorování Toků dat

Související obsah

Váš názor

Další materiály