Rychlý start: Transformace dat pomocí mapování toků dat

Článek
05/23/2023

V tomto rychlém startu použijete Azure Synapse Analytics k vytvoření kanálu, který pomocí mapování toku dat transformuje data ze zdroje Azure Data Lake Storage Gen2 (ADLS Gen2) do jímky ADLS Gen2. Model konfigurace v tomto rychlém startu je možné rozšířit při transformaci dat pomocí mapování toku dat.

V tomto rychlém startu provedete následující kroky:

Vytvořte kanál s aktivitou Tok dat v Azure Synapse Analytics.
Vytvořte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění kanálu
Monitorování aktivity Tok dat

Požadavky

Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure , než začnete.
Azure Synapse pracovního prostoru: Vytvořte pracovní prostor Synapse pomocí Azure Portal podle pokynů v tématu Rychlý start: Vytvoření pracovního prostoru Synapse.
Účet úložiště Azure: Jako zdrojová úložiště dat a úložiště dat jímky používáte úložiště ADLS. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

Soubor, který v tomto kurzu transformujeme, je MoviesDB.csv, který najdete tady. Pokud chcete soubor načíst z GitHubu, zkopírujte jeho obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete soubor nahrát do účtu úložiště, přečtěte si téma Nahrávání objektů blob pomocí Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Přejděte na Synapse Studio.

Po vytvoření pracovního prostoru Azure Synapse můžete Synapse Studio otevřít dvěma způsoby:

Otevřete pracovní prostor Synapse v Azure Portal. Na kartě Otevřít Synapse Studio v části Začínáme vyberte Otevřít.
Otevřete Azure Synapse Analytics a přihlaste se ke svému pracovnímu prostoru.

V tomto rychlém startu použijeme jako příklad pracovní prostor adftest2020. Automaticky vás přejde na domovskou stránku Synapse Studio.

Synapse Studio domovská stránka

Vytvoření kanálu s aktivitou Tok dat

Kanál obsahuje logický tok pro provádění sady aktivit. V této části vytvoříte kanál, který obsahuje aktivitu Tok dat.

Přejděte na kartu Integrace . Vyberte ikonu plus vedle záhlaví kanálů a vyberte Kanál.
Na stránce Nastavení vlastností kanálu jako Název zadejte TransformMovies.
V části Přesunout a transformovat v podokně Aktivity přetáhněte tok dat na plátno kanálu.
V automaticky otevírané nabídce stránky Přidání toku dat vyberte Vytvořit nový tok dat ->Tok dat. Po dokončení klikněte na OK .
Pojmenujte tok dat TransformMovies na stránce Vlastnosti .

Sestavení logiky transformace na plátně toku dat

Po vytvoření Tok dat se automaticky odešlete na plátno toku dat. V tomto kroku vytvoříte tok dat, který převezme MoviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení komedií od roku 1910 do roku 2000. Potom tento soubor zapíšete zpět do úložiště ADLS.

Nad plátnem toku dat posuňte posuvník ladění toku dat . Režim ladění umožňuje interaktivní testování logiky transformace v živém clusteru Spark. Tok dat clusterů trvá zahřívání 5 až 7 minut a uživatelům se doporučuje, aby nejprve zapnuli ladění, pokud plánují Tok dat vývoj. Další informace najdete v tématu Režim ladění.
Na plátně toku dat přidejte zdroj kliknutím na pole Přidat zdroj .
Pojmenujte zdrojOvou databázi MoviesDB. Kliknutím na Nový vytvořte novou zdrojovou datovou sadu.
Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.
Zvolte Text s oddělovači. Klikněte na Pokračovat.
Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nový.
Na obrazovce pro vytvoření propojené služby pojmenujte propojenou službu ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto rychlém startu používáme klíč účtu pro připojení k našemu účtu úložiště. Kliknutím na Test připojení můžete ověřit, jestli jste přihlašovací údaje zadali správně. Po dokončení klikněte na Vytvořit .
Až se vrátíte na obrazovku pro vytvoření datové sady, zadejte do pole Cesta k souboru , kde se váš soubor nachází. V tomto rychlém startu se soubor "MoviesDB.csv" nachází v kontejneru sample-data. Protože soubor obsahuje záhlaví, zaškrtněte První řádek jako záhlaví. Vyberte Z připojení nebo úložiště a naimportujte schéma hlaviček přímo ze souboru v úložišti. Po dokončení klikněte na OK .
Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat zdrojové transformace a kliknutím na Aktualizovat získejte snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.
Vedle zdrojového uzlu na plátně toku dat klikněte na ikonu plus a přidejte novou transformaci. První transformace, kterou přidáváte, je Filtr.
Pojmenujte transformaci filtru FilterYears. Kliknutím na pole výrazu vedle Možnosti Filtrovat otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.
Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o tom, jak vytvářet výrazy, najdete v tématu tvůrce výrazů Tok dat.

V tomto rychlém startu chcete filtrovat filmy žánrové komedie, které vyšly mezi lety 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí toInteger() funkce převést na celé číslo. K porovnání hodnot literálu roku 1910 a 200-použijte operátory větší než nebo rovno (>=) a menší než nebo rovno (<=). Sjednocujte tyto výrazy společně s operátorem && (a). Výraz je následující:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Pokud chcete zjistit, které filmy jsou komedie, můžete pomocí rlike() funkce najít vzor "Komedie" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Pokud máte aktivní ladicí cluster, můžete logiku ověřit kliknutím na Aktualizovat a zobrazit výstup výrazu v porovnání s použitými vstupy. Existuje více než jedna správná odpověď na to, jak můžete tuto logiku provést pomocí jazyka výrazu toku dat.

Až budete s výrazem hotovi, klikněte na Uložit a dokončit .
Načtěte náhled dat , abyste ověřili, že filtr funguje správně.
Další transformací, kterou přidáte, je agregační transformace v části Modifikátor schématu.
Pojmenujte svou agregační transformaci AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, kdy film vyšel.
Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Kliknutím na pravé pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.
Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Vzhledem k tomu , že rating je řetězec a avg() přijímá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Tento výraz vypadá takto:

avg(toInteger(Rating))

Po dokončení klikněte na Uložit a dokončit .
Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že jsou tam jenom dva sloupce : year a AverageComedyRating.
Dále chcete přidat transformaci jímky v části Cíl.
Pojmenujte jímku. Kliknutím na Nová vytvořte datovou sadu jímky.
Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.
Zvolte Text s oddělovači. Klikněte na Pokračovat.
Datovou sadu jímky pojmenujte MoviesSink. Pro propojenou službu zvolte propojenou službu ADLS Gen2, kterou jste vytvořili v kroku 7. Zadejte výstupní složku, do které chcete zapisovat data. V tomto rychlém startu píšeme do složky output v kontejneru sample-data. Složka nemusí existovat předem a je možné ji dynamicky vytvořit. Nastavte První řádek jako záhlaví na hodnotu true a v části Importovat schéma vyberte Žádný. Po dokončení klikněte na OK .

Teď jste dokončili sestavování toku dat. Můžete ho spustit ve svém kanálu.

Spuštění a monitorování Tok dat

Kanál můžete před publikováním ladit. V tomto kroku aktivujete spuštění ladění kanálu toku dat. I když náhled dat nezapisuje data, spuštění ladění zapíše data do cíle jímky.

Přejděte na plátno kanálu. Kliknutím na Ladit aktivují spuštění ladění.
Ladění kanálů Tok dat aktivit používá aktivní ladicí cluster, ale inicializace stále trvá aspoň minutu. Průběh můžete sledovat na kartě Výstup . Po úspěšném spuštění otevřete podokno monitorování kliknutím na ikonu brýlí.
V podokně monitorování vidíte počet řádků a čas strávený v jednotlivých krocích transformace.
Kliknutím na transformaci získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto rychlého startu správně, měli byste do složky jímky zapsat 83 řádků a 2 sloupce. Data můžete ověřit kontrolou úložiště objektů blob.

Další kroky

Informace o podpoře Azure Synapse Analytics najdete v následujících článcích:

Přehled toku dat mapování kanálů a aktivit Jazyk výrazů toku dat

Sdílet prostřednictvím