Sdílet prostřednictvím


Modul 2: Transformace dat pomocí toku dat ve službě Data Factory

Dokončení tohoto modulu trvá přibližně 25 minut. Vytvoříte tok dat, použijete transformace a přesunete nezpracovaná data z tabulky bronzové datové vrstvy do tabulky zlaté datové vrstvy.

Díky nezpracovaným datům načteným do bronzové tabulky Lakehouse z posledního modulu je teď můžete obohatit. Zkombinujete ji s jinou tabulkou, která obsahuje slevy pro každého dodavatele a jejich výlety během určitého dne. Pak se tato konečná tabulka Gold Lakehouse načte a připraví na spotřebu.

Základní kroky v toku dat jsou:

Požadavky

Modul 1 této série kurzů: Vytvoření kanálu se službou Data Factory

Získání dat z tabulky Lakehouse

  1. Na bočním panelu vyberte svůj pracovní prostor, vyberte Novou položku a potom Dataflow Gen2 a vytvořte nový tok dat Gen2.

    Snímek obrazovky se stránkou Vytvoření Fabric se zvýrazněným tlačítkem Dataflow Gen2

  2. V nabídce nového toku dat vyberte Načíst data a pak Více....

    Snímek obrazovky s nabídkou Tok dat se zvýrazněným tlačítkem Získat data a možností Další... zvýrazněnou z její nabídky.

  3. Vyhledejte a vyberte konektor Lakehouse .

    Snímek obrazovky znázorňující výběr zdroje dat Lakehouse z nabídky Zvolit zdroj dat

  4. Zobrazí se dialogové okno Připojit ke zdroji dat a nové připojení se automaticky vytvoří na základě aktuálně přihlášeného uživatele. Vyberte Další.

    Snímek obrazovky znázorňující konfiguraci nastavení zdroje dat pro nový Lakehouse s aktuálním přihlášeným uživatelem a vybraným tlačítkem Další

  5. Zobrazí se dialogové okno Zvolit data . Pomocí navigačního podokna vyhledejte lakehouse, který jste vytvořili pro cíl v předchozím modulu, a vyberte tabulku dat Tutorial_Lakehouse . Pak vyberte Vytvořit.

    Snímek obrazovky v prohlížeči Lakehouse s pracovním prostorem, lakehousem a tabulkou vytvořenou s aktivitou kopírování v modulu 1.

  6. (Volitelné) Jakmile se plátno naplní daty, můžete nastavit informace o profilu sloupce , protože to je užitečné pro profilaci dat. Můžete použít správnou transformaci a na základě ní cílit na správné hodnoty dat.

    Uděláte to tak, že v podokně pásu karet vyberete Možnosti, pak v části Profil sloupce vyberete první tři možnosti a nakonec OK.

    Snímek obrazovky znázorňující výběr možností sloupce pro vaše data

Transformace dat importovaných z Lakehouse

  1. Vyberte ikonu datového typu v záhlaví druhého sloupce, IpepPickupDatetime, čímž zobrazíte rozevírací nabídku. Z této nabídky vyberte datový typ, abyste převedli sloupec z typu Datum a čas na typ Datum.

    Snímek obrazovky znázorňující výběr datového typu Date pro sloupec IpepPickupDatetime

  2. (Volitelné) Na kartě Domů na pásu karet vyberte možnost Zvolit sloupce ze skupiny Spravovat sloupce .

    Snímek obrazovky znázorňující tlačítko Zvolit sloupce na kartě Domů v editoru toku dat

  3. (Volitelné) V dialogovém okně Zvolit sloupce zrušte výběr některých sloupců uvedených tady a pak vyberte OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Snímek obrazovky s dialogem Zvolit sloupce s odznačenými identifikovanými sloupci

  4. Vyberte rozevírací nabídku pro filtrování a řazení sloupce StoreAndFwdFlag. (Pokud se zobrazí seznam upozornění , může být neúplný, pokud chcete zobrazit všechna data, vyberte Načíst další informace.)

    Snímek obrazovky zobrazující dialogové okno filtru a řazení sloupce

  5. Výběrem Y zobrazíte pouze řádky, ve kterých byla uplatněna sleva, a pak vyberte OK.

    Snímek obrazovky zobrazující filtr hodnot s vybranou možností Y

  6. Vyberte řazení sloupců IpepPickupDatetime a rozevírací nabídku filtru, pak vyberte Filtry kalendářních dat a zvolte filtr Mezi... zadaný pro typy Datum a Datum a čas.

    Snímek obrazovky znázorňující výběr možnosti Filtry data v rozevíracím seznamu pro řazení a formátování sloupce

  7. V dialogovém okně Filtrovat řádky vyberte data od 1. ledna 2015 do 31. ledna 2015 a pak vyberte OK.

    Snímek obrazovky znázorňující výběr kalendářních dat v lednu 2015

Připojení k souboru CSV obsahujícímu data slev

S daty z cest chceme načíst data, která obsahují odpovídající slevy pro každý den a ID dodavatele, a připravit data, než je zkombinujeme s daty o cestách.

  1. Na kartě Domů v nabídce editoru toku dat vyberte možnost Získat data a pak zvolte Text/CSV.

    Snímek obrazovky, který zobrazuje výběr nabídky Získat data z karty Domů, se zvýrazněnou možností Text/CSV

  2. V dialogovém okně Připojit ke zdroji dat zadejte následující podrobnosti:

    • Cesta k souboru nebo adresa URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Druh ověřování – Anonymní

    Pak vyberte Další.

    Snímek obrazovky s nastavením Text/CSV pro připojení

  3. V dialogovém okně Náhled dat souboru vyberte Vytvořit.

    Snímek obrazovky s dialogovým oknem Náhled dat souborů se zvýrazněným tlačítkem Vytvořit

Transformujte data slevy

  1. Při kontrole dat vidíme, že záhlaví jsou na prvním řádku. Povýšit je na záhlaví výběrem kontextové nabídky tabulky v levém horním rohu náhledové mřížky a zvolením možnosti Použít první řádek jako záhlaví.

    Snímek obrazovky, který ukazuje výběr možnosti Použít první řádek jako záhlaví z kontextové nabídky tabulky.

    Poznámka:

    Po povýšení záhlaví uvidíte nový krok přidaný do podokna Použitý postup v horní části editoru toku dat, což se vztahuje k datovým typům vašich sloupců.

  2. Klikněte pravým tlačítkem myši na sloupec VendorID a v zobrazené místní nabídce vyberte možnost Odemknout jiné sloupce. To vám umožní transformovat sloupce na páry atribut-hodnota, kde se sloupce stanou řádky.

    Snímek obrazovky zobrazující místní nabídku sloupce VendorID se zvýrazněným výběrem Zrušit otočení u ostatních sloupců

  3. Pokud je tabulka ve stavu bez otočení, přejmenujte sloupce Atribut a Hodnota> poklepáním na ně a změňte Atribut na Datum a Hodnota na Sleva.

    Snímek obrazovky zobrazující sloupce tabulky po přejmenování atributu na datum a hodnotu na slevu

  4. Datový typ sloupce Datum můžete změnit tak, že vyberete nabídku datového typu vlevo od názvu sloupce a zvolíte Datum.

    Snímek obrazovky znázorňující výběr datového typu Datum pro sloupec Datum

  5. Vyberte sloupec Sleva a pak v nabídce vyberte kartu Transformace . Vyberte sloupec Číslo a pak v podnabídce vyberte Standardní číselné transformace a zvolte Dělit.

    Snímek obrazovky znázorňující výběr možnosti Dělení pro transformaci dat ve sloupci Discount

  6. V dialogovém okně Dělit zadejte hodnotu 100.

    Snímek obrazovky s dialogovým oknem Dělit se zadanou hodnotou 100 a zvýrazněným tlačítkem OK

Kombinování dat o výletech a slevách

Dalším krokem je zkombinování obou tabulek do jedné tabulky, která má slevu, kterou by se měla uplatnit na cestu, a upravený součet.

  1. Nejprve přepněte tlačítko zobrazení diagramu v pravém dolním rohu okna, abyste viděli oba dotazy.

    Snímek obrazovky znázorňující přepínač zobrazení diagramu s oběma dotazy vytvořenými v tomto kurzu

  2. Vyberte původní datový dotaz (v našem příkladu se nazývá Bronzová) a na kartě Domů vyberte nabídku Kombinovat a zvolte Sloučit dotazy a pak sloučit dotazy jako nové.

    Snímek obrazovky znázorňující možnost Sloučit dotazy jako nový výběr dotazu nyc_taxi

  3. V dialogovém okně Sloučit vyberte levé vnější spojení, pak v rozevíracím seznamu Pravé tabulky pro sloučení vyberte Generated-NYC-Taxi-Green-Discounts a pak v pravém horním rohu dialogového okna vyberte ikonu žárovka, abyste zobrazili navrhované mapování sloupců mezi těmito dvěma tabulkami.

    Snímek obrazovky znázorňující konfiguraci dialogového okna Sloučit s navrhovanými mapováními sloupců

    Zvolte navrhované mapování pro mapování sloupců VendorID a date z obou tabulek. Po přidání obou mapování se v každé tabulce zvýrazní odpovídající záhlaví sloupců.

  4. Zobrazí se zpráva s výzvou, abyste povolili kombinování dat z více zdrojů dat k zobrazení výsledků. V dialogovém okně Sloučit vyberte OK.

    Snímek obrazovky znázorňující žádost o schválení kombinování dat z více zdrojů dat se zvýrazněným tlačítkem OK

  5. V oblasti tabulky se zpočátku zobrazí upozornění, že informace o ochraně osobních údajů se vyžadují. Pokud chcete upozornění vyřešit, vyberte Pokračovat .

    Snímek obrazovky s upozorněním na kombinování dat z více zdrojů dat se zvýrazněným tlačítkem Pokračovat

  6. Pro účely tohoto kurzu vyberte ignorovat kontroly úrovně ochrany osobních údajů pro tento dokument, protože se jedná o ukázková data, která neobsahují citlivé informace. U vlastních zdrojů dat nastavte odpovídající úrovně ochrany osobních údajů, které chrání vaše citlivá data.

    Snímek obrazovky s dialogem Úrovně ochrany osobních údajů s vybranou možností Ignorovat úrovně ochrany osobních údajů

  7. Vyberte Uložit.

  8. Všimněte si, jak se v zobrazení diagramu vytvořil nový dotaz zobrazující vztah nového dotazu sloučení se dvěma dříve vytvořenými dotazy. Když se podíváte do podokna tabulky v editoru, posuňte se vpravo od seznamu sloupců dotazu Sloučení, abyste viděli, že je k dispozici nový sloupec s hodnotami tabulky. Toto je sloupec "Generated NYC Taxi-Green-Discounts" a jeho typ je [Table]. V záhlaví sloupce je ikona se dvěma šipkami, které procházejí opačnými směry a umožňují vybrat sloupce z tabulky. Zrušte výběr všech sloupců kromě slevy a pak vyberte OK.

    Snímek obrazovky zobrazující sloučený dotaz s nabídkou výběru sloupce zobrazenou pro nově vygenerovaný sloupec Generated-NYC-Taxi-Green-Slevy

  9. S hodnotou slevy teď na úrovni řádku můžeme vytvořit nový sloupec, který vypočítá celkovou částku po slevě. Uděláte to tak, že v horní části editoru vyberete kartu Přidat sloupec a ve skupině Obecné zvolíte Vlastní sloupec.

    Snímek obrazovky se zvýrazněným tlačítkem Přidat vlastní sloupec v části Obecné na kartě Přidat sloupec

  10. V dialogovém okně Vlastní sloupec můžete pomocí jazyka vzorců Power Query (označovaného také jako M) definovat, jak se má nový sloupec vypočítat. Zadejte TotalAfterDiscount pro název nového sloupce, vyberte Měna pro datový typ a zadejte následující výraz M pro vzorec vlastního sloupce:

    pokud [totalAmount] > 0 pak [totalAmount] * ( 1 -[Discount] ) jinak [totalAmount]

    Pak vyberte OK.

    Snímek obrazovky konfigurace vlastního sloupce se zvýrazněným názvem nového sloupce, datovým typem a vzorcem Vlastní sloupec

  11. Vyberte nově vytvořený sloupec TotalAfterDiscount a pak v horní části okna editoru vyberte kartu Transformace . Ve skupině Sloupec Číslo vyberte rozevírací seznam Zaokrouhlování a pak zvolte Zaokrouhlovat....

    Snímek obrazovky zobrazující možnost

  12. V dialogovém okně Zaokrouhlování zadejte 2 pro počet desetinných míst a pak vyberte OK.

    Snímek obrazovky s dialogovým oknem s hodnotou 2 pro počet desetinných míst a zvýrazněným tlačítkem OK.

  13. Změňte datový typ IpepPickupDatetime z data na datum a čas.

    Snímek obrazovky znázorňující výběr datového typu Datum a čas pro sloupec IpepPickupDatetime

  14. Nakonec rozbalte podokno Nastavení dotazu z pravé strany editoru, pokud ještě není rozbalené, a přejmenujte dotaz ze sloučení na výstup.

    Snímek obrazovky znázorňující přejmenování dotazu ze sloučení na výstup

Načtení výstupního dotazu do tabulky v Lakehouse

Když máme nyní plně připravený výstupní dotaz a data, která jsou připravena k výstupu, můžeme definovat cíl výstupu pro tento dotaz.

  1. Vyberte dříve vytvořený výstupní slučovací dotaz. Potom v editoru vyberte kartu Domů a přidejte cíl dat ze seskupování dotazů a vyberte cíl Lakehouse .

    Snímek obrazovky znázorňující tlačítko Přidat cíl dat, se zvýrazněným Lakehouse.

  2. V dialogovém okně Připojit k cíli dat by mělo být již vybrané připojení. Pokračujte výběrem tlačítka Další.

  3. V dialogovém okně Zvolit cílový cíl přejděte do Lakehouse, kam chcete načíst data, a pojmenujte novou tabulku nyc_taxi_with_discounts a pak znovu vyberte Další .

    Snímek obrazovky s dialogovým oknem Vybrat cílové umístění a názvem tabulky nyc_taxi_with_discounts.

  4. V dialogovém okně Zvolit nastavení cíle můžete použít automatické nastavení nebo zrušit výběr automatického nastavení a ponechat výchozí metodu nahradit aktualizaci, pečlivě zkontrolujte, jestli jsou sloupce namapované správně, a vyberte Uložit nastavení.

    Snímek obrazovky s dialogovým oknem Zvolit nastavení cíle se zvýrazněným tlačítkem Uložit nastavení

  5. V okně hlavního editoru ověřte, že v podokně Nastavení dotazupro výstupní tabulku v cíli dat vidíte cíl výstupu a pak vyberte Uložit*.

    Důležité

    Když se v pracovním prostoru vytvoří první tok dat Gen2, zřídí se položky Lakehouse a Warehouse společně s souvisejícími koncovými body analýzy SQL a sémantickými modely. Tyto položky jsou sdíleny všemi toky dat v pracovním prostoru a jsou nutné, aby tok dat Gen2 fungoval, neměl by být odstraněn a nejsou určeny k přímému použití uživateli. Položky jsou podrobností implementace Dataflow Gen2. Položky nejsou v pracovním prostoru viditelné, ale můžou být přístupné v jiných prostředích, jako jsou poznámkové bloky, koncový bod SQL, Lakehouse a Warehouse. Položky můžete rozpoznat podle jejich předpony v názvu. Předpona položek je DataflowsStaging.

  6. (Volitelné) Na stránce pracovního prostoru můžete tok dat přejmenovat tak, že vyberete tři tečky napravo od názvu toku dat, který se zobrazí po výběru řádku, a výběrem možnosti Nastavení. V tomto příkladu ji přejmenujeme na nyc_taxi_with_discounts.

    Snímek obrazovky znázorňující možnost Vlastnosti vybranou v nabídce pro tok dat, kde se dá přejmenovat

  7. V části Další možnosti vyberte ikonu aktualizace toku dat a po dokončení byste měli vidět novou tabulku Lakehouse vytvořenou tak, jak je nakonfigurovaná v nastavení cíle dat .

    Snímek obrazovky znázorňující výběr tlačítka pro aktualizaci toku dat

  8. Zkontrolujte svůj Lakehouse a podívejte se na novou tabulku, která se tam načetla.

Další krok

Pokračujte k další části a integrujte svůj pipeline.