Modul 2: Transformace dat pomocí toku dat ve službě Data Factory
Tento modul trvá přibližně 25 minut, než vytvoříte tok dat, použijete transformace a přesunete nezpracovaná data z bronzové tabulky do tabulky Gold Lakehouse.
S nezpracovanými daty načtenými do tabulky Bronze Lakehouse z posledního modulu teď můžete tato data připravit a rozšířit jejich kombinací s jinou tabulkou, která obsahuje slevy pro každého dodavatele a jejich cesty během určitého dne. Tato konečná tabulka Gold Lakehouse se načte a je připravená na spotřebu.
Základní kroky v toku dat jsou následující:
- Získání nezpracovaných dat z tabulky Lakehouse vytvořené aktivita Copy v modulu 1: Vytvoření kanálu se službou Data Factory
- Transformujte data importovaná z tabulky Lakehouse.
- Připojení do souboru CSV obsahujícího data slev.
- Transformujte data slev.
- Zkombinujte údaje o jízdách a slevách.
- Načtěte výstupní dotaz do tabulky Gold Lakehouse.
Získání dat z tabulky Lakehouse
Na bočním panelu vyberte Vytvořit a potom Dataflow Gen2 a vytvořte nový tok dat Gen2.
V nabídce nového toku dat vyberte Načíst data a pak Další....
Vyhledejte a vyberte konektor Lakehouse .
Zobrazí se dialogové okno Připojení ke zdroji dat a automaticky se pro vás vytvoří nové připojení na základě aktuálně přihlášeného uživatele. Vyberte Další.
Zobrazí se dialogové okno Zvolit data . Pomocí navigačního podokna vyhledejte lakehouse, který jste vytvořili pro cíl v předchozím modulu, a vyberte tabulku dat Tutorial_Lakehouse .
(Volitelné) Jakmile se plátno naplní daty, můžete nastavit informace o profilu sloupce, protože to je užitečné pro profilaci dat. Můžete použít správnou transformaci a na základě ní cílit na správné hodnoty dat.
Uděláte to tak, že v podokně pásu karet vyberete možnosti, pak v části Profil sloupce vyberete první tři možnosti a pak vyberete OK.
Transformace dat importovaných z Lakehouse
Výběrem ikony datového typu v záhlaví sloupce druhého sloupce IpepPickupDatetime zobrazte rozevírací nabídku a výběrem datového typu z nabídky převeďte sloupec z data a času na typ Datum .
(Volitelné) Na kartě Domů na pásu karet vyberte možnost Zvolit sloupce ze skupiny Spravovat sloupce .
(Volitelné) V dialogovém okně Zvolit sloupce zrušte výběr některých sloupců uvedených tady a pak vyberte OK.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Vyberte filtr sloupce StoreAndFwdFlag a rozevírací nabídku řazení. (Pokud se zobrazí upozornění Seznam může být neúplný, pokud chcete zobrazit všechna data, vyberte Načíst další .)
Výběrem Y zobrazíte pouze řádky, ve kterých byla uplatněna sleva, a pak vyberte OK.
Vyberte řazení sloupců IpepPickupDatetime a rozevírací nabídku filtru, pak vyberte Filtry kalendářních dat a zvolte filtr Mezi... zadaný pro typy Datum a Datum a čas.
V dialogovém okně Filtrovat řádky vyberte data od 1. ledna 2015 do 31. ledna 2015 a pak vyberte OK.
Připojení do souboru CSV obsahujícího data slev
Teď s daty z cest na místě chceme načíst data, která obsahují příslušné slevy pro každý den a ID dodavatele, a připravit data před jejich kombinováním s daty o cestách.
Na kartě Domů v nabídce editoru toku dat vyberte možnost Získat data a pak zvolte Text/CSV.
V dialogovém okně Připojení ke zdroji dat zadejte následující podrobnosti:
- Cesta k souboru nebo adresa URL -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- Druh ověřování – Anonymní
Pak vyberte Další.
- Cesta k souboru nebo adresa URL -
V dialogovém okně Náhled dat souboru vyberte Vytvořit.
Transformace dat slevy
Při kontrole dat vidíme, že záhlaví jsou na prvním řádku. Zvýšení úrovně na záhlaví výběrem místní nabídky tabulky v levé horní části oblasti mřížky náhledu a výběrem prvního řádku jako záhlaví.
Poznámka:
Po povýšení záhlaví uvidíte nový krok přidaný do podokna Použitý postup v horní části editoru toku dat do datových typů sloupců.
Klikněte pravým tlačítkem myši na sloupec VendorID a v místní nabídce zobrazené vyberte možnost Převést další sloupce na řádky. To vám umožní transformovat sloupce na páry atribut-hodnota, kde se sloupce stanou řádky.
Pokud je tabulka nepřekontovaná, přejmenujte sloupce Atribut a Hodnota tak, že na ně poklikáním a změnou atributu na datum a hodnotu na slevu.
Datový typ sloupce Datum můžete změnit tak, že vyberete nabídku datového typu vlevo od názvu sloupce a zvolíte Datum.
Vyberte sloupec Sleva a pak v nabídce vyberte kartu Transformace. Vyberte sloupec Číslo a pak v podnabídce vyberte Standardní číselné transformace a zvolte Dělit.
V dialogovém okně Dělit zadejte hodnotu 100.
Kombinování dat o výletech a slevách
Dalším krokem je zkombinování obou tabulek do jedné tabulky, která má slevu, kterou by se měla uplatnit na cestu, a upravený součet.
Nejprve přepněte tlačítko zobrazení diagramu, abyste viděli oba dotazy.
Vyberte nyc_taxi dotaz a na kartě Domů vyberte nabídku Kombinovat a zvolte Sloučit dotazy a potom sloučit dotazy jako nové.
V dialogovém okně Sloučit vyberte Generated-NYC-Taxi-Green-Discounts from the Right table for merge drop down, and then select the "light bulb" icon on the top right of the dialog to see the suggested mapping of columns between the two tables.
Vyberte každé ze dvou navrhovaných mapování sloupců, jedno po druhém, mapování sloupce VendorID a date z obou tabulek. Po přidání obou mapování se v každé tabulce zvýrazní odpovídající záhlaví sloupců.
Zobrazí se zpráva s výzvou, abyste povolili kombinování dat z více zdrojů dat k zobrazení výsledků. V dialogovém okně Sloučit vyberte OK.
V oblasti tabulky se zpočátku zobrazí upozornění, že vyhodnocení bylo zrušeno, protože kombinace dat z více zdrojů může odhalit data z jednoho zdroje do jiného. Vyberte pokračovat, pokud je možnost odhalit data v pořádku." Chcete-li zobrazit sloučená data, vyberte Pokračovat .
Všimněte si, jak se v zobrazení diagramu vytvořil nový dotaz zobrazující vztah nového dotazu sloučení se dvěma dříve vytvořenými dotazy. Když se podíváte do podokna tabulky v editoru, posuňte se vpravo od seznamu sloupců dotazu Sloučení, abyste viděli, že je k dispozici nový sloupec s hodnotami tabulky. Toto je sloupec Generated NYC Taxi-Green-Discounts a jeho typ je [Table]. V záhlaví sloupce je ikona se dvěma šipkami, které procházejí opačnými směry a umožňují vybrat sloupce z tabulky. Zrušte výběr všech sloupců kromě slevy a pak vyberte OK.
S hodnotou slevy teď na úrovni řádku můžeme vytvořit nový sloupec, který vypočítá celkovou částku po slevě. Uděláte to tak, že v horní části editoru vyberete kartu Přidat sloupec a ve skupině Obecné zvolíte Vlastní sloupec.
V dialogovém okně Vlastní sloupec můžete pomocí jazyka vzorců Power Query (označovaného také jako M) definovat, jak se má nový sloupec vypočítat. Zadejte TotalAfterDiscount pro název nového sloupce, vyberte Currency pro datový typ a zadejte následující výraz M pro vzorec Vlastní sloupec:
if [totalAmount] > 0 pak [totalAmount] * ( 1 -[Discount] ) else [totalAmount]
Pak vyberte OK.
Vyberte nově vytvořený sloupec TotalAfterDiscount a pak v horní části okna editoru vyberte kartu Transformace . Ve skupině Sloupec Číslo vyberte rozevírací seznam Zaokrouhlování a pak zvolte Zaokrouhlovat....
V dialogovém okně Zaokrouhlování zadejte 2 pro počet desetinných míst a pak vyberte OK.
Změňte datový typ IpepPickupDatetime z data na datum a čas.
Nakonec rozbalte podokno Nastavení dotazu z pravé strany editoru, pokud ještě není rozbalené, a přejmenujte dotaz ze sloučení na výstup.
Načtení výstupního dotazu do tabulky v Lakehouse
S výstupním dotazem je teď plně připravený a s daty připravenými k výstupu můžeme definovat výstupní cíl dotazu.
Vyberte dříve vytvořený dotaz hromadné korespondence výstupu. Potom v editoru vyberte kartu Domů a přidejte cíl dat ze seskupování dotazů a vyberte cíl Lakehouse .
V dialogovém okně Připojení k cíli dat by už mělo být vybrané připojení. Pokračujte výběrem tlačítka Další.
V dialogovém okně Zvolit cílový cíl přejděte do Lakehouse, kam chcete načíst data, a pojmenujte novou tabulku nyc_taxi_with_discounts a pak znovu vyberte Další.
V dialogovém okně Zvolit nastavení cíle ponechte výchozí metodu nahradit aktualizaci, pečlivě zkontrolujte, zda jsou sloupce namapovány správně, a vyberte Uložit nastavení.
Zpátky v hlavním okně editoru ověřte, že se v podokně Nastavení dotazu pro výstupní tabulku zobrazí cíl výstupu a pak vyberte Publikovat.
Důležité
Když se v pracovním prostoru vytvoří první tok dat Gen2, zřídí se položky Lakehouse a Warehouse společně s souvisejícími koncovými body analýzy SQL a sémantickými modely. Tyto položky jsou sdíleny všemi toky dat v pracovním prostoru a jsou nutné, aby tok dat Gen2 fungoval, neměl by být odstraněn a nejsou určeny k přímému použití uživateli. Položky jsou podrobností implementace toku dat Gen2. Položky nejsou v pracovním prostoru viditelné, ale můžou být přístupné v jiných prostředích, jako jsou poznámkové bloky, koncový bod SQL, Lakehouse a Warehouse. Položky můžete rozpoznat podle jejich předpony v názvu. Předpona položek je DataflowsStaging.
(Volitelné) Na stránce pracovního prostoru můžete tok dat přejmenovat tak, že vyberete tři tečky napravo od názvu toku dat, který se zobrazí po výběru řádku, a výběrem možnosti Vlastnosti.
Po výběru řádku vyberte ikonu aktualizace toku dat a po dokončení by se měla zobrazit nová tabulka Lakehouse vytvořená podle konfigurace v nastavení cíle dat.
Zkontrolujte lakehouse a podívejte se, jestli se tam načetla nová tabulka.
Související obsah
V tomto druhém modulu kompletního kurzu pro první integraci dat pomocí služby Data Factory v Microsoft Fabric jste se naučili:
- Vytvořte nový tok dat Gen2.
- Import a transformace ukázkových dat
- Umožňuje importovat a transformovat textová data nebo data CSV.
- Sloučí data z obou zdrojů dat do nového dotazu.
- Transformujte data a vygenerujte nové sloupce v dotazu.
- Nakonfigurujte výstupní cílový zdroj dotazu.
- Přejmenujte a aktualizujte nový tok dat.
Pokračujte k další části a integrujte svůj datový kanál.