Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Dokončení tohoto modulu trvá přibližně 25 minut. Vytvoříte tok dat, použijete transformace a přesunete nezpracovaná data z tabulky bronzové datové vrstvy do tabulky zlaté datové vrstvy.
Díky nezpracovaným datům načteným do bronzové tabulky Lakehouse z posledního modulu je teď můžete obohatit. Zkombinujete ji s jinou tabulkou, která obsahuje slevy pro každého dodavatele a jejich výlety během určitého dne. Pak se tato konečná tabulka Gold Lakehouse načte a připraví na spotřebu.
Základní kroky v toku dat jsou:
- Získání nezpracovaných dat z tabulky Lakehouse vytvořené aktivitou kopírování v modulu 1: Vytvoření kanálu se službou Data Factory
- Transformujte data importovaná z tabulky Lakehouse.
- Připojte se k souboru CSV obsahujícímu data slev.
- Převeďte data slev.
- Zkombinujte údaje o jízdách a slevách.
- Načtěte výstupní dotaz do tabulky Gold Lakehouse.
Požadavky
Modul 1 této série kurzů: Vytvoření kanálu se službou Data Factory
Získání dat z tabulky Lakehouse
Na bočním panelu vyberte svůj pracovní prostor, vyberte Novou položku a potom Dataflow Gen2 a vytvořte nový tok dat Gen2.
V nabídce nového toku dat vyberte Načíst data a pak Více....
Vyhledejte a vyberte konektor Lakehouse .
Zobrazí se dialogové okno Připojit ke zdroji dat a nové připojení se automaticky vytvoří na základě aktuálně přihlášeného uživatele. Vyberte Další.
Zobrazí se dialogové okno Zvolit data . Pomocí navigačního podokna vyhledejte lakehouse, který jste vytvořili pro cíl v předchozím modulu, a vyberte tabulku dat Tutorial_Lakehouse . Pak vyberte Vytvořit.
(Volitelné) Jakmile se plátno naplní daty, můžete nastavit informace o profilu sloupce , protože to je užitečné pro profilaci dat. Můžete použít správnou transformaci a na základě ní cílit na správné hodnoty dat.
Uděláte to tak, že v podokně pásu karet vyberete Možnosti, pak v části Profil sloupce vyberete první tři možnosti a nakonec OK.
Transformace dat importovaných z Lakehouse
Vyberte ikonu datového typu v záhlaví druhého sloupce, IpepPickupDatetime, čímž zobrazíte rozevírací nabídku. Z této nabídky vyberte datový typ, abyste převedli sloupec z typu Datum a čas na typ Datum.
(Volitelné) Na kartě Domů na pásu karet vyberte možnost Zvolit sloupce ze skupiny Spravovat sloupce .
(Volitelné) V dialogovém okně Zvolit sloupce zrušte výběr některých sloupců uvedených tady a pak vyberte OK.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Vyberte rozevírací nabídku pro filtrování a řazení sloupce StoreAndFwdFlag. (Pokud se zobrazí seznam upozornění , může být neúplný, pokud chcete zobrazit všechna data, vyberte Načíst další informace.)
Výběrem Y zobrazíte pouze řádky, ve kterých byla uplatněna sleva, a pak vyberte OK.
Vyberte řazení sloupců IpepPickupDatetime a rozevírací nabídku filtru, pak vyberte Filtry kalendářních dat a zvolte filtr Mezi... zadaný pro typy Datum a Datum a čas.
V dialogovém okně Filtrovat řádky vyberte data od 1. ledna 2015 do 31. ledna 2015 a pak vyberte OK.
Připojení k souboru CSV obsahujícímu data slev
S daty z cest chceme načíst data, která obsahují odpovídající slevy pro každý den a ID dodavatele, a připravit data, než je zkombinujeme s daty o cestách.
Na kartě Domů v nabídce editoru toku dat vyberte možnost Získat data a pak zvolte Text/CSV.
V dialogovém okně Připojit ke zdroji dat zadejte následující podrobnosti:
-
Cesta k souboru nebo adresa URL -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv - Druh ověřování – Anonymní
Pak vyberte Další.
-
Cesta k souboru nebo adresa URL -
V dialogovém okně Náhled dat souboru vyberte Vytvořit.
Transformujte data slevy
Při kontrole dat vidíme, že záhlaví jsou na prvním řádku. Povýšit je na záhlaví výběrem kontextové nabídky tabulky v levém horním rohu náhledové mřížky a zvolením možnosti Použít první řádek jako záhlaví.
Poznámka:
Po povýšení záhlaví uvidíte nový krok přidaný do podokna Použitý postup v horní části editoru toku dat, což se vztahuje k datovým typům vašich sloupců.
Klikněte pravým tlačítkem myši na sloupec VendorID a v zobrazené místní nabídce vyberte možnost Odemknout jiné sloupce. To vám umožní transformovat sloupce na páry atribut-hodnota, kde se sloupce stanou řádky.
Pokud je tabulka ve stavu bez otočení, přejmenujte sloupce
Atribut aHodnota> poklepáním na ně a změňte Atribut naDatum aHodnota naSleva .
Datový typ sloupce Datum můžete změnit tak, že vyberete nabídku datového typu vlevo od názvu sloupce a zvolíte Datum.
Vyberte sloupec Sleva a pak v nabídce vyberte kartu Transformace . Vyberte sloupec Číslo a pak v podnabídce vyberte Standardní číselné transformace a zvolte Dělit.
V dialogovém okně Dělit zadejte hodnotu 100.
Kombinování dat o výletech a slevách
Dalším krokem je zkombinování obou tabulek do jedné tabulky, která má slevu, kterou by se měla uplatnit na cestu, a upravený součet.
Nejprve přepněte tlačítko zobrazení diagramu v pravém dolním rohu okna, abyste viděli oba dotazy.
Vyberte původní datový dotaz (v našem příkladu se nazývá Bronzová) a na kartě Domů vyberte nabídku Kombinovat a zvolte Sloučit dotazy a pak sloučit dotazy jako nové.
V dialogovém okně Sloučit vyberte levé vnější spojení, pak v rozevíracím seznamu Pravé tabulky pro sloučení vyberte Generated-NYC-Taxi-Green-Discounts a pak v pravém horním rohu dialogového okna vyberte ikonu žárovka, abyste zobrazili navrhované mapování sloupců mezi těmito dvěma tabulkami.
Zvolte navrhované mapování pro mapování sloupců VendorID a date z obou tabulek. Po přidání obou mapování se v každé tabulce zvýrazní odpovídající záhlaví sloupců.
Zobrazí se zpráva s výzvou, abyste povolili kombinování dat z více zdrojů dat k zobrazení výsledků. V dialogovém okně Sloučit vyberte OK.
V oblasti tabulky se zpočátku zobrazí upozornění, že informace o ochraně osobních údajů se vyžadují. Pokud chcete upozornění vyřešit, vyberte Pokračovat .
Pro účely tohoto kurzu vyberte ignorovat kontroly úrovně ochrany osobních údajů pro tento dokument, protože se jedná o ukázková data, která neobsahují citlivé informace. U vlastních zdrojů dat nastavte odpovídající úrovně ochrany osobních údajů, které chrání vaše citlivá data.
Vyberte Uložit.
Všimněte si, jak se v zobrazení diagramu vytvořil nový dotaz zobrazující vztah nového dotazu sloučení se dvěma dříve vytvořenými dotazy. Když se podíváte do podokna tabulky v editoru, posuňte se vpravo od seznamu sloupců dotazu Sloučení, abyste viděli, že je k dispozici nový sloupec s hodnotami tabulky. Toto je sloupec "Generated NYC Taxi-Green-Discounts" a jeho typ je [Table]. V záhlaví sloupce je ikona se dvěma šipkami, které procházejí opačnými směry a umožňují vybrat sloupce z tabulky. Zrušte výběr všech sloupců kromě slevy a pak vyberte OK.
S hodnotou slevy teď na úrovni řádku můžeme vytvořit nový sloupec, který vypočítá celkovou částku po slevě. Uděláte to tak, že v horní části editoru vyberete kartu Přidat sloupec a ve skupině Obecné zvolíte Vlastní sloupec.
V dialogovém okně Vlastní sloupec můžete pomocí jazyka vzorců Power Query (označovaného také jako M) definovat, jak se má nový sloupec vypočítat. Zadejte TotalAfterDiscount pro název nového sloupce, vyberte Měna pro datový typ a zadejte následující výraz M pro vzorec vlastního sloupce:
pokud [totalAmount] > 0 pak [totalAmount] * ( 1 -[Discount] ) jinak [totalAmount]
Pak vyberte OK.
Vyberte nově vytvořený sloupec TotalAfterDiscount a pak v horní části okna editoru vyberte kartu Transformace . Ve skupině Sloupec Číslo vyberte rozevírací seznam Zaokrouhlování a pak zvolte Zaokrouhlovat....
V dialogovém okně Zaokrouhlování zadejte 2 pro počet desetinných míst a pak vyberte OK.
Změňte datový typ IpepPickupDatetime z data na datum a čas.
Nakonec rozbalte podokno Nastavení dotazu z pravé strany editoru, pokud ještě není rozbalené, a přejmenujte dotaz ze sloučení na výstup.
Načtení výstupního dotazu do tabulky v Lakehouse
Když máme nyní plně připravený výstupní dotaz a data, která jsou připravena k výstupu, můžeme definovat cíl výstupu pro tento dotaz.
Vyberte dříve vytvořený výstupní slučovací dotaz. Potom v editoru vyberte kartu Domů a přidejte cíl dat ze seskupování dotazů a vyberte cíl Lakehouse .
V dialogovém okně Připojit k cíli dat by mělo být již vybrané připojení. Pokračujte výběrem tlačítka Další.
V dialogovém okně Zvolit cílový cíl přejděte do Lakehouse, kam chcete načíst data, a pojmenujte novou tabulku nyc_taxi_with_discounts a pak znovu vyberte Další .
V dialogovém okně Zvolit nastavení cíle můžete použít automatické nastavení nebo zrušit výběr automatického nastavení a ponechat výchozí metodu nahradit aktualizaci, pečlivě zkontrolujte, jestli jsou sloupce namapované správně, a vyberte Uložit nastavení.
V okně hlavního editoru ověřte, že v podokně Nastavení dotazupro výstupní tabulku v cíli dat vidíte cíl výstupu a pak vyberte Uložit*.
Důležité
Když se v pracovním prostoru vytvoří první tok dat Gen2, zřídí se položky Lakehouse a Warehouse společně s souvisejícími koncovými body analýzy SQL a sémantickými modely. Tyto položky jsou sdíleny všemi toky dat v pracovním prostoru a jsou nutné, aby tok dat Gen2 fungoval, neměl by být odstraněn a nejsou určeny k přímému použití uživateli. Položky jsou podrobností implementace Dataflow Gen2. Položky nejsou v pracovním prostoru viditelné, ale můžou být přístupné v jiných prostředích, jako jsou poznámkové bloky, koncový bod SQL, Lakehouse a Warehouse. Položky můžete rozpoznat podle jejich předpony v názvu. Předpona položek je DataflowsStaging.
(Volitelné) Na stránce pracovního prostoru můžete tok dat přejmenovat tak, že vyberete tři tečky napravo od názvu toku dat, který se zobrazí po výběru řádku, a výběrem možnosti Nastavení. V tomto příkladu ji přejmenujeme na nyc_taxi_with_discounts.
V části Další možnosti vyberte ikonu aktualizace toku dat a po dokončení byste měli vidět novou tabulku Lakehouse vytvořenou tak, jak je nakonfigurovaná v nastavení cíle dat .
Zkontrolujte svůj Lakehouse a podívejte se na novou tabulku, která se tam načetla.
Další krok
Pokračujte k další části a integrujte svůj pipeline.