Modul 2: Transformace dat pomocí toku dat ve službě Data Factory

Tento modul trvá přibližně 25 minut, než vytvoříte tok dat, použijete transformace a přesunete nezpracovaná data z bronzové tabulky do tabulky Gold Lakehouse.

S nezpracovanými daty načtenými do tabulky Bronze Lakehouse z posledního modulu teď můžete tato data připravit a rozšířit jejich kombinací s jinou tabulkou, která obsahuje slevy pro každého dodavatele a jejich cesty během určitého dne. Tato konečná tabulka Gold Lakehouse se načte a je připravená na spotřebu.

Základní kroky v toku dat jsou následující:

  • Získání nezpracovaných dat z tabulky Lakehouse vytvořené aktivita Copy v modulu 1: Vytvoření kanálu se službou Data Factory
  • Transformujte data importovaná z tabulky Lakehouse.
  • Připojení do souboru CSV obsahujícího data slev.
  • Transformujte data slev.
  • Zkombinujte údaje o jízdách a slevách.
  • Načtěte výstupní dotaz do tabulky Gold Lakehouse.

Získání dat z tabulky Lakehouse

  1. Na bočním panelu vyberte Vytvořit a potom Dataflow Gen2 a vytvořte nový tok dat Gen2. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. V nabídce nového toku dat vyberte Načíst data a pak Další....

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Vyhledejte a vyberte konektor Lakehouse .

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Zobrazí se dialogové okno Připojení ke zdroji dat a automaticky se pro vás vytvoří nové připojení na základě aktuálně přihlášeného uživatele. Vyberte Další.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Zobrazí se dialogové okno Zvolit data . Pomocí navigačního podokna vyhledejte lakehouse, který jste vytvořili pro cíl v předchozím modulu, a vyberte tabulku dat Tutorial_Lakehouse .

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (Volitelné) Jakmile se plátno naplní daty, můžete nastavit informace o profilu sloupce, protože to je užitečné pro profilaci dat. Můžete použít správnou transformaci a na základě ní cílit na správné hodnoty dat.

    Uděláte to tak, že v podokně pásu karet vyberete možnosti, pak v části Profil sloupce vyberete první tři možnosti a pak vyberete OK.

    Screenshot showing the column options selection for your data.

Transformace dat importovaných z Lakehouse

  1. Výběrem ikony datového typu v záhlaví sloupce druhého sloupce IpepPickupDatetime zobrazte rozevírací nabídku a výběrem datového typu z nabídky převeďte sloupec z data a času na typ Datum . Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (Volitelné)Na kartě Domů na pásu karet vyberte možnost Zvolit sloupce ze skupiny Spravovat sloupce .

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (Volitelné) V dialogovém okně Zvolit sloupce zrušte výběr některých sloupců uvedených tady a pak vyberte OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. Vyberte filtr sloupce StoreAndFwdFlag a rozevírací nabídku řazení. (Pokud se zobrazí upozornění Seznam může být neúplný, pokud chcete zobrazit všechna data, vyberte Načíst další .)

    Screenshot showing the filter and sort dialog for the column.

  5. Výběrem Y zobrazíte pouze řádky, ve kterých byla uplatněna sleva, a pak vyberte OK.

    Screenshot showing the values filter with only 'Y' selected.

  6. Vyberte řazení sloupců IpepPickupDatetime a rozevírací nabídku filtru, pak vyberte Filtry kalendářních dat a zvolte filtr Mezi... zadaný pro typy Datum a Datum a čas.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. V dialogovém okně Filtrovat řádky vyberte data od 1. ledna 2015 do 31. ledna 2015 a pak vyberte OK.

    Screenshot showing the selection of the dates in January 2015.

Připojení do souboru CSV obsahujícího data slev

Teď s daty z cest na místě chceme načíst data, která obsahují příslušné slevy pro každý den a ID dodavatele, a připravit data před jejich kombinováním s daty o cestách.

  1. Na kartě Domů v nabídce editoru toku dat vyberte možnost Získat data a pak zvolte Text/CSV.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. V dialogovém okně Připojení ke zdroji dat zadejte následující podrobnosti:

    • Cesta k souboru nebo adresa URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Druh ověřování – Anonymní

    Pak vyberte Další.

    Screenshot showing the Text/CSV settings for the connection.

  3. V dialogovém okně Náhled dat souboru vyberte Vytvořit.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

Transformace dat slevy

  1. Při kontrole dat vidíme, že záhlaví jsou na prvním řádku. Zvýšení úrovně na záhlaví výběrem místní nabídky tabulky v levé horní části oblasti mřížky náhledu a výběrem prvního řádku jako záhlaví.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Poznámka:

    Po povýšení záhlaví uvidíte nový krok přidaný do podokna Použitý postup v horní části editoru toku dat do datových typů sloupců.

  2. Klikněte pravým tlačítkem myši na sloupec VendorID a v místní nabídce zobrazené vyberte možnost Převést další sloupce na řádky. To vám umožní transformovat sloupce na páry atribut-hodnota, kde se sloupce stanou řádky.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Pokud je tabulka nepřekontovaná, přejmenujte sloupce Atribut a Hodnota tak, že na ně poklikáním a změnou atributu na datum a hodnotu na slevu.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. Datový typ sloupce Datum můžete změnit tak, že vyberete nabídku datového typu vlevo od názvu sloupce a zvolíte Datum.

    Screenshot showing the selection of the Date data type for the Date column.

  5. Vyberte sloupec Sleva a pak v nabídce vyberte kartu Transformace. Vyberte sloupec Číslo a pak v podnabídce vyberte Standardní číselné transformace a zvolte Dělit.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. V dialogovém okně Dělit zadejte hodnotu 100.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Kombinování dat o výletech a slevách

Dalším krokem je zkombinování obou tabulek do jedné tabulky, která má slevu, kterou by se měla uplatnit na cestu, a upravený součet.

  1. Nejprve přepněte tlačítko zobrazení diagramu, abyste viděli oba dotazy.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. Vyberte nyc_taxi dotaz a na kartě Domů vyberte nabídku Kombinovat a zvolte Sloučit dotazy a potom sloučit dotazy jako nové.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. V dialogovém okně Sloučit vyberte Generated-NYC-Taxi-Green-Discounts from the Right table for merge drop down, and then select the "light bulb" icon on the top right of the dialog to see the suggested mapping of columns between the two tables.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Vyberte každé ze dvou navrhovaných mapování sloupců, jedno po druhém, mapování sloupce VendorID a date z obou tabulek. Po přidání obou mapování se v každé tabulce zvýrazní odpovídající záhlaví sloupců.

  4. Zobrazí se zpráva s výzvou, abyste povolili kombinování dat z více zdrojů dat k zobrazení výsledků. V dialogovém okně Sloučit vyberte OK.

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. V oblasti tabulky se zpočátku zobrazí upozornění, že vyhodnocení bylo zrušeno, protože kombinace dat z více zdrojů může odhalit data z jednoho zdroje do jiného. Vyberte pokračovat, pokud je možnost odhalit data v pořádku." Chcete-li zobrazit sloučená data, vyberte Pokračovat .

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. Všimněte si, jak se v zobrazení diagramu vytvořil nový dotaz zobrazující vztah nového dotazu sloučení se dvěma dříve vytvořenými dotazy. Když se podíváte do podokna tabulky v editoru, posuňte se vpravo od seznamu sloupců dotazu Sloučení, abyste viděli, že je k dispozici nový sloupec s hodnotami tabulky. Toto je sloupec Generated NYC Taxi-Green-Discounts a jeho typ je [Table]. V záhlaví sloupce je ikona se dvěma šipkami, které procházejí opačnými směry a umožňují vybrat sloupce z tabulky. Zrušte výběr všech sloupců kromě slevy a pak vyberte OK.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. S hodnotou slevy teď na úrovni řádku můžeme vytvořit nový sloupec, který vypočítá celkovou částku po slevě. Uděláte to tak, že v horní části editoru vyberete kartu Přidat sloupec a ve skupině Obecné zvolíte Vlastní sloupec.

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. V dialogovém okně Vlastní sloupec můžete pomocí jazyka vzorců Power Query (označovaného také jako M) definovat, jak se má nový sloupec vypočítat. Zadejte TotalAfterDiscount pro název nového sloupce, vyberte Currency pro datový typ a zadejte následující výraz M pro vzorec Vlastní sloupec:

    if [totalAmount] > 0 pak [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Pak vyberte OK.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Vyberte nově vytvořený sloupec TotalAfterDiscount a pak v horní části okna editoru vyberte kartu Transformace . Ve skupině Sloupec Číslo vyberte rozevírací seznam Zaokrouhlování a pak zvolte Zaokrouhlovat....

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. V dialogovém okně Zaokrouhlování zadejte 2 pro počet desetinných míst a pak vyberte OK.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. Změňte datový typ IpepPickupDatetime z data na datum a čas.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Nakonec rozbalte podokno Nastavení dotazu z pravé strany editoru, pokud ještě není rozbalené, a přejmenujte dotaz ze sloučení na výstup.

    Screenshot showing the renaming of the query from Merge to Output.

Načtení výstupního dotazu do tabulky v Lakehouse

S výstupním dotazem je teď plně připravený a s daty připravenými k výstupu můžeme definovat výstupní cíl dotazu.

  1. Vyberte dříve vytvořený dotaz hromadné korespondence výstupu. Potom v editoru vyberte kartu Domů a přidejte cíl dat ze seskupování dotazů a vyberte cíl Lakehouse .

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. V dialogovém okně Připojení k cíli dat by už mělo být vybrané připojení. Pokračujte výběrem tlačítka Další.

  3. V dialogovém okně Zvolit cílový cíl přejděte do Lakehouse, kam chcete načíst data, a pojmenujte novou tabulku nyc_taxi_with_discounts a pak znovu vyberte Další.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. V dialogovém okně Zvolit nastavení cíle ponechte výchozí metodu nahradit aktualizaci, pečlivě zkontrolujte, zda jsou sloupce namapovány správně, a vyberte Uložit nastavení.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. Zpátky v hlavním okně editoru ověřte, že se v podokně Nastavení dotazu pro výstupní tabulku zobrazí cíl výstupu a pak vyberte Publikovat.

    Důležité

    Když se v pracovním prostoru vytvoří první tok dat Gen2, zřídí se položky Lakehouse a Warehouse společně s souvisejícími koncovými body analýzy SQL a sémantickými modely. Tyto položky jsou sdíleny všemi toky dat v pracovním prostoru a jsou nutné, aby tok dat Gen2 fungoval, neměl by být odstraněn a nejsou určeny k přímému použití uživateli. Položky jsou podrobností implementace toku dat Gen2. Položky nejsou v pracovním prostoru viditelné, ale můžou být přístupné v jiných prostředích, jako jsou poznámkové bloky, koncový bod SQL, Lakehouse a Warehouse. Položky můžete rozpoznat podle jejich předpony v názvu. Předpona položek je DataflowsStaging.

  6. (Volitelné) Na stránce pracovního prostoru můžete tok dat přejmenovat tak, že vyberete tři tečky napravo od názvu toku dat, který se zobrazí po výběru řádku, a výběrem možnosti Vlastnosti.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. Po výběru řádku vyberte ikonu aktualizace toku dat a po dokončení by se měla zobrazit nová tabulka Lakehouse vytvořená podle konfigurace v nastavení cíle dat.

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Zkontrolujte lakehouse a podívejte se, jestli se tam načetla nová tabulka.

V tomto druhém modulu kompletního kurzu pro první integraci dat pomocí služby Data Factory v Microsoft Fabric jste se naučili:

  • Vytvořte nový tok dat Gen2.
  • Import a transformace ukázkových dat
  • Umožňuje importovat a transformovat textová data nebo data CSV.
  • Sloučí data z obou zdrojů dat do nového dotazu.
  • Transformujte data a vygenerujte nové sloupce v dotazu.
  • Nakonfigurujte výstupní cílový zdroj dotazu.
  • Přejmenujte a aktualizujte nový tok dat.

Pokračujte k další části a integrujte svůj datový kanál.