2. modul: Adatok átalakítása adatfolyammal a Data Factoryben

Ez a modul körülbelül 25 percet vesz igénybe egy adatfolyam létrehozásához, az átalakítások alkalmazásához és a nyers adatok a Bronz táblából egy Gold Lakehouse-táblába való áthelyezéséhez.

Az utolsó modulból a Bronz Lakehouse-táblába betöltött nyers adatokkal most már előkészítheti és bővítheti azokat egy másik táblával, amely kedvezményeket tartalmaz az egyes szállítók és utazásaik számára egy adott napon. Ez az utolsó Gold Lakehouse-tábla be van töltve, és használatra kész.

Az adatfolyam magas szintű lépései a következők:

  • Nyers adatok lekérése a Copy tevékenység által létrehozott Lakehouse-táblából az 1. modulban: Folyamat létrehozása a Data Factoryvel.
  • Alakítsa át a Lakehouse-táblából importált adatokat.
  • Csatlakozás egy CSV-fájlba, amely kedvezmények adatait tartalmazza.
  • A kedvezmények adatainak átalakítása.
  • Utazások és kedvezmények adatainak kombinálása.
  • Töltse be a kimeneti lekérdezést a Gold Lakehouse táblába.

Adatok lekérése Lakehouse-táblából

  1. Az oldalsávon válassza a Létrehozás, majd az Adatfolyam Gen2 lehetőséget egy új adatfolyam gen2 létrehozásához. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. Az új adatfolyam menüben válassza az Adatok lekérése, majd az Egyebek... lehetőséget.

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Keresse meg és válassza ki a Lakehouse-összekötőt .

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Megjelenik az adatforráshoz való Csatlakozás párbeszédpanel, és a rendszer automatikusan létrehoz egy új kapcsolatot az aktuálisan bejelentkezett felhasználó alapján. Válassza a Tovább lehetőséget.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Megjelenik az Adatok kiválasztása párbeszédpanel. A navigációs panelen keresse meg az előző modulban a célhoz létrehozott Lakehouse-t, és válassza ki a Tutorial_Lakehouse adattáblát.

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (Nem kötelező) Miután a vászon fel van töltve az adatokkal, beállíthatja az oszlopprofil adatait, mivel ez hasznos az adatprofilkészítéshez. Alkalmazhatja a megfelelő átalakítást, és az alapján megcélzhatja a megfelelő adatértékeket.

    Ehhez válassza a Menüszalag panel Beállítások elemét, majd az Oszlopprofil területen az első három lehetőséget, majd kattintson az OK gombra.

    Screenshot showing the column options selection for your data.

A Lakehouse-ból importált adatok átalakítása

  1. Válassza ki az adattípus ikont a második oszlop, az IpepPickupDatetime oszlopfejlécében egy legördülő menü megjelenítéséhez, majd válassza ki a menü adattípusát az oszlop dátum/idő típusúvá alakításához. Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (Nem kötelező)A menüszalag Kezdőlap lapján válassza az Oszlopok kiválasztása lehetőséget az Oszlopok kezelése csoportban.

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (Nem kötelező) Az Oszlopok kiválasztása párbeszédpanelen törölje az itt felsorolt oszlopok kijelölését, majd kattintson az OK gombra.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. Válassza ki a StoreAndFwdFlag oszlop szűrő- és rendezési legördülő menüjét. (Ha figyelmeztetés jelenik megElőfordulhat, hogy a lista hiányos, az összes adat megtekintéséhez válassza a További betöltés lehetőséget.)

    Screenshot showing the filter and sort dialog for the column.

  5. Válassza az "Y" lehetőséget, ha csak azokat a sorokat szeretné megjeleníteni, ahol kedvezményt alkalmaztak, majd kattintson az OK gombra.

    Screenshot showing the values filter with only 'Y' selected.

  6. Válassza az IpepPickupDatetime oszlop rendezési és szűrési legördülő menüjét, majd a Dátumszűrőket, majd a Dátum és dátum/idő típushoz megadott Közt szűrőt .

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. A Sorok szűrése párbeszédpanelen válassza ki a 2015. január 1. és 2015. január 31. közötti dátumokat, majd kattintson az OK gombra.

    Screenshot showing the selection of the dates in January 2015.

Csatlakozás kedvezményadatokat tartalmazó CSV-fájlba

Most, hogy az utazások adatai érvényben van, be szeretnénk tölteni azokat az adatokat, amelyek tartalmazzák az egyes napokra vonatkozó kedvezményeket és a VendorID azonosítót, és előkészítjük az adatokat, mielőtt kombinálnánk azokat az utazások adataival.

  1. Az adatfolyam-szerkesztő menü Kezdőlap lapján válassza az Adatok lekérése lehetőséget, majd válassza a Szöveg/CSV lehetőséget.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. Az adatforráshoz Csatlakozás párbeszédpanelen adja meg a következő adatokat:

    • Fájl elérési útja vagy URL-címe - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Hitelesítési típus – Névtelen

    Ezután válassza a Tovább gombra.

    Screenshot showing the Text/CSV settings for the connection.

  3. A Fájladatok előnézete párbeszédpanelen válassza a Létrehozás lehetőséget.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

A kedvezményadatok átalakítása

  1. Az adatokat áttekintve látható, hogy a fejlécek az első sorban jelennek meg. Előléptetheti őket fejlécek közé az előnézeti rács terület bal felső részén található táblázat helyi menüjének kiválasztásával az Első sor használata fejlécként lehetőséget választva.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Feljegyzés

    A fejlécek előléptetése után egy új lépés jelenik meg az Adatfolyam-szerkesztő tetején az Alkalmazott lépések panelen az oszlopok adattípusaihoz.

  2. Kattintson a jobb gombbal a VendorID oszlopra, és a megjelenő helyi menüben válassza a Többi oszlop leválasztása lehetőséget. Ez lehetővé teszi, hogy az oszlopokat attribútum-érték párokká alakítsa, ahol az oszlopok sorokká válnak.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Ha a tábla nincs megadva, nevezze át az Attribútum és az Érték oszlopot úgy, hogy duplán kattint rájuk, és az attribútumot Dátum és Érték értékre módosítja kedvezményre.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. A Dátum oszlop adattípusának módosításához válassza az adattípus menüt az oszlopnév bal oldalán, és válassza a Dátum lehetőséget.

    Screenshot showing the selection of the Date data type for the Date column.

  5. Válassza a Kedvezmény oszlopot, majd válassza az Átalakítás lapot a menüben. Válassza a Szám oszlopot, majd válassza a Standard numerikus átalakítások lehetőséget az almenüben, és válassza a Felosztás lehetőséget.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. Az Osztás párbeszédpanelen adja meg a 100 értéket.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Utazások és kedvezmények adatainak egyesítése

A következő lépés a két tábla egyetlen táblába való összevonása, amely az utazásra alkalmazandó kedvezményt és a korrigált végösszeget tartalmazza.

  1. Először kapcsolja be a Diagram nézet gombot, hogy mindkét lekérdezés látható legyen.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. Válassza ki a nyc_taxi lekérdezést, majd a Kezdőlap lapon válassza a Kombinálás menüt, majd a Lekérdezések egyesítése, majd a Lekérdezések egyesítése újként lehetőséget.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. Az Egyesítés párbeszédpanelen válassza a Generated-NYC-Taxi-Green-Discounts lehetőséget a Jobb oldali táblázatból az egyesítés legördülő listából, majd a párbeszédpanel jobb felső sarkában található "villanykörte" ikonra kattintva megtekintheti a két tábla közötti oszlopok javasolt leképezését.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Válassza ki a két javasolt oszlopleképezést egyenként, és megfelelteti a VendorID és a date oszlopokat mindkét táblából. Ha mindkét megfeleltetést hozzáadja, a megfeleltetett oszlopfejlécek mindegyik táblában ki lesznek emelve.

  4. Megjelenik egy üzenet, amely arra kéri, hogy engedélyezze több adatforrásból származó adatok kombinálását az eredmények megtekintéséhez. Válassza az OK gombot az Egyesítés párbeszédpanelen.

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. A táblaterületen először egy figyelmeztetés jelenik meg, amely szerint "A kiértékelést megszakították, mert a több forrásból származó adatok egyesítése adatokat jeleníthet meg az egyik forrásból a másikba. Válassza a Folytatás lehetőséget, ha az adatok felfedésének lehetősége rendben van." A Folytatás gombra kattintva megjelenítheti az egyesített adatokat.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. Figyelje meg, hogyan lett létrehozva egy új lekérdezés Diagram nézetben, amely az új egyesítési lekérdezés és a korábban létrehozott két lekérdezés közötti kapcsolatot mutatja. A szerkesztő táblázatpaneljére tekintve görgessen a Lekérdezés egyesítése oszloplista jobb oldalán, hogy megjelenjen egy új oszlop, amelyen táblaértékek szerepelnek. Ez a "Generált NYC Taxi-Green-Discounts" oszlop, és a típusa [Táblázat]. Az oszlopfejlécben egy ikon látható, amelyben két nyíl ellentétes irányban halad, lehetővé téve, hogy oszlopokat jelöljön ki a táblázatból. Törölje az összes oszlop kijelölését a Kedvezmény kivételével, majd válassza az OK gombot.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. Ha a kedvezmény értéke most már a sor szintjén van, létrehozhatunk egy új oszlopot a kedvezmény utáni teljes összeg kiszámításához. Ehhez válassza a szerkesztő tetején az Oszlop hozzáadása lapot, majd az Általános csoport Egyéni oszlopát.

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. Az Egyéni oszlop párbeszédpanelen a Power Query képletnyelvével (más néven M) határozhatja meg az új oszlop kiszámításának módját. Adja meg az Új oszlop nevének TotalAfterDiscount értékét, válassza az Adattípus pénzneme lehetőséget, és adja meg a következő M kifejezést az Egyéni oszlop képletéhez:

    ha [totalAmount] > 0, akkor [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Ezután válassza az OK gombra.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Válassza ki az újonnan létrehozott TotalAfterDiscount oszlopot , majd válassza az Átalakítás lapot a szerkesztőablak tetején. A Szám oszlopcsoportban válassza a Kerekítés legördülő menüt, majd a Kerekítés...lehetőséget.

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. A Kerekítés párbeszédpanelen adja meg a 2 értéket a tizedesjegyek számához, majd kattintson az OK gombra.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. Módosítsa az IpepPickupDatetime adattípusát dátumról dátumra/időre.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Végül bontsa ki a Lekérdezés beállításai panelt a szerkesztő jobb oldaláról, ha még nincs kibontva, és nevezze át a lekérdezést az Egyesítésrőla Kimenetre.

    Screenshot showing the renaming of the query from Merge to Output.

A kimeneti lekérdezés betöltése egy táblába a Lakehouse-ban

A kimeneti lekérdezés most már teljesen előkészített, és a kimenetre kész adatokkal meg tudjuk határozni a lekérdezés kimeneti célját.

  1. Válassza ki a korábban létrehozott egyesítési lekérdezést . Ezután válassza ki a szerkesztő Kezdőlap lapját, és adja meg az adatcélt a lekérdezéscsoportból , és válasszon egy Lakehouse-célhelyet .

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. Az Csatlakozás adatcél párbeszédpanelen már ki kell jelölni a kapcsolatot. A folytatáshoz válassza a Tovább gombra.

  3. A Célhely kiválasztása párbeszédpanelen keresse meg azt a Lakehouse-t, ahol be szeretné tölteni az adatokat, és nevezze el az új táblát nyc_taxi_with_discounts, majd kattintson ismét a Tovább gombra.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. A Célbeállítások kiválasztása párbeszédpanelen hagyja meg az alapértelmezett Csere frissítési módszert, ellenőrizze, hogy megfelelően vannak-e megfeleltetve az oszlopok, és válassza a Mentési beállítások lehetőséget.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. A főszerkesztő ablakában ellenőrizze, hogy a kimeneti cél megjelenik-e a Kimeneti tábla Lekérdezés beállításai paneljén, majd válassza a Közzététel lehetőséget.

    Fontos

    Amikor az első Adatfolyam Gen2 létrejön egy munkaterületen, a Lakehouse és a Warehouse-elemek ki lesznek építve a kapcsolódó SQL Analytics-végponttal és szemantikai modellekkel együtt. Ezeket az elemeket a munkaterület összes adatfolyama megosztja, és a 2. generációs adatfolyam működéséhez szükséges, nem szabad törölni, és nem közvetlenül a felhasználók használják őket. Az elemek a Dataflow Gen2 implementációjának részletei. Az elemek nem láthatók a munkaterületen, de más szolgáltatásokban is elérhetők lehetnek, például a Jegyzetfüzet, az SQL-végpont, a Lakehouse és a Warehouse szolgáltatásban. A névben szereplő előtag alapján felismerheti az elemeket. Az elemek előtagja az "AdatfolyamokStaging".

  6. (Nem kötelező) A munkaterület lapján átnevezheti az adatfolyamot a sor kijelölése után megjelenő adatfolyamnév jobb oldalán található három pontra kattintva, majd a Tulajdonságok gombra kattintva.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. A sor kiválasztása után válassza ki az adatfolyam frissítés ikonját, és ha elkészült, az új Lakehouse-táblázatnak az Adatcél beállításaiban konfigurált módon kell megjelennie.

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Ellenőrizze a Lakehouse-t, hogy megtekintse az ott betöltött új táblát.

A Data Factory a Microsoft Fabricben való első adatintegrációjához kapcsolódó, a végpontok közötti oktatóanyag második moduljában elsajátította a következőket:

  • Hozzon létre egy új Adatfolyam Gen2-t.
  • Mintaadatok importálása és átalakítása.
  • Szöveg/CSV-adatok importálása és átalakítása.
  • Adatok egyesítése mindkét adatforrásból egy új lekérdezésbe.
  • Adatok átalakítása és új oszlopok létrehozása egy lekérdezésben.
  • Kimeneti célforrás konfigurálása lekérdezéshez.
  • Nevezze át és frissítse az új adatfolyamot.

Folytassa a következő szakaszt az adatfolyam integrálásához.