Adatok átalakítása adatfolyamok leképezésével

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ha még csak ismerkedik az Azure Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Ebben az oktatóanyagban az Azure Data Factory felhasználói felületének (UX) használatával fog létrehozni egy folyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage-forrásból (ADLS) Gen2-forrásból egy ADLS Gen2-fogadóvá leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor

Megjegyzés:

Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok az Azure Data Factoryben és a Synapse Pipelinesban is elérhetők. Ha még nem használta az Azure Synapse Pipelines adatfolyamait, kövesse Adatfolyam az Azure Synapse Pipelines használatával

Az oktatóanyag során a következő lépéseket hajtja végre:

  • Adat-előállító létrehozása
  • Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Egy Azure Storage-fiók. Az ADLS-tárolót forrás- és fogadóadattárként használja. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.

Az oktatóanyagban átalakítandó fájl a MoviesDB.csv, amely itt található. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentsen. Ha fel szeretné tölteni a fájlt a tárfiókba, olvassa el a Blobok feltöltése az Azure Portallal című témakört. A példák egy "sample-data" nevű tárolóra fognak hivatkozni.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és megnyitja a Data Factory UX-t egy folyamat létrehozásához az adat-előállítóban.

  1. Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A bal oldali menüben válassza az Erőforrás-integrációs>>adat-előállító létrehozása lehetőséget:

    Data Factory selection in the "New" pane

  3. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például a yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    New data factory error message for duplicate name.

  4. Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például az Azure Storage és az SQL Database) és a számítások (például az Azure HDInsight) más régiókban is lehetnek.

  8. Select Create.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.

Folyamat létrehozása Adatfolyam tevékenységgel

Ebben a lépésben létrehoz egy folyamatot, amely egy Adatfolyam tevékenységet tartalmaz.

  1. Az Azure Data Factory kezdőlapján válassza az Orchestrate lehetőséget.

    Screenshot that shows the ADF home page.

  2. A folyamat Általános lapján adja meg a Folyamat neve transformMoviesértéket.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika elemet. Húzza a Adatfolyam tevékenységet a panelről a folyamatvászonra.

    Screenshot that shows the pipeline canvas where you can drop the Data Flow activity.

  4. A Hozzáadás Adatfolyam előugró ablakban válassza az Új Adatfolyam létrehozása lehetőséget, majd adja meg az adatfolyam TransformMovies nevét. Kattintson a Befejezés gombra, ha elkészült.

    Screenshot that shows where you name your data flow when you create a new data flow.

  5. A folyamatvászon felső sávján húzza a Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Data Flow Activity

Átalakítási logika létrehozása az adatfolyam-vásznon

A Adatfolyam létrehozása után a rendszer automatikusan elküldi az adatfolyam-vászonra. Ha nem irányítja át az adatfolyam-vászonra, a vászon alatti panelen lépjen a Gépház, és válassza a Megnyitás lehetőséget, amely az adatfolyam-mező mellett található. Ekkor megnyílik az adatfolyam vászna.

Screenshot showing how to open the data flow editor from the pipeline editor.

Ebben a lépésben létrehoz egy adatfolyamot, amely a moviesDB.csv fájlt az ADLS-tárolóban tárolja, és összesíti a vígjátékok átlagos minősítését 1910 és 2000 között. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.

  1. Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mezőre kattintva.

    Screenshot that shows the Add Source box.

  2. Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához kattintson az Új gombra.

    Screenshot that shows where you select New after you name your source.

  3. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.

    Screenshot that shows where is the Azure Data Lake Storage Gen2 tile.

  4. Válassza a DelimitedText lehetőséget. Kattintson a Folytatás gombra.

    Screenshot that shows the DelimitedText tile.

  5. Nevezze el az adathalmazt a MoviesDB-nek. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.

    Screenshot that shows the Linked service dropdown list.

  6. A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy helyesen adta-e meg a hitelesítő adatait. Ha végzett, kattintson a Létrehozás gombra.

    Linked Service

  7. Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha elkészült, kattintson az OK gombra.

    Datasets

  8. Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és kattintson a Frissítés gombra az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Screenshot that shows where you can preview your data to verify your transformation is configured correctly.

  9. Az adatfolyam-vásznon a forráscsomópont mellett kattintson a plusz ikonra egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.

    Data Flow Canvas

  10. Nevezze el a szűrőátalakítás Szűrőévek nevet. A kifejezésszerkesztő megnyitásához kattintson a Szűrő bekapcsolva gomb melletti kifejezésmezőre. Itt adhatja meg a szűrési feltételt.

    Screenshot that shows the Filter on expression box.

  11. Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt Adatfolyam kifejezésszerkesztőben talál.

    Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, a függvény használatával egész számmá kell alakítania toInteger() . Az 1910-es és a 2000-es literális évértékek összehasonlításához használja a nagyobb vagy egyenlő (>=) és (<=) operátorokat. Egyesítve ezeket a kifejezéseket a (> és a(z) operátorral együtt. A kifejezés a következőképpen jelenik meg:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a rlike() "Comedy" mintát az oszlop műfajaiban. Egyesíteni kell a rlike kifejezést az év összehasonlításával a következőhöz:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Ha aktív hibakeresési fürtöt használ, a Frissítés gombra kattintva ellenőrizheti a logikát a használt bemenetekhez képest a kifejezéskimenet megtekintéséhez. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.

    Filter

    Ha végzett a kifejezéssel, kattintson a Mentés és befejezés gombra.

  12. Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.

    Screenshot that shows the Data Preview that you fetched.

  13. A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.

    Screenshot that shows the Aggregate schema modifier.

  14. Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.

    Screenshot that shows the year option in the Group by tab under Aggregate Settings.

  15. Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A jobb oldali kifejezésmezőre kattintva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.

    Screenshot that shows the year option in the Aggregates tab under Aggregate Settings.

  16. Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvénytavg(). Mivel a Rating egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

    avg(toInteger(Rating))

    Ha elkészült, kattintson a Mentés és befejezés gombra.

    Screenshot that shows the saved expression.

  17. Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.

    Aggregate

  18. A következő lépésben egy Fogadó átalakítást szeretne hozzáadni a Cél területen.

    Screenshot that shows where to add a sink transformation under Destination.

  19. Nevezze el a fogadó fogadóját. Kattintson az Új gombra a fogadóadatkészlet létrehozásához.

    Screenshot that shows where you can name your sink and create a new sink dataset.

  20. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.

    Screenshot that shows the Azure Data Lake Storage Gen2 tile you can choose.

  21. Válassza a DelimitedText lehetőséget. Kattintson a Folytatás gombra.

    Dataset

  22. Nevezze el a Fogadó adatkészletet a MoviesSink névvel. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazként, és válassza a Nincs az importálási sémához lehetőséget. Kattintson a Finish gombra.

    Sink

Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.

A Adatfolyam futtatása és figyelése

A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

  1. Lépjen a folyamatvászonra. A hibakeresési futtatás elindításához kattintson a Hibakeresés gombra.

    Screenshot that shows the pipeline canvas with Debug highlighted.

  2. A Adatfolyam tevékenységek folyamatbeli hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a Kimenet lapon követheti nyomon. Miután a futtatás sikeres volt, kattintson a szemüveg ikonra a monitorozási panel megnyitásához.

    Pipeline

  3. A monitorozási panelen láthatja az egyes átalakítási lépések során eltelt sorok és idő számát.

    Screenshot that shows the monitoring pane where you can see the number of rows and time spent in each transformation step.

  4. Az átalakításra kattintva részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

    Monitoring

Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a fogadó mappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.

Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti átlagos üstökös-minősítést, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása
  • Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

További információ az adatfolyam-kifejezés nyelvéről.