Megosztás a következőn keresztül:


Oktatóanyag: Adatok átalakítása leképezési adatfolyamokkal

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ebben az oktatóanyagban a Azure Data Factory felhasználói felület (UX) használatával hoz létre egy folyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage (ADLS) Gen2-forrásból egy ADLS Gen2-fogadóba a leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor

Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok az Azure Data Factoryben és a Synapse Pipelinesban is elérhetők. Ha még nem ismeri az adatfolyamokat a Azure Synapse Pipelines, kövesse az adatfolyamot a Azure Synapse Pipelines használatával.

Az oktatóanyag során a következő lépéseket hajtja végre:

  • Adat-előállító létrehozása
  • Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, hozzon létre egy ingyenes Azure-fiókot mielőtt elkezdené.
  • Azure Data Lake Storage Gen2-fiók. Az ADLS-tárolót forrás és fogadó adattárként használja. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.
  • Töltse le MoviesDB.csv itt. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, és mentse helyileg .csv fájlként. Töltse fel a fájlt a tárfiókba egy "sample-data" nevű tárolóban.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adatgyárat, és megnyitja az adatgyár felhasználói felületét folyamat létrehozásához az adatgyárban.

  1. Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A felső menüben válassza a Resource>Analytics>Data Factory létrehozása lehetőséget:

    A Data Factory kiválasztása az

  3. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Új Data Factory-hibaüzenet ismétlődő név esetén.

  4. Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    1. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    2. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például az Azure Storage és az SQL Database) és a számítások (például az Azure HDInsight) más régiókban is lehetnek.

  8. Válassza a Véleményezés + Létrehozás lehetőséget, majd a Létrehozás lehetőséget.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. Válassza a Studio indítása lehetőséget a Data Factory Studio külön lapon való elindításához.

Folyamat létrehozása Adatfolyam tevékenységgel

Ebben a lépésben létrehoz egy folyamatot, amely egy adatfolyam-tevékenységet tartalmaz.

  1. Az Azure Data Factory kezdőlapján válassza az Orchestrate lehetőséget.

    Képernyőkép az Azure Data Factory kezdőlapjáról.

  2. Most nyitva van egy ablak egy új csővezetékhez. A folyamat tulajdonságainak Általános lapján adja meg a TransformMovies nevet a folyamat neve mezőben.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika menüt. Húzza a Adatfolyam tevékenységet a panelről a folyamatvászonra.

    Képernyőkép a folyamatvászonról, ahová a Adatfolyam tevékenységet elvetheti.

  4. Nevezze el az adatfolyam-tevékenységet DataFlow1 néven.

  5. A folyamatvászon felső sávján húzza a Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Az adatfolyam kötegek előkészítése 5-7 percet vesz igénybe, és javasolt, hogy a felhasználók először kapcsolják be a debug módot, ha adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Képernyőkép, amely az adatfolyam-hibakeresés bekapcsolásához szükséges kapcsolót mutatja.

Átalakítási logika létrehozása az adatfolyam-vásznon

Ebben a lépésben olyan adatfolyamot hoz létre, amely az ADLS-tárolóban lévő moviesDB.csv összegyűjti, és összesíti a vígjátékok átlagos értékelését 1910 és 2000 között. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.

  1. A vászon alatti panelen válassza az adatfolyam-tevékenység beállításait , és válassza az Új lehetőséget az adatfolyam-mező mellett. Ekkor megnyílik az adatfolyam-vászon.

    Képernyőkép az adatfolyam-szerkesztő folyamatszerkesztőből való megnyitásáról.

  2. Az ÁltalánosTulajdonságok panelen nevezze el az adatfolyamot: TransformMovies.

  3. Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.

    Képernyőkép a Forrás hozzáadása mezőről.

  4. Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.

    Képernyőkép arról, hogy hol válassza az Új lehetőséget a forrás elnevezése után.

  5. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép az Azure Data Lake Storage Gen2 csempéről.

  6. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép a DelimitedText csempéről.

  7. Nevezze meg az adathalmazt MoviesDB. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.

    Képernyőkép a Csatolt szolgáltatás legördülő listáról.

  8. A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése lehetőséget választva ellenőrizheti, hogy a hitelesítő adatok helyesen lettek-e beállítva. Válassza a Létrehozás lehetőséget, ha végzett.

    Képernyőkép a panelről egy új társított szolgáltatás létrehozásához az Azure Data Lake Storage-hoz.

  9. Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha végzett, válassza az OK lehetőséget.

    Képernyőkép az adatkészlet létrehozásához szükséges panelről.

  10. Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Képernyőkép arról, hogy hol tekintheti meg az adatokat annak ellenőrzéséhez, hogy az átalakítás megfelelően van-e konfigurálva.

  11. Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.

    Képernyőkép az adatfolyam-vászonról.

  12. Nevezze el a szűrőátalakítást Szűrőévek. Jelölje be a Szűrés melletti kifejezésmezőt, majd a Kifejezésszerkesztő megnyitása lehetőséget. Itt adhatja meg a szűrési feltételt.

    Képernyőkép a mező Kifejezés szűrése eleméről.

  13. Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt Adatfolyam kifejezésszerkesztőben talál.

    Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, az toInteger() függvény használatával egész számmá kell alakítania. Az nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorokat használva hasonlítsa össze az évértékeket, nevezetesen 1910 és 2000 literális évértékekkel. Egyesítse ezeket a kifejezéseket az és (&&) operátorral. A kifejezés a következőképpen jelenik meg:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a rlike() "Comedy" mintát az oszlop műfajaiban. A rlike kifejezést egyesítse az év összehasonlításával, hogy megkapjuk:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Ha aktív hibakeresési fürttel rendelkezik, a Frissítés gombra kattintva ellenőrizheti a logikát, hogy a kifejezés kimenetét a használt bemenetekhez képest tekintse meg. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.

    Képernyőkép a szűrőkifejezés-szerkesztőről.

    Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.

  14. Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.

    Képernyőkép a beolvasott adatelőnézetről.

  15. A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.

    Képernyőkép az Összesítés sémamódosítóról.

  16. Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.

    Képernyőkép, amely az Év opciót mutatja az Összesítési beállítások alatt található Csoportosítás fülön.

  17. Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.

    Képernyőkép, amely az Év opciót mutatja az Összesítések fülön, az Összesítési beállítások alatt.

  18. Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvénytavg(). Mivel a Rating egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

    avg(toInteger(Rating))

    Ha elkészült, válassza a Mentés és befejezés lehetőséget.

    Képernyőkép a mentett kifejezésről.

  19. Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.

    Képernyőkép, amely az összesített előnézetet mutatja.

  20. A következő lépésként szeretne hozzáadni egy Sink átalakítást a Destination alatt.

    Képernyőkép arról, hogy hol adhat hozzá befogadó átalakítást a Cél alatt.

  21. Nevezze el a mosogatót Sink-nek. Válassza az Új lehetőséget a fogadóadatkészlet létrehozásához.

    Képernyőkép arról, hogy hol nevezheti el a fogadót, és hogyan hozhat létre új fogadóadatkészletet.

  22. Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép a választható Azure Data Lake Storage Gen2 csempéről.

  23. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép a panelről az adathalmaz típusának kiválasztásához.

  24. Nevezze el a sink adatkészletet MoviesSink-nek. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazra, és válassza a Nincs lehetőséget az importálási sémához. Válassza a Befejezés lehetőséget.

    Képernyőkép a fogadó létrehozási oldaláról, ahol az első sor fejlécként van kiválasztva.

Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.

A Adatfolyam futtatása és figyelése

A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

  1. Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.

    Képernyőkép a folyamatvászonról, amelyen a Hibakeresés ki van emelve.

  2. A Adatfolyam tevékenységek folyamatbeli hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a kimenet lapon keresztül követheti nyomon. Ha a futtatás sikeres, vigye az egérmutatót a futtatás fölé, és válassza ki a szemüveg ikont a figyelő panel megnyitásához.

    Képernyőkép a befejezett folyamat állapotáról, a kimeneti műveletek kiemelve.

  3. A figyelési panelen válassza a Szakaszok gombot az egyes átalakítási lépésekben eltöltött sorok számának és idejének megtekintéséhez.

    Képernyőkép, amely a figyelési panelt mutatja a Szakaszok gomb kiemelésével.

    Képernyőkép a figyelési panelről, ahol láthatja az egyes átalakítási lépésekben eltöltött sorok számát és idejét.

  4. Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

    Képernyőkép a figyelési átalakítási panelről.

Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a célmappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.

Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti vígjátékok átlagos értékelését, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása
  • Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

További információ az adatfolyam-kifejezés nyelvéről.