Oktatóanyag: Adatok átalakítása leképezési adatfolyamokkal

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ebben az oktatóanyagban a Azure Data Factory felhasználói felület (UX) használatával hoz létre egy folyamatot, amely egy Azure Data Lake Storage (ADLS) Gen2-forrásból származó adatokat másol és alakít át egy ADLS Gen2-fogadóvá leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor

Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok elérhetők mind az Azure Data Factory, mind a Synapse Pipelines szolgáltatásban. Ha új az adatfolyamok használatában az Azure Synapse Pipeline-ekben, kövesse az Azure Synapse Pipelines adatfolyamainak használatát.

Az oktatóanyag során a következő lépéseket hajtja végre:

  • Adat-előállító létrehozása
  • Hozzon létre egy csővezetéket egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

Előfeltételek

  • Azure előfizetés. Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free Azure fiókot.
  • Azure Data Lake Storage Gen2 fiók. Az ADLS-tárolót forrás és fogadó adattárként használja. Ha nincs tárfiókja, a A Azure tárfiók létrehozása a létrehozás lépéseit ismerteti.
  • Töltse le MoviesDB.csv itt. A fájl GitHub való lekéréséhez másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentse. Töltse fel a fájlt a tárfiókba egy "sample-data" nevű tárolóban.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adatgyárat, és megnyitja az adatgyár felhasználói felületét folyamat létrehozásához az adatgyárban.

  1. Nyissa meg Microsoft Edge vagy Google Chrome. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A felső menüben válassza a Resource>Analytics>Data Factory létrehozása lehetőséget:

    A Data Factory kiválasztása az

  3. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    A Azure data factory nevének globally egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Új Data Factory-hibaüzenet ismétlődő név esetén.

  4. Válassza ki azt a Azure subscription, amelyben létre szeretné hozni az adat-előállítót.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    1. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    2. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például Azure Storage és SQL Database) és számítások (például Azure HDInsight) más régiókban is lehetnek.

  8. Válassza a Véleményezés + Létrehozás lehetőséget, majd a Létrehozás lehetőséget.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. Válassza a Studio indítása lehetőséget a Data Factory Studio külön lapon való elindításához.

Folyamat létrehozása Adatfolyam tevékenységgel

Ebben a lépésben létrehoz egy csővezetéket, amely egy adatfolyam tevékenységet tartalmaz.

  1. A Azure Data Factory kezdőlapján válassza a Orchestrate lehetőséget.

    Az Azure Data Factory kezdőlapja.

  2. Most nyitva van egy ablak egy új csővezetékhez. A folyamat tulajdonságainak Általános lapján adja meg a TransformMovies nevet a folyamat neve mezőben.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika menüt. Húzza a Adatfolyam aktivitást a panelről a pipeline vászonra.

    Képernyőkép, amely azt a csővezeték vászont mutatja, ahová a Adatfolyam tevékenységet lehet elhelyezni.

  4. Nevezze el az adatfolyam-tevékenységet DataFlow1 néven.

  5. A folyamatvászon felső sávján kapcsolja be a Adatfolyam hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Képernyőkép, amely az adatfolyam-hibakeresés bekapcsolásához szükséges kapcsolót mutatja.

Átalakítási logika létrehozása az adatfolyam-vásznon

Ebben a lépésben olyan adatfolyamot hoz létre, amely az ADLS-tárolóban lévő moviesDB.csv összegyűjti, és összesíti a vígjátékok átlagos értékelését 1910 és 2000 között. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.

  1. A vászon alatti panelen válassza az adatfolyam-tevékenység beállításait , és válassza az Új lehetőséget az adatfolyam-mező mellett. Ekkor megnyílik az adatfolyam-vászon.

    Képernyőkép az adatfolyam-szerkesztő folyamatszerkesztőből való megnyitásáról.

  2. Az ÁltalánosTulajdonságok panelen nevezze el az adatfolyamot: TransformMovies.

  3. Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.

    Képernyőkép a Forrás hozzáadása mezőről.

  4. Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.

    Képernyőkép arról, hogy hol válassza az Új lehetőséget a forrás elnevezése után.

  5. Válassza a Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép, amely megmutatja az Azure Data Lake Storage Gen2 csempe helyét.

  6. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép a DelimitedText csempéről.

  7. Nevezze meg az adathalmazt MoviesDB. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.

    Képernyőkép a Csatolt szolgáltatás legördülő listáról.

  8. A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése lehetőséget választva ellenőrizheti, hogy a hitelesítő adatok helyesen lettek-e beállítva. Válassza a Létrehozás lehetőséget, ha befejezte.

    Az ablak képernyőképe új társított szolgáltatás létrehozásához az Azure Data Lake Storage-hez.

  9. Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha végzett, válassza az OK lehetőséget.

    Képernyőkép az adatkészlet létrehozásához szükséges panelről.

  10. Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Képernyőkép arról, hogy hol tekintheti meg az adatokat annak ellenőrzéséhez, hogy az átalakítás megfelelően van-e konfigurálva.

  11. Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.

    Képernyőkép az adatfolyam-vászonról.

  12. Nevezze el a szűrőátalakítást Szűrőévek. Válassza ki a Szűrés melletti kifejezésmezőt, majd nyissa meg a Kifejezésszerkesztőt. Itt adhatja meg a szűrési feltételt.

    Képernyőkép a mező Kifejezés szűrése eleméről.

  13. Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. További információ a kifejezések készítéséről: Adatfolyam kifejezésszerkesztő.

    Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, az toInteger() függvény használatával egész számmá kell alakítania. Az nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorokat használva hasonlítsa össze az évértékeket, nevezetesen 1910 és 2000 literális évértékekkel. Egyesítse ezeket a kifejezéseket az és (&&) operátorral. A kifejezés a következőképpen jelenik meg:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a rlike() "Comedy" mintát az oszlop műfajaiban. A rlike kifejezést egyesítse az év összehasonlításával, hogy megkapjuk:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Amennyiben rendelkezik aktív hibakeresési fürttel, a Frissítés opció kiválasztásával ellenőrizheti logikáját, hogy megnézhesse a kifejezés kimenetét a használt bemenetekhez képest. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.

    Képernyőkép a szűrőkifejezés-szerkesztőről.

    Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.

  14. Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.

    Képernyőkép a beolvasott adatelőnézetről.

  15. A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.

    Képernyőkép az Összesítés sémamódosítóról.

  16. Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.

    Képernyőkép, amely az Év opciót mutatja az Összesítési beállítások alatt található Csoportosítás fülön.

  17. Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.

    Képernyőkép, amely az Év opciót mutatja az Összesítések fülön, az Összesítési beállítások alatt.

  18. Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvénytavg(). Mivel a Rating egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

    avg(toInteger(Rating))

    Ha elkészült, válassza a Mentés és befejezés lehetőséget.

    Képernyőkép a mentett kifejezésről.

  19. Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.

    Képernyőkép, amely az összesített előnézetet mutatja.

  20. A következő lépésként szeretne hozzáadni egy Sink átalakítást a Destination alatt.

    Képernyőkép arról, hogy hol adhat hozzá befogadó átalakítást a Cél alatt.

  21. Nevezze el a mosogatót Sink-nek. Válassza az Új lehetőséget a céladatkészlet létrehozásához.

    Képernyőkép arról, hogy hol nevezheti el a fogadót, és hogyan hozhat létre új fogadóadatkészletet.

  22. Válassza a Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.

    Screenshot, amely a választható Azure Data Lake Storage Gen2 csempét jeleníti meg.

  23. Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.

    Képernyőkép a panelről az adathalmaz típusának kiválasztásához.

  24. Nevezze el a sink adatkészletet MoviesSink-nek. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazra, és válassza a Nincs lehetőséget az importálási sémához. Válassza a Befejezés lehetőséget.

    Képernyőkép az adatcél létrehozási oldaláról, ahol az első sor fejlécként van kijelölve.

Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.

A Adatfolyam futtatása és monitorozása

A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

  1. Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.

    Képernyőkép a folyamatvászonról, amelyen a Hibakeresés ki van emelve.

  2. A Adatfolyam tevékenységek hibakeresése az aktív hibakeresési klasztert használja, de az előkészítés legalább egy percet vesz igénybe. Az előrehaladást a kimenet lapon keresztül követheti nyomon. Ha a futtatás sikeres, vigye az egérmutatót a futtatás fölé, és válassza ki a szemüveg ikont a figyelő panel megnyitásához.

    Képernyőkép a befejezett folyamat állapotáról, a kimeneti műveletek kiemelve.

  3. A figyelési panelen válassza a Szakaszok gombot az egyes átalakítási lépésekben eltöltött sorok számának és idejének megtekintéséhez.

    Képernyőkép, amely a figyelési panelt mutatja a Szakaszok gomb kiemelésével.

    Képernyőkép a figyelési panelről, ahol láthatja az egyes átalakítási lépésekben eltöltött sorok számát és idejét.

  4. Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

    Képernyőkép a figyelési átalakítási panelről.

Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a célmappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.

Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti vígjátékok átlagos értékelését, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása
  • Hozzon létre egy csővezetéket egy Adatfolyam tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam tevékenység figyelése

További információ az adatfolyam-kifejezés nyelvéről.