Adatok biztonságos átalakítása leképezési adatfolyam használatával

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ha még nem ismerkedik a Azure Data Factory, tekintse meg a Bevezetés a Azure Data Factory című témakört.

Ebben az útmutatóban a Data Factory felhasználói felületének (UI) segítségével hoz létre egy adatfolyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage Gen2 forrásból egy Data Lake Storage Gen2 fogadóba (mindkettő csak a kiválasztott hálózatokhoz való hozzáférést teszi lehetővé), a Data Factory által felügyelt Virtual Networkben történő adatfolyam leképezésével. Ebben az oktatóanyagban kibonthatja a konfigurációs mintát, amikor az adatokat leképezési adatfolyam használatával alakítja át.

Az oktatóanyag során a következő lépéseket hajtja végre:

  • Adat-előállító létrehozása
  • Folyamat létrehozása adatfolyam-tevékenységgel.
  • Leképezési adatfolyam létrehozása négy átalakítással.
  • A folyamat próbafuttatása
  • Adatfolyam-tevékenység figyelése.

Előfeltételek

  • Azure előfizetés. Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free Azure fiókot.
  • Azure tárolófiók. Ön a Data Lake Storage-t source és sink adattárként használja. Ha nincs tárfiókja, a A Azure tárfiók létrehozása a létrehozás lépéseit ismerteti. Győződjön meg arról, hogy a tárfiók csak a kiválasztott hálózatokról engedélyezi a hozzáférést.

Az oktatóanyagban átalakítandó fájl moviesDB.csv, amely ezen a GitHub tartalomwebhelyen található. A fájl GitHub való lekéréséhez másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentse. A fájl tárfiókba való feltöltéséhez lásd: Blobok feltöltése a Azure portállal. A példák egy mintaadatok nevű tárolóra fognak hivatkozni.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy Data Factory-t, és megnyitja a Data Factory felhasználói felületét, hogy folyamatot hozzon létre a Data Factory-ban.

  1. Nyissa meg a Microsoft Edge vagy a Google Chrome-ot. Jelenleg csak Microsoft Edge és Google Chrome böngészők támogatják a Data Factory felhasználói felületét.

  2. A bal oldali menüben válassza a Erőforrás létrehozása>Analitika>Adatgyár lehetőséget.

  3. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az adat-előállító nevének globálisan egyedinek kell lennie. Ha hibaüzenetet kap a névértékről, adjon meg egy másik nevet az adatgyárnak (például az Ön neve_ADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

  4. Válassza ki azt a Azure subscription, amelyben létre szeretné hozni az adat-előállítót.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    • Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.
    • Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. Csak a támogatott helyek jelennek meg a legördülő listában. Az adat-előállító által használt adattárak (például Azure Storage és Azure SQL Database) és számítások (például Azure HDInsight) más régiókban is lehetnek.

  8. Válassza a Létrehozás lehetőséget.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való ugráshoz.

  10. Válassza a Open Azure Data Factory Studio lehetőséget a Data Factory felhasználói felületének külön lapon való elindításához.

Azure integrációs futtatókörnyezet létrehozása a Data Factory felügyelte virtuális hálózatban

Ebben a lépésben létrehoz egy Azure IR-t, és engedélyezi a Data Factory Managed Virtual Network-öt.

  1. A Data Factory portálon lépjen a Manage lapra, és válassza a Új lehetőséget egy új Azure integrációs modul létrehozásához.

    Screenshot, amely egy új Azure IR létrehozását mutatja.

  2. Az Integrációs modul beállítási lapján válassza ki, hogy milyen integrációs modult szeretne létrehozni a szükséges képességek alapján. Ebben az oktatóanyagban válassza a Azure, saját üzemeltetésű lehetőséget, majd kattintson a Continue elemre.

  3. Válassza a Azure, majd a Continue elemre kattintva hozzon létre egy Azure integrációs modult.

    Olyan képernyőkép, amely egy új Azure IR-t mutat.

  4. A Virtuális hálózat konfigurációja (előzetes verzió) területen válassza az Engedélyezés lehetőséget.

    Képernyőkép, amely az új Azure IR engedélyezését mutatja.

  5. Válassza a Létrehozás lehetőséget.

Folyamat létrehozása adatfolyam-tevékenységgel

Ebben a lépésben egy adatfolyam-tevékenységet tartalmazó pipeline-t fog létrehozni.

  1. A Azure Data Factory kezdőlapján válassza a Orchestrate lehetőséget.

    Képernyőkép a Data Factory kezdőlapjáról, az Orchestrate gomb kiemelve.

  2. A folyamat tulajdonságok paneljén adja meg a Folyamat nevének TransformMovies elemét.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás elemet. Húzza a Adatfolyam tevékenységet a panelből a pipeline vásznára.

  4. A Adatfolyam hozzáadása előugró ablakban válassza az Új adatfolyam létrehozása, majd a Térképezés adatfolyam lehetőséget. Ha végzett, válassza az OK gombot.

    Képernyőkép, amely a Leképezési Adatfolyamot mutatja.

  5. Nevezze el az adatfolyamot a TransformMovies névvel a tulajdonságok panelen.

  6. A folyamatvászon felső sávján kapcsolja be a Adatfolyam hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Képernyőkép az adatfolyam hibakeresési csúszkájáról.

Átalakítási logika létrehozása az adatfolyam-vásznon

Az adatfolyam létrehozása után automatikusan átirányítjuk az adatfolyam-felületre. Ebben a lépésben létrehoz egy adatfolyamot, amely a Data Lake Storage moviesDB.csv fájlját veszi fel, és összesíti a vígjátékok átlagos értékelését 1910-től 2000-ig. A fájlt ezután visszaírja a Data Lake Storage-ba.

Forrásátalakítás hozzáadása

Ebben a lépésben Data Lake Storage Gen2 állít be forrásként.

  1. Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.

  2. Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.

  3. Válassza a Azure Data Lake Storage Gen2, majd a Continue lehetőséget.

  4. Válassza a DelimitedText, majd a Continue (Folytatás) lehetőséget.

  5. Nevezze el az adathalmazt MoviesDB-nek. A társított szolgáltatás legördülő menüjében válassza az Új lehetőséget.

  6. A társított szolgáltatás létrehozási képernyőjén nevezze el a Data Lake Storage Gen2 társított szolgáltatást ADLSGen2-nek, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz.

  7. Győződjön meg arról, hogy engedélyezi az interaktív szerkesztést. Az engedélyezés eltarthat egy percig.

    Az interaktív szerkesztést bemutató képernyőkép.

  8. Válassza a Kapcsolat tesztelése elemet. Sikertelennek kell lennie, mert a tárfiók nem engedélyezi a hozzáférést a privát végpont létrehozása és jóváhagyása nélkül. A hibaüzenetben egy olyan hivatkozást kell látnia, amely egy felügyelt privát végpont létrehozásához követhető privát végpontot hoz létre. Másik lehetőségként lépjen közvetlenül a Kezelés lapra, és kövesse az ebben a szakaszban található utasításokat egy felügyelt privát végpont létrehozásához.

  9. Tartsa nyitva a párbeszédpanelt, majd nyissa meg a tárfiókot.

  10. Kövesse az ebben a szakaszban található utasításokat a privát hivatkozás jóváhagyásához.

  11. Lépjen vissza a párbeszédpanelre. Válassza ismét a Kapcsolat tesztelése lehetőséget, és válassza a Létrehozás lehetőséget a társított szolgáltatás üzembe helyezéséhez.

  12. Az adathalmaz létrehozása képernyőn adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl a tároló mintaadataiban található. Mivel a fájl fejlécekkel rendelkezik, jelölje be az Első sort fejlécként jelölőnégyzetet. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha végzett, válassza az OK gombot.

    Képernyőkép a forrásútvonalról.

  13. Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás, Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.

    Képernyőkép az Adatok előnézete lapról.

Felügyelt privát végpont létrehozása

Ha az előző kapcsolat tesztelése során nem használta a hivatkozást, kövesse az elérési utat. Most létre kell hoznia egy felügyelt privát végpontot, amelyhez csatlakozni fog a létrehozott társított szolgáltatáshoz.

  1. Ugrás a Kezelés fülre.

    Feljegyzés

    Előfordulhat, hogy a Kezelés lap nem érhető el az összes Data Factory-példányhoz. Ha nem látja, a privát végpontok eléréséhez válassza a Szerző>Kapcsolatok>Privát Végpont.

  2. Lépjen a Felügyelt privát végpontok szakaszra .

  3. Válassza az + Új lehetőséget a felügyelt privát végpontok alatt.

    Képernyőkép a Felügyelt privát végpontok Új gombról.

  4. Jelölje ki a Azure Data Lake Storage Gen2 csempét a listából, és válassza a Continue lehetőséget.

  5. Adja meg a létrehozott tárfiók nevét.

  6. Válassza a Létrehozás lehetőséget.

  7. Néhány másodperc elteltével látnia kell, hogy a létrehozott privát hivatkozásnak jóváhagyásra van szüksége.

  8. Válassza ki a létrehozott privát végpontot. Megjelenik egy hivatkozás, amely arra készteti, hogy a tárfiók szintjén jóváhagyja a privát végpontot.

    Képernyőkép a Privát végpont kezelése panelről.

  1. A tárfiókban nyissa meg a Privát végpont kapcsolatait a Beállítások szakaszban.

  2. Jelölje be a létrehozott privát végpont melletti jelölőnégyzetet, és válassza a Jóváhagyás lehetőséget.

    Képernyőkép a privát végpont Jóváhagyás gombjáról.

  3. Adjon meg egy leírást, és válassza az igen lehetőséget.

  4. Térjen vissza a Data Factory Kezelés lapjának Felügyelt privát végpontok szakaszához.

  5. Körülbelül egy perc múlva látnia kell, hogy a jóváhagyás megjelenik a privát végponthoz.

A szűrőtranszformáció hozzáadása

  1. Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadni kívánt átalakítás egy szűrő.

    Képernyőkép a szűrő hozzáadásáról.

  2. Nevezze el a szűrőátalakítást Szűrőévek. A kifejezésszerkesztő megnyitásához válassza a Szűrő bekapcsolva gomb melletti kifejezésmezőt. Itt adhatja meg a szűrési feltételt.

    Képernyőkép a FilterYearsről.

  3. Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt az Adatfolyam-kifejezésszerkesztőben talál.

    • Ebben az oktatóanyagban az 1910 és 2000 között megjelent vígjáték műfajú filmeket szeretné szűrni. Mivel az év jelenleg karakterlánc formátumú, a toInteger() függvény használatával egész számmá kell alakítani. A 1910-es és a 2000-es literális évértékekkel történő összehasonlításhoz használja a nagyobb vagy egyenlő (>=), illetve a kisebb vagy egyenlő (<=) operátorokat. Egyesítse ezeket a kifejezéseket az és (&) operátorral. A kifejezés a következőképpen jelenik meg:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Ha meg szeretné találni, hogy mely filmek vígjátékok, a rlike() függvény segítségével megtalálhatja a "Comedy" mintát az oszlop műfajaiban. A rlike kifejezést az év összehasonlításával egyesítve, így kapjuk meg:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Ha aktív hibakeresési fürttel rendelkezik, a logika ellenőrzéséhez válassza a Frissítés lehetőséget annak megtekintésére, hogy a kifejezés kimenete hogyan viszonyul a bemenetekhez. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvének használatával.

      Képernyőkép a szűrőkifejezésről.

    • A kifejezés befejezése után válassza a Mentés és befejezés lehetőséget.

  4. Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.

    A szűrt adatok előnézetét bemutató képernyőkép.

Az összesítő átalakítás hozzáadása

  1. A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.

    Képernyőkép az összesítés hozzáadásáról.

  2. Nevezze el összesített átalakítását AggregateComedyRating néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.

    Képernyőkép az összesítő csoportról.

  3. Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.

    Képernyőkép az összesített oszlop nevéről.

  4. Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvénytavg(). Mivel az Értékelés egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

    avg(toInteger(Rating))

  5. Ha végzett, válassza a Mentés és befejezés lehetőséget.

    Az összesítés mentését bemutató képernyőkép.

  6. Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.

Adja hozzá a nyelő transzformációt

  1. A következő lépésben a Sink átalakítást szeretné hozzáadni a Cél alá.

    Fogadó hozzáadását bemutató képernyőkép.

  2. Nevezze el a fogadót Sink. Válassza az Új lehetőséget a céladatkészlet létrehozásához.

    Fogadó létrehozását bemutató képernyőkép.

  3. A New dataset lapon válassza a Azure Data Lake Storage Gen2, majd a Continue lehetőséget.

  4. A Formátum kiválasztása lapon válassza a DelimitedText, majd a Continue (Folytatás) lehetőséget.

  5. Nevezze el a Fogadó adatkészletet a MoviesSink névvel. Csatolt szolgáltatás esetén válassza ki ugyanazt az ADLSGen2 társított szolgáltatást, amelyet a forrásátalakításhoz hozott létre. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a sample-data tárolón belül az output mappába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Jelölje be az Első sort fejlécként jelölőnégyzetet, és válassza Nincs az importálási séma. Kattintson az OK gombra.

    Képernyőkép, amely bemutatja az adatfogadó útvonalát.

Most befejezte az adatfolyam összeállítását. Készen áll a futtatási folyamatban történő használatra.

Az adatfolyam futtatása és monitorozása

Közzététel előtt végrehajthat hibakeresést a folyamatláncon. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futtatását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

  1. Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.

  2. Az adatfolyam-tevékenységek hibakeresése az aktív hibakeresési klasztert használja, de az inicializálása legalább egy percet vesz igénybe. Az előrehaladást a Kimenet lapon követheti nyomon. A futtatás sikeres befejezése után válassza a szemüveg ikont a futtatás részleteinek megadásához.

  3. A részletek oldalon láthatja a sorok számát és az egyes átalakítási lépésekre fordított időt.

    Képernyőkép egy monitorozási futtatásról.

  4. Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot le kellett volna írnia a célmappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.

Összegzés

Ebben az oktatóanyagban a Data Factory felhasználói felületével létrehozott egy folyamatot, amely egy Data Lake Storage Gen2 forrásból másol és alakít át adatokat egy Data Lake Storage Gen2 fogadóba (mindkettő lehetővé teszi a hozzáférést csak a kiválasztott hálózatokhoz) a Data Factory által felügyelt Virtual Network adatáramlás leképezésével.