Adatok átalakítása adatfolyamok leképezésével
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ha még csak ismerkedik az Azure Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.
Ebben az oktatóanyagban az Azure Data Factory felhasználói felületének (UX) használatával fog létrehozni egy folyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage-forrásból (ADLS) Gen2-forrásból egy ADLS Gen2-fogadóvá leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor
Feljegyzés
Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok az Azure Data Factoryben és a Synapse Pipelinesban is elérhetők. Ha még nem használta az Azure Synapse Pipelines adatfolyamait, kövesse Adatfolyam az Azure Synapse Pipelines használatával
Az oktatóanyag során a következő lépéseket hajtja végre:
- Adat-előállító létrehozása
- Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
Előfeltételek
- Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
- Egy Azure Storage-fiók. Az ADLS-tárolót forrás- és fogadóadattárként használja. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.
Az oktatóanyagban átalakított fájl MoviesDB.csv, amely itt található. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, és mentse helyileg .csv fájlként. Ha fel szeretné tölteni a fájlt a tárfiókba, olvassa el a Blobok feltöltése az Azure Portallal című témakört. A példák egy "sample-data" nevű tárolóra fognak hivatkozni.
Adat-előállító létrehozása
Ebben a lépésben létrehoz egy adat-előállítót, és megnyitja a Data Factory UX-t egy folyamat létrehozásához az adat-előállítóban.
Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.
A bal oldali menüben válassza az Erőforrás-integrációs>>adat-előállító létrehozása lehetőséget:
Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.
Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például a yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
a. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.
b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.
Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.
A Verzió résznél válassza a V2 értéket.
A Hely területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például az Azure Storage és az SQL Database) és a számítások (például az Azure HDInsight) más régiókban is lehetnek.
Válassza a Létrehozás lehetőséget.
A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.
A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.
Folyamat létrehozása Adatfolyam tevékenységgel
Ebben a lépésben létrehoz egy folyamatot, amely egy Adatfolyam tevékenységet tartalmaz.
Az Azure Data Factory kezdőlapján válassza az Orchestrate lehetőséget.
A folyamat Általános lapján adja meg a Folyamat neve transformMovies értéket.
A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika elemet. Húzza a Adatfolyam tevékenységet a panelről a folyamatvászonra.
A Hozzáadás Adatfolyam előugró ablakban válassza az Új Adatfolyam létrehozása lehetőséget, majd adja meg az adatfolyam TransformMovies nevét. Kattintson a Befejezés gombra, ha elkészült.
A folyamatvászon felső sávján húzza a Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.
Átalakítási logika létrehozása az adatfolyam-vásznon
A Adatfolyam létrehozása után a rendszer automatikusan elküldi az adatfolyam-vászonra. Ha nem irányítja át az adatfolyam-vászonra, a vászon alatti panelen válassza a Beállítások lehetőséget , és válassza a Megnyitás lehetőséget, amely az adatfolyam-mező mellett található. Ekkor megnyílik az adatfolyam vászna.
Ebben a lépésben létrehoz egy adatfolyamot, amely az ADLS-tárolóban lévő moviesDB.csv veszi át, és összesíti a 1910 és 2000 közötti átlagos besorolást. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.
Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mezőre kattintva.
Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához kattintson az Új gombra.
Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.
Válassza a DelimitedText lehetőséget. Kattintson a Folytatás gombra.
Nevezze el az adathalmazt a MoviesDB-nek. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.
A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy helyesen adta-e meg a hitelesítő adatait. Ha végzett, kattintson a Létrehozás gombra.
Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha elkészült, kattintson az OK gombra.
Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és kattintson a Frissítés gombra az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.
Az adatfolyam-vásznon a forráscsomópont mellett kattintson a plusz ikonra egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.
Nevezze el a szűrőátalakítás Szűrőévek nevet. A kifejezésszerkesztő megnyitásához kattintson a Szűrő bekapcsolva gomb melletti kifejezésmezőre. Itt adhatja meg a szűrési feltételt.
Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt Adatfolyam kifejezésszerkesztőben talál.
Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, a függvény használatával egész számmá kell alakítania
toInteger()
. Az 1910-es és a 2000-es literális évértékek összehasonlításához használja a nagyobb vagy egyenlő (>=) és (<=) operátorokat. Egyesítve ezeket a kifejezéseket a (> és a(z) operátorral együtt. A kifejezés a következőképpen jelenik meg:toInteger(year) >= 1910 && toInteger(year) <= 2000
Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a
rlike()
"Comedy" mintát az oszlop műfajaiban. Egyesíteni kell arlike
kifejezést az év összehasonlításával a következőhöz:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Ha aktív hibakeresési fürtöt használ, a Frissítés gombra kattintva ellenőrizheti a logikát a használt bemenetekhez képest a kifejezéskimenet megtekintéséhez. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.
Ha végzett a kifejezéssel, kattintson a Mentés és befejezés gombra.
Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.
A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.
Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.
Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A jobb oldali kifejezésmezőre kattintva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.
Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvényt
avg()
. Mivel a Rating egy sztring, ésavg()
numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk atoInteger()
függvényen keresztül. Ez a kifejezés a következőképpen néz ki:avg(toInteger(Rating))
Ha elkészült, kattintson a Mentés és befejezés gombra.
Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.
A következő lépésben egy Fogadó átalakítást szeretne hozzáadni a Cél területen.
Nevezze el a fogadó fogadóját. Kattintson az Új gombra a fogadóadatkészlet létrehozásához.
Válassza az Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.
Válassza a DelimitedText lehetőséget. Kattintson a Folytatás gombra.
Nevezze el a Fogadó adatkészletet a MoviesSink névvel. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazként, és válassza a Nincs az importálási sémához lehetőséget. Kattintson a Finish gombra.
Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.
A Adatfolyam futtatása és figyelése
A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.
Lépjen a folyamatvászonra. A hibakeresési futtatás elindításához kattintson a Hibakeresés gombra.
A Adatfolyam tevékenységek folyamatbeli hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a Kimenet lapon követheti nyomon. Miután a futtatás sikeres volt, kattintson a szemüveg ikonra a monitorozási panel megnyitásához.
A monitorozási panelen láthatja az egyes átalakítási lépések során eltelt sorok és idő számát.
Az átalakításra kattintva részletes információkat kaphat az oszlopokról és az adatok particionálásáról.
Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a fogadó mappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.
Kapcsolódó tartalom
Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti átlagos üstökös-minősítést, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:
- Adat-előállító létrehozása
- Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
További információ az adatfolyam-kifejezés nyelvéről.