Rövid útmutató: Adatok átalakítása leképezési adatfolyamokkal

Cikk
05/23/2023

Ebben a rövid útmutatóban a Azure Synapse Analytics használatával fog létrehozni egy folyamatot, amely egy Azure Data Lake Storage Gen2 (ADLS Gen2) forrásból egy ADLS Gen2-fogadóba alakítja át az adatokat leképezési adatfolyam használatával. Az ebben a rövid útmutatóban szereplő konfigurációs minta kibontható az adatok leképezési adatfolyam használatával történő átalakításakor

Ebben a rövid útmutatóban a következő lépéseket hajtja végre:

Hozzon létre egy folyamatot Adatfolyam tevékenységgel a Azure Synapse Analyticsben.
Leképezési adatfolyam létrehozása négy átalakítással.
A folyamat próbafuttatása
Adatfolyam tevékenység figyelése

Előfeltételek

Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, a kezdés előtt hozzon létre egy ingyenes Azure-fiókot .
Azure Synapse munkaterület: Synapse-munkaterület létrehozása az Azure Portal használatával a Synapse-munkaterület létrehozása című rövid útmutató utasításait követve.
Azure Storage-fiók: Az ADLS-tárolót használja forrás - és fogadóadattárként . Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.

Az oktatóanyagban átalakított fájl MoviesDB.csv, amely itt található. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, és mentse helyileg .csv fájlként. A fájl tárfiókba való feltöltéséhez lásd: Blobok feltöltése a Azure Portal. A példák egy "sample-data" nevű tárolóra fognak hivatkozni.

Navigáljon a Synapse Studio

A Azure Synapse munkaterület létrehozása után kétféleképpen nyithatja meg a Synapse Studio:

Nyissa meg a Synapse-munkaterületet a Azure Portal. A Megnyitás Synapse Studio kártyán az Első lépések csoportban válassza a Megnyitás lehetőséget.
Nyissa meg Azure Synapse Analyticset, és jelentkezzen be a munkaterületre.

Ebben a rövid útmutatóban az "adftest2020" nevű munkaterületet használjuk példaként. Automatikusan a Synapse Studio kezdőlapjára navigál.

Synapse Studio kezdőlapja

Folyamat létrehozása Adatfolyam tevékenységgel

A folyamatok a tevékenységek egy csoportjának végrehajtásához szükséges logikai folyamatot tartalmazzák. Ebben a szakaszban egy olyan folyamatot fog létrehozni, amely egy Adatfolyam tevékenységet tartalmaz.

Lépjen az Integrálás lapra. Válassza a folyamatfejléc melletti plusz ikont, és válassza a Folyamat lehetőséget.
A folyamat Tulajdonságok beállításai lapján adja meg a TransformMovies nevet a Név mezőben.
A Tevékenységek panel Áthelyezés és átalakítás területén húzza az Adatfolyam elemet a folyamatvászonra.
Az Adatfolyam hozzáadása lapon válassza az Új adatfolyam létrehozása ->Adatfolyam lehetőséget. Ha elkészült, kattintson az OK gombra .
Nevezze el az adatfolyamot TransformMovies névvel a Tulajdonságok lapon.

Átalakítási logika létrehozása az adatfolyam-vásznon

A Adatfolyam létrehozása után a rendszer automatikusan elküldi az adatfolyam-vászonra. Ebben a lépésben egy olyan adatfolyamot fog létrehozni, amely az ADLS-tárolóban lévő MoviesDB.csv veszi át, és összesíti a 1910 és 2000 közötti vésések átlagos minősítését. Ezután ezt a fájlt visszaírja az ADLS-tárolóba.

Az adatfolyam-vászon fölött húzza be az Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak javasoljuk, hogy először kapcsolják be a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.
Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mezőre kattintva.
Nevezze el a forrás MoviesDB nevet. Új forrásadatkészlet létrehozásához kattintson az Új elemre.
Válassza a Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.
Válassza a Tagolt szöveg lehetőséget. Kattintson a Folytatás gombra.
Nevezze el az adathalmazt a MoviesDB névvel. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.
A társított szolgáltatás létrehozása képernyőn nevezze el az ADLS Gen2 társított szolgáltatást az ADLSGen2 névvel, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben a rövid útmutatóban az Account billentyűt használjuk a tárfiókunkhoz való csatlakozáshoz. A Kapcsolat tesztelése gombra kattintva ellenőrizheti, hogy helyesen adta-e meg a hitelesítő adatait. Ha elkészült, kattintson a Létrehozás gombra.
Miután visszatért az adathalmaz létrehozása képernyőre, a Fájl elérési útja mező alatt adja meg, hogy hol található a fájl. Ebben a rövid útmutatóban a "MoviesDB.csv" fájl a "sample-data" tárolóban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolatból/tárolóból lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha elkészült, kattintson az OK gombra .
Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és kattintson a Frissítés gombra az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.
Az adatfolyam-vászon forráscsomópontja mellett kattintson a plusz ikonra egy új átalakítás hozzáadásához. Az első hozzáadni kívánt átalakítás egy szűrő.
Nevezze el szűrőátalakítását FilterYears néven. A kifejezésszerkesztő megnyitásához kattintson a Szűrő bekapcsolva melletti kifejezésmezőre. Itt adhatja meg a szűrési feltételt.
Az adatfolyam-kifejezésszerkesztővel interaktív módon hozhat létre kifejezéseket különböző átalakításokhoz. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítésével kapcsolatos további információkért lásd: Adatfolyam kifejezésszerkesztő.

Ebben a rövid útmutatóban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg egy sztring, a függvény használatával toInteger() egész számmá kell konvertálnia. Az 1910-es és a 200-es literálértékekkel való összehasonlításhoz használja a nagyobb vagy egyenlő (>=) és az (<=) operátorokat. Egyesítve ezeket a kifejezéseket a && (és) operátorral. A kifejezés a következőképpen jelenik meg:

toInteger(year) >= 1910 && toInteger(year) <= 2000

Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény használatával megkeresheti a rlike() "Komédia" mintát az oszlop műfajaiban. Egyesíteni kell a rlike kifejezést az év összehasonlításával a következőhöz:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Ha aktív hibakeresési fürttel rendelkezik, a logika ellenőrzéséhez kattintson a Frissítés gombra a használt bemenetekhez képest a kifejezéskimenet megtekintéséhez. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.

Ha végzett a kifejezéssel, kattintson a Mentés és befejezés gombra.
Kérje le az adatbetekintőt , hogy ellenőrizze, hogy a szűrő megfelelően működik-e.
A következő hozzáadni kívánt átalakítás egy Összesített átalakítás a Sémamódosító területen.
Nevezze el az összesített átalakítást AggregateComedyRatings névvel. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kilétének évére.
Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az averageComedyRating összesítő oszlopot. Kattintson a jobb oldali kifejezésmezőre az összesítő kifejezés kifejezésszerkesztőn keresztüli megadásához.
A Rating oszlop átlagának lekéréséhez használja az összesítő függvényt avg() . Mivel a Rating egy sztring, és avg() numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk a toInteger() függvényen keresztül. Ez a kifejezés a következőképpen néz ki:

avg(toInteger(Rating))

Ha elkészült, kattintson a Mentés és befejezés gombra.
Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, az év és az AverageComedyRating.
Ezután hozzá szeretne adni egy Fogadó átalakítást a Cél területen.
Nevezze el a fogadó fogadóját. Kattintson az Új gombra a fogadó adatkészlet létrehozásához.
Válassza a Azure Data Lake Storage Gen2 lehetőséget. Kattintson a Folytatás gombra.
Válassza a DelimitedText (Tagolt szöveg) lehetőséget. Kattintson a Folytatás gombra.
Nevezze el a fogadó adathalmazt MoviesSink névvel. Társított szolgáltatás esetén válassza ki a 7. lépésben létrehozott ADLS Gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben a rövid útmutatóban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan is létrehozható. Állítsa az Első sort fejlécként igaz értékre , és válassza a Nincs lehetőséget a Séma importálása beállításhoz. Ha elkészült, kattintson az OK gombra .

Ezzel befejezte az adatfolyam összeállítását. Készen áll arra, hogy futtassa a folyamatban.

A Adatfolyam futtatása és monitorozása

A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futtatását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.

Lépjen a folyamatvászonra. Kattintson a Hibakeresés elemre a hibakeresési futtatás elindításához.
A Adatfolyam tevékenységek folyamat-hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a Kimenet lapon követheti nyomon. A futtatás sikerességét követően kattintson a szemüveg ikonra a monitorozási panel megnyitásához.
A monitorozási panelen megtekintheti az egyes átalakítási lépések során eltelt sorok számát és idejét.
Az átalakításra kattintva részletes információkat kaphat az oszlopokról és az adatok particionálásáról.

Ha helyesen követte ezt a rövid útmutatót, 83 sort és 2 oszlopot kellett írnia a fogadó mappába. Az adatokat a blobtároló ellenőrzésével ellenőrizheti.

Következő lépések

A Azure Synapse Analytics támogatásával kapcsolatos további információkért tekintse meg a következő cikkeket:

Folyamat és tevékenységek Adatfolyam leképezése – adatfolyam-kifejezés nyelve – áttekintés