Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Ebben az oktatóanyagban a Azure Data Factory felhasználói felület (UX) használatával hoz létre egy folyamatot, amely egy Azure Data Lake Storage (ADLS) Gen2-forrásból származó adatokat másol és alakít át egy ADLS Gen2-fogadóvá leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor
Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok elérhetők mind az Azure Data Factory, mind a Synapse Pipelines szolgáltatásban. Ha új az adatfolyamok használatában az Azure Synapse Pipeline-ekben, kövesse az Azure Synapse Pipelines adatfolyamainak használatát.
Az oktatóanyag során a következő lépéseket hajtja végre:
- Adat-előállító létrehozása
- Hozzon létre egy csővezetéket egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
Előfeltételek
- Azure előfizetés. Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free Azure fiókot.
- Azure Data Lake Storage Gen2 fiók. Az ADLS-tárolót forrás és fogadó adattárként használja. Ha nincs tárfiókja, a A Azure tárfiók létrehozása a létrehozás lépéseit ismerteti.
- Töltse le MoviesDB.csv itt. A fájl GitHub való lekéréséhez másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentse. Töltse fel a fájlt a tárfiókba egy "sample-data" nevű tárolóban.
Adat-előállító létrehozása
Ebben a lépésben létrehoz egy adatgyárat, és megnyitja az adatgyár felhasználói felületét folyamat létrehozásához az adatgyárban.
Nyissa meg Microsoft Edge vagy Google Chrome. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.
A felső menüben válassza a Resource>Analytics>Data Factory létrehozása lehetőséget:
Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.
A Azure data factory nevének globally egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
Válassza ki azt a Azure subscription, amelyben létre szeretné hozni az adat-előállítót.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.
Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.
Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.
A Verzió résznél válassza a V2 értéket.
A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például Azure Storage és SQL Database) és számítások (például Azure HDInsight) más régiókban is lehetnek.
Válassza a Véleményezés + Létrehozás lehetőséget, majd a Létrehozás lehetőséget.
A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.
Válassza a Studio indítása lehetőséget a Data Factory Studio külön lapon való elindításához.
Folyamat létrehozása Adatfolyam tevékenységgel
Ebben a lépésben létrehoz egy csővezetéket, amely egy adatfolyam tevékenységet tartalmaz.
A Azure Data Factory kezdőlapján válassza a Orchestrate lehetőséget.
Most nyitva van egy ablak egy új csővezetékhez. A folyamat tulajdonságainak Általános lapján adja meg a TransformMovies nevet a folyamat neve mezőben.
A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika menüt. Húzza a Adatfolyam aktivitást a panelről a pipeline vászonra.
Nevezze el az adatfolyam-tevékenységet DataFlow1 néven.
A folyamatvászon felső sávján kapcsolja be a Adatfolyam hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.
Átalakítási logika létrehozása az adatfolyam-vásznon
Ebben a lépésben olyan adatfolyamot hoz létre, amely az ADLS-tárolóban lévő moviesDB.csv összegyűjti, és összesíti a vígjátékok átlagos értékelését 1910 és 2000 között. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.
A vászon alatti panelen válassza az adatfolyam-tevékenység beállításait , és válassza az Új lehetőséget az adatfolyam-mező mellett. Ekkor megnyílik az adatfolyam-vászon.
Az ÁltalánosTulajdonságok panelen nevezze el az adatfolyamot: TransformMovies.
Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.
Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.
Válassza a Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.
Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.
Nevezze meg az adathalmazt MoviesDB. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.
A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése lehetőséget választva ellenőrizheti, hogy a hitelesítő adatok helyesen lettek-e beállítva. Válassza a Létrehozás lehetőséget, ha befejezte.
Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha végzett, válassza az OK lehetőséget.
Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.
Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.
Nevezze el a szűrőátalakítást Szűrőévek. Válassza ki a Szűrés melletti kifejezésmezőt, majd nyissa meg a Kifejezésszerkesztőt. Itt adhatja meg a szűrési feltételt.
Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. További információ a kifejezések készítéséről: Adatfolyam kifejezésszerkesztő.
Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, az
toInteger()függvény használatával egész számmá kell alakítania. Az nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorokat használva hasonlítsa össze az évértékeket, nevezetesen 1910 és 2000 literális évértékekkel. Egyesítse ezeket a kifejezéseket az és (&&) operátorral. A kifejezés a következőképpen jelenik meg:toInteger(year) >= 1910 && toInteger(year) <= 2000Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a
rlike()"Comedy" mintát az oszlop műfajaiban. Arlikekifejezést egyesítse az év összehasonlításával, hogy megkapjuk:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')Amennyiben rendelkezik aktív hibakeresési fürttel, a Frissítés opció kiválasztásával ellenőrizheti logikáját, hogy megnézhesse a kifejezés kimenetét a használt bemenetekhez képest. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.
Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.
Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.
A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.
Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.
Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.
Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvényt
avg(). Mivel a Rating egy sztring, ésavg()numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk atoInteger()függvényen keresztül. Ez a kifejezés a következőképpen néz ki:avg(toInteger(Rating))Ha elkészült, válassza a Mentés és befejezés lehetőséget.
Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.
A következő lépésként szeretne hozzáadni egy Sink átalakítást a Destination alatt.
Nevezze el a mosogatót Sink-nek. Válassza az Új lehetőséget a céladatkészlet létrehozásához.
Válassza a Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.
Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.
Nevezze el a sink adatkészletet MoviesSink-nek. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazra, és válassza a Nincs lehetőséget az importálási sémához. Válassza a Befejezés lehetőséget.
Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.
A Adatfolyam futtatása és monitorozása
A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.
Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.
A Adatfolyam tevékenységek hibakeresése az aktív hibakeresési klasztert használja, de az előkészítés legalább egy percet vesz igénybe. Az előrehaladást a kimenet lapon keresztül követheti nyomon. Ha a futtatás sikeres, vigye az egérmutatót a futtatás fölé, és válassza ki a szemüveg ikont a figyelő panel megnyitásához.
A figyelési panelen válassza a Szakaszok gombot az egyes átalakítási lépésekben eltöltött sorok számának és idejének megtekintéséhez.
Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.
Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a célmappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.
Kapcsolódó tartalom
Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti vígjátékok átlagos értékelését, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:
- Adat-előállító létrehozása
- Hozzon létre egy csővezetéket egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
További információ az adatfolyam-kifejezés nyelvéről.