Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A következőkre vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ebben az oktatóanyagban a Azure Data Factory felhasználói felület (UX) használatával hoz létre egy folyamatot, amely adatokat másol és alakít át egy Azure Data Lake Storage (ADLS) Gen2-forrásból egy ADLS Gen2-fogadóba a leképezési adatfolyam használatával. Az oktatóanyagban szereplő konfigurációs minta kiterjeszthető az adatok leképezési adatfolyam használatával történő átalakításakor
Ez az oktatóanyag általában az adatfolyamok leképezésére szolgál. Az adatfolyamok az Azure Data Factoryben és a Synapse Pipelinesban is elérhetők. Ha még nem ismeri az adatfolyamokat a Azure Synapse Pipelines, kövesse az adatfolyamot a Azure Synapse Pipelines használatával.
Az oktatóanyag során a következő lépéseket hajtja végre:
- Adat-előállító létrehozása
- Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
Előfeltételek
- Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, hozzon létre egy ingyenes Azure-fiókot mielőtt elkezdené.
- Azure Data Lake Storage Gen2-fiók. Az ADLS-tárolót forrás és fogadó adattárként használja. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.
- Töltse le MoviesDB.csv itt. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, és mentse helyileg .csv fájlként. Töltse fel a fájlt a tárfiókba egy "sample-data" nevű tárolóban.
Adat-előállító létrehozása
Ebben a lépésben létrehoz egy adatgyárat, és megnyitja az adatgyár felhasználói felületét folyamat létrehozásához az adatgyárban.
Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.
A felső menüben válassza a Resource>Analytics>Data Factory létrehozása lehetőséget:
Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.
Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.
Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.
Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.
A Verzió résznél válassza a V2 értéket.
A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például az Azure Storage és az SQL Database) és a számítások (például az Azure HDInsight) más régiókban is lehetnek.
Válassza a Véleményezés + Létrehozás lehetőséget, majd a Létrehozás lehetőséget.
A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.
Válassza a Studio indítása lehetőséget a Data Factory Studio külön lapon való elindításához.
Folyamat létrehozása Adatfolyam tevékenységgel
Ebben a lépésben létrehoz egy folyamatot, amely egy adatfolyam-tevékenységet tartalmaz.
Az Azure Data Factory kezdőlapján válassza az Orchestrate lehetőséget.
Most nyitva van egy ablak egy új csővezetékhez. A folyamat tulajdonságainak Általános lapján adja meg a TransformMovies nevet a folyamat neve mezőben.
A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika menüt. Húzza a Adatfolyam tevékenységet a panelről a folyamatvászonra.
Nevezze el az adatfolyam-tevékenységet DataFlow1 néven.
A folyamatvászon felső sávján húzza a Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Az adatfolyam kötegek előkészítése 5-7 percet vesz igénybe, és javasolt, hogy a felhasználók először kapcsolják be a debug módot, ha adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.
Átalakítási logika létrehozása az adatfolyam-vásznon
Ebben a lépésben olyan adatfolyamot hoz létre, amely az ADLS-tárolóban lévő moviesDB.csv összegyűjti, és összesíti a vígjátékok átlagos értékelését 1910 és 2000 között. Ezután visszaírja ezt a fájlt az ADLS-tárolóba.
A vászon alatti panelen válassza az adatfolyam-tevékenység beállításait , és válassza az Új lehetőséget az adatfolyam-mező mellett. Ekkor megnyílik az adatfolyam-vászon.
Az ÁltalánosTulajdonságok panelen nevezze el az adatfolyamot: TransformMovies.
Az adatfolyam-vásznon adjon hozzá egy forrást a Forrás hozzáadása mező kiválasztásával.
Nevezze el a forrás MoviesDB-t. Új forrásadatkészlet létrehozásához válassza az Új lehetőséget.
Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.
Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.
Nevezze meg az adathalmazt MoviesDB. A társított szolgáltatás legördülő listájában válassza az Új lehetőséget.
A társított szolgáltatás létrehozási képernyőjén adja meg az ADLS gen2 társított ADLSGen2 szolgáltatást, és adja meg a hitelesítési módszert. Ezután adja meg a kapcsolat hitelesítő adatait. Ebben az oktatóanyagban fiókkulcsot használunk a tárfiókhoz való csatlakozáshoz. A Kapcsolat tesztelése lehetőséget választva ellenőrizheti, hogy a hitelesítő adatok helyesen lettek-e beállítva. Válassza a Létrehozás lehetőséget, ha végzett.
Miután visszatért az adathalmaz létrehozási képernyőjére, adja meg, hogy hol található a fájl a Fájl elérési útja mező alatt. Ebben az oktatóanyagban a moviesDB.csv fájl tárolóminta-adatokban található. Mivel a fájl fejlécekkel rendelkezik, ellenőrizze az Első sort fejlécként. Válassza a Kapcsolat/tár lehetőséget a fejlécséma közvetlen importálásához a tárban lévő fájlból. Ha végzett, válassza az OK lehetőséget.
Ha a hibakeresési fürt elindult, lépjen a forrásátalakítás Adatelőnézet lapjára, és válassza a Frissítés lehetőséget az adatok pillanatképének lekéréséhez. Az adatelőnézet használatával ellenőrizheti, hogy az átalakítás megfelelően van-e konfigurálva.
Az adatfolyam-vásznon a forráscsomópont mellett válassza a plusz ikont egy új átalakítás hozzáadásához. Az első hozzáadott átalakítás egy szűrő.
Nevezze el a szűrőátalakítást Szűrőévek. Jelölje be a Szűrés melletti kifejezésmezőt, majd a Kifejezésszerkesztő megnyitása lehetőséget. Itt adhatja meg a szűrési feltételt.
Az adatfolyam-kifejezésszerkesztővel interaktívan hozhat létre különböző átalakításokban használható kifejezéseket. A kifejezések tartalmazhatnak beépített függvényeket, a bemeneti sémából származó oszlopokat és felhasználó által definiált paramétereket. A kifejezések készítéséről további információt Adatfolyam kifejezésszerkesztőben talál.
Ebben az oktatóanyagban az 1910 és 2000 között megjelent műfaji vígjátékok filmjeit szeretné szűrni. Mivel az év jelenleg sztring, az
toInteger()függvény használatával egész számmá kell alakítania. Az nagyobb vagy egyenlő (>=) és kisebb vagy egyenlő (<=) operátorokat használva hasonlítsa össze az évértékeket, nevezetesen 1910 és 2000 literális évértékekkel. Egyesítse ezeket a kifejezéseket az és (&&) operátorral. A kifejezés a következőképpen jelenik meg:toInteger(year) >= 1910 && toInteger(year) <= 2000Ha meg szeretné találni, hogy mely filmek vígjátékok, a függvény segítségével megtalálhatja a
rlike()"Comedy" mintát az oszlop műfajaiban. Arlikekifejezést egyesítse az év összehasonlításával, hogy megkapjuk:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')Ha aktív hibakeresési fürttel rendelkezik, a Frissítés gombra kattintva ellenőrizheti a logikát, hogy a kifejezés kimenetét a használt bemenetekhez képest tekintse meg. Több helyes válasz is van arra, hogyan valósíthatja meg ezt a logikát az adatfolyam-kifejezés nyelvével.
Ha végzett a kifejezéssel, válassza a Mentés és befejezés lehetőséget.
Adatelőnézet beolvasásával ellenőrizze, hogy a szűrő megfelelően működik-e.
A következő átalakítási művelet a Sémamódosító alatt lévő Összesítés átalakítás.
Nevezze el összesített átalakítását AggregateComedyRatings néven. A Csoportosítás lapon válassza ki az évet a legördülő listából, és csoportosítsa az összesítéseket a film kiadásának évéhez.
Lépjen az Összesítések lapra. A bal oldali szövegmezőben nevezze el az AverageComedyRating összesítő oszlopot. A megfelelő kifejezésmezőt választva adja meg az összesítő kifejezést a kifejezésszerkesztőn keresztül.
Az oszlopminősítés átlagának lekéréséhez használja az összesítő függvényt
avg(). Mivel a Rating egy sztring, ésavg()numerikus bemenetet vesz fel, az értéket számmá kell konvertálnunk atoInteger()függvényen keresztül. Ez a kifejezés a következőképpen néz ki:avg(toInteger(Rating))Ha elkészült, válassza a Mentés és befejezés lehetőséget.
Az átalakítási kimenet megtekintéséhez lépjen az Adatelőnézet lapra. Figyelje meg, hogy csak két oszlop van, év és AverageComedyRating.
A következő lépésként szeretne hozzáadni egy Sink átalakítást a Destination alatt.
Nevezze el a mosogatót Sink-nek. Válassza az Új lehetőséget a fogadóadatkészlet létrehozásához.
Válassza az Azure Data Lake Storage Gen2 lehetőséget. Válassza a Folytatás lehetőséget.
Válassza a DelimitedText lehetőséget. Válassza a Folytatás lehetőséget.
Nevezze el a sink adatkészletet MoviesSink-nek. Csatolt szolgáltatás esetén válassza ki a 6. lépésben létrehozott ADLS gen2 társított szolgáltatást. Adjon meg egy kimeneti mappát az adatok írásához. Ebben az oktatóanyagban a "sample-data" tároló "output" mappájába írunk. A mappának nem kell előzetesen léteznie, és dinamikusan létrehozható. Állítsa be az első sort fejlécként igazra, és válassza a Nincs lehetőséget az importálási sémához. Válassza a Befejezés lehetőséget.
Most befejezte az adatfolyam összeállítását. Készen áll a folyamat futtatására.
A Adatfolyam futtatása és figyelése
A közzététel előtt hibakeresést végezhet egy folyamaton. Ebben a lépésben elindítja az adatfolyam-folyamat hibakeresési futását. Bár az adatelőnézet nem ír adatokat, a hibakeresési futtatás adatokat ír a fogadó célhelyére.
Lépjen a folyamatvászonra. Hibakeresési futtatás indításához válassza a Hibakeresés lehetőséget.
A Adatfolyam tevékenységek folyamatbeli hibakeresése az aktív hibakeresési fürtöt használja, de az inicializálás legalább egy percet vesz igénybe. Az előrehaladást a kimenet lapon keresztül követheti nyomon. Ha a futtatás sikeres, vigye az egérmutatót a futtatás fölé, és válassza ki a szemüveg ikont a figyelő panel megnyitásához.
A figyelési panelen válassza a Szakaszok gombot az egyes átalakítási lépésekben eltöltött sorok számának és idejének megtekintéséhez.
Az átalakítás kiválasztásával részletes információkat kaphat az oszlopokról és az adatok particionálásáról.
Ha helyesen követte ezt az oktatóanyagot, 83 sort és 2 oszlopot kellett volna írnia a célmappába. A blobtároló ellenőrzésével ellenőrizheti, hogy az adatok helyesek-e.
Kapcsolódó tartalom
Az oktatóanyagban szereplő folyamat egy olyan adatfolyamot futtat, amely összesíti a 1910 és 2000 közötti vígjátékok átlagos értékelését, és az adatokat az ADLS-be írja. Megtanulta végrehajtani az alábbi műveleteket:
- Adat-előállító létrehozása
- Hozzon létre egy folyamatot egy Adatfolyam tevékenységgel.
- Leképezési adatfolyam létrehozása négy átalakítással.
- A folyamat próbafuttatása
- Adatfolyam tevékenység figyelése
További információ az adatfolyam-kifejezés nyelvéről.