Megosztás a következőn keresztül:


Adatok átalakítása a Delta Lake-ben a leképezési adatfolyamok használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ha még csak ismerkedik az Azure Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Ebben az oktatóanyagban az adatfolyam-vásznon olyan adatfolyamokat fog létrehozni, amelyek lehetővé teszik az adatok elemzését és átalakítását az Azure Data Lake Storage (ADLS) Gen2-ben, és tárolhatja azokat a Delta Lake-ben.

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Egy Azure Storage-fiók. Az ADLS-tárolót forrás- és fogadóadattárként használja. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.

Az oktatóanyagban átalakítandó fájl a MoviesDB.csv, amely itt található. Ha le szeretné kérni a fájlt a GitHubról, másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentsen. Ha fel szeretné tölteni a fájlt a tárfiókba, olvassa el a Blobok feltöltése az Azure Portallal című témakört. A példák egy "sample-data" nevű tárolóra fognak hivatkozni.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és megnyitja a Data Factory UX-t egy folyamat létrehozásához az adat-előállítóban.

  1. Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A bal oldali menüben válassza az Erőforrás-integrációs>>adat-előállító létrehozása lehetőséget

  3. Az Új adat-előállító lap Név területén adja meg az ADFTutorialDataFactory nevet

  4. Válassza ki azt az Azure-előfizetést, amelyben az adat-előállítót létre szeretné hozni.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például az Azure Storage és az SQL Database) és a számítások (például az Azure HDInsight) más régiókban is lehetnek.

  8. Select Create.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.

Folyamat létrehozása adatfolyam-tevékenységgel

Ebben a lépésben egy adatfolyam-tevékenységet tartalmazó folyamatot fog létrehozni.

  1. A kezdőlapon válassza az Orchestrate (Vezénylés) lehetőséget.

    Screenshot that shows the ADF home page.

  2. A folyamat Általános lapján adja meg a DeltaLake nevet a folyamat nevéhez.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika elemet. Húzza a Adatfolyam tevékenységet a panelről a folyamatvászonra.

    Screenshot that shows the pipeline canvas where you can drop the Data Flow activity.

  4. A Hozzáadás Adatfolyam előugró ablakban válassza az Új Adatfolyam létrehozása lehetőséget, majd adja meg az adatfolyam DeltaLake nevét. Kattintson a Befejezés gombra, ha elkészült.

    Screenshot that shows where you name your data flow when you create a new data flow.

  5. A folyamatvászon felső sávján húzza a Adatfolyam hibakeresési csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Screenshot that shows where is the Data flow debug slider.

Átalakítási logika létrehozása az adatfolyam-vásznon

Ebben az oktatóanyagban két adatfolyamot fog létrehozni. Az első adatfolyam egy egyszerű forrás, amely egy új Delta Lake-t hoz létre a fentről származó filmek CSV-fájljából. Végül az alábbi folyamattervet fogja létrehozni a Delta Lake adatainak frissítéséhez.

Final flow

Oktatóanyag célkitűzései

  1. Vegye át a MoviesCSV adathalmaz forrását fentről, és alakítson ki belőle egy új Delta Lake-t. 1. Hozza létre a logikát, hogy 1988-ra frissítse az 1988-ra készült filmek minősítéseit 1-re.
  2. Törölje az összes filmet 1950-ből.
  3. Új filmek beszúrása 2021-ben a filmek 1960-ból való duplikálásával.

Kezdés egy üres adatfolyam-vászonról

  1. Kattintson a forrásátalakításra

  2. Kattintson az adathalmaz új elemére az alsó panelen 1 Új társított szolgáltatás létrehozása az ADLS Gen2-hez

  3. Az adathalmaz típusához válassza a Tagolt szöveg lehetőséget

  4. Nevezze el a "MoviesCSV" adathalmazt

  5. Mutasson a fenti tárolóba feltöltött MoviesCSV-fájlra

  6. Állítsa be vesszőre tagoltra, és foglalja bele az élőfejet az első sorba

  7. Lépjen a forrásvetítés lapra, és kattintson az "Adattípusok észlelése" elemre

  8. Ha már rendelkezik a vetítési készlettel, folytathatja a

  9. Fogadóátalakítás hozzáadása

  10. A Delta egy beágyazott adatkészlettípus. Az ADLS Gen2-tárfiókra kell mutatnia.

    Inline dataset

  11. Válasszon egy mappanevet a tárolóban, ahol az ADF-t szeretné létrehozni a Delta Lake-t

  12. Térjen vissza a folyamattervezőhöz, és kattintson a Hibakeresés gombra a folyamat hibakeresési módban való végrehajtásához, csak ezzel az adatfolyam-tevékenységgel a vásznon. Ez létrehozza az új Delta Lake-t az ADLS Gen2-ben.

  13. A Gyári erőforrások területen kattintson az új > adatfolyamra

  14. Használja ismét a MoviesCSV-t forrásként, és kattintson ismét az "Adattípusok észlelése" elemre

  15. Szűrőátalakítás hozzáadása a forrásátalakításhoz a gráfban

  16. Csak a három évnek megfelelő filmsorok engedélyezése, amelyek 1950-ben, 1988-ben és 1960-ben fognak működni

  17. Frissítse az egyes 1988-filmek minősítéseit 1-re, ha mostantól származtatott oszlopátalakítást ad hozzá a szűrőátalakításhoz

  18. Ugyanebben a származtatott oszlopban hozzon létre filmeket a 2021-es évre egy meglévő évre, és módosítsa az évet 2021-esre. 1960-ra válogatunk.

  19. Így fog kinézni a három származtatott oszlop

    Derived column

  20. Update, insert, delete, and upsert a szabályzatok az alter Row átalakításban jönnek létre. Adjon hozzá egy módosítósor-átalakítást a származtatott oszlop után.

  21. Az alter row policies-nek így kell kinéznie.

    Alter row

  22. Most, hogy beállította a megfelelő szabályzatot az egyes váltakozósor-típusokhoz, ellenőrizze, hogy a megfelelő frissítési szabályok be lettek-e állítva a fogadó transzformációjában

    Sink

  23. Itt a Delta Lake-fogadót használjuk az ADLS Gen2 data lake-hez, és lehetővé tesszük a beszúrásokat, frissítéseket és törléseket. 

  24. Vegye figyelembe, hogy a kulcsoszlopok a Mozgókép elsődleges kulcs oszlopából és az Év oszlopból álló összetett kulcsok. Ennek az az oka, hogy hamis 2021-filmeket hoztunk létre az 1960-os sorok duplikálásával. Ez az egyediség biztosításával elkerüli az ütközéseket a meglévő sorok keresésekor.

Befejezett minta letöltése

Íme egy mintamegoldás a Delta-folyamathoz egy adatfolyammal a tóban lévő sorok frissítéséhez/törléséhez:

További információ az adatfolyam-kifejezés nyelvéről.