Adatok átalakítása a Delta Lake-ben a leképezési adatfolyamok használatával

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ha még nem ismerkedik a Azure Data Factory, tekintse meg a Bevezetés a Azure Data Factory című témakört.

Ebben az oktatóanyagban az adatfolyam-vásznon olyan adatfolyamokat hozhat létre, amelyek lehetővé teszik az adatok elemzését és átalakítását Azure Data Lake Storage (ADLS) Gen2-ben, és tárolhatja azokat a Delta Lake-ben.

Előfeltételek

  • Azure előfizetés. Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free Azure fiókot.
  • Azure tárolófiók. Az ADLS-tárhelyet forrás és adatfogadó tárolóként használja. Ha nincs tárfiókja, a A Azure tárfiók létrehozása a létrehozás lépéseit ismerteti.

Az oktatóanyagban átalakítandó fájl MoviesDB.csv, amely itt található. A fájl GitHub való lekéréséhez másolja a tartalmat egy tetszőleges szövegszerkesztőbe, hogy helyileg .csv fájlként mentse. A fájl tárfiókba való feltöltéséhez lásd: Blobok feltöltése a Azure portállal. A példák egy "sample-data" nevű tárolóra hivatkoznak.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és megnyitja a Data Factory UX-t egy folyamat létrehozásához az adat-előállítóban.

  1. Nyissa meg Microsoft Edge vagy Google Chrome. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A bal oldali menüben válassza a Erőforrás létrehozása>Integráció>Data Factory lehetőséget.

  3. Az Új adat-előállító lap Név területén adja meg az ADFTutorialDataFactory nevet

  4. Válassza ki azt a Azure subscription, amelyben létre szeretné hozni az adat-előállítót.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a). Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például Azure Storage és SQL Database) és számítások (például Azure HDInsight) más régiókban is lehetnek.

  8. Válassza a Létrehozás lehetőséget.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.

Folyamat létrehozása adatfolyam-tevékenységgel

Ebben a lépésben egy adatfolyam-tevékenységet tartalmazó folyamatot hoz létre.

  1. A kezdőlapon válassza az Orchestrate lehetőséget.

    Képernyőkép az ADF kezdőlapjáról.

  2. A folyamat lapjának Általános fülén adja meg a DeltaLake nevet a folyamat nevéhez.

  3. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika panelt. Húzza a Adatfolyam aktivitást a panelről a pipeline vászonra.

    Képernyőkép, amely azt a csővezeték vászont mutatja, ahová a Adatfolyam tevékenységet lehet elhelyezni.

  4. A folyamatvászon felső sávján kapcsolja be a Adatfolyam hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Adatfolyam fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Adatfolyam fejlesztést terveznek. További információ: Hibakeresési mód.

    Képernyőkép az adatfolyam hibakeresési csúszkájáról.

Átalakítási logika létrehozása az adatfolyam-vásznon

Ebben az oktatóanyagban két adatfolyamot hoz létre. Az első adatfolyam egy egyszerű forrás, amely egy új Delta Lake-t hoz létre a filmek CSV-fájljából. Végül létre kell hoznia az alábbi folyamattervet a Delta Lake adatainak frissítéséhez.

Végső folyamat

Oktatóanyag célkitűzései

  1. Használja a MoviesCSV adatkészlet forrását az előfeltételekből, és alakítsa ki belőle az új Delta Lake-t.
  2. Hozza létre a logikát, hogy az 1988-as filmek értékeléseit "1"-re frissítse.
  3. Törölje az összes filmet 1950-ből.
  4. Új filmek beszúrása 2021-ben a filmek 1960-ból való duplikálásával.

Kezdés egy üres adatfolyam-vászonról

  1. Válassza ki a forrásátalakítást az adatfolyam-szerkesztő ablakának tetején, majd válassza az + Új lehetőséget az Adathalmaz tulajdonság mellett a Forrásbeállítások ablakban:

    Képernyőkép arról, hogy hol adhat hozzá új forrásadatkészletet az adatfolyamhoz.

  2. Válassza a Azure Data Lake Storage Gen2 lehetőséget a Új adathalmaz ablakban, majd válassza a Continue lehetőséget.

    Az Új adatkészlet ablakban mutatja, hogy hol lehet kiválasztani az Azure Data Lake Storage Gen2-t.

  3. Válassza a DelimitedText (Elválasztó szöveg) lehetőséget az adathalmaz típusához, majd válassza ismét a Folytatás lehetőséget.

    Képernyőkép az adathalmaz formátumának kiválasztásáról.

  4. Nevezze el a "MoviesCSV" adathalmazt, és válassza az + Új a Csatolt szolgáltatás területen lehetőséget egy új társított szolgáltatás létrehozásához a fájlhoz.

  5. Adja meg a korábban az Előfeltételek szakaszban létrehozott tárfiók adatait, és keresse meg és válassza ki az ott feltöltött MoviesCSV-fájlt.

  6. A csatolt szolgáltatás hozzáadása után jelölje be az Első sort fejlécként jelölőnégyzet, majd a forrás hozzáadásához kattintson az OK gombra .

  7. Lépjen az adatfolyam-beállítások ablakának Vetítés lapjára, majd válassza a Adattípusok észlelése lehetőséget.

  8. Most jelölje ki a + Forrás után az adatfolyam-szerkesztőablakban, és görgessen le a Cél szakaszban található Fogadó elemre, és adjon hozzá egy új fogadót az adatfolyamhoz.

    Képernyőkép, amely megmutatja, hogyan adhatunk hozzá egy fogadó célállomást az adatfolyamhoz.

  9. A Fogadó lapon a fogadó hozzáadása után megjelenő fogadóbeállításoknál válassza Beágyazott a Fogadó típus számára, majd Delta-t a Beágyazott adathalmaz típushoz. Ezután válassza ki a Azure Data Lake Storage Gen2 a Linked szolgáltatáshoz.

    Képernyőkép egy beágyazott delta-adathalmaz Fogadó részleteiről.

  10. Válasszon egy mappanevet a tárolóban, ahol a szolgáltatás létre szeretné hozni a Delta Lake-t.

  11. Végül lépjen vissza a folyamattervezőhöz, és válassza a Hibakeresés lehetőséget a folyamat hibakeresési módban való végrehajtásához, csak ezzel az adatfolyam-tevékenységgel a vásznon. Ez létrehozza az új Delta Lake-t az Azure Data Lake Storage Gen2-ben.

  12. Most a képernyő bal oldalán található Gyári erőforrások menüben válassza az + új erőforrás hozzáadásához, majd az Adatfolyam lehetőséget.

    Képernyőkép arról, hogy hol hozhat létre új adatfolyamot az adat-előállítóban.

  13. A korábbiakhoz hasonlóan válassza ki ismét a MoviesCSV fájlt forrásként, majd válassza ismét az Adattípusok észlelése lehetőséget a Vetítés lapon.

  14. Ezúttal a forrás létrehozása után jelölje ki az + adatfolyam-szerkesztő ablakát, és adjon hozzá szűrőátalakítást a forráshoz.

    Képernyőkép arról, hogy hol adhat hozzá szűrőfeltételt az adatfolyamhoz.

  15. Adjon hozzá egy feltételt a Szűrőbeállítások ablakban, amely csak az 1950-nek, 1960-nak és 1988-nak megfelelő filmsorokat engedélyezi.

    Képernyőkép arról, hogy hol adhat hozzá szűrőt az adathalmaz Év oszlopához.

  16. Most adjon hozzá egy származtatott oszlopátalakítást az egyes 1988-filmek minősítéseinek frissítéséhez az "1" értékre.

    Képernyőkép a származtatott oszlop kifejezésének megadásáról.

  17. Update, insert, delete, and upsert a szabályzatok az alter Row átalakításban jönnek létre. Adjon hozzá egy módosítósor-átalakítást a származtatott oszlop után.

  18. Az Ön sor módosítási szabályainak így kellene kinéznie.

    Sor módosítása

  19. Most, hogy beállította a megfelelő szabályzatot az egyes módosító sor típusokhoz, ellenőrizze, hogy a megfelelő frissítési szabályok be lettek-e állítva a cél transzformáción.

    Sink (Fogadó)

  20. Itt a Delta Lake-fogadót használjuk a Azure Data Lake Storage Gen2 data lake-hez, és lehetővé tesszük a beszúrásokat, frissítéseket és törléseket.

  21. Vegye figyelembe, hogy a kulcsoszlopok a film elsődleges kulcs oszlopából és az év oszlopból álló összetett kulcsok. Ennek az az oka, hogy hamis 2021-filmeket hoztunk létre az 1960-os sorok duplikálásával. Ez az egyediség biztosításával elkerüli az ütközéseket a meglévő sorok keresésekor.

Befejezett minta letöltése

Íme egy mintamegoldás a Delta-folyamathoz egy adatfolyammal a tóban lévő sorok frissítéséhez/törléséhez.

További információ az adatfolyam-kifejezés nyelvéről.