Gyakorlat – Számítási átalakítások használata az Azure Data Factoryben

Befejeződött

Bizonyos esetekben előfordulhat, hogy a kód nélküli átalakítás nem felel meg a követelményeknek. Az Azure Data Factory használatával betöltheti a különböző forrásokból gyűjtött nyers adatokat, és számos számítási erőforrással dolgozhat, például az Azure Databricks, az Azure HDInsight vagy más számítási erőforrások használatával, hogy a követelményeknek megfelelően strukturálja azokat.

ADF és Azure Databricks

Az Azure Databricks és az ADF integrációja például lehetővé teszi a Databricks-jegyzetfüzetek ADF-folyamaton belüli hozzáadását a Databricks elemzési és adatátalakítási képességeinek kihasználásához. Hozzáadhat egy jegyzetfüzetet az adat-munkafolyamaton belül, hogy strukturálja és átalakítsa a különböző forrásokból az ADF-be betöltött nyers adatokat. Miután a Databricks használatával átalakította az adatokat, betöltheti azokat bármely adattárház-forrásba.

Az adatok betöltése és átalakítása az ADF és az Azure Databricks együttes képességeinek használatával alapvetően a következő lépéseket foglalja magában:

  1. Azure Storage-fiók létrehozása – Az első lépés egy Azure Storage-fiók létrehozása a betöltött és átalakított adatok tárolásához.

  2. Azure Data Factory létrehozása – Miután beállította a tárfiókot, létre kell hoznia az Azure Data Factoryt az Azure Portal használatával.

  3. Adat-munkafolyamat-folyamat létrehozása – Miután a tároló és az ADF működik, először hozzon létre egy folyamatot, ahol az első lépés az adatok másolása a forrásból az ADF másolási tevékenységével. A másolási tevékenység lehetővé teszi az adatok másolását különböző helyszíni és felhőbeli forrásokból.

  4. Databricks-jegyzetfüzet hozzáadása a folyamathoz – Miután az adatokat átmásolta az ADF-be, a másolási tevékenység után hozzáadja a Databricks-jegyzetfüzetet a folyamathoz. Ez a jegyzetfüzet szintaxist és kódot tartalmazhat a nyers adatok szükség szerinti átalakításához és tisztításához.

  5. Adatelemzés – Most, hogy az adatok megtisztítva és a szükséges formátumra strukturálva lesznek, a Databricks-jegyzetfüzetek használatával tovább taníthatja vagy elemezheti őket a szükséges eredmények megjelenítéséhez.

Megtanulta, mi az Azure Data Factory, és hogyan segíti az Azure Databricksbe való integráció az adatok betöltésében és átalakításában. Most hozzunk létre egy végpontok közötti mintaadat-munkafolyamatot.

Azure Databricks-jegyzetfüzetek integrálása az Azure Data Factory folyamatával

Az Azure Databricks jegyzetfüzetek Azure Data Factory folyamattal való integrálásához a következő feladatokat kell elvégezni:

  1. Databricks hozzáférési jogkivonat létrehozása.

  2. Databricks-jegyzetfüzet létrehozása

  3. Társított szolgáltatások létrehozása

  4. Hozzon létre egy Databricks Notebook-tevékenységet használó folyamatot.

  5. A Pipeline futtatásának elindítása.

    Megjegyzés:

    Az alábbi lépések feltételezik, hogy már ki van építve egy Azure Databricks-fürt

1. feladat: Databricks hozzáférési jogkivonat létrehozása.

  1. Az Azure Portalon kattintson az Erőforráscsoportok elemre, majd az awrgstudxx elemre, majd az awdbwsstudxx elemre, ahol az xx a neve monogramja.

  2. Kattintson a Munkaterület indítása elemre

  3. Kattintson a Databricks-munkaterület bal alsó sarkában található felhasználói beállításokra .

  4. Kattintson a Felhasználói beállítások elemre.

  5. Lépjen a Hozzáférési jogkivonatok lapra, és kattintson az Új jogkivonat létrehozása gombra.

  6. Írja be a leírást az "ADF-integrációhoz" megjegyzésbe, és adja meg a 10 napos élettartamot, majd kattintson a Létrehozás gombra

  7. Másolja ki a létrehozott jogkivonatot és tárolja a Jegyzettömbben, majd kattintson a Kész gombra.

2. feladat: Databricks-jegyzetfüzet létrehozása

  1. A képernyő bal oldalán kattintson a Munkaterület ikonra, majd a Munkaterület szó melletti nyílra, és végül kattintson a Létrehozás és a Mappa elemre. Nevezze el a mappát adftutorial névvel, majd kattintson a Mappa létrehozása parancsra. Az adftutorial mappa megjelenik a Munkaterületen.

  2. Kattintson az adftutorial melletti legördülő nyílra, majd a Létrehozás, majd a Jegyzetfüzet parancsra.

  3. A Jegyzetfüzet létrehozása párbeszédpanelen írja be a mynotebook nevét, és győződjön meg arról, hogy a nyelv a Pythont állítja be, majd kattintson a Létrehozás gombra. Megjelenik a mynotebook címmel ellátott jegyzetfüzet/

  4. Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Megjegyzés:

    hogy a jegyzetfüzet elérési útja /adftutorial/mynotebook

3. feladat: Társított szolgáltatások létrehozása

  1. A Microsoft Edge-ben kattintson a portál lapjára az Azure Portalon, majd térjen vissza az Azure Data Factorybe, és kattintson az Azure Data Factory Studio megnyitására.

  2. A képernyő bal oldalán kattintson a Kezelés ikonra.

  3. A Kapcsolatok területen kattintson a Társított szolgáltatások elemre.

  4. A Csatolt szolgáltatásban a képernyő tetején kattintson az + Új gombra,

  5. Kattintson a Számítás lapra , kattintson az Azure Databricks, majd a Folytatás gombra.

  6. Az Új társított szolgáltatás (Azure Databricks) képernyőn töltse ki az alábbi adatokat, és kattintson a Befejezés gombra

    • Név: xx_dbls, ahol az xx az ön kezdőbetűi
    • Databricks-munkaterület: awdbwsstudxx, ahol az xx az Ön kezdőbetűi
    • Fürt kiválasztása: meglévő használata
    • Tartomány/régió: ki kell tölteni
    • Hozzáférési jogkivonat: Másolja ki a hozzáférési jogkivonatot a Jegyzettömbből, és illessze be ebbe a mezőbe
    • Válasszon a meglévő készletek közül: awdbclstudxx, ahol az xx az Ön monogramja
    • Hagyja a többi beállítást az alapértelmezett értékeken

    Megjegyzés:

    Amikor a befejezésre kattint, a rendszer visszalép a Szerzői és figyelési képernyőre, ahol a xx_dbls létrejött, az előző exercize fájlban létrehozott többi társított szolgáltatással együtt.

4. feladat: Databricks Notebook-tevékenységet használó folyamat létrehozása.

  1. A képernyő bal oldalán kattintson a Szerző ikonra, majd a Folyamat elemre. Ekkor megnyílik egy lap egy folyamattervezővel.

  2. A folyamattervező alján kattintson a paraméterek fülre, majd kattintson az + Új elemre

  3. Paraméter létrehozása a név nevével, sztringtípussal

  4. A Tevékenységek menüben bontsa ki a Databrickset.

  5. Kattintson a Jegyzetfüzet elemre, és húzza a jegyzetfüzetet a vászonra.

  6. Az alsó Jegyzetfüzet1 ablak tulajdonságai között hajtsa végre a következő lépéseket:

    • Váltson az Azure Databricks lapra .

    • Válassza ki az előző eljárásban létrehozott xx_dbls .

    • Váltson a Beállítások lapra , és helyezze a /adftutorial/mynotebookot a Jegyzetfüzet elérési útba.

    • Bontsa ki az alapparamétereket, majd kattintson az + Új elemre

    • Paraméter létrehozása a bemenet nevével, @pipeline().parameters.name értékkel

  7. A Jegyzetfüzet1 alkalmazásban kattintson az Ellenőrzés gombra a Mentés sablonként gomb mellett. Amikor megjelenik az ablak a képernyő jobb oldalán, az alábbi üzenettel: "A folyamat ellenőrzése megtörtént. Nem található hiba." Kattintson a >> gombra az ablak bezárásához.

  8. Kattintson az Összes közzététele elemre a társított szolgáltatás és folyamat közzétételéhez.

    Megjegyzés:

    Megjelenik egy üzenet, amely azt jeleníti meg, hogy az üzembe helyezés sikeres.

5. feladat: Csővezeték futtatásának aktiválása

  1. A Jegyzetfüzet1 alkalmazásban kattintson az Indító hozzáadása elemre, majd a Hibakeresés gomb melletti Azonnali indítás gombra.

  2. A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt a /path/filename paramétert használhatja. Kattintson a Finish (Befejezés) gombra. Piros kör jelenik meg a jegyzetfüzet1 tevékenység felett a vásznon.

6. feladat: A folyamat figyelése

  1. A képernyő bal oldalán kattintson a Monitor fülre. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy Databricks feladatfürt létrehozása, amelyen a jegyzetfüzet fut, körülbelül 5–8 percet vesz igénybe.

  2. A folyamatfuttatás állapotának ellenőrzéséhez válassza a Rendszeres frissítés lehetőséget.

  3. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a Tevékenységfuttatások megtekintése lehetőséget a Műveletek oszlopban.

7. feladat: A kimenet ellenőrzése

  1. A Microsoft Edge-ben kattintson a(z) mynotebook - Databricks fülre

  2. Az Azure Databricks-munkaterületen kattintson a fürtökre , és a feladat állapota függőben lévő végrehajtásként, futtatásként vagy leálltként jelenik meg.

  3. Kattintson az awdbclstudxx fürtre, majd az Eseménynaplóra a tevékenységek megtekintéséhez.

    Megjegyzés:

    Látnia kell egy Starting eseménytípust a pipeline futtatásának megkezdési időpontjával.