Gyakorlat – Számítási átalakítások használata az Azure Data Factoryben
Bizonyos esetekben előfordulhat, hogy a kód nélküli átalakítás nem felel meg a követelményeknek. Az Azure Data Factory használatával betöltheti a különböző forrásokból gyűjtött nyers adatokat, és számos számítási erőforrással dolgozhat, például az Azure Databricks, az Azure HDInsight vagy más számítási erőforrások használatával, hogy a követelményeknek megfelelően strukturálja azokat.
ADF és Azure Databricks
Az Azure Databricks és az ADF integrációja például lehetővé teszi a Databricks-jegyzetfüzetek ADF-folyamaton belüli hozzáadását a Databricks elemzési és adatátalakítási képességeinek kihasználásához. Hozzáadhat egy jegyzetfüzetet az adat-munkafolyamaton belül, hogy strukturálja és átalakítsa a különböző forrásokból az ADF-be betöltött nyers adatokat. Miután a Databricks használatával átalakította az adatokat, betöltheti azokat bármely adattárház-forrásba.
Az adatok betöltése és átalakítása az ADF és az Azure Databricks együttes képességeinek használatával alapvetően a következő lépéseket foglalja magában:
Azure Storage-fiók létrehozása – Az első lépés egy Azure Storage-fiók létrehozása a betöltött és átalakított adatok tárolásához.
Azure Data Factory létrehozása – Miután beállította a tárfiókot, létre kell hoznia az Azure Data Factoryt az Azure Portal használatával.
Adat-munkafolyamat-folyamat létrehozása – Miután a tároló és az ADF működik, először hozzon létre egy folyamatot, ahol az első lépés az adatok másolása a forrásból az ADF másolási tevékenységével. A másolási tevékenység lehetővé teszi az adatok másolását különböző helyszíni és felhőbeli forrásokból.
Databricks-jegyzetfüzet hozzáadása a folyamathoz – Miután az adatokat átmásolta az ADF-be, a másolási tevékenység után hozzáadja a Databricks-jegyzetfüzetet a folyamathoz. Ez a jegyzetfüzet szintaxist és kódot tartalmazhat a nyers adatok szükség szerinti átalakításához és tisztításához.
Adatelemzés – Most, hogy az adatok megtisztítva és a szükséges formátumra strukturálva lesznek, a Databricks-jegyzetfüzetek használatával tovább taníthatja vagy elemezheti őket a szükséges eredmények megjelenítéséhez.
Megtanulta, mi az Azure Data Factory, és hogyan segíti az Azure Databricksbe való integráció az adatok betöltésében és átalakításában. Most hozzunk létre egy végpontok közötti mintaadat-munkafolyamatot.
Azure Databricks-jegyzetfüzetek integrálása az Azure Data Factory folyamatával
Az Azure Databricks jegyzetfüzetek Azure Data Factory folyamattal való integrálásához a következő feladatokat kell elvégezni:
Databricks hozzáférési jogkivonat létrehozása.
Databricks-jegyzetfüzet létrehozása
Társított szolgáltatások létrehozása
Hozzon létre egy Databricks Notebook-tevékenységet használó folyamatot.
A Pipeline futtatásának elindítása.
Megjegyzés:
Az alábbi lépések feltételezik, hogy már ki van építve egy Azure Databricks-fürt
1. feladat: Databricks hozzáférési jogkivonat létrehozása.
Az Azure Portalon kattintson az Erőforráscsoportok elemre, majd az awrgstudxx elemre, majd az awdbwsstudxx elemre, ahol az xx a neve monogramja.
Kattintson a Munkaterület indítása elemre
Kattintson a Databricks-munkaterület bal alsó sarkában található felhasználói beállításokra .
Kattintson a Felhasználói beállítások elemre.
Lépjen a Hozzáférési jogkivonatok lapra, és kattintson az Új jogkivonat létrehozása gombra.
Írja be a leírást az "ADF-integrációhoz" megjegyzésbe, és adja meg a 10 napos élettartamot, majd kattintson a Létrehozás gombra
Másolja ki a létrehozott jogkivonatot és tárolja a Jegyzettömbben, majd kattintson a Kész gombra.
2. feladat: Databricks-jegyzetfüzet létrehozása
A képernyő bal oldalán kattintson a Munkaterület ikonra, majd a Munkaterület szó melletti nyílra, és végül kattintson a Létrehozás és a Mappa elemre. Nevezze el a mappát adftutorial névvel, majd kattintson a Mappa létrehozása parancsra. Az adftutorial mappa megjelenik a Munkaterületen.
Kattintson az adftutorial melletti legördülő nyílra, majd a Létrehozás, majd a Jegyzetfüzet parancsra.
A Jegyzetfüzet létrehozása párbeszédpanelen írja be a mynotebook nevét, és győződjön meg arról, hogy a nyelv a Pythont állítja be, majd kattintson a Létrehozás gombra. Megjelenik a mynotebook címmel ellátott jegyzetfüzet/
Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)
Megjegyzés:
hogy a jegyzetfüzet elérési útja /adftutorial/mynotebook
3. feladat: Társított szolgáltatások létrehozása
A Microsoft Edge-ben kattintson a portál lapjára az Azure Portalon, majd térjen vissza az Azure Data Factorybe, és kattintson az Azure Data Factory Studio megnyitására.
A képernyő bal oldalán kattintson a Kezelés ikonra.
A Kapcsolatok területen kattintson a Társított szolgáltatások elemre.
A Csatolt szolgáltatásban a képernyő tetején kattintson az + Új gombra,
Kattintson a Számítás lapra , kattintson az Azure Databricks, majd a Folytatás gombra.
Az Új társított szolgáltatás (Azure Databricks) képernyőn töltse ki az alábbi adatokat, és kattintson a Befejezés gombra
- Név: xx_dbls, ahol az xx az ön kezdőbetűi
- Databricks-munkaterület: awdbwsstudxx, ahol az xx az Ön kezdőbetűi
- Fürt kiválasztása: meglévő használata
- Tartomány/régió: ki kell tölteni
- Hozzáférési jogkivonat: Másolja ki a hozzáférési jogkivonatot a Jegyzettömbből, és illessze be ebbe a mezőbe
- Válasszon a meglévő készletek közül: awdbclstudxx, ahol az xx az Ön monogramja
- Hagyja a többi beállítást az alapértelmezett értékeken
Megjegyzés:
Amikor a befejezésre kattint, a rendszer visszalép a Szerzői és figyelési képernyőre, ahol a xx_dbls létrejött, az előző exercize fájlban létrehozott többi társított szolgáltatással együtt.
4. feladat: Databricks Notebook-tevékenységet használó folyamat létrehozása.
A képernyő bal oldalán kattintson a Szerző ikonra, majd a Folyamat elemre. Ekkor megnyílik egy lap egy folyamattervezővel.
A folyamattervező alján kattintson a paraméterek fülre, majd kattintson az + Új elemre
Paraméter létrehozása a név nevével, sztringtípussal
A Tevékenységek menüben bontsa ki a Databrickset.
Kattintson a Jegyzetfüzet elemre, és húzza a jegyzetfüzetet a vászonra.
Az alsó Jegyzetfüzet1 ablak tulajdonságai között hajtsa végre a következő lépéseket:
Váltson az Azure Databricks lapra .
Válassza ki az előző eljárásban létrehozott xx_dbls .
Váltson a Beállítások lapra , és helyezze a /adftutorial/mynotebookot a Jegyzetfüzet elérési útba.
Bontsa ki az alapparamétereket, majd kattintson az + Új elemre
Paraméter létrehozása a bemenet nevével, @pipeline().parameters.name értékkel
A Jegyzetfüzet1 alkalmazásban kattintson az Ellenőrzés gombra a Mentés sablonként gomb mellett. Amikor megjelenik az ablak a képernyő jobb oldalán, az alábbi üzenettel: "A folyamat ellenőrzése megtörtént. Nem található hiba." Kattintson a >> gombra az ablak bezárásához.
Kattintson az Összes közzététele elemre a társított szolgáltatás és folyamat közzétételéhez.
Megjegyzés:
Megjelenik egy üzenet, amely azt jeleníti meg, hogy az üzembe helyezés sikeres.
5. feladat: Csővezeték futtatásának aktiválása
A Jegyzetfüzet1 alkalmazásban kattintson az Indító hozzáadása elemre, majd a Hibakeresés gomb melletti Azonnali indítás gombra.
A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt a /path/filename paramétert használhatja. Kattintson a Finish (Befejezés) gombra. Piros kör jelenik meg a jegyzetfüzet1 tevékenység felett a vásznon.
6. feladat: A folyamat figyelése
A képernyő bal oldalán kattintson a Monitor fülre. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy Databricks feladatfürt létrehozása, amelyen a jegyzetfüzet fut, körülbelül 5–8 percet vesz igénybe.
A folyamatfuttatás állapotának ellenőrzéséhez válassza a Rendszeres frissítés lehetőséget.
A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a Tevékenységfuttatások megtekintése lehetőséget a Műveletek oszlopban.
7. feladat: A kimenet ellenőrzése
A Microsoft Edge-ben kattintson a(z) mynotebook - Databricks fülre
Az Azure Databricks-munkaterületen kattintson a fürtökre , és a feladat állapota függőben lévő végrehajtásként, futtatásként vagy leálltként jelenik meg.
Kattintson az awdbclstudxx fürtre, majd az Eseménynaplóra a tevékenységek megtekintéséhez.
Megjegyzés:
Látnia kell egy Starting eseménytípust a pipeline futtatásának megkezdési időpontjával.