Adatok átalakítása Azure Databricks-tevékenység futtatásával
A Data Factory for Microsoft Fabric Azure Databricks-tevékenysége lehetővé teszi a következő Azure Databricks-feladatok vezénylésére:
- Jegyzetfüzet
- Korsó
- Python
Ez a cikk részletes útmutatót tartalmaz, amely leírja, hogyan hozhat létre Azure Databricks-tevékenységet a Data Factory felületével.
Előfeltételek
Első lépésként el kell végeznie a következő előfeltételeket:
- Aktív előfizetéssel rendelkező bérlői fiók. Fiók ingyenes létrehozása.
- Létrejön egy munkaterület.
Azure Databricks-tevékenység konfigurálása
Ha Azure Databricks-tevékenységet szeretne használni egy folyamatban, hajtsa végre a következő lépéseket:
Kapcsolat konfigurálása
Hozzon létre egy új folyamatot a munkaterületen.
Kattintson a folyamattevékenység hozzáadására, és keressen rá az Azure Databricksre.
Másik lehetőségként megkeresheti az Azure Databrickset a folyamattevékenységek panelen, és kiválaszthatja, hogy hozzáadja a folyamatvászonhoz.
Válassza ki az új Azure Databricks-tevékenységet a vásznon, ha még nincs kijelölve.
Az Általános beállítások lap konfigurálásához tekintse meg az Általános beállításokat ismertető útmutatót.
Fürtök konfigurálása
Válassza a Fürt fület. Ezután választhat egy meglévőt, vagy létrehozhat egy új Azure Databricks-kapcsolatot, majd kiválaszthat egy új feladatfürtöt, egy meglévő interaktív fürtöt vagy egy meglévő példánykészletet.
Attól függően, hogy mit választ a fürthöz, töltse ki a megfelelő mezőket a bemutatott módon.
- Az új feladatfürt és a meglévő példánykészlet alatt konfigurálhatja a feldolgozók számát, és engedélyezheti a kihasználatlan példányokat.
Emellett további fürtbeállításokat is megadhat, például fürtszabályzatot, Spark-konfigurációt, Spark-környezeti változókat és egyéni címkéket a fürthöz, amelyhez csatlakozik. A databricks init szkriptek és a fürtnapló célútvonala a további fürtbeállítások között is hozzáadható.
Feljegyzés
Az Azure Data Factory Azure Databricks társított szolgáltatásban támogatott összes fejlett fürttulajdonság és dinamikus kifejezés mostantól a Microsoft Fabric Azure Databricks-tevékenységében is támogatott a felhasználói felület "További fürtkonfiguráció" szakaszában. Mivel ezek a tulajdonságok mostantól bekerülnek a tevékenység felhasználói felületébe; Ezek egyszerűen használhatók egy kifejezéssel (dinamikus tartalommal) anélkül, hogy az Azure Data Factory Azure Databricks társított szolgáltatásában speciális JSON-specifikációra lenne szükség.
Az Azure Databricks-tevékenység mostantól a fürtszabályzat és a Unity Katalógus támogatását is támogatja.
- A speciális beállítások között kiválaszthatja a fürtszabályzatot , így megadhatja, hogy mely fürtkonfigurációk engedélyezettek.
- Emellett a speciális beállítások között konfigurálhatja a Unity Katalógus hozzáférési módját a fokozott biztonság érdekében. A rendelkezésre álló hozzáférési módtípusok a következők:
- Egyfelhasználós hozzáférési mód Ez a mód olyan helyzetekhez készült, ahol az egyes fürtöket egyetlen felhasználó használja. Biztosítja, hogy a fürt adathozzáférése csak az adott felhasználóra korlátozódjon. Ez a mód olyan feladatokhoz hasznos, amelyek elkülönítést és egyéni adatkezelést igényelnek.
- Megosztott hozzáférési mód Ebben a módban több felhasználó is elérheti ugyanazt a fürtöt. Egyesíti a Unity Catalog adatszabályozását az örökölt táblahozzáférés-vezérlési listákkal (ACL-ekkel). Ez a mód lehetővé teszi az együttműködésen alapuló adathozzáférést a szabályozási és biztonsági protokollok fenntartása mellett. Azonban bizonyos korlátozásokkal rendelkezik, például nem támogatja a Databricks Runtime ML-t, a Spark-küldési feladatokat, valamint bizonyos Spark API-kat és UDF-eket.
- Nincs hozzáférési mód Ez a mód letiltja a Unity-katalógussal való interakciót, ami azt jelenti, hogy a fürtök nem férnek hozzá a Unity Catalog által kezelt adatokhoz. Ez a mód olyan számítási feladatokhoz hasznos, amelyek nem igénylik a Unity Catalog szabályozási funkcióit.
Beállítások konfigurálása
A Beállítások lapra kattintva 3 lehetőség közül választhat, hogy melyik Azure Databricks-típust szeretné vezényelni.
A jegyzetfüzettípus vezénylése az Azure Databricks-tevékenységben:
A Beállítások lapon a Jegyzetfüzet választógombot választva futtathat jegyzetfüzetet. Meg kell adnia az Azure Databricksen végrehajtandó jegyzetfüzet elérési útját, a jegyzetfüzetnek átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.
A Jar-típus vezénylése az Azure Databricks-tevékenységben:
A Beállítások lapon a Jar választógombot választva futtathatja a Jart. Meg kell adnia az Azure Databricksen végrehajtandó osztálynevet, a Jarnak átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.
A Python-típus vezénylése az Azure Databricks-tevékenységben:
A Beállítások lapon a Python-választógombot választva futtathat Egy Python-fájlt. Meg kell adnia az Azure Databricksben a végrehajtandó Python-fájl elérési útját, az opcionális alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.
Az Azure Databricks-tevékenységhez támogatott kódtárak
A fenti Databricks-tevékenységdefinícióban megadhatja a következő kódtártípusokat: jar, egg, whl, maven, pypi, cran.
További információkért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .
Paraméterek átadása az Azure Databricks-tevékenység és -folyamatok között
A databricks-tevékenység BaseParameters tulajdonságával paramétereket adhat át a jegyzetfüzeteknek.
Bizonyos esetekben előfordulhat, hogy vissza kell adnia bizonyos értékeket a jegyzetfüzetből a szolgáltatásnak, amelyek felhasználhatók a szolgáltatás vezérlési folyamatához (feltételes ellenőrzésekhez), vagy az alsóbb rétegbeli tevékenységek használhatják fel (a méretkorlát 2 MB).
A jegyzetfüzetben például meghívhatja a dbutils.notebook.exit("returnValue") nevet, és a megfelelő "returnValue" visszakerül a szolgáltatásba.
A szolgáltatás kimenetét használhatja olyan kifejezésekkel, mint a
@{activity('databricks activity name').output.runOutput}
.
A folyamat mentése és futtatása vagy ütemezése
Miután konfigurálta a folyamathoz szükséges egyéb tevékenységeket, váltson a Kezdőlap lapra a folyamatszerkesztő tetején, és válassza a Mentés gombot a folyamat mentéséhez. A Futtatás lehetőséget választva közvetlenül futtathatja, vagy ütemezheti. Itt megtekintheti a futtatási előzményeket, vagy konfigurálhat más beállításokat is.