Megosztás a következőn keresztül:


Adatok átalakítása Azure Databricks-tevékenység futtatásával

A Data Factory for Microsoft Fabric Azure Databricks-tevékenysége lehetővé teszi a következő Azure Databricks-feladatok vezénylésére:

  • Jegyzetfüzet
  • Korsó
  • Python

Ez a cikk részletes útmutatót tartalmaz, amely leírja, hogyan hozhat létre Azure Databricks-tevékenységet a Data Factory felületével.

Előfeltételek

Első lépésként el kell végeznie a következő előfeltételeket:

Azure Databricks-tevékenység konfigurálása

Ha Azure Databricks-tevékenységet szeretne használni egy folyamatban, hajtsa végre a következő lépéseket:

Kapcsolat konfigurálása

  1. Hozzon létre egy új folyamatot a munkaterületen.

  2. Kattintson a folyamattevékenység hozzáadására, és keressen rá az Azure Databricksre.

    Képernyőkép a Fabric Data-folyamatok kezdőlapjáról és az Azure Databricks-tevékenység kiemeléséről.

  3. Másik lehetőségként megkeresheti az Azure Databrickset a folyamattevékenységek panelen, és kiválaszthatja, hogy hozzáadja a folyamatvászonhoz.

    Képernyőkép a Háló felhasználói felületéről a Tevékenységek panellel és az Azure Databricks-tevékenység kiemelésével.

  4. Válassza ki az új Azure Databricks-tevékenységet a vásznon, ha még nincs kijelölve.

    Képernyőkép az Azure Databricks-tevékenység Általános beállítások lapján.

Az Általános beállítások lap konfigurálásához tekintse meg az Általános beállításokat ismertető útmutatót.

Fürtök konfigurálása

  1. Válassza a Fürt fület. Ezután választhat egy meglévőt, vagy létrehozhat egy új Azure Databricks-kapcsolatot, majd kiválaszthat egy új feladatfürtöt, egy meglévő interaktív fürtöt vagy egy meglévő példánykészletet.

  2. Attól függően, hogy mit választ a fürthöz, töltse ki a megfelelő mezőket a bemutatott módon.

    • Az új feladatfürt és a meglévő példánykészlet alatt konfigurálhatja a feldolgozók számát, és engedélyezheti a kihasználatlan példányokat.
  3. Emellett további fürtbeállításokat is megadhat, például fürtszabályzatot, Spark-konfigurációt, Spark-környezeti változókat és egyéni címkéket a fürthöz, amelyhez csatlakozik. A databricks init szkriptek és a fürtnapló célútvonala a további fürtbeállítások között is hozzáadható.

    Feljegyzés

    Az Azure Data Factory Azure Databricks társított szolgáltatásban támogatott összes fejlett fürttulajdonság és dinamikus kifejezés mostantól a Microsoft Fabric Azure Databricks-tevékenységében is támogatott a felhasználói felület "További fürtkonfiguráció" szakaszában. Mivel ezek a tulajdonságok mostantól bekerülnek a tevékenység felhasználói felületébe; Ezek egyszerűen használhatók egy kifejezéssel (dinamikus tartalommal) anélkül, hogy az Azure Data Factory Azure Databricks társított szolgáltatásában speciális JSON-specifikációra lenne szükség.

    Képernyőkép az Azure Databricks-tevékenység Fürtbeállítások lapján.

  4. Az Azure Databricks-tevékenység mostantól a fürtszabályzat és a Unity Katalógus támogatását is támogatja.

    • A speciális beállítások között kiválaszthatja a fürtszabályzatot , így megadhatja, hogy mely fürtkonfigurációk engedélyezettek.
    • Emellett a speciális beállítások között konfigurálhatja a Unity Katalógus hozzáférési módját a fokozott biztonság érdekében. A rendelkezésre álló hozzáférési módtípusok a következők:
      • Egyfelhasználós hozzáférési mód Ez a mód olyan helyzetekhez készült, ahol az egyes fürtöket egyetlen felhasználó használja. Biztosítja, hogy a fürt adathozzáférése csak az adott felhasználóra korlátozódjon. Ez a mód olyan feladatokhoz hasznos, amelyek elkülönítést és egyéni adatkezelést igényelnek.
      • Megosztott hozzáférési mód Ebben a módban több felhasználó is elérheti ugyanazt a fürtöt. Egyesíti a Unity Catalog adatszabályozását az örökölt táblahozzáférés-vezérlési listákkal (ACL-ekkel). Ez a mód lehetővé teszi az együttműködésen alapuló adathozzáférést a szabályozási és biztonsági protokollok fenntartása mellett. Azonban bizonyos korlátozásokkal rendelkezik, például nem támogatja a Databricks Runtime ML-t, a Spark-küldési feladatokat, valamint bizonyos Spark API-kat és UDF-eket.
      • Nincs hozzáférési mód Ez a mód letiltja a Unity-katalógussal való interakciót, ami azt jelenti, hogy a fürtök nem férnek hozzá a Unity Catalog által kezelt adatokhoz. Ez a mód olyan számítási feladatokhoz hasznos, amelyek nem igénylik a Unity Catalog szabályozási funkcióit.

    Képernyőkép az Azure Databricks-tevékenység Fürtbeállítások lapján található szabályzatazonosítóról és Unity Catalog-támogatásról.

Beállítások konfigurálása

A Beállítások lapra kattintva 3 lehetőség közül választhat, hogy melyik Azure Databricks-típust szeretné vezényelni.

Képernyőkép az Azure Databricks-tevékenység Beállítások lapján.

A jegyzetfüzettípus vezénylése az Azure Databricks-tevékenységben:

  1. A Beállítások lapon a Jegyzetfüzet választógombot választva futtathat jegyzetfüzetet. Meg kell adnia az Azure Databricksen végrehajtandó jegyzetfüzet elérési útját, a jegyzetfüzetnek átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Képernyőkép az Azure Databricks-tevékenység jegyzetfüzettípusáról.

A Jar-típus vezénylése az Azure Databricks-tevékenységben:

  1. A Beállítások lapon a Jar választógombot választva futtathatja a Jart. Meg kell adnia az Azure Databricksen végrehajtandó osztálynevet, a Jarnak átadandó választható alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Képernyőkép az Azure Databricks-tevékenység Jar típusáról.

A Python-típus vezénylése az Azure Databricks-tevékenységben:

  1. A Beállítások lapon a Python-választógombot választva futtathat Egy Python-fájlt. Meg kell adnia az Azure Databricksben a végrehajtandó Python-fájl elérési útját, az opcionális alapparamétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

    Képernyőkép az Azure Databricks-tevékenység Python-típusáról.

Az Azure Databricks-tevékenységhez támogatott kódtárak

A fenti Databricks-tevékenységdefinícióban megadhatja a következő kódtártípusokat: jar, egg, whl, maven, pypi, cran.

További információkért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .

Paraméterek átadása az Azure Databricks-tevékenység és -folyamatok között

A databricks-tevékenység BaseParameters tulajdonságával paramétereket adhat át a jegyzetfüzeteknek.

Bizonyos esetekben előfordulhat, hogy vissza kell adnia bizonyos értékeket a jegyzetfüzetből a szolgáltatásnak, amelyek felhasználhatók a szolgáltatás vezérlési folyamatához (feltételes ellenőrzésekhez), vagy az alsóbb rétegbeli tevékenységek használhatják fel (a méretkorlát 2 MB).

  1. A jegyzetfüzetben például meghívhatja a dbutils.notebook.exit("returnValue") nevet, és a megfelelő "returnValue" visszakerül a szolgáltatásba.

  2. A szolgáltatás kimenetét használhatja olyan kifejezésekkel, mint a @{activity('databricks activity name').output.runOutput}.

Képernyőkép az alapparaméterek Azure Databricks-tevékenységben való átadásáról.

A folyamat mentése és futtatása vagy ütemezése

Miután konfigurálta a folyamathoz szükséges egyéb tevékenységeket, váltson a Kezdőlap lapra a folyamatszerkesztő tetején, és válassza a Mentés gombot a folyamat mentéséhez. A Futtatás lehetőséget választva közvetlenül futtathatja, vagy ütemezheti. Itt megtekintheti a futtatási előzményeket, vagy konfigurálhat más beállításokat is.

Képernyőkép a folyamat mentéséről és futtatásáról.

Folyamatfuttatások monitorozása