Databricks-notebook futtatása a Databricks Notebook-tevékenységgel az Azure Data Factoryben

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ebben az oktatóanyagban a Azure portál használatával hoz létre egy Azure Data Factory folyamatot, amely databricks-jegyzetfüzetet hajt végre a Databricks-feladatfürtön. Emellett Azure Data Factory paramétereket is átad a Databricks-jegyzetfüzetnek a végrehajtás során.

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása

  • Hozzon létre egy csővezetéket, amely a Databricks Notebook Activity-t használja.

  • Egy pipeline futtatásának indítása.

  • A folyamat futásának monitorozása.

Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy felszabadító fiókot.

Feljegyzés

A Databricks Notebook-tevékenység használatáról, beleértve a kódtárak használatát, valamint a bemeneti és kimeneti paraméterek átadását, a Databricks notebooktevékenység dokumentációjában talál részletes információkat.

Előfeltételek

  • Azure Databricks munkaterület. Hozzon létre egy Databricks-munkaterületet, vagy használjon egy már meglévőt. Létrehozhat egy Python jegyzetfüzetet a Azure Databricks munkaterületen. Ezután végrehajtja a jegyzetfüzetet, és paramétereket ad át neki a Azure Data Factory használatával.

Adat-előállító létrehozása

  1. Indítsa el Microsoft Edge vagy Google Chrome webböngészőt. A Data Factory felhasználói felülete jelenleg csak Microsoft Edge és Google Chrome böngészőkben támogatott.

  2. Válassza Erőforrás létrehozása a Azure portál menüjében, majd válassza a Analytics>Data Factory:

    Képernyőkép a Data Factory kiválasztásáról az Új panelen.

  3. A Create Data Factory oldalon, a Alapok fül alatt válassza ki az Azure-előfizetést, amelyben létre szeretné hozni az adatgyárat.

  4. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    1. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    2. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokról a Az erőforráscsoportok Azure erőforrások kezeléséhez című témakörben olvashat.

  5. Régió esetén válassza ki az adat-előállító helyét.

    A lista csak azokat a helyeket jeleníti meg, amelyeket a Data Factory támogat, és ahol a Azure Data Factory metaadatokat tárolja a rendszer. A Data Factory által használt társított adattárak (például Azure Storage és Azure SQL Database) és számítások (például Azure HDInsight) más régiókban is futtathatók.

  6. A Név mezőbe írja be az ADFTutorialDataFactory nevet.

    A Azure data factory nevének globally egyedinek kell lennie. Ha a következő hibaüzenet jelenik meg, módosítsa az adatgyár nevét (például használja a <sajátneve>ADFTutorialDataFactory nevet). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    Képernyőkép a hibaüzenetről, ha egy név nem érhető el.

  7. A Verzió résznél válassza a V2 értéket.

  8. Válassza a Tovább: Git-konfiguráció, majd a Git konfigurálása később jelölőnégyzetet.

  9. Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .

  10. A létrehozás befejezése után válassza az Erőforrás megnyitása lehetőséget a Data Factory lapra való navigáláshoz. Válassza a Open Azure Data Factory Studio csempét a Azure Data Factory felhasználói felület (UI) alkalmazás külön böngészőlapon való elindításához.

    Az Azure Data Factory kezdőlapját bemutató képernyőkép, amelyen az Azure Data Factory Studio megnyitása csempe látható.

Társított szolgáltatások létrehozása

Ebben a szakaszban létrehoz egy Databricks társított szolgáltatást. Ez a kapcsolt szolgáltatás tartalmazza a Databricks klászter kapcsolatadatait.

Azure Databricks társított szolgáltatás létrehozása

  1. A kezdőlapon váltson a bal oldali panel Kezelés lapjára.

    Képernyőkép a Kezelés lapról.

  2. Válassza a Csatolt szolgáltatások lehetőséget a Kapcsolatok területen, majd válassza az + Új lehetőséget.

    Képernyőkép új kapcsolat létrehozásáról.

  3. A New linked service ablakban válassza a Compute>Azure Databricks, majd a Continue lehetőséget.

    Képernyőkép a Databricks társított szolgáltatás megadásáról.

  4. Az Új társított szolgáltatás ablakban hajtsa végre a következő lépéseket:

    1. A Név mezőbe írja be a AzureDatabricks_LinkedService.

    2. Válassza ki a jegyzetfüzet futtatásához megfelelő Databricks-munkaterületet .

    3. A Fürt kiválasztása beállításnál válassza az Új munkafürtöt.

    4. A Databricks-munkaterület URL-címe esetében az adatokat automatikusan fel kell tölteni.

    5. Ha a Hitelesítés típusaAccess Token lehetőséget választja, hozza létre Azure Databricks munkahelyéről. A lépéseket itt találhatja meg. A felügyelt szolgáltatás identitása és Felhasználó által hozzárendelt felügyelt identitás esetében adjon Contributor szerepkört Azure Databricks erőforrás Access vezérlőelem menüjében lévő mindkét identitásnak.

    6. Fürtverzió esetén válassza ki a használni kívánt verziót.

    7. A fürtcsomópont típusa esetén válassza az Általános célú (HDD) kategóriában a Standard_D3_v2 lehetőséget ehhez az oktatóanyaghoz.

    8. A Feldolgozók mezőben adja meg a 2 mennyiséget.

    9. Válassza a Létrehozás lehetőséget.

      A képernyőkép az új Azure Databricks kapcsolt szolgáltatás konfigurációját mutatja.

Folyamat létrehozása

  1. Kattintson a + (plusz) gombra, majd a menüben válassza a Pipeline lehetőséget.

    Képernyőkép egy új folyamat létrehozására szolgáló gombokról.

  2. Hozzon létre egy, a folyamatban használni kívánt paramétert. Később ezt a paramétert átadhatja a Databricks-jegyzetfüzet tevékenységeinek. Az üres folyamatban válassza a Paraméterek lapot, majd válassza a + Új lehetőséget, és nevezze el 'name' néven.

    Képernyőkép egy új paraméter létrehozásáról.

    Képernyőkép a névparaméter létrehozásáról.

  3. A Tevékenységek eszközkészletben bontsa ki a Databricks elemet. Húzza a Jegyzetfüzet tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére.

    Képernyőkép a jegyzetfüzet tervezőfelületre húzásáról.

  4. A Databricks Notebook tevékenységablakának alján található tulajdonságok között hajtsa végre a következő lépéseket:

    1. Váltson a Azure Databricks lapra.

    2. Válassza AzureDatabricks_LinkedService (amelyet az előző eljárás során hozott létre).

    3. Váltson a Settings (Beállítások) lapra.

    4. Tallózással válasszon ki egy Databricks-jegyzetfüzet útvonalat. Hozzunk létre egy jegyzetfüzetet, és adjuk meg itt az útvonalat. A következő néhány lépést követve megkaphatja a jegyzetfüzet útvonalat.

      1. Indítsa el a Azure Databricks-munkaterületet.

      2. Hozzon létre egy Új mappát a munkaterületen, és adja neki az adftutorial nevet.

      3. Hozzon létre egy új jegyzetfüzetet, nevezzük mynotebooknak. Kattintson a jobb gombbal az adftutorial mappára, és válassza a Létrehozás parancsot.

      4. Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Ebben az esetben a jegyzetfüzet elérési útja a /adftutorial /mynotebook.

  5. Váltson vissza a Data Factory felhasználói felületet létrehozó eszközre. Lépjen a Beállítások lapra a Jegyzetfüzet1 tevékenység alatt.

    a). Adjon hozzá egy paramétert a jegyzetfüzet-tevékenységhez. Ugyanazt a paramétert használja, mint amit korábban hozzáadtál a Pipeline-hoz.

    Képernyőkép egy paraméter hozzáadásáról.

    b. Adja meg a paramétert bemenetként, és adja meg az értéket kifejezésként @pipeline().parameters.name.

  6. A folyamat érvényesítéséhez kattintson az Érvényesítés gombra az eszköztáron. Az érvényesítési ablak bezárásához kattintson a Bezárás gombra.

    Képernyőkép a folyamat ellenőrzéséről.

  7. Válassza az Összes közzététele lehetőséget. A Data Factory felhasználói felülete entitásokat (társított szolgáltatásokat és folyamatot) tesz közzé a Azure Data Factory szolgáltatásban.

    Képernyőkép az új data factory-entitások közzétételéről.

Csővezeték futtatásának indítása

A(z) Eszköztáron válassza az Eseményindító hozzáadása opciót, majd válassza a Most indítás lehetőséget.

Képernyőkép az

A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Kattintson az OK gombra.

Képernyőkép a névparaméterek értékének megadásáról.

A folyamat futásának monitorozása

  1. Váltson a Figyelés lapra. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy Databricks feladatfürt létrehozása, amelyen a jegyzetfüzet fut, körülbelül 5–8 percet vesz igénybe.

    Képernyőkép a folyamat figyeléséről.

  2. Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.

  3. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a folyamat1 hivatkozást a Folyamat neve oszlopban.

  4. A Tevékenységfuttatások lapon válassza a Kimenet lehetőséget a Tevékenység neve oszlopban az egyes tevékenységek kimenetének megtekintéséhez, a Databricks-naplókra mutató hivatkozást pedig a Kimenet panelen találja a részletesebb Spark-naplókhoz.

  5. A folyamatfuttatások nézetre való visszaváltáshoz válassza a minden folyamatfuttatás hivatkozását a felső menüben.

Kimenet ellenőrzése

Bejelentkezhet a Azure Databricks munkaterületre, lépjen a Feladatfuttatások elemre, és a Feladat állapota a következő lehet: végrehajtásra vár, fut, vagy leállt.

Válassza ki a feladat nevét , és navigáljon a további részletek megtekintéséhez. Sikeres futtatás esetén ellenőrizheti az átadott paramétereket és a Python jegyzetfüzet kimenetét.

Összegzés

A mintában szereplő folyamat elindít egy Databricks-jegyzetfüzet tevékenységet, és átad neki egy paramétert. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása

  • Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.

  • Egy pipeline futtatásának indítása.

  • A folyamat futásának monitorozása.