Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Ebben az oktatóanyagban a Azure portál használatával hoz létre egy Azure Data Factory folyamatot, amely databricks-jegyzetfüzetet hajt végre a Databricks-feladatfürtön. Emellett Azure Data Factory paramétereket is átad a Databricks-jegyzetfüzetnek a végrehajtás során.
Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:
Adat-előállító létrehozása
Hozzon létre egy csővezetéket, amely a Databricks Notebook Activity-t használja.
Egy pipeline futtatásának indítása.
A folyamat futásának monitorozása.
Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy felszabadító fiókot.
Feljegyzés
A Databricks Notebook-tevékenység használatáról, beleértve a kódtárak használatát, valamint a bemeneti és kimeneti paraméterek átadását, a Databricks notebooktevékenység dokumentációjában talál részletes információkat.
Előfeltételek
- Azure Databricks munkaterület. Hozzon létre egy Databricks-munkaterületet, vagy használjon egy már meglévőt. Létrehozhat egy Python jegyzetfüzetet a Azure Databricks munkaterületen. Ezután végrehajtja a jegyzetfüzetet, és paramétereket ad át neki a Azure Data Factory használatával.
Adat-előállító létrehozása
Indítsa el Microsoft Edge vagy Google Chrome webböngészőt. A Data Factory felhasználói felülete jelenleg csak Microsoft Edge és Google Chrome böngészőkben támogatott.
Válassza Erőforrás létrehozása a Azure portál menüjében, majd válassza a Analytics>Data Factory:
A Create Data Factory oldalon, a Alapok fül alatt válassza ki az Azure-előfizetést, amelyben létre szeretné hozni az adatgyárat.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.
Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.
Az erőforráscsoportokról a Az erőforráscsoportok Azure erőforrások kezeléséhez című témakörben olvashat.
Régió esetén válassza ki az adat-előállító helyét.
A lista csak azokat a helyeket jeleníti meg, amelyeket a Data Factory támogat, és ahol a Azure Data Factory metaadatokat tárolja a rendszer. A Data Factory által használt társított adattárak (például Azure Storage és Azure SQL Database) és számítások (például Azure HDInsight) más régiókban is futtathatók.
A Név mezőbe írja be az ADFTutorialDataFactory nevet.
A Azure data factory nevének globally egyedinek kell lennie. Ha a következő hibaüzenet jelenik meg, módosítsa az adatgyár nevét (például használja a <sajátneve>ADFTutorialDataFactory nevet). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
A Verzió résznél válassza a V2 értéket.
Válassza a Tovább: Git-konfiguráció, majd a Git konfigurálása később jelölőnégyzetet.
Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .
A létrehozás befejezése után válassza az Erőforrás megnyitása lehetőséget a Data Factory lapra való navigáláshoz. Válassza a Open Azure Data Factory Studio csempét a Azure Data Factory felhasználói felület (UI) alkalmazás külön böngészőlapon való elindításához.
Az Azure Data Factory kezdőlapját bemutató képernyőkép, amelyen az Azure Data Factory Studio megnyitása csempe látható.
Társított szolgáltatások létrehozása
Ebben a szakaszban létrehoz egy Databricks társított szolgáltatást. Ez a kapcsolt szolgáltatás tartalmazza a Databricks klászter kapcsolatadatait.
Azure Databricks társított szolgáltatás létrehozása
A kezdőlapon váltson a bal oldali panel Kezelés lapjára.
Válassza a Csatolt szolgáltatások lehetőséget a Kapcsolatok területen, majd válassza az + Új lehetőséget.
A New linked service ablakban válassza a Compute>Azure Databricks, majd a Continue lehetőséget.
Az Új társított szolgáltatás ablakban hajtsa végre a következő lépéseket:
A Név mezőbe írja be a AzureDatabricks_LinkedService.
Válassza ki a jegyzetfüzet futtatásához megfelelő Databricks-munkaterületet .
A Fürt kiválasztása beállításnál válassza az Új munkafürtöt.
A Databricks-munkaterület URL-címe esetében az adatokat automatikusan fel kell tölteni.
Ha a Hitelesítés típusaAccess Token lehetőséget választja, hozza létre Azure Databricks munkahelyéről. A lépéseket itt találhatja meg. A felügyelt szolgáltatás identitása és Felhasználó által hozzárendelt felügyelt identitás esetében adjon Contributor szerepkört Azure Databricks erőforrás Access vezérlőelem menüjében lévő mindkét identitásnak.
Fürtverzió esetén válassza ki a használni kívánt verziót.
A fürtcsomópont típusa esetén válassza az Általános célú (HDD) kategóriában a Standard_D3_v2 lehetőséget ehhez az oktatóanyaghoz.
A Feldolgozók mezőben adja meg a 2 mennyiséget.
Válassza a Létrehozás lehetőséget.
Folyamat létrehozása
Kattintson a + (plusz) gombra, majd a menüben válassza a Pipeline lehetőséget.
Hozzon létre egy, a folyamatban használni kívánt paramétert. Később ezt a paramétert átadhatja a Databricks-jegyzetfüzet tevékenységeinek. Az üres folyamatban válassza a Paraméterek lapot, majd válassza a + Új lehetőséget, és nevezze el 'name' néven.
A Tevékenységek eszközkészletben bontsa ki a Databricks elemet. Húzza a Jegyzetfüzet tevékenységet a Tevékenységek eszközkészletből a folyamat tervezőfelületére.
A Databricks Notebook tevékenységablakának alján található tulajdonságok között hajtsa végre a következő lépéseket:
Váltson a Azure Databricks lapra.
Válassza AzureDatabricks_LinkedService (amelyet az előző eljárás során hozott létre).
Váltson a Settings (Beállítások) lapra.
Tallózással válasszon ki egy Databricks-jegyzetfüzet útvonalat. Hozzunk létre egy jegyzetfüzetet, és adjuk meg itt az útvonalat. A következő néhány lépést követve megkaphatja a jegyzetfüzet útvonalat.
Indítsa el a Azure Databricks-munkaterületet.
Hozzon létre egy Új mappát a munkaterületen, és adja neki az adftutorial nevet.
Hozzon létre egy új jegyzetfüzetet, nevezzük mynotebooknak. Kattintson a jobb gombbal az adftutorial mappára, és válassza a Létrehozás parancsot.
Az újonnan létrehozott „mynotebook” jegyzetfüzetben adja hozzá a következő kódot:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") y = dbutils.widgets.get("input") print ("Param -\'input':") print (y)Ebben az esetben a jegyzetfüzet elérési útja a /adftutorial /mynotebook.
Váltson vissza a Data Factory felhasználói felületet létrehozó eszközre. Lépjen a Beállítások lapra a Jegyzetfüzet1 tevékenység alatt.
a). Adjon hozzá egy paramétert a jegyzetfüzet-tevékenységhez. Ugyanazt a paramétert használja, mint amit korábban hozzáadtál a Pipeline-hoz.
b. Adja meg a paramétert bemenetként, és adja meg az értéket kifejezésként @pipeline().parameters.name.
A folyamat érvényesítéséhez kattintson az Érvényesítés gombra az eszköztáron. Az érvényesítési ablak bezárásához kattintson a Bezárás gombra.
Válassza az Összes közzététele lehetőséget. A Data Factory felhasználói felülete entitásokat (társított szolgáltatásokat és folyamatot) tesz közzé a Azure Data Factory szolgáltatásban.
Csővezeték futtatásának indítása
A(z) Eszköztáron válassza az Eseményindító hozzáadása opciót, majd válassza a Most indítás lehetőséget.
A Folyamatfuttatás párbeszédpanel a névparamétert kéri. Itt paraméterként használja a következőt: /path/filename. Kattintson az OK gombra.
A folyamat futásának monitorozása
Váltson a Figyelés lapra. Ellenőrizze, hogy lát-e folyamatfuttatást. Egy Databricks feladatfürt létrehozása, amelyen a jegyzetfüzet fut, körülbelül 5–8 percet vesz igénybe.
Rendszeres időközönként kattintson a Frissítés gombra a folyamat futási állapotának ellenőrzéséhez.
A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a folyamat1 hivatkozást a Folyamat neve oszlopban.
A Tevékenységfuttatások lapon válassza a Kimenet lehetőséget a Tevékenység neve oszlopban az egyes tevékenységek kimenetének megtekintéséhez, a Databricks-naplókra mutató hivatkozást pedig a Kimenet panelen találja a részletesebb Spark-naplókhoz.
A folyamatfuttatások nézetre való visszaváltáshoz válassza a minden folyamatfuttatás hivatkozását a felső menüben.
Kimenet ellenőrzése
Bejelentkezhet a Azure Databricks munkaterületre, lépjen a Feladatfuttatások elemre, és a Feladat állapota a következő lehet: végrehajtásra vár, fut, vagy leállt.
Válassza ki a feladat nevét , és navigáljon a további részletek megtekintéséhez. Sikeres futtatás esetén ellenőrizheti az átadott paramétereket és a Python jegyzetfüzet kimenetét.
Összegzés
A mintában szereplő folyamat elindít egy Databricks-jegyzetfüzet tevékenységet, és átad neki egy paramétert. Megtanulta végrehajtani az alábbi műveleteket:
Adat-előállító létrehozása
Hozzon létre egy Databricks-jegyzetfüzetek tevékenységeit használó folyamatot.
Egy pipeline futtatásának indítása.
A folyamat futásának monitorozása.