Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Fontos
Ez a funkció nyilvános előzetes verzióban van.
Ez a cikk azt ismerteti, hogy a Lakeflow Pipelines Editor használatával fejleszthet és hibakeresést végezhet az ETL-folyamatok (kinyerés, átalakítás és betöltés) során a Lakeflow Spark Deklaratív folyamatokban (SDP).
Megjegyzés:
A Lakeflow Pipelines-szerkesztő alapértelmezés szerint engedélyezve van. Kikapcsolhatja, vagy újra engedélyezheti, ha ki van kapcsolva. Lásd Lakeflow Pipelines Editor engedélyezése és a frissített figyelés.
Mi a Lakeflow Pipelines-szerkesztő?
A Lakeflow Pipelines-szerkesztő egy IDE, amely folyamatok fejlesztésére készült. Egyetlen felületen egyesíti az összes folyamatfejlesztési feladatot, támogatja a kódelső munkafolyamatokat, a mappaalapú kódszervezést, a szelektív végrehajtást, az adatelőnézeteket és a folyamatgráfokat. Az Azure Databricks platformmal integrálva lehetővé teszi a verziókövetést, a kódellenőrzéseket és az ütemezett futtatásokat is.
A Lakeflow Pipelines-szerkesztő felhasználói felületének áttekintése
Az alábbi képen a Lakeflow Pipelines Editor látható:
A képen a következő funkciók láthatók:
- Folyamatobjektum böngészője: Folyamategységek létrehozása, törlése, átnevezése és rendszerezése. A csővezeték-konfiguráció billentyűparancsokat is tartalmaz.
- Többfájlos kódszerkesztő lapokkal: Egy folyamathoz kapcsolódó több kódfájlon való munka.
- Folyamatspecifikus eszköztár: Tartalmazza a folyamatkonfigurációs beállításokat, és folyamatszintű futtatási műveletekkel rendelkezik.
- Interaktív irányított aciklikus gráf (DAG): Áttekintést kaphat a táblákról, megnyithatja az adatelőnézetek alsó sávját, és egyéb, táblázattal kapcsolatos műveleteket hajthat végre.
- Adatelőnézet: A streamelőtáblák és a materializált nézetek adatainak vizsgálata.
- Táblaszintű végrehajtási elemzések: Végrehajtási elemzések lekérése egy folyamat összes táblájához vagy egyetlen táblájához. Az elemzések a legújabb csővezeték futtatásra vonatkoznak.
- Problémák panel: Ez a funkció összefoglalja a folyamat összes fájljában előforduló hibákat, és megadhatja, hogy hol történt a hiba egy adott fájlban. Kiegészíti a kód által rögzített hibajelzőket.
- Szelektív végrehajtás: A kódszerkesztő olyan funkciókkal rendelkezik, amelyekkel lépésről lépésre fejleszthet, például csak az aktuális fájl tábláinak frissítésére a Fájl futtatása művelet vagy egyetlen tábla használatával.
- Alapértelmezett folyamatmappa-struktúra: Az új folyamatok tartalmazzák az előre definiált mappastruktúrát és a folyamat kiindulópontjaként használható mintakódot.
- Egyszerűsített folyamatlétrehozás: Adjon meg egy nevet, katalógust és sémát, ahol a táblákat alapértelmezés szerint létre kell hozni, és a folyamat az alapértelmezett beállításokkal jön létre. Később módosíthatja a beállításokat a folyamatszerkesztő eszköztárán.
Új ETL-folyamat létrehozása
Ha új ETL-folyamatot szeretne létrehozni a Lakeflow Pipelines-szerkesztővel, kövesse az alábbi lépéseket:
Az oldalsáv tetején kattintson a
Új , majd válassza a
ETL-folyamat.
A tetején egyedi nevet adhat a csővezetéknek.
A név alatt láthatja a kiválasztott alapértelmezett katalógust és sémát. Módosítsa ezeket, hogy a futószalag különböző alapértelmezett beállításokat kapjon.
Az alapértelmezett katalógus és az alapértelmezett séma az, ahol az adathalmazok olvasása vagy írása akkor történik, ha nem minősíti az adathalmazokat katalógussal vagy sémával a kódban. További információkért tekintse meg az Azure Databricks adatbázis-objektumait .
Válassza ki a kívánt lehetőséget egy folyamat létrehozásához az alábbi lehetőségek egyikének kiválasztásával:
- Kezdje az SQL mintakódjával egy új folyamat- és mappastruktúra létrehozásához, beleértve a mintakódot az SQL-ben.
- Kezdje a Python mintakódjával egy új folyamat- és mappastruktúra létrehozásához, beleértve a Pythonban lévő mintakódot is.
- Kezdje egyetlen átalakítással egy új folyamat- és mappastruktúra létrehozásához egy új üres kódfájllal.
- Meglévő objektumok hozzáadásával létrehozhat egy olyan folyamatot, amelyet a munkaterületen lévő meglévő kódfájlokkal társíthat.
Sql- és Python-forráskódfájlokat is használhat az ETL-folyamatban. Új folyamat létrehozásakor és a mintakód nyelvének kiválasztásakor a nyelv alapértelmezés szerint csak a folyamathoz tartozó mintakódhoz tartozik.
Amikor kiválasztja, Önt átirányítják az újonnan létrehozott folyamatra.
Az ETL-folyamat a következő alapértelmezett beállításokkal jön létre:
- Unity-katalógus
- Aktuális csatorna
- Kiszolgáló nélküli számítástechnika
- A fejlesztési mód ki van kapcsolva. Ez a beállítás csak a csővezeték ütemezett futásait érinti. A folyamat futtatása a szerkesztőből mindig alapértelmezetten fejlesztési módot használ.
Ezeket a beállításokat a folyamat eszköztárán módosíthatja.
Másik lehetőségként létrehozhat egy ETL-folyamatot a munkaterület böngészőből:
- Kattintson a munkaterületre a bal oldali panelen.
- Jelöljön ki egy mappát, beleértve a Git-mappákat is.
- Kattintson a jobb felső sarokban a Létrehozás gombra, majd az ETL-adatfolyamra.
ETL-folyamatot a feladatok és a folyamatok oldaláról is létrehozhat:
- A munkaterületen kattintson a
Feladatok > Folyamatok az oldalsávon.
- Az Új csoportban kattintson az ETL-folyamat elemre.
Meglévő ETL-folyamat megnyitása
Egy meglévő ETL-folyamat többféleképpen is megnyitható a Lakeflow Pipelines-szerkesztőben:
Nyissa meg a folyamathoz társított bármely forrásfájlt:
- Kattintson az oldalpanel Munkaterület gombjára .
- Lépjen egy mappába, amely a csővezeték forráskódfájljait tartalmazza.
- A forráskódfájlra kattintva nyissa meg a folyamatot a szerkesztőben.
Nyisson meg egy nemrég szerkesztett adatfolyamot:
- A szerkesztőben navigálhat a legutóbb szerkesztett többi folyamathoz, ha az eszközböngésző tetején a folyamat nevére kattint, és kiválaszt egy másik folyamatot a megjelenő legutóbbiak listájából.
- A szerkesztőn kívülről, a bal oldali oldalsáv Legutóbbiak lapján nyisson meg egy folyamatot vagy egy folyamat forráskódjaként konfigurált fájlt.
Ha a termék egészén tekint meg egy folyamatrendszert, lehetősége van a folyamatlánc szerkesztésére:
- A folyamatfigyelési lapon kattintson a
Folyamat szerkesztése.
- A bal oldali oldalsáv Feladatfuttatások lapján kattintson a Feladatok és folyamatok fülre, majd kattintson a
és Folyamat szerkesztése.
- Amikor szerkeszt egy feladatot, és hozzáad egy folyamatfeladatot, a
kattintva kiválaszthat egy folyamatot a Folyamat csoportban.
- A folyamatfigyelési lapon kattintson a
Ha az eszközböngésző összes fájlját böngészi, és egy forráskódfájlt nyit meg egy másik folyamatból, megjelenik egy szalagcím a szerkesztő tetején, amely arra kéri, hogy nyissa meg a társított folyamatot.
Folyamateszközök böngészője
Folyamat szerkesztésekor a bal oldali munkaterület oldalsávja egy speciális módot, az úgynevezett folyamateszközök böngészőt használja. Alapértelmezés szerint a folyamateszközök böngészője a folyamatgyökérre, valamint a gyökérmappákra és fájlokra összpontosít. A folyamat gyökerén kívüli fájlok megtekintéséhez a Minden fájl nézetet is megadhatja. A folyamat szerkesztése közben megnyitott fülek el lesznek mentve, és amikor átkapcsol egy másik folyamatra, visszaállnak azok a fülek, amelyeket a legutóbbi szerkesztéskor nyitott meg.
Megjegyzés:
A szerkesztő emellett rendelkezik az SQL-fájlok szerkesztésére szolgáló környezetekkel (az úgynevezett Databricks SQL-szerkesztővel), valamint van egy általános környezet is workspace-fájlok szerkesztésére, amelyek nem SQL-fájlok vagy folyamatfájlok. Ezek a környezetek megjegyzik és visszaállítják azokat a lapokat, amelyeket a legutóbbi alkalommal nyitott meg, amikor ezt a környezetet használta. A bal oldali oldalsáv tetején válthat kontekstre. Kattintson a fejlécre a munkaterület, az SQL-szerkesztő vagy a nemrég szerkesztett folyamatok közötti választáshoz.
Amikor megnyit egy fájlt a Munkaterület böngészőlapjáról, az a fájl megfelelő szerkesztőjében nyílik meg. Ha a fájl egy folyamathoz van társítva, az a Lakeflow Pipelines Editor.
Ha olyan fájlt szeretne megnyitni, amely nem része a folyamatnak, de meg szeretné őrizni a folyamatkörnyezetet, nyissa meg a fájlt az eszközböngésző Minden fájl lapján.
A folyamateszköz-böngésző két lapfület használ:
- Folyamat: Itt található a folyamathoz társított összes fájl. Létrehozhatja, törölheti, átnevezheti és mappákba rendezheti őket. Ez a lap a folyamatkonfiguráció billentyűparancsait és a legutóbbi futtatások grafikus nézetét is tartalmazza.
- Minden fájl: Az összes többi munkaterület-objektum itt érhető el. Ez hasznos lehet a folyamathoz hozzáadni kívánt fájlok megkereséséhez vagy a folyamathoz kapcsolódó egyéb fájlok, például a Databricks-eszközcsomagokat meghatározó YAML-fájlok megtekintéséhez.
A csővezeték a következő fájltípusokat tartalmazhat:
- Forráskódfájlok: Ezek a fájlok a folyamat forráskóddefiníciójának részét képezik, amely a Beállítások részben látható. A Databricks azt javasolja, hogy mindig tárolja a forráskódfájlokat a folyamat gyökérmappájában; ellenkező esetben egy külső fájlszakaszban jelennek meg a böngésző alján, és kevésbé gazdag funkciókészlettel rendelkeznek.
- Nem forráskódfájlok: Ezek a fájlok a folyamat gyökérmappájában vannak tárolva, de nem részei a folyamat forráskóddefiníciójának.
Fontos
A folyamat fájljainak és mappáinak kezeléséhez a Pipeline lap eszközböngészőjét kell használnia. Ez megfelelően frissíti a folyamat beállításait. Fájlok és mappák áthelyezése vagy átnevezése a munkaterület böngészőjéből vagy a Minden fájl lap megszakítja a folyamatkonfigurációt, és ezt manuálisan kell feloldania a Beállításokban.
Gyökérmappa
A folyamateszközök böngészője egy folyamatgyökerű mappában van rögzítve. Új folyamat létrehozásakor a rendszer létrehozza a folyamat gyökérmappáját a felhasználói kezdőlap mappájában, és neve megegyezik a folyamat nevével.
A gyökérmappát a folyamateszközök böngészőben módosíthatja. Ez akkor hasznos, ha egy mappában létrehozott egy folyamatot, és később mindent egy másik mappába szeretne áthelyezni. Például egy normál mappában hozta létre a folyamatot, és át szeretné helyezni a forráskódot egy Git-mappába a verziókövetéshez.
- Kattintson a
- Kattintson az Új gyökérmappa konfigurálása elemre.
- A Folyamat gyökérmappája csoportban kattintson a
, és válasszon egy másik mappát a folyamat gyökérmappájaként. - Kattintson a Mentés lehetőségre.
A a gyökérmappa átnevezése gombra kattintva átnevezheti a mappát. Itt a Gyökérmappa áthelyezése gombra kattintva is áthelyezheti a gyökérmappát, például egy Git-mappába.
A pipeline gyökérmappája a beállítások között is módosítható:
- Kattintson a Beállítások gombra.
- A Kódeszközök csoportban kattintson az Elérési utak konfigurálása elemre.
- Kattintson a
a Folyamat gyökérmappája mappa alatti mappa módosításához. - Kattintson a Mentés lehetőségre.
Megjegyzés:
Ha módosítja a folyamat gyökérmappát, a folyamateszközök böngészője által megjelenített fájllista lesz hatással, mivel az előző gyökérmappában lévő fájlok külső fájlokként jelennek meg.
Meglévő adatcső gyökérmappa nélkül
Az örökölt jegyzetfüzetszerkesztési felülettel létrehozott meglévő folyamatokhoz nem lesz konfigurálva gyökérmappa. Ha olyan folyamatot nyit meg, amely nincs konfigurálva gyökérmappával, a rendszer kérni fogja, hogy hozzon létre egy gyökérmappát, és rendszerezze a benne lévő forrásfájlokat.
Ezt elvetheti, és folytathatja a folyamat szerkesztését gyökérmappa beállítása nélkül.
Ha később konfigurálni szeretné a folyamat gyökérmappáját, kövesse az alábbi lépéseket:
- A folyamateszközök böngészőben kattintson a Konfigurálás gombra.
- A
kattintva válassza ki a gyökérmappát a Folyamat gyökérmappája alatt. - Kattintson a Mentés lehetőségre.
Alapértelmezett mappastruktúra
Új folyamat létrehozásakor létrejön egy alapértelmezett mappastruktúra. Ez az ajánlott struktúra a folyamat forrás- és nem forráskódfájljainak rendszerezéséhez az alábbiak szerint.
Ebben a mappastruktúrában kevés mintakódfájl jön létre.
| Mappa neve | Az ilyen típusú fájlok ajánlott helye |
|---|---|
<pipeline_root_folder> |
Gyökérmappa, amely a folyamat összes mappáját és fájlját tartalmazza. |
transformations |
Forráskódfájlok, például Python- vagy SQL-kódfájlok tábladefiníciókkal. |
explorations |
Nem forráskódfájlok, például jegyzetfüzetek, lekérdezések és feltáró adatelemzéshez használt kódfájlok. |
utilities |
Nem forráskódfájlok Python-modulokkal, amelyek más kódfájlokból importálhatók. Ha az SQL-t választja a mintakód nyelvének, ez a mappa nem jön létre. |
Átnevezheti a mappaneveket, vagy módosíthatja a struktúrát a munkafolyamatnak megfelelően. Új forráskódmappa hozzáadásához kövesse az alábbi lépéseket:
- Kattintson a Hozzáadás gombra a folyamateszközök böngészőben.
- Kattintson a Pipeline forráskódtár létrehozása.
- Adjon meg egy mappanevet, és kattintson a Létrehozás gombra.
Forráskódfájlok
A forráskódfájlok a folyamat forráskóddefiníciójának részei. A folyamat futtatásakor a rendszer kiértékeli ezeket a fájlokat. A forráskóddefiníció fájljainak és mappáinak egy speciális ikonja van, amely egy mini Folyamat ikont tartalmaz.
Új forráskódfájl hozzáadásához kövesse az alábbi lépéseket:
- Kattintson a Hozzáadás gombra a folyamateszközök böngészőben.
- Kattintson az Átalakítás gombra.
- Adja meg a fájl nevét , és válassza a Pythont vagy az SQL-tnyelvként.
- Kattintson a Létrehozás gombra.
A kattintva is hozzáadhat forráskódfájlt a folyamateszközök böngészőben lévő bármelyik mappához.
Új transformations futás létrehozásakor alapértelmezés szerint létrejön egy forráskód mappa. Ez a mappa a folyamat forráskódjának ajánlott helye, például Python- vagy SQL-kódfájlok folyamattábla-definíciókkal.
Nem forráskódfájlok
A nem forráskódfájlok a folyamat gyökérmappájában vannak tárolva, de nem részei a folyamat forráskóddefiníciójának. Ezeket a fájlokat a rendszer nem értékeli ki a folyamat futtatásakor. A nem forráskódfájlok nem lehetnek külső fájlok.
Ezt az Ön által a forráskóddal együtt tárolni kívánt, a csővezetékkel kapcsolatos munkájához kapcsolódó fájlokhoz használhatja. Például:
- A nem Lakeflow Spark Deklaratív Pipelines-okon végrehajtott ad hoc feltárásokhoz használt jegyzetfüzetek a folyamat életciklusától függetlenül futtathatók.
- Azok a Python-modulok, amelyeket nem kell kiértékelni a forráskóddal, kivéve, ha explicit módon importálja ezeket a modulokat a forráskódfájlokba.
Új, nem forráskódfájl hozzáadásához kövesse az alábbi lépéseket:
- Kattintson a Hozzáadás gombra a folyamateszközök böngészőben.
- Kattintson a Feltárás vagy a Segédprogram elemre.
- Adja meg a fájl nevét .
- Kattintson a Létrehozás gombra.
A kattintva a folyamat gyökérmappájában vagy egy nem forráskódfájlban is hozzáadhat nem forráskódfájlokat a mappához.
Új folyamat létrehozásakor alapértelmezés szerint a következő mappák jönnek létre a nem forráskódfájlokhoz:
| Mappa neve | Description |
|---|---|
explorations |
Ez a mappa a jegyzetfüzetek, lekérdezések, irányítópultok és egyéb fájlok ajánlott helye. Ezeket a fájlokat a Lakeflow Spark Deklaratív csővezetékeken kívüli számítási feladatok során futtatható, ahogy azt általában a csővezeték végrehajtási életciklusán kívül is tenné. |
utilities |
Ez a mappa az ajánlott hely a Python-modulokhoz, amelyek más fájlokból közvetlen importálás from <filename> importútján importálhatók, feltéve, hogy a szülőmappájuk hierarchikusan a gyökérmappában van. |
A gyökérmappán kívül található Python-modulokat is importálhat, de ebben az esetben hozzá kell fűznie a mappa elérési útját sys.path a Python-kódhoz:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Külső fájlok
A folyamatböngésző Külső fájlok szakasza a gyökérmappán kívüli forráskódfájlokat jeleníti meg.
Ha egy külső fájlt szeretne áthelyezni a gyökérmappába, például a transformations mappába, kövesse az alábbi lépéseket:
- Kattintson a
a fájlhoz az eszközök böngészőben, majd kattintson az Áthelyezés gombra.
- Válassza ki azt a mappát, ahová át szeretné helyezni a fájlt, majd kattintson az Áthelyezés gombra.
Több csővezetékhez társított fájlok
A jelvény akkor jelenik meg a fájl fejlécében, ha egy fájl egynél több folyamathoz van társítva. Számos kapcsolódó csővezetékből áll, és lehetővé teszi a váltást a többi csővezetékre.
Az Összes fájl rész
A Folyamat szakasz mellett van egy Minden fájl szakasz is, ahol bármely fájlt megnyithat a munkaterületén. A következőkre van lehetőség:
- Nyissa meg a fájlokat a gyökérmappán kívül egy lapon anélkül, hogy elhagyná a Lakeflow Pipelines-szerkesztőt.
- Navigáljon egy másik folyamat forráskódfájljaihoz, és nyissa meg őket. Ez megnyitja a fájlt a szerkesztőben, és megjelenít egy sávot, amelyen lehetőség van váltani a szerkesztő fókuszát erre a második csővezetékre.
- Helyezze át a fájlokat a folyamat gyökérmappájába.
- A gyökérmappán kívüli fájlokat is belefoglalja a folyamat forráskóddefiníciójába.
Folyamat forrásfájljainak szerkesztése
Amikor megnyit egy folyamatforrásfájlt a munkaterület-böngészőből vagy a folyamateszközök böngészőből, az megnyílik a Lakeflow Pipelines-szerkesztő egyik szerkesztő lapján. A további fájlok megnyitása külön lapokat nyit meg, így egyszerre több fájlt is szerkeszthet.
Megjegyzés:
Ha megnyit egy olyan fájlt, amely nincs a munkaterület böngészőjében egy folyamathoz társítva, a szerkesztőt egy másik környezetben nyitja meg (vagy az általános munkaterület-szerkesztőben, vagy SQL-fájlok esetén az SQL-szerkesztőben).
Amikor megnyit egy nem folyamatalapú fájlt a folyamateszköz-böngésző Minden fájl lapján, az új lapon nyílik meg a folyamatkörnyezetben.
A folyamat forráskódja több fájlt tartalmaz. Alapértelmezés szerint a forrásfájlok az átalakítások mappában találhatók a folyamateszközök böngészőjében. A forráskódfájlok lehetnek Python-(*.py) vagy SQL-fájlok (*.sql). A forrás egy folyamat python- és SQL-fájljainak kombinációját is tartalmazhatja, és az egyik fájlban lévő kód hivatkozhat egy másik fájlban definiált táblára vagy nézetre.
A *.md kiterjesztésű markdown-fájlokat a transzformációk mappába is felveheti. A Markdown-fájlok felhasználhatók dokumentációkhoz vagy jegyzetekhez, de a folyamatfrissítések futtatásakor figyelmen kívül hagyják.
A Következő funkciók a Lakeflow Pipelines-szerkesztőre vonatkoznak:
Csatlakozás – Csatlakozzon kiszolgáló nélküli vagy klasszikus számításhoz a folyamat futtatásához. A folyamathoz társított összes fájl ugyanazt a számítási kapcsolatot használja, így a csatlakozás után nem kell csatlakoznia az ugyanabban a folyamatban lévő többi fájlhoz. A számítási lehetőségekről további információt a Számítási konfigurációs beállítások című témakörben talál.
Nem folyamatalapú fájlok, például feltáró jegyzetfüzetek esetén a kapcsolódási lehetőség elérhető, de csak az adott fájlra vonatkozik.
Fájl futtatása – Futtassa a kódot a forrásfájlban definiált táblák frissítéséhez. A következő szakasz a folyamatkód futtatásának különböző módjait ismerteti.
Szerkesztés – A Databricks Assistant használatával szerkeszthet vagy adhat hozzá kódot a fájlban.
Gyorsjavítás – Ha hiba van a kódban, a hiba kijavításához használja az Asszisztenst.
Az alsó panel az aktuális lap alapján is módosul. A folyamatadatok megtekintése az alsó panelen mindig elérhető. A nem folyamathoz társított fájlok, például az SQL-szerkesztőfájlok szintén külön lapon, az alsó panelen jelenítik meg a kimenetüket. Az alábbi képen egy függőleges tabulátor látható, amely az alsó panelt a kijelölt jegyzetfüzet folyamatadatainak vagy információinak megtekintése között váltja át.
Folyamatkód futtatása
A folyamatkód futtatására négy lehetőség közül választhat:
A folyamat összes forráskódfájljának futtatása
Kattintson a Folyamat futtatása vagy a Folyamat futtatása teljes táblafrissítéssel lehetőségre a folyamat forráskódjaként definiált összes fájlban az összes tábladefiníció futtatásához. A frissítéstípusok részleteiért lásd a folyamatfrissítés szemantikáját.
A Dry run gombra kattintva a folyamatot anélkül ellenőrizheti, hogy adatokat frissítene.
A kód futtatása egyetlen fájlban
Kattintson a Fájl futtatása vagy A teljes táblafrissítéssel rendelkező fájl futtatása elemre az aktuális fájl összes tábladefiníciójának futtatásához. A folyamatban lévő többi fájlt nem értékelik ki.
Ez a beállítás a fájlok gyors szerkesztésekor és iterálásánál hasznos hibakereséshez. Vannak mellékhatások, ha csak egyetlen fájlban futtatja a kódot.
- Ha más fájlok kiértékelése nem történik meg, a rendszer nem talál hibákat ezekben a fájlokban.
- A más fájlokban materializált táblák a tábla legfrissebb materializálását használják, még akkor is, ha vannak újabb forrásadatok.
- Hibákba ütközhet, ha egy hivatkozott tábla még nem lett materializálva.
- Előfordulhat, hogy a DAG helytelen vagy különálló más fájlokban lévő táblák esetében, amelyek nem lettek materializálva. Az Azure Databricks mindent megtesz annak érdekében, hogy a gráf helyes legyen, de más fájlokat nem értékel ki.
Ha végzett egy fájl hibakeresésével és szerkesztésével, a Databricks azt javasolja, hogy futtassa a folyamat összes forráskódfájlját annak ellenőrzéséhez, hogy a folyamat teljes körűen működik-e, mielőtt éles környezetben helyezné üzembe a folyamatot.
Egyetlen tábla kódjának futtatása
A forráskódfájlban lévő táblázat definíciója mellett kattintson a Táblázat futtatása ikonra
, majd válassza a Tábla frissítése vagy a Teljes frissítés tábla lehetőséget a legördülő menüből. Az egyetlen tábla kódjának futtatása hasonló mellékhatásokat okoz, mint a kód futtatása egyetlen fájlban.
Megjegyzés:
A kód futtatása egyetlen táblán streamelő táblák és materializált nézetek esetén lehetséges. Az adatnyelők és nézetek nem támogatottak.
Táblakészlet kódjának futtatása
A DAG-ból kijelölhet táblákat a futtatandó táblák listájának létrehozásához. Vigye az egérmutatót a DAG táblára, kattintson a
és válassza a Táblázat kiválasztása lehetőséget a frissítéshez. Miután kiválasztotta a frissíteni kívánt táblákat, válassza a Futtatás vagy a Futtatás teljes frissítéssel lehetőséget a DAG alján.
Folyamatdiagram, irányított aciklikus gráf (DAG)
Miután futtatta vagy érvényesítette a folyamat összes forráskódfájlját, megjelenik egy irányított aciklikus gráf (DAG), az úgynevezett folyamatgráf. A diagram a tábla függőségi gráfja. Minden csomópont különböző állapotokkal rendelkezik a csővezeték életciklusa mentén, például érvényesített, fut, vagy hibás.
A jobb oldali panel gráfikonjára kattintva be- és kikapcsolhatja a gráfot. A gráfot maximalizálhatja is. A jobb alsó sarokban további lehetőségek is elérhetők, beleértve a nagyítási beállításokat és a További lehetőségek a diagram függőleges vagy vízszintes elrendezésben való megjelenítésére.
Ha egy csomópont fölé viszi az egérmutatót, megjelenik egy eszköztár, amelyen a beállítások szerepelnek, beleértve a lekérdezés frissítését is. A csomópontra való jobb kattintás ugyanazokat a lehetőségeket biztosítja a helyi menüben.
A csomópontra kattintva megjelenik az adatok előnézete és a tábladefiníció. Fájl szerkesztésekor a diagramon a fájlban definiált táblák lesznek kiemelve.
Adatelőnézetek
Az adatelőnézet szakasz egy kijelölt tábla mintaadatait jeleníti meg.
A táblázat adatainak előnézete akkor jelenik meg, ha egy csomópontra kattint az irányított aciklikus gráfban (DAG).
Ha nincs kijelölve táblázat, lépjen a Táblák szakaszra, és kattintson az Adatok megtekintése előnézete
. Ha kiválasztott egy táblát, a Minden táblára kattintva térjen vissza az összes táblához.
A táblaadatok előnézetének megtekintésekor szűrheti vagy rendezheti az adatokat helyben. Ha összetettebb elemzést szeretne végezni, használhat vagy létrehozhat egy jegyzetfüzetet a Feltárások mappában (feltéve, hogy megtartotta az alapértelmezett mappastruktúrát). Alapértelmezés szerint ebben a mappában a forráskód nem fut a folyamatfrissítés során, így a folyamat kimenetének befolyásolása nélkül hozhat létre lekérdezéseket.
Végrehajtási elemzések
A szerkesztő alján lévő paneleken láthatja a legújabb folyamatfrissítésre vonatkozó táblázatvégrehajtási megállapításokat.
| Panel | Description |
|---|---|
| Tables | Megjeleníti az összes táblát az állapotukkal és a metrikáikkal. Ha kiválaszt egy táblát, megjelenik az adott tábla metrikái és teljesítménye, valamint az adatok előnézetének lapja. |
| Performance | Lekérdezési előzmények és profilok a folyamat összes folyamatához. A végrehajtás során és után elérheti a végrehajtási metrikákat és a részletes lekérdezési terveket. További információkért tekintse meg az Access lekérdezési előzményeit a folyamatokhoz . |
| Problémák panel | Kattintson a panelre a folyamat hibáinak és figyelmeztetéseinek egyszerűsített nézetéhez. Egy bejegyzésre kattintva további részleteket jeleníthet meg, majd a kód azon helyére navigálhat, ahol a hiba történt. Ha a hiba az aktuálisan megjelenített fájltól eltérő fájlban található, akkor a rendszer átirányítja arra a fájlra, amelyben a hiba szerepel. Kattintson a Részletek megtekintése gombra a megfelelő eseménynapló-bejegyzés megtekintéséhez a teljes részletekért. Kattintson a Naplók megtekintése gombra a teljes eseménynapló megtekintéséhez. A kód által rögzített hibajelzők a kód egy adott részéhez kapcsolódó hibák esetén jelennek meg. További részletekért kattintson a hiba ikonra, vagy vigye az egérmutatót a piros vonal fölé. Megjelenik egy előugró ablak, amely további információkat tartalmaz. Ezután a Gyorsjavítás gombra kattintva feltárhat egy műveletkészletet a hiba elhárításához. |
| Eseménynapló | Az utolsó csővezeték futtatás során aktivált összes esemény. Kattintson a Naplók megtekintése vagy a probléma tálcán lévő bármely bejegyzés megtekintése elemre. |
Folyamatkonfiguráció
A folyamatot a folyamatszerkesztőből konfigurálhatja. Módosíthatja a folyamat beállításait, ütemezését vagy engedélyeit.
Ezek mindegyike elérhető a szerkesztő fejlécének egyik gombjáról, vagy az eszközböngésző ikonjaiból (a bal oldali oldalsávról).
Beállítások (vagy válassza a
az eszközböngészőben):
A folyamat beállításait a beállítások panelen szerkesztheti, beleértve az általános információkat, a gyökérmappát és a forráskód konfigurációját, a számítási konfigurációt, az értesítéseket, a speciális beállításokat stb.
Ütemezés (vagy válassza a
az eszközböngészőben):
Az ütemezési párbeszédpanelen létrehozhat egy vagy több ütemezést a folyamathoz. Ha például naponta szeretné futtatni, ezt itt állíthatja be. Létrehoz egy feladatot, amely a kiválasztott ütemezés szerint futtatja a folyamatot. Hozzáadhat egy új ütemezést, vagy eltávolíthat egy meglévő ütemezést az ütemezési párbeszédpanelről.
Megosztás (vagy a
a
az eszközböngészőben):
A folyamat engedélyeit a folyamatengedélyek párbeszédpanelen kezelheti a felhasználók és csoportok számára.
Eseménynapló
Egy folyamat eseménynaplóját közzéteheti a Unity Catalogban. Alapértelmezés szerint a folyamat eseménynaplója megjelenik a felhasználói felületen, és elérhető a tulajdonos által történő lekérdezéshez.
- Nyissa meg a Beállítások elemet.
- Kattintson a
a Speciális beállítások melletti nyílra.
- Kattintson a Speciális beállítások szerkesztése elemre.
- Az Eseménynaplók csoportban kattintson a Közzététel a katalógushoz elemre.
- Adja meg az eseménynapló nevét, katalógusát és sémáját.
- Kattintson a Mentés lehetőségre.
A folyamateseményeket az Ön által megadott táblázatban teszik közzé.
A folyamat eseménynaplójának használatáról további információt az eseménynapló lekérdezése című témakörben talál.
Folyamatkörnyezet
A forráskódhoz létrehozhat környezeteket függőségek hozzáadásával a Beállításokban.
- Nyissa meg a Beállítások elemet.
- A Környezet csoportban kattintson a Környezet szerkesztése elemre.
- Válassza a
Függőség hozzáadása gombra kattintva adjon hozzá egy függőséget, mintha egy fájlhoz
requirements.txtadna. A függőségekkel kapcsolatos további információkért lásd: Függőségek hozzáadása a jegyzetfüzethez.
A Databricks azt javasolja, hogy rögzítse a verziót ==. Lásd: PyPI-csomag.
A környezet a folyamat összes forráskód fájljára vonatkozik.
Értesítések
A Folyamat beállításaival értesítéseket adhat hozzá.
- Nyissa meg a Beállítások elemet.
- Az Értesítések szakaszban kattintson az Értesítés hozzáadása elemre.
- Adjon hozzá egy vagy több e-mail-címet és azokat az eseményeket, amelyeket el szeretne küldeni.
- Kattintson az Értesítés hozzáadásagombra.
Megjegyzés:
Hozzon létre egyéni válaszokat az eseményekre, beleértve az értesítéseket vagy az egyéni kezelést Python-eseményhookok használatával.
Folyamatok monitorozása
Az Azure Databricks a futó folyamatok monitorozására is kínál funkciókat. A szerkesztő megjeleníti a legutóbbi futtatás eredményeit és végrehajtási betekintést. Azért van optimalizálva, hogy segítsen hatékonyan iterálni, miközben interaktívan fejleszti az adatfolyamot.
A pipeline-figyelési oldal lehetővé teszi a korábbi futtatások megtekintését, ami akkor hasznos, ha egy pipeline ütemezés szerint, egy Job használatával fut.
Megjegyzés:
Van egy alapértelmezett monitorozási felület, és egy frissített előzetes figyelési felület. Az alábbi szakasz bemutatja, hogyan engedélyezheti vagy tilthatja le az előzetes verziójú monitorozási felületet. A két szolgáltatásról további információt a folyamatok monitorozása a felhasználói felületen című témakörben talál.
A figyelési felület a munkaterület bal oldalán található Feladatok > folyamatok gombból érhető el. A szerkesztőből közvetlenül a figyelő oldalra is ugorhat, ha a futtatási eredményekre kattint a pipeline eszköztár böngészőben.
A monitorozási lapról további információt a folyamatok monitorozása a felhasználói felületen című témakörben talál. A figyelési felhasználói felület lehetővé teszi, hogy visszatérjen a Lakeflow-folyamatok szerkesztőjéhez a folyamat szerkesztése lehetőség kiválasztásával a felhasználói felület fejlécéből.
A Lakeflow Pipelines-szerkesztő engedélyezése és a frissített monitorozás engedélyezése
A Lakeflow Pipelines Editor előzetes verziója alapértelmezés szerint engedélyezve van. Letilthatja, vagy újra engedélyezheti az alábbi utasítások szerint. Ha engedélyezve van a Lakeflow Pipelines Editor előzetes verziója, engedélyezheti a frissített figyelési felületet is (előzetes verzió).
Az előnézetet engedélyezni kell az Ön munkaterületére vonatkozó Lakeflow Pipelines Editor beállításának beállításával. A beállítások szerkesztéséről további információt az Azure Databricks előzetes verziójának kezelése című témakörben talál.
Az előzetes verzió engedélyezése után többféleképpen engedélyezheti a Lakeflow Pipelines-szerkesztőt:
Új ETL-folyamat létrehozásakor engedélyezze a szerkesztőt a Lakeflow Spark Deklaratív folyamatokban a Lakeflow Pipelines-szerkesztő kapcsolójával.
A pipeline speciális beállítások lapját a szerkesztő első engedélyezésekor használják. A rendszer az egyszerűsített folyamatlétrehozás ablakát használja az új folyamat következő létrehozásakor.
Meglévő folyamat esetén nyisson meg egy folyamatban használt jegyzetfüzetet, és engedélyezze a Lakeflow Pipelines Editor kapcsolót a fejlécben. A Folyamatfigyelési lapra is léphet, és a Beállítások gombra kattintva engedélyezheti a Lakeflow Pipelines-szerkesztőt.
A Lakeflow Pipelines-szerkesztőt a felhasználói beállításokból engedélyezheti:
- Kattintson a felhasználói jelvényre a munkaterület jobb felső részén, majd a Beállítások és fejlesztő elemre.
- Engedélyezze a Lakeflow Pipelines-szerkesztőt.
Miután engedélyezte a Lakeflow Pipelines Editor kapcsolót, az összes ETL-folyamat alapértelmezés szerint a Lakeflow Pipelines Editort használja. A Lakeflow Pipelines-szerkesztőt be- és kikapcsolhatja a szerkesztőből.
Megjegyzés:
Ha letiltja az új folyamatszerkesztőt, hasznos, ha visszajelzést ad arról, hogy miért kapcsolta ki. Az új szerkesztő váltókapcsolóján található egy visszajelzés küldése gomb, amely lehetőséget nyújt bármilyen észrevétel elküldésére.
Az új folyamatfigyelési oldal engedélyezése
Fontos
Ez a funkció nyilvános előzetes verzióban van.
A Lakeflow Pipelines Editor előzetes verziójának részeként új folyamatfigyelési lapot is engedélyezhet egy folyamathoz. A Lakeflow Pipelines Editor előzetes verzióját engedélyezni kell a folyamatfigyelési oldal engedélyezéséhez. Ha a szerkesztő előnézete engedélyezve van, az új monitorozási lap alapértelmezés szerint engedélyezve van.
Kattintson
Feladatok & Csatornák elemre.Kattintson bármelyik folyamat nevére a folyamat részleteinek megtekintéséhez.
A lap tetején engedélyezze a frissített figyelési felhasználói felületet az Új folyamat lap kapcsolójával.
Korlátozások és ismert problémák
Tekintse meg az ETL-folyamatszerkesztőre vonatkozó alábbi korlátozásokat és ismert problémákat a Lakeflow Spark Deklaratív folyamatokban:
A munkaterület böngésző oldalsávja nem a folyamatra összpontosít, ha először megnyit egy fájlt a
explorationsmappában vagy a jegyzetfüzetben, mivel ezek a fájlok vagy jegyzetfüzetek nem részei a folyamat forráskód-definíciójának.A folyamatfókusz mód munkaterületböngészőben való megadásához nyisson meg egy, a folyamathoz társított fájlt.
Az adatelőnézetek nem támogatottak a normál nézetek esetében.
A Python-modulok nem találhatók az UDF-en belül, még akkor sem, ha a gyökérmappában találhatók, vagy az Ön
sys.pathszámítógépén találhatók. Ezeket a modulokat úgy érheti el, hogy hozzáfűzi az elérési utat azsys.pathUDF-ből, például:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installnem támogatott fájlokból (az új szerkesztő alapértelmezett objektumtípusa). A beállításokban függőségeket adhat hozzá. Lásd : Folyamatkörnyezet.Másik lehetőségként továbbra is használhatja a
%pip installelemet egy folyamathoz társított jegyzetfüzetben, annak forráskód-definíciójában.
GYIK
Miért érdemes fájlokat és nem jegyzetfüzeteket használni a forráskódhoz?
A jegyzetfüzetek cellaalapú végrehajtása nem kompatibilis a csővezetékekkel. A jegyzetfüzetek szokásos funkciói le vannak tiltva vagy módosulnak a folyamatok használatakor, ami zavart okoz a jegyzetfüzetek viselkedését ismerő felhasználók számára.
A Lakeflow Pipelines-szerkesztőben a fájlszerkesztő a folyamatok első osztályú szerkesztőjének alapjaként szolgál. A funkciók kifejezetten a csővezetékekre irányulnak, mint például a Futtatási táblázat
, ahelyett, hogy megszokott funkciókat terhelnének túl különböző viselkedésekkel.
Továbbra is használhatok jegyzetfüzeteket forráskódként?
Igen, ez lehetséges. Azonban néhány funkció, mint például a Futtatás táblázat
vagy a Futtatás fájl, nem érhetők el.
Ha jegyzetfüzeteket használó meglévő folyamattal rendelkezik, az továbbra is működik az új szerkesztőben. A Databricks azonban azt javasolja, hogy váltson fájlok használatára új folyamatok esetében.
Hogyan adhatok hozzá meglévő kódot egy újonnan létrehozott Pipeline-hez?
Meglévő forráskódfájlokat hozzáadhat egy új pipeline-hoz. Ha meglévő fájlokat tartalmazó mappát szeretne hozzáadni, kövesse az alábbi lépéseket:
- Kattintson a Beállítások gombra.
- A Forráskód csoportban kattintson az Elérési utak konfigurálása elemre.
- Kattintson az Elérési út hozzáadása gombra, és válassza ki a meglévő fájlok mappájának kiválasztását.
- Kattintson a Mentés lehetőségre.
Egyéni fájlokat is hozzáadhat:
- Kattintson az Összes fájl elemre a folyamateszközök böngészőben.
- Lépjen a fájlra, kattintson a
majd a Belefoglalás a folyamatba parancsra.
Érdemes lehet áthelyezni ezeket a fájlokat a folyamat gyökérmappájába. Ha a csővezeték gyökérmappán kívül találhatók, a Külső fájlok szakaszban jelennek meg.
Kezelhetim a Folyamat forráskódját a Gitben?
A folyamat forrását úgy kezelheti a Gitben, hogy kiválaszt egy Git-mappát a folyamat kezdeti létrehozásakor.
Megjegyzés:
A forrás Git-mappában való kezelése verziókövetést biztosít a forráskódhoz. A konfiguráció verziókövetéséhez azonban a Databricks azt javasolja, hogy a Databricks Asset Bundles használatával határozza meg a folyamatkonfigurációt a Gitben (vagy egy másik verziókövetési rendszerben) tárolható csomagkonfigurációs fájlokban. További információ: Mik azok a Databricks-eszközcsomagok?
Ha eredetileg nem Git-mappában hozta létre a pipeline-t, áthelyezheti a forráskódot egy Git-mappába. A Databricks azt javasolja, hogy a szerkesztőművelet használatával helyezze át a teljes gyökérmappát egy Git-mappába. Ez ennek megfelelően frissíti az összes beállítást. Lásd Gyökérmappa.
A gyökérmappa áthelyezése egy Git-mappába a folyamateszköz-böngészőben:
- A gyökérmappa megnyitásához kattintson a
- Kattintson a Gyökérmappa áthelyezése elemre.
- Válasszon egy új helyet a gyökérmappának, és kattintson az Áthelyezés gombra.
További információt a Gyökérmappa szakaszban talál.
Az áthelyezés után megjelenik az ismerős Git ikon a gyökérmappa neve mellett.
Fontos
A pipeline gyökérmappájának áthelyezéséhez használja a pipeline eszközök böngészőjét és az említett lépéseket. Az áthelyezés bármilyen más módon megszakítja a folyamatkonfigurációkat, és manuálisan kell konfigurálnia a megfelelő mappa elérési útját a Beállításokban.
- A gyökérmappa megnyitásához kattintson a
Lehet több csővezeték ugyanabban a gyökérmappában?
Megteheti, de a Databricks azt javasolja, hogy minden gyökérmappához csak egyetlen Pipeline tartozzon.
Mikor végezzek próbaüzemet?
A Száraz futtatás gombra kattintva ellenőrizheti a kódot a táblák frissítése nélkül.
Mikor érdemes ideiglenes nézeteket használni, és mikor érdemes materializált nézeteket használni a kódban?
Ideiglenes nézeteket akkor használjon, ha nem szeretné az adatokat materializálni. Ez például egy lépéssorozat egy lépése, amely előkészíti az adatokat, mielőtt azok a Katalógusban regisztrált streamelési táblázat vagy materializált nézet használatával materializálódhatnak.