Delen via


ETL-pijplijnen ontwikkelen en fouten opsporen met de Lakeflow Pipelines Editor

Belangrijk

Deze functie bevindt zich in openbare preview-versie.

In dit artikel wordt beschreven hoe u de Lakeflow Pipelines Editor gebruikt voor het ontwikkelen en opsporen van fouten in ETL-pijplijnen (extraheren, transformeren en laden) in Lakeflow Spark Declarative Pipelines (SDP).

Opmerking

De Lakeflow Pipelines Editor is standaard ingeschakeld. U kunt het uitschakelen of opnieuw inschakelen als deze is uitgeschakeld. Zie De Editor voor Lakeflow Pipelines inschakelen en de bewaking bijwerken.

Wat is de Lakeflow Pipelines Editor?

De Lakeflow Pipelines Editor is een IDE die is gebouwd voor het ontwikkelen van pijplijnen. Het combineert alle pijplijnontwikkelingstaken op één oppervlak, ondersteunende code-first-werkstromen, op mappen gebaseerde codeorganisatie, selectieve uitvoering, gegevensvoorbeelden en pijplijngrafieken. Geïntegreerd met het Azure Databricks-platform, maakt het ook versiebeheer, codebeoordelingen en geplande uitvoeringen mogelijk.

Overzicht van de gebruikersinterface van de Lakeflow Pipelines Editor

In de volgende afbeelding ziet u de Lakeflow Pipelines Editor:

Lakeflow Pipelines Editor

In de afbeelding ziet u de volgende functies:

  1. Browser voor pijplijnassets: pijplijnassets maken, verwijderen, hernoemen en organiseren. Bevat ook snelkoppelingen naar pijplijnconfiguratie.
  2. Editor voor code met meerdere bestanden met tabbladen: Werk over meerdere codebestanden die zijn gekoppeld aan een pijplijn.
  3. Pijplijnspecifieke werkbalk: bevat opties voor pijplijnconfiguratie en heeft uitvoeringsacties op pijplijnniveau.
  4. Interactieve gerichte acyclische grafiek (DAG): krijg een overzicht van uw tabellen, open de onderste balk met gegevensvoorbeelden en voer andere tabelgerelateerde acties uit.
  5. Gegevensvoorbeeld: Inspecteer de gegevens van uw streamingtabellen en gematerialiseerde weergaven.
  6. Uitvoeringsinzichten op tabelniveau: krijg uitvoeringsinzichten voor alle tabellen of één tabel in een pijplijn. De inzichten verwijzen naar de nieuwste pijplijnuitvoering.
  7. Deelvenster Problemen: deze functie bevat een overzicht van fouten in alle bestanden in de pijplijn en u kunt navigeren naar de locatie waar de fout is opgetreden in een specifiek bestand. Het vormt een aanvulling op code-gebaseerde foutindicatoren.
  8. Selectieve uitvoering: de code-editor bevat functies voor stapsgewijze ontwikkeling, zoals de mogelijkheid om tabellen alleen in het huidige bestand te vernieuwen met behulp van de actie Bestand uitvoeren of één tabel.
  9. Standaardstructuur van pijplijnmappen: nieuwe pijplijnen bevatten een vooraf gedefinieerde mapstructuur en voorbeeldcode die u als uitgangspunt voor uw pijplijn kunt gebruiken.
  10. Vereenvoudigd maken van pijplijnen: geef een naam, catalogus en schema op waarin tabellen standaard moeten worden gemaakt en een pijplijn wordt gemaakt met behulp van standaardinstellingen. U kunt instellingen later aanpassen via de werkbalk van de pijplijneditor.

Een nieuwe ETL-pijplijn maken

Als u een nieuwe ETL-pijplijn wilt maken met behulp van de Lakeflow Pipelines Editor, voert u de volgende stappen uit:

  1. Klik boven aan de zijbalk op pluspictogram.Nieuw en selecteer vervolgens het pictogram Pijplijn.ETL-pijplijn.

  2. Bovenaan kunt u uw pijplijn een unieke naam geven.

  3. Net onder de naam ziet u de standaardcatalogus en het schema die voor u zijn gekozen. Wijzig deze om uw pijplijn verschillende standaardwaarden te geven.

    Wanneer u in uw code geen gegevenssets kwalificeert met een catalogus of schema, worden ze gelezen van of geschreven naar de standaardcatalogus en het standaardschema. Zie Databaseobjecten in Azure Databricks voor meer informatie.

  4. Selecteer de gewenste optie om een pijplijn te maken door een van de volgende opties te kiezen:

    • Begin met voorbeeldcode in SQL om een nieuwe pijplijn- en mapstructuur te maken, inclusief voorbeeldcode in SQL.
    • Begin met voorbeeldcode in Python om een nieuwe pijplijn- en mapstructuur te maken, inclusief voorbeeldcode in Python.
    • Begin met één transformatie om een nieuwe pijplijn- en mapstructuur te maken, met een nieuw, leeg codebestand.
    • Voeg bestaande assets toe om een pijplijn te maken die u kunt koppelen aan bestaande codebestanden in uw werkruimte.

    U kunt zowel SQL- als Python-broncodebestanden in uw ETL-pijplijn hebben. Wanneer u een nieuwe pijplijn maakt en een taal voor de voorbeeldcode kiest, is de taal alleen standaard voor de voorbeeldcode die in uw pijplijn is opgenomen.

  5. Wanneer u uw selectie maakt, wordt u omgeleid naar de zojuist gemaakte pijplijn.

    De ETL-pijplijn wordt gemaakt met de volgende standaardinstellingen:

    U kunt deze instellingen aanpassen via de pijplijnwerkbalk.

U kunt ook een ETL-pijplijn maken vanuit de werkruimtebrowser:

  1. Klik op Werkruimte in het linkerdeelvenster.
  2. Selecteer een map, inclusief Git-mappen.
  3. Klik op Maken in de rechterbovenhoek en klik op ETL-pijplijn.

U kunt ook een ETL-pijplijn maken op de pagina taken en pijplijnen:

  1. Klik in uw werkruimte op het pictogram Werkstromen.Taken en pijplijnen in de zijbalk.
  2. Klik onder Nieuw op ETL-pijplijn.

Een bestaande ETL-pijplijn openen

Er zijn meerdere manieren om een bestaande ETL-pijplijn te openen in de Lakeflow Pipelines Editor:

  • Open een bronbestand dat is gekoppeld aan de pijplijn:

    1. Klik op Werkruimte in het zijpaneel.
    2. Navigeer naar een map met broncodebestanden voor uw pijplijn.
    3. Klik op het broncodebestand om de pijplijn in de editor te openen.
  • Open een onlangs bewerkte pijplijn:

    • Vanuit de editor kunt u naar andere pijplijnen navigeren die u onlangs hebt bewerkt door boven aan de assetbrowser op de naam van de pijplijn te klikken en een andere pijplijn te kiezen in de lijst met recente items die wordt weergegeven.
    • Open van buiten de editor, op de pagina Recenten in de zijbalk aan de linkerkant, een pijplijn of een bestand dat is geconfigureerd als de broncode voor een pijplijn.
  • Wanneer u een pijplijn in het product bekijkt, kunt u ervoor kiezen om de pijplijn te bewerken:

    • Klik op de pagina pijplijnbewaking op het potloodpictogram.Pijplijn bewerken.
    • Klik op de pagina Taakuitvoeringen in de linkerzijbalk op het tabblad Jobs & pipelines en klik op het Kebab-menu-icoon. en Pijplijn bewerken.
    • Wanneer u een taak bewerkt en een pijplijntaak toevoegt, kunt u klikken op de knop openen in het nieuwe tabblad wanneer u een pijplijn onder Pijplijn kiest.
  • Als u door alle bestanden in de assetbrowser bladert en een broncodebestand opent vanuit een andere pijplijn, wordt boven aan de editor een banner weergegeven waarin u wordt gevraagd die bijbehorende pijplijn te openen.

Browser voor pijplijnassets

Wanneer u een pijplijn bewerkt, gebruikt de linkerzijbalk van de werkruimte een speciale modus, de browser voor pijplijnassets. De browser voor pijplijnassets is standaard gericht op de hoofdmap van de pijplijn en mappen en bestanden in de hoofdmap. U kunt er ook voor kiezen om alle bestanden weer te geven die zich buiten de hoofdmap van de pijplijn bevinden. De tabbladen die zijn geopend in de pijplijneditor tijdens het bewerken van een specifieke pijplijn, worden onthouden en wanneer u overschakelt naar een andere pijplijn, worden de tabbladen geopend wanneer u die pijplijn de laatste keer hebt bewerkt.

Opmerking

De editor heeft ook contexten voor het bewerken van SQL-bestanden (de Databricks SQL Editor genoemd) en een algemene context voor het bewerken van werkruimtebestanden die geen SQL-bestanden of pijplijnbestanden zijn. Elk van deze contexten onthoudt en herstelt de tabbladen die u de laatste keer gebruikte toen u die context inzette. U kunt de context wijzigen vanaf de bovenkant van de linkerzijbalk. Klik op de kop om te kiezen tussen Werkruimte, SQL Editor, of onlangs bewerkte pijplijnen.

Schakelen tussen editorcontexten

Wanneer u een bestand opent vanaf de browserpagina van de werkruimte, wordt het geopend in de bijbehorende editor voor dat bestand. Als het bestand is gekoppeld aan een pijplijn, is dat de Lakeflow Pipelines Editor.

Als u een bestand wilt openen dat geen deel uitmaakt van de pijplijn, maar de pijplijncontext wilt behouden, opent u het bestand op het tabblad Alle bestanden van de assetbrowser.

De browser voor pijplijnassets heeft twee tabbladen.

  • Pijplijn: hier vindt u alle bestanden die zijn gekoppeld aan de pijplijn. U kunt deze maken, verwijderen, de naam ervan wijzigen en ordenen in mappen. Dit tabblad bevat ook snelkoppelingen voor pijplijnconfiguratie en een grafische weergave van recente uitvoeringen.
  • Alle bestanden: alle andere werkruimteassets zijn hier beschikbaar. Dit kan handig zijn om bestanden te vinden die aan de pijplijn moeten worden toegevoegd of andere bestanden te bekijken die betrekking hebben op de pijplijn, zoals een YAML-bestand dat een Databricks Asset Bundles definieert.

Assetbrowser voor pijpleiding

U kunt de volgende typen bestanden in uw pijplijn hebben:

  • Broncodebestanden: Deze bestanden maken deel uit van de broncodedefinitie van de pijplijn, die te zien is in Instellingen. Databricks raadt aan altijd broncodebestanden op te slaan in de hoofdmap van de pijplijn; anders worden ze weergegeven in een sectie met externe bestanden onder aan de browser en hebben ze een minder uitgebreide functieset.
  • Niet-broncodebestanden: deze bestanden worden opgeslagen in de hoofdmap van de pijplijn, maar maken geen deel uit van de definitie van de broncode van de pijplijn.

Belangrijk

U moet de browser voor pijplijnassets op het tabblad Pijplijn gebruiken om bestanden en mappen voor uw pijplijn te beheren. Hiermee worden de pijplijninstellingen correct bijgewerkt. Als u bestanden en mappen verplaatst of wijzigt vanuit uw werkruimtebrowser of het tabblad Alle bestanden , wordt de pijplijnconfiguratie verbroken en moet u dit handmatig oplossen in Instellingen.

Hoofdmap

De browser voor pijplijnassets is verankerd in een hoofdmap van de pijpleiding. Wanneer u een nieuwe pijplijn maakt, wordt de hoofdmap van de pijplijn gemaakt in de basismap van de gebruiker en krijgt deze dezelfde naam als de naam van de pijplijn.

U kunt de hoofdmap wijzigen in de browser voor pijplijnassets. Dit is handig als u een pijplijn in een map hebt gemaakt en later alles naar een andere map wilt verplaatsen. U hebt bijvoorbeeld de pijplijn in een normale map gemaakt en u wilt de broncode verplaatsen naar een Git-map voor versiebeheer.

  1. Klik op het kebabmenupictogram in het overloopmenu van de hoofdmap.
  2. Klik op Nieuwe hoofdmap configureren.
  3. Klik onder Pijplijn-hoofdmap op Map icoon en kies een andere map als de pijplijn-hoofdmap.
  4. Klik op Opslaan.

Hoofdmap van pijplijn wijzigen

Klik in het kebabmenu-pictogram voor de hoofdmap. Je kunt ook op Hoofdmap hernoemen klikken om de hoofdmap een andere naam te geven. Hier kunt u ook klikken op Hoofdmap verplaatsen om bijvoorbeeld de hoofdmap naar een Git-map te verplaatsen.

U kunt ook de hoofdmap van de pijplijn wijzigen in instellingen:

  1. Klik op Instellingen.
  2. Klik onder Codebronnen op Paden configureren.
  3. Klik op mapicoon om de map onder de hoofdmap van de pijplijn te wijzigen.
  4. Klik op Opslaan.

Opmerking

Als u de hoofdmap van de pijplijn wijzigt, wordt de bestandslijst die wordt weergegeven door de browser voor pijplijnassets beïnvloed, omdat de bestanden in de vorige hoofdmap worden weergegeven als externe bestanden.

Bestaande pijplijn zonder root map

Een bestaande pijplijn die is gemaakt met behulp van de verouderde notitieblokkeneditor heeft geen hoofdmap geconfigureerd. Wanneer u een pijplijn opent waarvoor geen hoofdmap is geconfigureerd, wordt u gevraagd een hoofdmap te maken en bronbestanden erin te organiseren.

U kunt dit sluiten en doorgaan met het bewerken van de pijplijn zonder een hoofdmap in te stellen.

Als u later de hoofdmap voor uw pijplijn wilt configureren, voert u de volgende stappen uit:

  1. Klik in de browser voor pijplijnassets op Configureren.
  2. Klik op Mappictogram om de hoofdmap onder De hoofdmap van de pijplijn te selecteren.
  3. Klik op Opslaan.

Geen pijplijn-hoofdmap

Standaardmapstructuur

Wanneer u een nieuwe pijplijn maakt, wordt er een standaardmapstructuur gemaakt. Dit is de aanbevolen structuur voor het ordenen van uw pijplijnbron- en niet-broncodebestanden, zoals hieronder wordt beschreven.

Er wordt een klein aantal voorbeeldcodebestanden gemaakt in deze mapstructuur.

Mapnaam Aanbevolen locatie voor deze typen bestanden
<pipeline_root_folder> Hoofdmap die alle mappen en bestanden voor uw pijplijn bevat.
transformations Broncodebestanden, zoals Python- of SQL-codebestanden met tabeldefinities.
explorations Niet-broncodebestanden, zoals notebooks, query's en codebestanden die worden gebruikt voor verkennende gegevensanalyse.
utilities Niet-broncodebestanden met Python-modules die kunnen worden geïmporteerd uit andere codebestanden. Als u SQL als taal voor voorbeeldcode kiest, wordt deze map niet gemaakt.

U kunt de naam van de map wijzigen of de structuur aanpassen aan uw werkstroom. Voer de volgende stappen uit om een nieuwe broncodemap toe te voegen:

  1. Klik op Toevoegen in de browser voor pijplijnassets.
  2. Klik op Maak map pijplijnbroncode.
  3. Voer een mapnaam in en klik op Maken.

Broncodebestanden

Broncodebestanden maken deel uit van de broncodedefinitie van de pijplijn. Wanneer u de pijplijn uitvoert, worden deze bestanden geëvalueerd. Bestanden en mappen die deel uitmaken van de broncodedefinitie hebben een speciaal pictogram waarop een mini-pijplijnpictogram over elkaar is geplaatst.

Voer de volgende stappen uit om een nieuw broncodebestand toe te voegen:

  1. Klik op Toevoegen in de browser voor pijplijnassets.
  2. Klik op Transformatie.
  3. Voer een naam in voor het bestand en selecteer Python of SQL als taal.
  4. Klik op Create.

U kunt ook klikken op het kebabmenu-pictogram bij elke map in de pijplijnassets-browser om een broncodebestand toe te voegen.

Wanneer u een nieuwe pijplijn maakt, wordt er standaard een map voor broncode aangemaakt. Deze map is de aanbevolen locatie voor de broncode van de pijplijn, zoals Python- of SQL-codebestanden met pijplijntabeldefinities.

Niet-broncode bestanden

Niet-broncodebestanden worden opgeslagen in de hoofdmap van de pijplijn, maar maken geen deel uit van de definitie van de broncode van de pijplijn. Deze bestanden worden niet geëvalueerd wanneer u het proces uitvoert. Niet-broncodebestanden kunnen geen externe bestanden zijn.

U kunt dit gebruiken voor bestanden met betrekking tot uw werk aan de pijplijn die u samen met de broncode wilt opslaan. Voorbeeld:

  • Notebooks die u gebruikt voor ad-hoc verkenningen worden uitgevoerd op niet-Lakeflow Spark Declarative Pipelines en functioneren buiten de levenscyclus van pijplijnen.
  • Python-modules die niet met uw broncode moeten worden geëvalueerd, tenzij u deze modules expliciet in uw broncodebestanden importeert.

Voer de volgende stappen uit om een nieuw niet-broncodebestand toe te voegen:

  1. Klik op Toevoegen in de browser voor pijplijnassets.
  2. Klik op Verkennen of Hulpprogramma.
  3. Voer een naam in voor het bestand.
  4. Klik op Create.

U kunt ook op het Kebab-menu pictogram klikken voor de hoofdmap van de pijplijn of een niet-broncodebestand om niet-broncodebestanden aan de map toe te voegen.

Wanneer u een nieuwe pijplijn maakt, worden de volgende mappen voor niet-broncodebestanden standaard gemaakt:

Mapnaam Description
explorations Deze map is de aanbevolen locatie voor notebooks, query's, dashboards en andere bestanden en voer deze vervolgens uit op niet-Lakeflow Spark Declarative Pipelines Compute, zoals u normaal gesproken buiten de uitvoeringslevenscyclus van een pijplijn zou doen.
utilities Deze map is de aanbevolen locatie voor Python-modules die kunnen worden geïmporteerd uit andere bestanden via directe import, uitgedrukt als from <filename> import, zolang de bovenliggende map hiërarchisch onder de hoofdmap staat.

U kunt ook Python-modules importeren die zich buiten de hoofdmap bevinden, maar in dat geval moet u het mappad toevoegen aan sys.path uw Python-code:

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Externe bestanden

In de sectie Externe bestanden van de pijplijnbrowser ziet u broncodebestanden buiten de hoofdmap.

Als u een extern bestand wilt verplaatsen naar de hoofdmap, zoals de transformations map, voert u de volgende stappen uit:

  1. Klik op het kebabmenu-pictogram voor het bestand in de assetbrowser en klik op Verplaatsen.
  2. Kies de map waarnaar u het bestand wilt verplaatsen en klik op Verplaatsen.

Bestanden die zijn gekoppeld aan meerdere pijplijnen

Er wordt een badge weergegeven in de header van het bestand als een bestand is gekoppeld aan meer dan één pijplijn. Het bevat een aantal gekoppelde pijplijnen en maakt het mogelijk om over te schakelen naar de andere pijplijnen.

Alle bestanden sectie

Naast de sectie Pijplijn is er een sectie Alle bestanden , waar u elk bestand in uw werkruimte kunt openen. Hier kunt u het volgende doen:

  • Open bestanden buiten de hoofdmap op een tabblad zonder de Lakeflow Pipelines Editor te verlaten.
  • Navigeer naar de broncodebestanden van een andere pijplijn en open ze. Hiermee opent u het bestand in de editor en krijgt u een banner met de optie om de focus in de editor te verplaatsen naar deze tweede pijplijn.
  • Verplaats bestanden naar de hoofdmap van de pijplijn.
  • Bestanden buiten de hoofdmap opnemen in de definitie van de broncode van de pijplijn.

Pijplijnbronbestanden bewerken

Wanneer u een bronbestand voor een pijplijn opent vanuit de werkruimtebrowser of de browser voor pijplijnassets, wordt het geopend op een editortabblad in de Lakeflow Pipelines Editor. Als u meer bestanden opent, worden afzonderlijke tabbladen geopend, zodat u meerdere bestanden tegelijk kunt bewerken.

Opmerking

Als u een bestand opent dat niet is gekoppeld aan een pijplijn vanuit de werkruimtebrowser, wordt de editor in een andere context geopend (de algemene werkruimte-editor of, voor SQL-bestanden, de SQL-editor).

Wanneer u een niet-pijplijnbestand opent vanaf het tabblad Alle bestanden van de browser voor pijplijnassets, wordt het geopend op een nieuw tabblad in de pijplijncontext.

De broncode van de pijplijn bevat meerdere bestanden. De bronbestanden bevinden zich standaard in de map transformaties in de browser voor pijplijnassets. Broncodebestanden kunnen Python-bestanden (*.py) of SQL-bestanden (*.sql) zijn. Uw bron kan bestaan uit een combinatie van Python- en SQL-bestanden in één pijplijn en de code in het ene bestand kan verwijzen naar een tabel of weergave die is gedefinieerd in een ander bestand.

U kunt ook Markdown-bestanden (*.md) opnemen in de map tranformaties . Markdown-bestanden kunnen worden gebruikt voor documentatie of notities, maar worden genegeerd bij het uitvoeren van een pijplijnupdate.

De volgende functies zijn specifiek voor de Lakeflow Pipelines Editor:

Pijplijncode bewerken

  1. Verbinding maken - Verbinding maken met serverloze of klassieke compute om de pijplijn uit te voeren. Alle bestanden die aan de pijplijn zijn gekoppeld, gebruiken dezelfde rekenverbinding. Zodra u verbinding hebt gemaakt, hoeft u dus geen verbinding te maken voor andere bestanden in dezelfde pijplijn. Zie Compute-configuratieopties voor meer informatie over rekenopties.

    Voor niet-pijplijnbestanden, zoals een verkennend notebook, is de verbindingsoptie beschikbaar, maar is deze alleen van toepassing op dat afzonderlijke bestand.

  2. Bestand uitvoeren : voer de code uit om de tabellen bij te werken die in dit bronbestand zijn gedefinieerd. In de volgende sectie worden verschillende manieren beschreven om uw pijplijncode uit te voeren.

  3. Bewerken : gebruik de Databricks-assistent om code in het bestand te bewerken of toe te voegen.

  4. Snelle oplossing : wanneer er een fout in uw code optreedt, gebruikt u de assistent om de fout op te lossen.

Het onderste deelvenster wordt ook aangepast op basis van het huidige tabblad. Pijplijngegevens weergeven in het onderste deelvenster is altijd beschikbaar. Niet-pijplijngerelateerde bestanden, zoals SQL-editorbestanden, tonen ook hun uitvoer in het onderste deelvenster op een afzonderlijk tabblad. In de volgende afbeelding ziet u een verticale tabselector om het onderste deelvenster te schakelen tussen het weergeven van pijplijngegevens of informatie voor het geselecteerde notitieblok.

Verticale tabselector voor verkennend notitieblok

Pijplijncode uitvoeren

U hebt vier opties om uw pijplijncode uit te voeren:

  1. Alle broncodebestanden in de pijplijn uitvoeren

    Klik op Pijplijn uitvoeren of Pijplijn uitvoeren met volledige tabelvernieuwing om alle tabeldefinities uit te voeren in alle bestanden die zijn gedefinieerd als broncode voor pijplijn. Zie semantiek voor pijplijnvernieuwing voor meer informatie over vernieuwingstypen.

    Pijplijn uitvoeren

    U kunt ook op Dry run klikken om de pijplijn te valideren zonder gegevens bij te werken.

  2. De code in één bestand uitvoeren

    Klik op Bestand uitvoeren of Bestand uitvoeren met volledige tabelvernieuwing om alle tabeldefinities in het huidige bestand uit te voeren. Andere bestanden in de pijplijn worden niet geëvalueerd.

    Bestand uitvoeren

    Deze optie is handig voor foutopsporing bij het snel bewerken en herhalen van een bestand. Er zijn bijwerkingen bij het alleen uitvoeren van de code in één bestand.

    • Wanneer andere bestanden niet worden geëvalueerd, worden fouten in deze bestanden niet gevonden.
    • Tabellen die in andere bestanden worden gerealiseerd, maken gebruik van de meest recente materialisatie van de tabel, zelfs als er recentere brongegevens zijn.
    • U kunt fouten tegenkomen als een tabel waarnaar wordt verwezen nog niet is gerealiseerd.
    • De DAG is mogelijk onjuist of niet aaneengesloten voor tabellen in andere bestanden die niet zijn gematerialiseerd. Azure Databricks doet er alles aan om de grafiek correct te houden, maar evalueert geen andere bestanden om dit te doen.

    Wanneer u klaar bent met foutopsporing en het bewerken van een bestand, raadt Databricks aan om alle broncodebestanden in de pijplijn uit te voeren om te controleren of de pijplijn end-to-end werkt voordat de pijplijn in productie wordt geplaatst.

  3. De code voor één tabel uitvoeren

    Klik naast de definitie van een tabel in het broncodebestand op het pictogram Tabel uitvoerenen kies vervolgensTabel vernieuwen of Tabel volledig vernieuwen uit de vervolgkeuzelijst. Het uitvoeren van de code voor één tabel heeft vergelijkbare neveneffecten als het uitvoeren van de code in één bestand.

    Tabel uitvoeren

    Opmerking

    Het uitvoeren van de code voor één tabel is beschikbaar voor streamingtabellen en gerealiseerde weergaven. "Data sinks en weergaven worden niet ondersteund."

  4. De code voor een set tabellen uitvoeren

    U kunt tabellen selecteren in de DAG om een lijst met tabellen te maken die moeten worden uitgevoerd. Beweeg de muisaanwijzer over de tabel in de DAG, klik op het Kebab-menu-icoon en kies Selecteer tabel om te verversen. Nadat u de tabellen hebt gekozen die u wilt vernieuwen, kiest u de optie Uitvoeren of Uitvoeren met volledige vernieuwing onderaan de DAG.

    Geselecteerde tabellen uitvoeren

Pijplijngrafiek, gerichte acyclische grafiek (DAG)

Nadat u alle broncodebestanden in de pijplijn hebt uitgevoerd of gevalideerd, ziet u een omgeleide acyclische grafiek (DAG), die de pijplijngrafiek wordt genoemd. In de grafiek ziet u de tabelafhankelijkheidsgrafiek. Elk knooppunt heeft verschillende statussen tijdens de levenscyclus van de pijplijn, zoals gevalideerd, uitgevoerd of fout.

Gerichte acyclische grafiek (DAG)

U kunt de grafiek in- en uitschakelen door in het rechterdeelvenster op het grafiekpictogram te klikken. U kunt de grafiek ook maximaliseren. Rechtsonder staan extra opties, waaronder zoomopties en schuifregelaars.Meer opties voor het weergeven van de grafiek in een verticale of horizontale indeling.

Als u de muisaanwijzer boven een knooppunt beweegt, wordt een werkbalk met opties weergegeven, waaronder het vernieuwen van de query. Als u met de rechtermuisknop op een knooppunt klikt, krijgt u dezelfde opties in een contextmenu.

Als u op een knooppunt klikt, ziet u de voorbeeld- en tabeldefinitie van de gegevens. Wanneer u een bestand bewerkt, worden de tabellen die in dat bestand zijn gedefinieerd, gemarkeerd in de grafiek.

Voorbeeldweergaven van gegevens

In de sectie Voorbeeld van gegevens ziet u voorbeeldgegevens voor een geselecteerde tabel.

U ziet een voorbeeld van de gegevens van de tabel wanneer u op een knooppunt in de gerichte acyclische grafiek (DAG) klikt.

Als er geen tabel is geselecteerd, ga naar de sectie Tabellen en klik op Gegevensvoorbeeld bekijkenLDP Gegevensvoorbeeldpictogram. Als u een tabel hebt gekozen, klikt u op Alle tabellen om terug te keren naar alle tabellen.

Wanneer u een voorbeeld van de tabelgegevens bekijkt, kunt u de gegevens ter plaatse filteren of sorteren. Als u complexere analyses wilt uitvoeren, kunt u een notitieblok gebruiken of maken in de map Verkenningen (ervan uitgaande dat u de standaardmapstructuur hebt behouden). De broncode in deze map wordt standaard niet uitgevoerd tijdens een pijplijnupdate, zodat u query's kunt maken zonder dat dit van invloed is op de uitvoer van de pijplijn.

Uitvoeringsinzichten

U kunt de uitvoeringsinzichten van de tabel met betrekking tot de meest recente update van de pijplijn bekijken in de deelvensters onderaan de editor.

Panel Description
Tables Geeft een lijst weer van alle tabellen met hun statussen en metrische gegevens. Als u één tabel selecteert, ziet u de metrische gegevens en prestaties voor die tabel en een tabblad voor het voorbeeld van de gegevens.
Performance Geschiedenis en profielen van query's voor alle gegevensstromen in deze pijplijn. U kunt tijdens en na de uitvoering toegang krijgen tot metrische uitvoeringsgegevens en gedetailleerde queryplannen. Zie de Access-querygeschiedenis voor pijplijnen voor meer informatie.
Deelvenster Problemen Klik op het deelvenster voor een vereenvoudigde weergave van fouten en waarschuwingen voor de pijplijn. U kunt op een vermelding klikken om meer details weer te geven en navigeer vervolgens naar de plaats in de code waarin de fout is opgetreden. Als de fout zich in een ander bestand bevindt dan het bestand dat momenteel wordt weergegeven, wordt u omgeleid naar het bestand waarin de fout zich bevindt.
Klik op Details weergeven om de bijbehorende vermelding in het gebeurtenislogboek weer te geven voor volledige details. Klik op Logboeken weergeven om het volledige gebeurtenislogboek weer te geven.
Aan de code bevestigde foutindicatoren worden weergegeven voor fouten die zijn gekoppeld aan een specifiek deel van de code. Klik op het foutpictogram of beweeg de muisaanwijzer over de rode lijn voor meer informatie. Er wordt een pop-upvenster met meer informatie weergegeven. Klik vervolgens op Snelle oplossing om een reeks acties weer te geven om de fout op te lossen.
Gebeurtenislogboek Alle gebeurtenissen die zijn geactiveerd tijdens de laatste pijplijnuitvoering. Klik op Logboeken weergeven of een item in de probleemlijst.

Pijplijnconfiguratie

U kunt uw pijplijn configureren vanuit de pijplijneditor. U kunt wijzigingen aanbrengen in de pijplijninstellingen, planning of machtigingen.

Elk van deze kan worden geopend vanaf een knop in de koptekst van de editor of vanuit pictogrammen in de assetbrowser (de linkerzijbalk).

  • Instellingen (of kies tandwielpictogram. in de asset browser):

    U kunt instellingen voor de pijplijn bewerken vanuit het instellingenvenster, waaronder algemene informatie, configuratie van hoofdmap en broncode, berekeningsconfiguratie, meldingen, geavanceerde instellingen en meer.

  • Planning (of kies agendaklokpictogram. in de assetbrowser):

    U kunt een of meer planningen voor uw pijplijn maken vanuit het dialoogvenster Planning. Als u deze bijvoorbeeld dagelijks wilt uitvoeren, kunt u dit hier instellen. Er wordt een taak aangemaakt om de pijplijn uit te voeren op de door u gekozen planning. U kunt een nieuwe planning toevoegen of een bestaande planning verwijderen uit het dialoogvenster Planning.

  • Deel (of, vanuit het kebabmenupictogram. menu in de assetbrowser, kies Delen-pictogram.):

    U kunt machtigingen voor de pijplijn voor gebruikers en groepen beheren vanuit het dialoogvenster met pijplijnmachtigingen.

Gebeurtenislogboek

U kunt het gebeurtenislogboek voor een pijplijn publiceren naar Unity Catalog. Het gebeurtenislogboek voor uw pijplijn wordt standaard weergegeven in de gebruikersinterface en is toegankelijk voor het uitvoeren van query's door de eigenaar.

  1. Open Instellingen.
  2. Klik op het Chevron rechts-icoon. naast Geavanceerde instellingen.
  3. Klik op Geavanceerde instellingen bewerken.
  4. Klik onder Gebeurtenislogboeken op Publiceren naar catalogus.
  5. Geef een naam, catalogus en schema op voor het gebeurtenislogboek.
  6. Klik op Opslaan.

Uw pijplijn-gebeurtenissen worden gepubliceerd in de tabel die u hebt opgegeven.

Zie Query's uitvoeren op het gebeurtenislogboek voor meer informatie over het gebruik van het gebeurtenislogboek van de pijplijn.

Pijplijnomgeving

U kunt een omgeving voor uw broncode maken door afhankelijkheden toe te voegen in Instellingen.

  1. Open Instellingen.
  2. Klik onder Omgeving op Omgeving bewerken.
  3. Selecteer pluspictogram.Voeg afhankelijkheid toe om een afhankelijkheid toe te voegen, alsof u deze aan een requirements.txt bestand toevoegt. Zie Afhankelijkheden toevoegen aan het notebook voor meer informatie over afhankelijkheden.

Databricks raadt u aan om de versie vast te zetten met ==. Zie PyPI-pakket.

De omgeving is van toepassing op alle broncodebestanden in uw pijplijn.

Meldingen

U kunt meldingen toevoegen met behulp van de pijplijninstellingen.

  1. Open Instellingen.
  2. Klik in de sectie Meldingen op Melding toevoegen.
  3. Voeg een of meer e-mailadressen en de gebeurtenissen toe die u wilt verzenden.
  4. Klik op Melding toevoegen.

Opmerking

Maak aangepaste antwoorden op gebeurtenissen, inclusief meldingen of aangepaste verwerking, met behulp van Python-gebeurtenishook.

Pijplijnen bewaken

Azure Databricks biedt ook functies voor het bewaken van actieve pijplijnen. De editor toont de resultaten en uitvoeringsinzichten over de meest recente uitvoering. Het is geoptimaliseerd om u te helpen efficiënt te itereren terwijl u uw pijplijn interactief ontwikkelt.

Op de pagina pijplijnmonitoring kunt u historische uitvoeringen bekijken, wat handig is wanneer een pijplijn volgens een schema wordt uitgevoerd met behulp van een Job.

Opmerking

Er is een standaardbewakingservaring en een bijgewerkte preview-bewakingservaring. In de volgende sectie wordt beschreven hoe u de preview-bewakingservaring inschakelt of uitschakelt. Zie voor meer informatie over beide ervaringen Pijplijnen bewaken in de gebruikersinterface.

De monitoring-ervaring is beschikbaar via de knop Taken en pijplijnen aan de linkerkant van uw werkruimte. U kunt ook rechtstreeks vanuit de editor naar de bewakingspagina gaan door te klikken op de resultaten van de uitvoering in de pijplijn-assets-browser.

Koppeling naar de bewakingspagina vanuit de editor

Voor meer informatie over de bewakingspagina, zie Pijplijnen bewaken in de UI. De bewakingsgebruikersinterface bevat de mogelijkheid om terug te keren naar de Lakeflow Pipelines Editor door de pijplijn bewerken te selecteren in de header van de gebruikersinterface.

De Lakeflow Pipelines Editor en bijgewerkte bewaking inschakelen

De preview-versie van de Lakeflow Pipelines Editor is standaard ingeschakeld. U kunt het uitschakelen of opnieuw inschakelen met de volgende instructies. Wanneer de preview-versie van de Lakeflow Pipelines Editor is ingeschakeld, kunt u ook de bijgewerkte bewakingservaring (preview) inschakelen.

De preview moet worden ingeschakeld door de optie Lakeflow Pipelines Editor in te stellen voor uw werkruimte. Zie Azure Databricks-previews beheren voor meer informatie over het bewerken van opties.

Zodra de preview is ingeschakeld, kunt u de Lakeflow Pipelines Editor op meerdere manieren inschakelen:

  • Wanneer u een nieuwe ETL-pijplijn maakt, schakelt u de editor in Lakeflow Spark-declaratieve pijplijnen in met de wisselknop Lakeflow Pipelines Editor .

    Wisselknop voor Lakeflow Pipelines Editor op

    De pagina geavanceerde instellingen voor de pijplijn wordt gebruikt wanneer u de editor voor het eerst inschakelt. Het venster voor het maken van een vereenvoudigde pijplijn wordt gebruikt wanneer u de volgende keer een nieuwe pijplijn maakt.

  • Voor een bestaande pijplijn, open een notebook dat daarin wordt gebruikt en schakel de Lakeflow Pipelines Editor in de header in. U kunt ook naar de pagina pijplijnbewaking gaan en op Instellingen klikken om de Lakeflow Pipelines Editor in te schakelen.

  • U kunt de Lakeflow Pipelines Editor inschakelen vanuit gebruikersinstellingen:

    1. Klik op uw gebruikersbadge in de rechterbovenhoek van uw werkruimte en klik vervolgens op Instellingen en Ontwikkelaars.
    2. Schakel de Editor voor Lakeflow-pijplijnen in.

Nadat u de schakelaar voor de Lakeflow Pipelines Editor hebt ingeschakeld, gebruiken alle ETL-pijplijnen standaard de Editor. U kunt de Lakeflow Pipelines Editor in- en uitschakelen vanuit de editor.

Opmerking

Als u de nieuwe pijplijneditor uitschakelt, is het handig om feedback te geven waarin wordt beschreven waarom u deze hebt uitgeschakeld. Er is een knop Feedback verzenden op de wisselknop voor eventuele feedback die u hebt op de nieuwe editor.

De nieuwe pagina voor pijplijnbewaking inschakelen

Belangrijk

Deze functie bevindt zich in openbare preview-versie.

Als onderdeel van de preview-versie van de Lakeflow Pipelines Editor kunt u ook een nieuwe pagina voor pijplijnbewaking inschakelen voor een pijplijn. De preview-versie van de Lakeflow Pipelines Editor moet zijn ingeschakeld om de pagina pijplijnbewaking in te schakelen. Wanneer de preview-versie van de editor is ingeschakeld, wordt de nieuwe bewakingspagina ook standaard ingeschakeld.

  1. Klik op Jobs & Pipelines.

  2. Klik op de naam van een pijplijn om de details voor de pijplijn weer te geven.

  3. Bovenaan de pagina, schakel de bijgewerkte monitoring-UI in met de schakelaar Nieuwe pijplijnpagina.

    UI-wissel voor nieuwe pijplijnpagina

Beperkingen en bekende problemen

Zie de volgende beperkingen en bekende problemen voor de ETL-pijplijneditor in Lakeflow Spark-declaratieve pijplijnen:

  1. De zijbalk van de werkruimtebrowser richt zich niet op de pijplijn als u begint met het openen van een bestand in de explorations map of een notebook, omdat deze bestanden of notebooks geen deel uitmaken van de definitie van de broncode van de pijplijn.

    Als u de focusmodus voor de pijplijn in de werkruimtebrowser wilt openen, opent u een bestand dat is gekoppeld aan de pijplijn.

  2. Voorbeeldweergaven van gegevens worden niet ondersteund voor reguliere weergaven.

  3. Python-modules worden niet gevonden vanuit een UDF, zelfs niet als ze zich in uw hoofdmap bevinden of zich in uw sys.pathmap bevinden. U kunt deze modules openen door het pad vanuit de UDF toe te sys.path voegen, bijvoorbeeld: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install wordt niet ondersteund vanuit bestanden (het standaardassettype met de nieuwe editor). U kunt afhankelijkheden toevoegen in instellingen. Zie De pijplijnomgeving.

    Als alternatief kunt u %pip install blijven gebruiken vanuit een notebook dat is gekoppeld aan een pijplijn, in de definitie van de broncode.

Veelgestelde vragen

  1. Waarom bestanden en niet notebooks gebruiken voor broncode?

    De celgebaseerde uitvoering van notebooks is niet compatibel met pijplijnen. Standaardfuncties van notebooks worden uitgeschakeld of gewijzigd bij het werken met pijplijnen, wat leidt tot verwarring voor gebruikers die bekend zijn met het gedrag van notebooks.

    In de Lakeflow Pipelines Editor wordt de bestandseditor gebruikt als basis voor een eersteklas editor voor pijplijnen. Functies zijn specifiek gericht op pijplijnen, zoals Run tabelRun Tabel pictogram, in plaats van vertrouwde functies te overbelasten met afwijkend gedrag.

  2. Kan ik nog steeds notebooks gebruiken als broncode?

    Ja, dat kan. Sommige functies, zoals run tableRun Table Icon of Run file, zijn echter niet aanwezig.

    Als u een bestaande pijplijn hebt met behulp van notebooks, werkt deze nog steeds in de nieuwe editor. Databricks raadt echter aan over te schakelen naar bestanden voor nieuwe pijplijnen.

  3. Hoe kan ik bestaande code toevoegen aan een zojuist gemaakte pijplijn?

    U kunt bestaande broncodebestanden toevoegen aan een nieuwe pijplijn. Volg deze stappen om een map met bestaande bestanden toe te voegen:

    1. Klik op Instellingen.
    2. Klik onder Broncode op Paden configureren.
    3. Klik op Pad toevoegen en kies de map voor de bestaande bestanden.
    4. Klik op Opslaan.

    U kunt ook afzonderlijke bestanden toevoegen:

    1. Klik op Alle bestanden in de browser voor pijplijnassets.
    2. Navigeer naar uw bestand, klik op kebabmenupictogram en klik op Opnemen in pijplijn.

    U kunt deze bestanden verplaatsen naar de hoofdmap van de pijplijn. Als deze zich buiten de hoofdmap van de pijplijn bevinden, worden ze weergegeven in de sectie Externe bestanden .

  4. Kan ik de broncode van de pijplijn beheren in Git?

    U kunt uw pijplijnbron in Git beheren door een Git-map te kiezen wanneer u de pijplijn in eerste instantie maakt.

    Opmerking

    Als u uw bron in een Git-map beheert, wordt versiebeheer toegevoegd voor uw broncode. Voor versiebeheer van uw configuratie raadt Databricks echter aan om Databricks Asset Bundles te gebruiken om de pijplijnconfiguratie te definiëren in bundelconfiguratiebestanden die kunnen worden opgeslagen in Git (of een ander versiebeheersysteem). Zie Wat zijn Databricks Asset Bundles?voor meer informatie.

    Als u de pijplijn in eerste instantie niet in een Git-map hebt gemaakt, kunt u de bron verplaatsen naar een Git-map. Databricks raadt u aan de editoractie te gebruiken om de hele hoofdmap naar een Git-map te verplaatsen. Hiermee worden alle instellingen dienovereenkomstig bijgewerkt. Zie de hoofdmap.

    De hoofdmap verplaatsen naar een Git-map in de browser voor pijplijnassets:

    1. Klik op het kebabmenu-pictogram voor de hoofdmap.
    2. Klik op Hoofdmap verplaatsen.
    3. Kies een nieuwe locatie voor de hoofdmap en klik op Verplaatsen.

    Zie de sectie Hoofdmap voor meer informatie.

    Na de verplaatsing ziet u het vertrouwde Git-pictogram naast de naam van uw hoofdmap.

    Belangrijk

    Als u de hoofdmap van de pijplijn wilt verplaatsen, gebruikt u de browser voor pijplijnassets en de bovenstaande stappen. Als u het op een andere manier verplaatst, worden de pijplijnconfiguraties verbroken en moet u het juiste mappad handmatig configureren in Instellingen.

  5. Kan ik meerdere pijplijnen in dezelfde hoofdmap hebben?

    U kunt, maar Databricks raadt aan slechts één pijplijn per hoofdmap te hebben.

  6. Wanneer moet ik een droogloop uitvoeren?

    Klik op Dry run om de code te controleren zonder de tabellen bij te werken.

  7. Wanneer moet ik tijdelijke weergaven gebruiken en wanneer moet ik gerealiseerde weergaven gebruiken in mijn code?

    Gebruik tijdelijke weergaven wanneer u de gegevens niet wilt materialiseren. Dit is bijvoorbeeld een stap in een reeks stappen om de gegevens voor te bereiden voordat deze gereed zijn voor materialisatie met behulp van een streamingtabel of gerealiseerde weergave die is geregistreerd in de catalogus.