Delen via


Een update uitvoeren op een Delta Live Tables-pijplijn

In dit artikel wordt uitgelegd wat een pijplijnupdate voor Delta Live Tables is en hoe u er een kunt uitvoeren.

Nadat u een pijplijn hebt gemaakt en klaar bent om deze uit te voeren, start u een update. Een pijplijnupdate doet het volgende:

  • Hiermee start u een cluster met de juiste configuratie.
  • Detecteert alle gedefinieerde tabellen en weergaven en controleert op analysefouten, zoals ongeldige kolomnamen, ontbrekende afhankelijkheden en syntaxisfouten.
  • Hiermee worden tabellen en weergaven gemaakt of bijgewerkt met de meest recente gegevens die beschikbaar zijn.

U kunt controleren op problemen in de broncode van een pijplijn zonder te wachten tot tabellen zijn gemaakt of bijgewerkt met behulp van een validatie-update. De Validate functie is handig bij het ontwikkelen of testen van pijplijnen door u in staat te stellen snel fouten in uw pijplijn op te sporen en op te lossen, zoals onjuiste tabel- of kolomnamen.

Zie Zelfstudie: Uw eerste Delta Live Tables-pijplijn uitvoeren voor meer informatie over het maken van een pijplijn.

Een pijplijnupdate starten

Azure Databricks biedt verschillende opties voor het starten van pijplijnupdates, waaronder de volgende:

  • In de gebruikersinterface van Delta Live Tables hebt u de volgende opties:
    • Klik op de Startpictogram voor Delta Live-tabellen knop op de pagina met pijplijndetails.
    • Klik in de lijst Pictogram pijl-rechts met pijplijnen in de kolom Acties .
  • Als u een update in een notitieblok wilt starten, klikt u op Delta Live Tables > Start op de werkbalk van het notitieblok. Zie Een Delta Live Tables-pijplijn openen of uitvoeren vanuit een notebook.
  • U kunt pijplijnen programmatisch activeren met behulp van de API of CLI. Zie de API-handleiding voor Delta Live Tables.
  • U kunt de pijplijn plannen als een taak met behulp van de gebruikersinterface van Delta Live Tables of de gebruikersinterface voor taken. Zie Een pijplijn plannen.

Hoe Delta Live Tables tabellen bijwerken tabellen en weergaven

De tabellen en weergaven zijn bijgewerkt en hoe deze tabellen worden bijgewerkt, is afhankelijk van het updatetype:

  • Alles vernieuwen: alle livetabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor alle streamingtabellen worden nieuwe rijen toegevoegd aan de tabel.
  • Alles volledig vernieuwen: alle livetabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor alle streamingtabellen probeert Delta Live Tables alle gegevens uit elke tabel te wissen en vervolgens alle gegevens uit de streamingbron te laden.
  • Vernieuwingsselectie: het gedrag van refresh selection is identiek aan refresh all, maar hiermee kunt u alleen geselecteerde tabellen vernieuwen. Geselecteerde livetabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor geselecteerde streamingtabellen worden nieuwe rijen toegevoegd aan de tabel.
  • Selectie voor volledig vernieuwen: het gedrag van full refresh selection is identiek aan full refresh all, maar hiermee kunt u alleen geselecteerde tabellen volledig vernieuwen. Geselecteerde livetabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor geselecteerde streamingtabellen probeert Delta Live Tables alle gegevens uit elke tabel te wissen en vervolgens alle gegevens uit de streamingbron te laden.

Voor bestaande livetabellen heeft een update hetzelfde gedrag als een SQL REFRESH in een gerealiseerde weergave. Voor nieuwe livetabellen is het gedrag hetzelfde als een SQL-bewerking CREATE .

Een pijplijnupdate starten voor geselecteerde tabellen

Mogelijk wilt u gegevens opnieuw verwerken voor alleen geselecteerde tabellen in uw pijplijn. Tijdens de ontwikkeling wijzigt u bijvoorbeeld slechts één tabel en wilt u de testtijd verminderen of mislukt een pijplijnupdate en wilt u alleen de mislukte tabellen vernieuwen.

Notitie

U kunt selectief vernieuwen gebruiken met alleen geactiveerde pijplijnen.

Als u een update wilt starten waarmee alleen geselecteerde tabellen worden vernieuwd, gaat u naar de pagina Pijplijndetails :

  1. Klik op Tabellen selecteren om te vernieuwen. Het dialoogvenster Tabellen selecteren voor vernieuwen wordt weergegeven.

    Als u de knop Tabellen selecteren voor vernieuwen niet ziet, controleert u of op de pagina Pijplijndetails de meest recente update wordt weergegeven en of de update is voltooid. Als een DAG niet wordt weergegeven voor de meest recente update, bijvoorbeeld omdat de update is mislukt, wordt de knop Tabellen selecteren voor vernieuwen niet weergegeven.

  2. Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.

  3. Klik op Selectie vernieuwen.

    Notitie

    Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.

Als u gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u naast Blue Down Caretde knop Selectie vernieuwen en klikt u op Volledig vernieuwen.

Een pijplijnupdate starten voor mislukte tabellen

Als een pijplijnupdate mislukt vanwege fouten in een of meer tabellen in de pijplijngrafiek, kunt u een update starten van alleen mislukte tabellen en eventuele downstreamafhankelijkheden.

Notitie

Uitgesloten tabellen worden niet vernieuwd, zelfs niet als ze afhankelijk zijn van een mislukte tabel.

Als u mislukte tabellen wilt bijwerken, klikt u op de pagina Pijplijndetails op Mislukte tabellen vernieuwen.

Alleen geselecteerde mislukte tabellen bijwerken:

  1. Klik Omlaag-knop naast de knop Mislukte tabellen vernieuwen en klik op Tabellen selecteren om te vernieuwen. Het dialoogvenster Tabellen selecteren voor vernieuwen wordt weergegeven.

  2. Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.

  3. Klik op Selectie vernieuwen.

    Notitie

    Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.

Als u gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u naast Blue Down Caretde knop Selectie vernieuwen en klikt u op Volledig vernieuwen.

Een pijplijn controleren op fouten zonder te wachten tot tabellen zijn bijgewerkt

Belangrijk

De updatefunctie voor Delta Live Tables Validate bevindt zich in openbare preview.

Gebruik Validate om te controleren of de broncode van een pijplijn geldig is zonder een volledige update uit te voeren. Met een Validate update worden de definities van gegevenssets en stromen die in de pijplijn zijn gedefinieerd, omgezet, maar worden geen gegevenssets gerealiseerd of gepubliceerd. Fouten die zijn gevonden tijdens de validatie, zoals onjuiste tabel- of kolomnamen, worden gerapporteerd in de gebruikersinterface.

Als u een Validate update wilt uitvoeren, klikt u Blue Down Caret op de pagina met pijplijngegevens naast Start en klikt u op Valideren.

Nadat de Validate update is voltooid, worden in het gebeurtenislogboek alleen gebeurtenissen weergegeven die betrekking hebben op de Validate update en worden er geen metrische gegevens weergegeven in de DAG. Als er fouten worden gevonden, zijn details beschikbaar in het gebeurtenislogboek.

U ziet alleen de resultaten voor de meest recente Validate update. Als de update de Validate laatst uitgevoerde update was, kunt u de resultaten zien door deze te selecteren in de updategeschiedenis. Als er na de Validate update een andere update wordt uitgevoerd, zijn de resultaten niet meer beschikbaar in de gebruikersinterface.

Continue versus geactiveerde pijplijnuitvoering

Als de pijplijn gebruikmaakt van de geactiveerde uitvoeringsmodus, stopt het systeem de verwerking nadat alle tabellen of geselecteerde tabellen in de pijplijn eenmaal zijn vernieuwd, zodat elke tabel die deel uitmaakt van de update wordt bijgewerkt op basis van de gegevens die beschikbaar zijn wanneer de update is gestart.

Als de pijplijn gebruikmaakt van continue uitvoering, verwerkt Delta Live Tables nieuwe gegevens wanneer deze binnenkomen in gegevensbronnen om tabellen in de pijplijn actueel te houden.

De uitvoeringsmodus is onafhankelijk van het type tabel dat wordt berekend. Zowel gerealiseerde weergaven als streamingtabellen kunnen worden bijgewerkt in beide uitvoeringsmodussen. Om onnodige verwerking in de modus voor continue uitvoering te voorkomen, bewaken pijplijnen automatisch afhankelijke Delta-tabellen en voeren ze alleen een update uit wanneer de inhoud van deze afhankelijke tabellen is gewijzigd.

Tabel die de uitvoeringsmodi voor gegevenspijplijnen vergelijken

In de volgende tabel worden verschillen tussen deze uitvoeringsmodi gemarkeerd:

Geactiveerd Continu
Wanneer stopt de update? Automatisch voltooid. Wordt continu uitgevoerd totdat deze handmatig is gestopt.
Welke gegevens worden verwerkt? Gegevens die beschikbaar zijn wanneer de update wordt gestart. Alle gegevens wanneer deze binnenkomen bij geconfigureerde bronnen.
Voor welke vereisten voor gegevensversheid is dit het beste? Gegevensupdates worden elke 10 minuten, elk uur of dagelijks uitgevoerd. Gegevens worden elke 10 seconden en een paar minuten bijgewerkt.

Geactiveerde pijplijnen kunnen het resourceverbruik en de kosten verminderen, omdat het cluster slechts lang genoeg wordt uitgevoerd om de pijplijn uit te voeren. Nieuwe gegevens worden echter pas verwerkt nadat de pijplijn is geactiveerd. Voor continue pijplijnen is een altijd uitgevoerd cluster vereist. Dit is duurder, maar vermindert de verwerkingslatentie.

U kunt de uitvoeringsmodus configureren met de optie Pijplijnmodus in de instellingen.

Pijplijngrenzen kiezen

Een Delta Live Tables-pijplijn kan updates verwerken voor één tabel, veel tabellen met afhankelijke relatie, veel tabellen zonder relaties of meerdere onafhankelijke stromen van tabellen met afhankelijke relaties. Deze sectie bevat overwegingen om te bepalen hoe u uw pijplijnen opsplitst.

Grotere Delta Live Tables-pijplijnen hebben een aantal voordelen. Dit zijn onder meer de volgende:

  • Efficiënter clusterresources gebruiken.
  • Verminder het aantal pijplijnen in uw werkruimte.
  • Verminder de complexiteit van werkstroomindeling.

Enkele veelvoorkomende aanbevelingen voor het splitsen van verwerkingspijplijnen zijn onder andere:

  • Functionaliteit splitsen op teamgrenzen. Uw gegevensteam kan bijvoorbeeld pijplijnen onderhouden om gegevens te transformeren terwijl uw gegevensanalisten pijplijnen onderhouden die de getransformeerde gegevens analyseren.
  • Splitsfunctionaliteit op toepassingsspecifieke grenzen om koppeling te verminderen en het hergebruik van algemene functionaliteit te vergemakkelijken.

Ontwikkelings- en productiemodi

U kunt de uitvoering van pijplijnen optimaliseren door te schakelen tussen ontwikkelings- en productiemodi. Gebruik de Wisselknop voor Omgeving van Delta Live-tabellen knoppen in de gebruikersinterface van Pijplijnen om tussen deze twee modi te schakelen. Pijplijnen worden standaard uitgevoerd in de ontwikkelingsmodus.

Wanneer u uw pijplijn uitvoert in de ontwikkelingsmodus, doet het systeem Delta Live Tables het volgende:

  • Hiermee wordt een cluster opnieuw gebruikt om de overhead van opnieuw opstarten te voorkomen. Clusters worden standaard twee uur uitgevoerd wanneer de ontwikkelingsmodus is ingeschakeld. U kunt dit wijzigen met de pipelines.clusterShutdown.delay instelling in de rekeninstellingen configureren.
  • Schakelt nieuwe pogingen voor pijplijnen uit, zodat u onmiddellijk fouten kunt detecteren en oplossen.

In de productiemodus doet het systeem Delta Live Tables het volgende:

  • Start het cluster opnieuw op voor specifieke herstelbare fouten, waaronder geheugenlekken en verouderde referenties.
  • Probeert de uitvoering opnieuw uit te voeren in het geval van specifieke fouten, bijvoorbeeld een fout bij het starten van een cluster.

Notitie

Schakelen tussen ontwikkelings- en productiemodi bepaalt alleen het gedrag van cluster- en pijplijnuitvoering. Opslaglocaties en doelschema's in de catalogus voor publicatietabellen moeten worden geconfigureerd als onderdeel van pijplijninstellingen en worden niet beïnvloed bij het schakelen tussen modi.

Een pijplijn plannen

U kunt een geactiveerde pijplijn handmatig starten of de pijplijn volgens een schema uitvoeren met een Azure Databricks-taak. U kunt een taak maken en plannen met één pijplijntaak rechtstreeks in de gebruikersinterface van Delta Live Tables of een pijplijntaak toevoegen aan een werkstroom met meerdere taken in de gebruikersinterface van taken.

Een taak met één taak en een planning voor de taak maken in de gebruikersinterface van Delta Live Tables:

  1. Klik op Een > planning toevoegen. De knop Planning wordt bijgewerkt om het aantal bestaande planningen weer te geven als de pijplijn is opgenomen in een of meer geplande taken, bijvoorbeeld Planning (5).
  2. Voer een naam in voor de taak in het veld Taaknaam .
  3. Stel de planning in op Gepland.
  4. Geef de periode, begintijd en tijdzone op.
  5. Configureer een of meer e-mailadressen voor het ontvangen van waarschuwingen bij het starten, slagen of mislukken van de pijplijn.
  6. Klik op Create.