Een update uitvoeren op een Delta Live Tables-pijplijn
In dit artikel wordt uitgelegd wat een pijplijnupdate voor Delta Live Tables is en hoe u er een kunt uitvoeren.
Nadat u een pijplijn hebt gemaakt en klaar bent om deze uit te voeren, start u een update. Een pijplijnupdate doet het volgende:
- Hiermee start u een cluster met de juiste configuratie.
- Detecteert alle gedefinieerde tabellen en weergaven en controleert op analysefouten, zoals ongeldige kolomnamen, ontbrekende afhankelijkheden en syntaxisfouten.
- Hiermee worden tabellen en weergaven gemaakt of bijgewerkt met de meest recente gegevens die beschikbaar zijn.
Met behulp van een validatie-update kunt u controleren op problemen in de broncode van een pijplijn zonder te wachten tot tabellen zijn gemaakt of bijgewerkt. Deze functie is handig bij het ontwikkelen of testen van pijplijnen, omdat u hiermee snel fouten in uw pijplijn kunt vinden en oplossen, zoals onjuiste tabel- of kolomnamen.
Zie Een Delta Live Tables-pijplijn configureren voor meer informatie over het maken van een pijplijn.
U kunt pijplijnupdates organiseren met Databricks-taken of andere hulpprogramma's. Zie Een Delta Live Tables-pijplijn uitvoeren in een werkstroom.
Een pijplijnupdate starten
Azure Databricks heeft verschillende opties om pijplijnupdates te starten, waaronder de volgende:
- In de gebruikersinterface van Delta Live Tables hebt u de volgende opties:
- Klik op de knop op de pagina met pijplijndetails.
- Klik in de lijst met pijplijnen in de kolom Acties .
- Als u een update in een notitieblok wilt starten, klikt u op Delta Live Tables > Start op de werkbalk van het notitieblok. Zie Een Delta Live Tables-pijplijn openen of uitvoeren vanuit een notebook.
- U kunt pijplijnen programmatisch activeren met behulp van de API of CLI. Zie pijplijn-API.
- U kunt de pijplijn plannen als een taak met behulp van de gebruikersinterface van Delta Live Tables of de gebruikersinterface voor taken. Zie Een pijplijn plannen.
Notitie
Het standaardgedrag voor handmatig geactiveerde pijplijnupdates met behulp van een van deze methoden is om alles te vernieuwen.
Hoe Delta Live Tables tabellen bijwerken tabellen en weergaven
De tabellen en weergaven zijn bijgewerkt en hoe deze tabellen en weergaven worden bijgewerkt, zijn afhankelijk van het updatetype:
- Alles vernieuwen: alle tabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor streamingtabellen worden nieuwe rijen toegevoegd aan de tabel.
- Alles volledig vernieuwen: alle tabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor streamingtabellen probeert Delta Live Tables alle gegevens uit elke tabel te wissen en vervolgens alle gegevens uit de streamingbron te laden.
- Vernieuwingsselectie: het gedrag van
refresh selection
is identiek aanrefresh all
, maar hiermee kunt u alleen geselecteerde tabellen vernieuwen. Geselecteerde tabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor streamingtabellen worden nieuwe rijen toegevoegd aan de tabel. - Selectie voor volledig vernieuwen: het gedrag is
full refresh selection
identiek aanfull refresh all
, maar hiermee kunt u alleen geselecteerde tabellen volledig vernieuwen. Geselecteerde tabellen worden bijgewerkt om de huidige status van hun invoergegevensbronnen weer te geven. Voor streamingtabellen probeert Delta Live Tables alle gegevens uit elke tabel te wissen en vervolgens alle gegevens uit de streamingbron te laden.
Voor bestaande gerealiseerde weergaven heeft een update hetzelfde gedrag als een SQL REFRESH
in een gerealiseerde weergave. Voor nieuwe gerealiseerde weergaven is het gedrag hetzelfde als een SQL-bewerking CREATE
.
Een pijplijnupdate starten voor geselecteerde tabellen
U kunt desgewenst gegevens opnieuw verwerken voor alleen geselecteerde tabellen in uw pijplijn. Tijdens de ontwikkeling wijzigt u bijvoorbeeld slechts één tabel en wilt u de testtijd verminderen of mislukt een pijplijnupdate en wilt u alleen de mislukte tabellen vernieuwen.
Notitie
U kunt selectief vernieuwen gebruiken met alleen geactiveerde pijplijnen.
Als u een update wilt starten waarmee alleen geselecteerde tabellen worden vernieuwd, gaat u naar de pagina Pijplijndetails :
Klik op Tabellen selecteren om te vernieuwen. Het dialoogvenster Tabellen selecteren voor vernieuwen wordt weergegeven.
Als u de knop Tabellen selecteren voor vernieuwen niet ziet, controleert u of op de pagina Pijplijndetails de meest recente update wordt weergegeven en of de update is voltooid. Als een DAG niet wordt weergegeven voor de meest recente update, bijvoorbeeld omdat de update is mislukt, wordt de knop Tabellen selecteren voor vernieuwen niet weergegeven.
Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.
Klik op Selectie vernieuwen.
Notitie
Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.
Als u de gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u naast de knop Selectie vernieuwen en klikt u op De selectie Volledig vernieuwen.
Een pijplijnupdate starten voor mislukte tabellen
Als een pijplijnupdate mislukt vanwege fouten in een of meer tabellen in de pijplijngrafiek, kunt u een update starten van alleen mislukte tabellen en eventuele downstreamafhankelijkheden.
Notitie
Uitgesloten tabellen worden niet vernieuwd, zelfs niet als ze afhankelijk zijn van een mislukte tabel.
Als u mislukte tabellen wilt bijwerken, klikt u op de pagina Pijplijndetails op Mislukte tabellen vernieuwen.
Alleen geselecteerde mislukte tabellen bijwerken:
Klik naast de knop Mislukte tabellen vernieuwen en klik op Tabellen selecteren om te vernieuwen. Het dialoogvenster Tabellen selecteren voor vernieuwen wordt weergegeven.
Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.
Klik op Selectie vernieuwen.
Notitie
Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.
Als u de gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u naast de knop Selectie vernieuwen en klikt u op De selectie Volledig vernieuwen.
Een pijplijn controleren op fouten zonder te wachten tot tabellen zijn bijgewerkt
Belangrijk
De updatefunctie voor Delta Live Tables Validate
bevindt zich in openbare preview.
Gebruik Validate om te controleren of de broncode van een pijplijn geldig is zonder een volledige update uit te voeren. Met een Validate
update worden de definities van gegevenssets en stromen die in de pijplijn zijn gedefinieerd, omgezet, maar worden geen gegevenssets gerealiseerd of gepubliceerd. Fouten die zijn gevonden tijdens de validatie, zoals onjuiste tabel- of kolomnamen, worden gerapporteerd in de gebruikersinterface.
Als u een Validate
update wilt uitvoeren, klikt u op de pagina met pijplijndetails naast Start en klikt u op Valideren.
Nadat de Validate
update is voltooid, worden in het gebeurtenislogboek alleen gebeurtenissen weergegeven die betrekking hebben op de Validate
update en worden er geen metrische gegevens weergegeven in de DAG. Als er fouten worden gevonden, zijn details beschikbaar in het gebeurtenislogboek.
U ziet alleen de resultaten voor de meest recente Validate
update. Als de update de Validate
laatst uitgevoerde update was, kunt u de resultaten zien door deze te selecteren in de updategeschiedenis. Als er na de Validate
update een andere update wordt uitgevoerd, zijn de resultaten niet meer beschikbaar in de gebruikersinterface.
Pijplijngrenzen kiezen
Een Delta Live Tables-pijplijn kan updates verwerken voor één tabel, veel tabellen met afhankelijke relaties, veel tabellen zonder relaties of meerdere onafhankelijke stromen van tabellen met afhankelijke relaties. Deze sectie bevat overwegingen om te bepalen hoe u uw pijplijnen opsplitst.
Grotere Delta Live Tables-pijplijnen hebben verschillende voordelen. Deze omvatten de volgende:
- Efficiënter clusterresources gebruiken.
- Verminder het aantal pijplijnen in uw werkruimte.
- Verminder de complexiteit van werkstroomindeling.
Enkele veelvoorkomende aanbevelingen voor het splitsen van verwerkingspijplijnen zijn onder andere:
- Functionaliteit splitsen op teamgrenzen. Uw gegevensteam kan bijvoorbeeld pijplijnen onderhouden om gegevens te transformeren terwijl uw gegevensanalisten pijplijnen onderhouden die de getransformeerde gegevens analyseren.
- Splitsfunctionaliteit op toepassingsspecifieke grenzen om koppeling te verminderen en het hergebruik van algemene functionaliteit te vergemakkelijken.
Ontwikkelings- en productiemodi
U kunt de uitvoering van pijplijnen optimaliseren door te schakelen tussen ontwikkelings- en productiemodi. Gebruik de knoppen in de gebruikersinterface van Pijplijnen om tussen deze twee modi te schakelen. Pijplijnen worden standaard uitgevoerd in de ontwikkelingsmodus.
Wanneer u uw pijplijn uitvoert in de ontwikkelingsmodus, doet het systeem Delta Live Tables het volgende:
- Hiermee wordt een cluster opnieuw gebruikt om de overhead van opnieuw opstarten te voorkomen. Clusters worden standaard twee uur uitgevoerd wanneer de ontwikkelingsmodus is ingeschakeld. U kunt dit wijzigen met de
pipelines.clusterShutdown.delay
instelling in de berekening configureren voor een Delta Live Tables-pijplijn. - Schakelt nieuwe pogingen voor pijplijnen uit, zodat u onmiddellijk fouten kunt detecteren en oplossen.
In de productiemodus doet het systeem Delta Live Tables het volgende:
- Start het cluster opnieuw op voor specifieke herstelbare fouten, waaronder geheugenlekken en verouderde referenties.
- Voer de uitvoering opnieuw uit in het geval van specifieke fouten, zoals een fout bij het starten van een cluster.
Notitie
Schakelen tussen ontwikkelings- en productiemodi bepaalt alleen het gedrag van cluster- en pijplijnuitvoering. Opslaglocaties en doelschema's in de catalogus voor publicatietabellen moeten worden geconfigureerd als onderdeel van pijplijninstellingen en worden niet beïnvloed bij het schakelen tussen modi.
Een pijplijn plannen
U kunt een geactiveerde pijplijn handmatig starten of de pijplijn volgens een schema uitvoeren met een Azure Databricks-taak. U kunt een taak maken en plannen met één pijplijntaak rechtstreeks in de gebruikersinterface van Delta Live Tables of een pijplijntaak toevoegen aan een werkstroom met meerdere taken in de gebruikersinterface van taken. Zie pijplijntaak voor Delta Live Tables voor taken.
Een taak met één taak en een planning voor de taak maken in de gebruikersinterface van Delta Live Tables:
- Klik op Een > planning toevoegen. Als de pijplijn is opgenomen in een of meer geplande taken, wordt de knop Planning bijgewerkt om het aantal bestaande planningen weer te geven, bijvoorbeeld Planning (5).
- Voer een naam in voor de taak in het veld Taaknaam .
- Stel de planning in op Gepland.
- Geef de periode, begintijd en tijdzone op.
- Configureer een of meer e-mailadressen voor het ontvangen van waarschuwingen bij het starten, slagen of mislukken van de pijplijn.
- Klik op Create.