Een pijplijn voor serverloze Delta Live Tables configureren
In dit artikel worden configuraties beschreven voor serverloze Delta Live Tables-pijplijnen.
Databricks raadt aan om nieuwe pijplijnen te ontwikkelen met serverloos. Voor sommige workloads moet u mogelijk klassieke rekenkracht configureren of werken met de verouderde Hive-metastore. Zie Compute configureren voor een Delta Live Tables-pijplijn en Delta Live Tables-pijplijnen gebruiken met verouderde Hive-metastore.
Notitie
Serverloze pijplijnen maken altijd gebruik van Unity Catalog. Unity Catalog voor Delta Live Tables bevindt zich in openbare preview en heeft enkele beperkingen. Zie Unity Catalog gebruiken met uw Delta Live Tables-pijplijnen.
U kunt geen rekeninstellingen handmatig toevoegen aan een
clusters
object in de JSON-configuratie voor een serverloze pijplijn. Als u dit probeert, treedt er een fout op.Zie Serverloze compute inschakelen voor informatie over geschiktheid en inschakeling voor serverloze DLT-pijplijnen.
Als u een Azure Private Link-verbinding met uw serverloze DLT-pijplijnen wilt gebruiken, neemt u contact op met uw Databricks-vertegenwoordiger.
Vereisten
Voor uw werkruimte moet Unity Catalog zijn ingeschakeld om serverloze pijplijnen te kunnen gebruiken.
Uw werkruimte moet zich in een regio zonder server bevinden.
Aanbevolen configuratie voor serverloze pijplijnen
Belangrijk
Machtiging voor het maken van clusters is niet vereist voor het configureren van serverloze pijplijnen. Standaard kunnen alle werkruimtegebruikers serverloze pijplijnen gebruiken.
Serverloze pijplijnen verwijderen de meeste configuratieopties, omdat Azure Databricks alle infrastructuur beheert. Ga als volgt te werk om een serverloze pijplijn te configureren:
- Klik op Delta Live-tabellen in de zijbalk.
- Klik op Pijplijn maken.
- Geef een unieke pijplijnnaam op.
- Schakel het selectievakje naast Serverloos in.
- (Optioneel) Gebruik de bestandskiezer om notebooks en werkruimtebestanden als broncode te configureren.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Een koppeling voor toegang tot dit notitieblok bevindt zich onder het veld Broncode in het deelvenster Pijplijndetails zodra u de pijplijn hebt gemaakt.
- Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Selecteer een catalogus om gegevens te publiceren.
- Selecteer een schema in de catalogus. Alle streamingtabellen en gerealiseerde weergaven die in de pijplijn zijn gedefinieerd, worden in dit schema gemaakt.
- Klik op Create.
Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in de geactiveerde modus en het Huidige kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Zie Pijplijntaak voor Delta Live Tables voor taken voor meer informatie over het plannen van pijplijnen.
U kunt ook bestaande pijplijnen die zijn geconfigureerd met Unity Catalog converteren om serverloos te gebruiken. Zie Een bestaande pijplijn converteren om serverloos te gebruiken.
Andere configuratieoverwegingen
De volgende configuratieopties zijn ook beschikbaar voor serverloze pijplijnen:
- U kunt ervoor kiezen om de modus Continue pijplijn te gebruiken bij het uitvoeren van pijplijnen in productie. Zie Geactiveerd versus continue pijplijnmodus.
- Meldingen voor e-mailupdates toevoegen op basis van geslaagde of mislukte voorwaarden. Zie E-mailmeldingen toevoegen voor pijplijn gebeurtenissen.
- Gebruik het veld Configuratie om sleutel-waardeparen in te stellen voor de pijplijn. Deze configuraties dienen twee doeleinden:
- Stel willekeurige parameters in waarnaar u in uw broncode kunt verwijzen. Zie Parameters gebruiken met Delta Live Tables-pijplijnen.
- Configureer pijplijninstellingen en Spark-configuraties. Zie de referentie voor eigenschappen van Delta Live Tables.
- Gebruik het preview-kanaal om uw pijplijn te testen op wijzigingen in runtime van Delta Live Tables en nieuwe functies te testen.
Begrotingsbeleid
Belangrijk
Deze functie is beschikbaar als openbare preview.
Met budgetbeleid kan uw organisatie aangepaste tags toepassen op serverloos gebruik voor gedetailleerde factureringstoewijzing. Nadat u het selectievakje Serverloos hebt ingeschakeld, wordt de instelling Budgetbeleid weergegeven waar u het beleid kunt selecteren dat u wilt toepassen op de pijplijn. De tags worden overgenomen van het budgetbeleid en kunnen alleen worden bewerkt door werkruimtebeheerders.
Notitie
Nadat u een budgetbeleid hebt toegewezen, worden uw bestaande pijplijnen niet automatisch gelabeld met uw beleid. U moet bestaande pijplijnen handmatig bijwerken als u een beleid aan deze pijplijnen wilt koppelen.
Zie Serverloos gebruik van kenmerken met budgetbeleid voor meer informatie over budgetbeleidsregels.
Serverloze pijplijnfuncties
Naast het vereenvoudigen van de configuratie hebben serverloze pijplijnen de volgende functies:
- Incrementeel vernieuwen voor gerealiseerde weergaven: updates voor gerealiseerde weergaven worden indien mogelijk incrementeel vernieuwd. Incrementeel vernieuwen heeft dezelfde resultaten als volledige hercomputatie. De update maakt gebruik van een volledige vernieuwing als de resultaten niet incrementeel kunnen worden berekend. Zie Incrementeel vernieuwen voor gerealiseerde weergaven.
- Stream pipelining: Microbatches worden gepijplijnd om het gebruik, de doorvoer en de latentie voor werkbelastingen voor streaminggegevens, zoals gegevensopname, te verbeteren. Met andere woorden, in plaats van microbatches opeenvolgend uit te voeren, zoals standaard Spark Structured Streaming, worden serverloze DLT-pijplijnen gelijktijdig microbatches uitgevoerd, waardoor het gebruik van rekenresources wordt verbeterd. Stream pipelining is standaard ingeschakeld in serverloze DLT-pijplijnen.
- Verticaal automatisch schalen: serverloze DLT-pijplijnen worden toegevoegd aan de horizontale automatische schaalaanpassing die door Databricks wordt geleverd door verbeterde automatische schaalaanpassing door automatisch de meest kostenefficiƫnte exemplaartypen toe te wijzen waarmee uw Delta Live Tables-pijplijn kan worden uitgevoerd zonder dat er fouten optreden in het geheugen. Zie Wat is verticale automatische schaalaanpassing?
Wat is verticale automatische schaalaanpassing?
Met verticale automatische schaalaanpassing van serverloze DLT-pijplijnen worden automatisch de meest rendabele beschikbare exemplaartypen toegewezen om uw Delta Live Tables-pijplijnupdates uit te voeren zonder dat dit mislukt vanwege fouten met onvoldoende geheugen. Verticaal automatisch schalen wordt omhoog geschaald wanneer grotere exemplaartypen nodig zijn om een pijplijnupdate uit te voeren en ook omlaag te schalen wanneer wordt bepaald dat de update kan worden uitgevoerd met kleinere exemplaartypen. Verticale automatische schaalaanpassing bepaalt of stuurprogrammaknooppunten, werkknooppunten of zowel stuurprogramma- als werkknooppunten omhoog of omlaag moeten worden geschaald.
Verticale automatische schaalaanpassing wordt gebruikt voor alle serverloze DLT-pijplijnen, inclusief pijplijnen die door Databricks SQL gerealiseerde weergaven en streamingtabellen worden gebruikt.
Verticale automatische schaalaanpassing werkt door pijplijnupdates te detecteren die zijn mislukt vanwege fouten met onvoldoende geheugen. Verticale automatische schaalaanpassing wijst grotere instantietypen toe wanneer deze fouten worden gedetecteerd op basis van de onvoldoende geheugengegevens die zijn verzameld uit de mislukte update. In de productiemodus wordt automatisch een nieuwe update gestart die gebruikmaakt van de nieuwe rekenresources. In de ontwikkelingsmodus worden de nieuwe rekenresources gebruikt wanneer u handmatig een nieuwe update start.
Als bij verticaal automatisch schalen wordt gedetecteerd dat het geheugen van de toegewezen exemplaren consistent onderbenut is, worden de exemplaartypen omlaag geschaald voor gebruik in de volgende pijplijnupdate.
Een bestaande pijplijn converteren om serverloos te gebruiken
U kunt bestaande pijplijnen die zijn geconfigureerd met Unity Catalog, converteren naar serverloze pijplijnen. Voltooi de volgende stappen:
- Klik op Delta Live-tabellen in de zijbalk.
- Klik op de naam van de gewenste pijplijn in de lijst.
- Klik op instellingen.
- Schakel het selectievakje naast Serverloos in.
- Klik op Opslaan en starten.
Belangrijk
Wanneer u serverloos inschakelt, worden alle rekeninstellingen die u voor een pijplijn hebt geconfigureerd, verwijderd. Als u een pijplijn terugzet naar niet-serverloze updates, moet u de gewenste rekeninstellingen opnieuw configureren voor de pijplijnconfiguratie.
Hoe vind ik het DBU-gebruik van een serverloze pijplijn?
U vindt het DBU-gebruik van serverloze DLT-pijplijnen door een query uit te voeren op de factureerbare gebruikstabellen, onderdeel van de Azure Databricks-systeemtabellen. Zie Wat is het DBU-verbruik van een serverloze DLT-pijplijn?