Delen via


Een serverloze pijplijn configureren

In dit artikel worden configuraties voor serverloze pijplijnen beschreven.

Databricks raadt aan om nieuwe pijplijnen serverloos te ontwikkelen. Voor sommige workloads moet u mogelijk klassieke rekenkracht configureren of werken met de verouderde Hive-metastore. Zie Klassieke rekenkracht configureren voor pijplijnen en declaratieve Pijplijnen van Lakeflow Spark gebruiken met verouderde Hive-metastore.

Opmerking

  • Serverloze pijplijnen maken altijd gebruik van Unity Catalog. Zie Unity Catalog gebruiken met pijplijnen.
  • Zie Serverloze rekenbeperkingenvoor serverloze rekenbeperkingen.
  • U kunt geen rekeninstellingen handmatig toevoegen aan een clusters-object in de JSON-configuratie voor een serverloze pijplijn. Als u dit probeert, treedt er een fout op.
  • Als u een Azure Private Link-verbinding wilt gebruiken met uw serverloze Lakeflow Spark-declaratieve pijplijnen, neemt u contact op met uw Databricks-vertegenwoordiger.

Requirements

  • Voor uw werkruimte moet Unity Catalog zijn ingeschakeld om serverloze pijplijnen te kunnen gebruiken.

Belangrijk

Machtiging voor het maken van clusters is niet vereist voor het configureren van serverloze pijplijnen. Standaard kunnen alle werkruimtegebruikers serverloze pijplijnen gebruiken.

Serverloze pijplijnen verwijderen de meeste configuratieopties, omdat Azure Databricks alle infrastructuur beheert. Wanneer u een nieuwe pijplijn maakt, wordt standaard serverloos gebruikt. Zie Pijplijnen configureren voor meer informatie over het configureren van een serverloze pijplijn.

U kunt ook bestaande pijplijnen die zijn geconfigureerd met Unity Catalog converteren om serverloos te gebruiken. Zie Een bestaande pijplijn converteren om serverlozete gebruiken.

Andere configuratieoverwegingen

De volgende configuratieopties zijn ook beschikbaar voor serverloze pijplijnen:

Serverloos budgetbeleid

Belangrijk

Deze functie bevindt zich in openbare preview-versie.

Met serverloze budgetbeleidsregels kan uw organisatie aangepaste tags toepassen op serverloos gebruik voor gedetailleerde factureringstoewijzing. Nadat u het selectievakje Serverless hebt ingeschakeld, wordt de instelling voor budgetbeleid weergegeven, waar u het beleid kunt selecteren dat u wilt toepassen op de pijplijn. De tags worden overgenomen van het serverloze budgetbeleid en kunnen alleen worden bewerkt door werkruimtebeheerders.

Opmerking

Nadat u een serverloos budgetbeleid hebt toegewezen, worden uw bestaande pijplijnen niet automatisch gelabeld met uw beleid. U moet bestaande pijplijnen handmatig bijwerken als u een beleid aan deze pijplijnen wilt koppelen.

Zie voor meer informatie over serverloze budgetbeleidsregels Kenmerkgebruik met serverloze budgetbeleidsregels.

Een prestatiemodus selecteren

Voor geactiveerde pijplijnen kunt u de serverloze rekenprestatiesmodus selecteren met behulp van de instelling Geoptimaliseerd voor prestaties in de pijplijnplanner. Wanneer deze instelling is uitgeschakeld, gebruikt de pijplijn de standaardprestatiemodus. De standaardprestatiemodus is ontworpen om de kosten voor workloads te verlagen waarbij een iets hogere latentie bij het starten acceptabel is. Serverloze workloads die gebruikmaken van de standaardprestatiemodus, beginnen doorgaans binnen vier tot zes minuten nadat ze zijn geactiveerd, afhankelijk van de beschikbaarheid van rekenkracht en geoptimaliseerde planning.

Wanneer de geoptimaliseerde prestaties zijn ingeschakeld, is uw pijplijn geoptimaliseerd voor prestaties, wat resulteert in een snellere opstart- en uitvoering voor tijdgevoelige workloads.

Beide modi gebruiken dezelfde SKU, maar de standaardprestatiemodus verbruikt minder DBU's, wat een lager rekengebruik weerspiegelt.

Opmerking

Als u de standaardprestatiemodus in continue pijplijnen wilt gebruiken, neemt u contact op met uw Databricks-accountteam.

Serverloze pijplijnfuncties

Naast het vereenvoudigen van de configuratie hebben serverloze pijplijnen de volgende functies:

  • Incrementele vernieuwing voor gematerialiseerde weergaven: Updates voor gematerialiseerde weergaven worden indien mogelijk incrementeel vernieuwd. Incrementeel vernieuwen heeft dezelfde resultaten als volledige hercomputatie. De update maakt gebruik van een volledige vernieuwing als de resultaten niet incrementeel kunnen worden berekend. Zie Stapsgewijze vernieuwing voor gematerialiseerde weergaven.
  • Pijplijning van stromen: om gebruik, doorvoer en latentie voor streaming-gegevensworkloads zoals gegevensopname te verbeteren, worden microbatches gepijplijnd. Met andere woorden, in plaats van microbatches opeenvolgend uit te voeren, zoals standaard Spark Structured Streaming, voert serverloze Lakeflow Spark declaratieve pijplijnen microbatches gelijktijdig uit, waardoor het rekenresourcegebruik wordt verbeterd. Stream-pipelining is standaard ingeschakeld in serverloze pijplijnen.
  • Verticale automatische schaalaanpassing: de serverloze Lakeflow Spark declaratieve pijplijnen breiden de horizontale automatische schaalaanpassing van Databricks uit door automatisch de meest kostenefficiĆ«nte exemplaartypen toe te wijzen waarmee uw pijplijn kan worden uitgevoerd zonder dat er geheugenfouten optreden. Zie Wat is verticale autoscaling?

een bestaande pijplijn converteren om serverloos te gebruiken

U kunt bestaande pijplijnen die zijn geconfigureerd met Unity Catalog, converteren naar serverloze pijplijnen. Voltooi de volgende stappen:

  1. Klik in de zijbalk van uw Azure Databricks-werkruimte op Jobs & Pipelines.
  2. Klik op de naam van de pijplijn.
  3. Klik op Instellingen.
  4. Klik in de rechterzijbalk onder Compute op potloodpictogram..
  5. Vink het selectievakje naast serverlozeaan.
  6. Klik op Opslaan.

Belangrijk

Wanneer u serverloos inschakelt, worden alle rekeninstellingen die u voor een pijplijn hebt geconfigureerd, verwijderd. Als u een pijplijn terugzet naar niet-serverloze updates, moet u de gewenste rekeninstellingen opnieuw configureren voor de pijplijnconfiguratie.

Hoe vind ik het DBU-gebruik van een serverloze pijplijn?

U vindt het DBU-gebruik van serverloze Lakeflow Spark-declaratieve pijplijnen door een query uit te voeren op de factureerbare gebruikstabellen, onderdeel van de Azure Databricks-systeemtabellen. Zie Wat is het DBU-verbruik van een serverloze pijplijn?