Delen via


Uw Azure Databricks-taak uitvoeren met serverloze rekenkracht voor werkstromen

Belangrijk

Omdat serverloze berekeningen voor werkstromen geen ondersteuning bieden voor het beheren van uitgaand verkeer, hebben uw taken volledige toegang tot internet.

Met serverloze berekening voor werkstromen kunt u uw Azure Databricks-taak uitvoeren zonder infrastructuur te configureren en te implementeren. Met serverloze berekeningen richt u zich op het implementeren van uw pijplijnen voor gegevensverwerking en analyse, en Azure Databricks beheert efficiënt rekenresources, waaronder het optimaliseren en schalen van rekenkracht voor uw workloads. Automatisch schalen en Photon worden automatisch ingeschakeld voor de rekenresources die uw taak uitvoeren.

Serverloze berekening voor automatische optimalisatie van werkstromen optimaliseert automatisch de berekening door de juiste resources te selecteren, zoals instantietypen, geheugen en verwerkingsengines op basis van uw workload. Automatische optimalisatie probeert ook automatisch mislukte taken opnieuw uit te voeren.

Databricks werkt de Databricks Runtime-versie automatisch bij om verbeteringen en upgrades naar het platform te ondersteunen en tegelijkertijd de stabiliteit van uw Azure Databricks-taken te garanderen. Zie de releaseopmerkingen voor serverloze berekeningen voor werkstromen om de huidige Databricks Runtime-versie te bekijken die wordt gebruikt door serverloze berekeningen.

Omdat de machtiging voor het maken van clusters niet is vereist, kunnen alle werkruimtegebruikers serverloze berekeningen gebruiken om hun werkstromen uit te voeren.

In dit artikel wordt beschreven hoe u de gebruikersinterface van Azure Databricks-taken gebruikt om taken te maken en uit te voeren die gebruikmaken van serverloze berekeningen. U kunt ook het maken en uitvoeren van taken automatiseren die gebruikmaken van serverloze berekeningen met de Jobs-API, Databricks Asset Bundles en de Databricks SDK voor Python.

Vereisten

  • Voor uw Azure Databricks-werkruimte moet Unity Catalog zijn ingeschakeld.

  • Omdat serverloze berekeningen voor werkstromen gebruikmaken van de modus voor gedeelde toegang, moeten uw workloads deze toegangsmodus ondersteunen.

  • Uw Azure Databricks-werkruimte moet zich in een ondersteunde regio bevinden. Bekijk de beschikbaarheid van functies.

  • Voor uw Azure Databricks-account moet serverloze rekenkracht zijn ingeschakeld. Zie Serverloze berekening inschakelen.

Een taak maken met serverloze rekenkracht

Notitie

Omdat serverloze berekeningen voor werkstromen ervoor zorgen dat er voldoende resources worden ingericht om uw workloads uit te voeren, kan het zijn dat u een verhoogde opstarttijd ondervindt bij het uitvoeren van een Azure Databricks-taak waarvoor grote hoeveelheden geheugen is vereist of veel taken bevat.

Serverloze rekenkracht wordt ondersteund met de taaktypen notebook, Python-script, dbt en Python-wiel. Serverloze berekeningen worden standaard geselecteerd als het rekentype wanneer u een nieuwe taak maakt en een van deze ondersteunde taaktypen toevoegt.

Serverloze taak maken

Databricks raadt aan serverloze berekeningen te gebruiken voor alle taaktaken. U kunt ook verschillende rekentypen opgeven voor taken in een taak, wat mogelijk vereist is als een taaktype niet wordt ondersteund door serverloze berekeningen voor werkstromen.

Een bestaande taak configureren voor het gebruik van serverloze berekeningen

U kunt een bestaande taak overschakelen naar serverloze berekeningen voor ondersteunde taaktypen wanneer u de taak bewerkt. Ga als volgende te werk om over te schakelen naar serverloze berekeningen:

  • Klik in het zijpaneel Met taakdetails op Wisselen onder Compute, klik op Nieuw, voer instellingen in of werk deze bij en klik op Bijwerken.
  • Klik Omlaag caret in de vervolgkeuzelijst Compute en selecteer Serverloos.

Overschakelen naar serverloze berekeningen

Een notebook plannen met serverloze berekeningen

Naast het gebruik van de gebruikersinterface taken om een taak te maken en te plannen met serverloze berekeningen, kunt u een taak maken en uitvoeren die serverloze berekening rechtstreeks vanuit een Databricks-notebook gebruikt. Zie Geplande notebooktaken maken en beheren.

Spark-configuratieparameters instellen

Als u de configuratie van Spark op serverloze berekeningen wilt automatiseren, staat Databricks alleen specifieke Spark-configuratieparameters in. Zie Ondersteunde Spark-configuratieparameters voor de lijst met toegestane parameters.

U kunt alleen Spark-configuratieparameters instellen op sessieniveau. Hiervoor stelt u deze in een notebook in en voegt u het notebook toe aan een taak die is opgenomen in dezelfde taak die gebruikmaakt van de parameters. Zie De configuratie-eigenschappen van Apache Spark ophalen en instellen in een notebook.

Omgevingen en afhankelijkheden configureren

Zie Notebook-afhankelijkheden installeren voor informatie over het installeren van libaries en afhankelijkheden met behulp van serverloze compute.

Automatische optimalisatie van serverloze berekeningen configureren om nieuwe pogingen niet toe te staan

Serverloze berekening voor automatische optimalisatie van werkstromen optimaliseert automatisch de berekening die wordt gebruikt om uw taken uit te voeren en mislukte taken opnieuw uit te voeren. Automatische optimalisatie is standaard ingeschakeld en Databricks raadt aan deze ingeschakeld te laten om ervoor te zorgen dat kritieke workloads minstens één keer worden uitgevoerd. Als u echter workloads hebt die maximaal één keer moeten worden uitgevoerd, bijvoorbeeld taken die niet idempotent zijn, kunt u automatische optimalisatie uitschakelen bij het toevoegen of bewerken van een taak:

  1. Klik naast Nieuwe pogingen op Toevoegen (of Pictogram Bewerken als er al een beleid voor opnieuw proberen bestaat).
  2. Schakel in het dialoogvenster Beleid voor opnieuw proberen het selectievakje Serverloze automatische optimalisatie inschakelen uit (mogelijk extra nieuwe pogingen) uit.
  3. Klik op Bevestigen.
  4. Als u een taak toevoegt, klikt u op Taak maken. Als u een taak bewerkt, klikt u op Taak opslaan.

De kosten van taken bewaken die gebruikmaken van serverloze berekeningen voor werkstromen

U kunt de kosten bewaken van taken die gebruikmaken van serverloze berekeningen voor werkstromen door een query uit te voeren op de factureerbare gebruikssysteemtabel. Deze tabel wordt bijgewerkt met kenmerken van gebruikers en werkbelastingen over serverloze kosten. Raadpleeg de naslaginformatie over factureerbare gebruikssysteemtabellen.

Details voor uw Spark-query's weergeven

Serverloze berekeningen voor werkstromen hebben een nieuwe interface voor het weergeven van gedetailleerde runtime-informatie voor uw Spark-instructies, zoals metrische gegevens en queryplannen. Query-inzichten weergeven voor Spark-instructies die zijn opgenomen in uw taken worden uitgevoerd op serverloze berekeningen:

  1. Klik op Pictogram Werkstromen Werkstromen in de zijbalk.
  2. Klik in de kolom Naam op de taaknaam waarvoor u inzichten wilt weergeven.
  3. Klik op de specifieke uitvoering waarvoor u inzichten wilt weergeven.
  4. Klik in de sectie Compute van het deelvenster Taakuitvoering op Querygeschiedenis.
  5. U wordt omgeleid naar de querygeschiedenis, vooraf gefilterd op basis van de taakuitvoerings-id van de taak waarin u zich bevindt.

Zie Querygeschiedenis voor meer informatie over het gebruik van querygeschiedenis.

Beperkingen

Zie serverloze rekenbeperkingen in de opmerkingen bij de release van serverloze berekeningen voor een lijst met serverloze berekeningen voor werkstromen.