Freigeben über


Konfigurieren und Bearbeiten von Lakeflow-Aufträgen

Sie können einen Auftrag mithilfe der Auftragsbenutzeroberfläche oder mit Entwicklertools wie der Databricks CLI oder der REST-API erstellen und ausführen. Mithilfe der Benutzeroberfläche oder API können Sie einen fehlgeschlagenen oder abgebrochenen Auftrag reparieren und erneut ausführen. In diesem Artikel wird gezeigt, wie Sie Aufträge mithilfe der Arbeitsbereichsbenutzeroberfläche von Aufträgen und Pipelines erstellen, konfigurieren und bearbeiten. Weitere Informationen zu anderen Tools finden Sie in den folgenden Themen:

  • Informationen zur Verwendung der Databricks CLI zum Erstellen und Ausführen von Aufträgen finden Sie unter Was ist die Databricks-CLI?.
  • Informationen zur Verwendung der Auftrags-API zum Erstellen und Ausführen von Aufträgen finden Sie im Abschnitt zu Aufträgen in der REST-API-Referenz.
  • Wenn Sie einen IaC-Ansatz (Infrastructure-as-Code) für die Konfiguration von Aufträgen bevorzugen, können Sie Databricks Asset Bundles verwenden. Informationen zur Verwendung von Bundles zum Konfigurieren und Koordinieren Ihrer Aufträge finden Sie unter Databricks Asset Bundles.
  • Informationen zum Ausführen und Planen von Aufträgen direkt in einem Databricks-Notebook finden Sie unter Erstellen und Verwalten geplanter Notebookaufträge.

Tipp

Um einen Auftrag als YAML anzuzeigen, klicken Sie auf das Optionsmenü (Drei-Punkte-Menü) links neben Jetzt ausführen für den Auftrag und dann auf Zur Code-Version (YAML) wechseln.

Welche Mindestkonfiguration ist für einen Auftrag erforderlich?

Für alle Aufträge in Azure Databricks ist Folgendes erforderlich:

  • Eine Aufgabe, die logik enthält, die ausgeführt werden soll, z. B. ein Databricks-Notizbuch. Siehe Konfigurieren und Bearbeiten von Aufgaben in Lakeflow-Aufträgen
  • Eine Computeressource zum Ausführen der Logik. Bei der Computeressource kann es sich um serverloses Computing, klassisches Job Compute oder All-Purpose Compute handeln. Siehe Rechnerkonfiguration für Aufträge.
  • Ein festgelegter Zeitplan für die Ausführung des Auftrags. Optional können Sie das Festlegen eines Zeitplans weglassen und den Auftrag manuell auslösen.
  • Ein eindeutiger Name.

Neues Projekt erstellen

In diesem Abschnitt werden die Schritte zum Erstellen eines neuen Auftrags mit einer Notizbuchaufgabe und dem Zeitplan mit der Arbeitsbereichsbenutzeroberfläche beschrieben.

Aufträge enthalten mindestens eine Aufgabe. Sie erstellen einen neuen Auftrag, indem Sie die erste Aufgabe für diesen Auftrag konfigurieren.

Hinweis

Jeder Aufgabentyp verfügt über dynamische Konfigurationsoptionen in der Benutzeroberfläche des Arbeitsbereichs. Siehe Konfigurieren und Bearbeiten von Vorgängen in Lakeflow-Aufträgen.

  1. Klicken Sie in Ihrem Arbeitsbereich auf das Symbol Aufträge & Pipelines in der Randleiste.
  2. Klicken Sie auf "Erstellen" und dann auf "Auftrag".
  3. Klicken Sie auf die Kachel " Notizbuch ", um die erste Aufgabe zu konfigurieren. Wenn die Kachel " Notizbuch " nicht verfügbar ist, klicken Sie auf "Weitere Aufgabentyp hinzufügen ", und suchen Sie nach " Notizbuch".
  4. Geben Sie einen Auftragsnamen ein.
  5. Wählen Sie ein Notebook für das Feld Pfad aus.
  6. Klicken Sie auf Aufgabe erstellen.

Wenn Ihr Arbeitsbereich nicht für serverloses Computing für Aufträge aktiviert ist, müssen Sie eine Compute-Option auswählen. Databricks empfiehlt, bei der Konfiguration von Tasks immer Jobs Compute zu verwenden.

Ein neuer Auftrag erscheint in der Auftragsliste des Arbeitsbereichs mit dem Standardnamen New Job <date> <time>.

Sie können weiterhin weitere Aufgaben innerhalb desselben Auftrags hinzufügen, falls erforderlich für Ihren Workflow. Aufträge mit mehr als 100 Vorgängen können besondere Anforderungen haben. Weitere Informationen finden Sie unter Aufträge mit einer großen Anzahl von Aufgaben.

Planen eines Auftrags

Sie können entscheiden, wann Ihr Auftrag ausgeführt wird. Standardmäßig wird sie nur ausgeführt, wenn Sie sie manuell starten, aber Sie können sie auch so konfigurieren, dass sie automatisch ausgeführt wird. Sie können einen Trigger erstellen, um einen Auftrag nach einem Zeitplan oder basierend auf einem Ereignis auszuführen.

Steuern des Aufgabenflusses innerhalb des Auftrags

Beim Konfigurieren mehrerer Aufgaben in Aufträgen können Sie spezielle Aufgaben verwenden, um zu steuern, wie die Aufgaben ausgeführt werden. Siehe Steuern des Flusses von Vorgängen in Lakeflow-Aufträgen.

Wählen Sie einen Auftrag aus, der im Arbeitsbereich bearbeitet werden soll.

Gehen Sie wie folgt vor, um einen vorhandenen Auftrag mit der Arbeitsbereich-Benutzeroberfläche zu bearbeiten:

  1. Klicken Sie in der Randleiste Ihres Azure Databricks-Arbeitsbereichs auf Aufträge und Pipelines.
  2. Wählen Sie optional die Filter "Jobs " und "Owned by me" aus .
  3. Klicken Sie auf den Name-Link Ihres Jobs.

Verwenden Sie die Benutzeroberfläche für Aufträge, um Folgendes zu tun:

  • Auftragseinstellungen bearbeiten
  • Umbenennen, Klonen oder Löschen eines Auftrags
  • Hinzufügen neuer Aufgaben zu einem vorhandenen Auftrag
  • Bearbeiten von Aufgabeneinstellungen

Hinweis

Sie können auch die JSON-Definitionen für die Verwendung mit den REST-API-Endpunkten Abrufen, Erstellen und Zurücksetzen anzeigen.

Auftragseinstellungen bearbeiten

Im Seitenbereich sind die Auftragsdetails aufgeführt. Sie können den Auftragszeitplan oder -trigger, Auftragsparameter, Computekonfiguration, Tags, Benachrichtigungen, die maximale Anzahl gleichzeitiger Ausführungen, Dauerschwellenwerte und Git-Einstellungen ändern. Sie können außerdem Auftragsberechtigungen bearbeiten, wenn die Zugriffssteuerung für Aufträge aktiviert ist.

Hinzufügen von Parametern für alle Auftragsaufgaben

Parameter, die auf Auftragsebene konfiguriert sind, werden an die Aufgaben des Auftrags übergeben, die Schlüsselwertparameter akzeptieren, einschließlich Python-Raddateien, die für die Annahme von Schlüsselwortargumenten konfiguriert sind. Siehe Aufträge parametrisieren.

Tags zu einem Auftrag hinzufügen

Um Ihrem Auftrag Bezeichnungen oder Schlüssel-Wert-Attribute hinzuzufügen, können Sie beim Bearbeiten des Auftrags Tags hinzufügen. Sie können Aufträge in der Auftragsliste mit Hilfe von Tags filtern. Sie können zum Beispiel ein department-Tag verwenden, um alle Aufträge zu filtern, die zu einer bestimmten Abteilung gehören.

Hinweis

Da Auftragstags nicht für das Speichern vertraulicher Informationen wie personenbezogener Informationen oder Kennwörter konzipiert sind, empfiehlt Databricks die Verwendung von Tags nur für nicht vertrauliche Werte.

Tags werden auch an Auftragscluster übermittelt, die beim Ausführen eines Auftrags erstellt werden, sodass Sie die Tags auch für Ihre vorhandene Clusterüberwachung verwenden können.

Klicken Sie im Seitenbereich Auftragsdetails auf + Tag, um Tags hinzuzufügen oder zu bearbeiten. Sie können das Tag entweder als Bezeichnung oder als Schlüssel-Wert-Paar hinzufügen. Um eine Bezeichnung hinzuzufügen, geben Sie diese im Feld Schlüssel ein und lassen das Feld Wert leer.

Verwenden von Git mit Aufträgen

Die Auftragsbenutzeroberfläche enthält ein Git-Feld und die Option zum Hinzufügen oder Bearbeiten von Git-Einstellungen.

Sie können die folgenden Aufgabentypen für die Verwendung eines Git-Remoterepository konfigurieren:

  • Notizbücher
  • Python-Skripts
  • SQL-Dateien
  • dbt

Alle Aufgaben in einem Auftrag müssen auf dasselbe Commit im Remote-Repository verweisen. Sie müssen für einen Auftrag, der eine Remoterepository verwendet, nur eine der folgenden Angaben machen:

  • Branch: der Name der Verzweigung, z. B. main.
  • tag: Der Name des Tags, release-1.0.0z. B. .
  • Committ: der Hash eines bestimmten Commits z. B. e0056d01.

Zu Beginn eines Auftragslaufs nimmt Databricks einen Snapshot-Commit des Remotedepository vor, um sicherzustellen, dass der gesamte Auftrag mit der gleichen Codeversion ausgeführt wird.

Wenn Sie den Ausführungsverlauf einer Aufgabe anzeigen, die in einem Git-Remoterepository gespeicherten Code ausführt, enthält der Bereich Taskausführungsdetails Git-Details – einschließlich der Commit-SHA, die der Ausführung zugeordnet ist. Weitere Informationen finden Sie unter Anzeigen des Ausführungsverlaufs von Aufgaben.

Hinweis

Aufgaben, die für die Verwendung eines Git-Remoterepository konfiguriert sind, können nicht in Arbeitsbereichsdateien geschrieben werden. Diese Aufgaben müssen temporäre Daten in den flüchtigen Speicher schreiben, der an den Treiberknoten des für die Ausführung der Aufgabe konfigurierten Compute angehängt ist, und permanente Daten auf einem Volume oder in einer Tabelle speichern.

Databricks empfiehlt das Verweisen auf Arbeitsbereichspfade in Git-Ordnern nur für schnelle Iteration und Tests während der Entwicklung. Während Sie Aufträge in Staging und Produktion verschieben, empfiehlt Databricks, diese Aufträge so zu konfigurieren, dass auf ein Remote-Git-Repository verwiesen wird. Weitere Informationen zur Verwendung eines Remote-Git-Repositorys mit einem Databricks-Auftrag finden Sie im folgenden Abschnitt.

Konfigurieren eines Git-Anbieters

Die Benutzeroberfläche für Jobs enthält einen Dialog zur Konfiguration eines Git-Remoterepository. Dieses Dialogfeld ist über den Bereich Job-Detail unter der Überschrift Git zugänglich oder in jeder Aufgabe, die für die Verwendung eines Git-Anbieters konfiguriert ist. Um auf das Dialogfeld zuzugreifen, klicken Sie im Bereich "Auftragsdetails" auf "Git-Einstellungen hinzufügen".

Geben Sie im Git-Dialogfeld (bezeichnete Git-Informationen , wenn während der Aufgabenkonfiguration auf sie zugegriffen wird) die folgenden Details ein:

  • Die Git-Repository-URL.
  • Wählen Sie in der Dropdownliste Ihren Git-Anbieter aus.
  • Geben Sie in das Feld Git-Referenz die Kennung einer Verzweigung, eines Tags oder einer Übertragung ein, die der Version des Quellcodes entspricht, die Sie ausführen möchten.
  • Wählen Sie in der Dropdownliste Branch, Commit oder Tag aus.

Hinweis

Das Dialogfeld fordert Sie möglicherweise mit folgendem Hinweis auf: Git-Anmeldeinformationen für dieses Konto fehlen. Anmeldeinformationen hinzufügen. Sie müssen ein Git-Remoterepository konfigurieren, bevor Sie es als Referenz verwenden. Siehe Einrichten von Git-Ordnern für Databricks.

Hinzufügen einer serverlosen Budgetrichtlinie zu einem Auftrag

Wichtig

Dieses Feature befindet sich in der Public Preview.

Wenn Ihr Arbeitsbereich serverlose Budgetrichtlinien verwendet, um serverlose Nutzung zu attributieren, können Sie die serverlose Budgetrichtlinie Ihrer Aufträge mithilfe der Einstellung "Budgetrichtlinie " im Bereich " Auftragsdetails " auswählen. Weitere Informationen finden Sie unter Zuordnen der Nutzung mit serverlosen Budgetrichtlinien.

Umbenennen, Klonen oder Löschen eines Auftrags

Um einen Auftrag umzubenennen, wechseln Sie zur Auftrags-UI, und klicken Sie auf den Namen des Auftrags.

Sie können schnell einen neuen Auftrag erstellen, indem Sie einen vorhandenen Auftrag klonen. Beim Klonen eines Auftrags wird, abgesehen von der Auftrags-ID, eine identische Kopie des Auftrags erstellt. Gehen Sie wie folgt vor, um einen Auftrag zu klonen:

  1. Klicken Sie auf das Symbol Aufträge & Pipelines auf der linken Randleiste.
  2. Klicken Sie auf den Namen des Auftrags, den Sie klonen möchten, um die Auftrags-UI zu öffnen.
  3. Klicken Sie auf das Kebab-Menüsymbol. Neben der Schaltfläche " Jetzt ausführen "
  4. Wählen Sie aus dem Dropdown-Menü die Option Auftrag klonen aus.
  5. Geben Sie einen Namen für den geklonten Auftrag ein.
  6. Wählen Sie Klonen aus.

Löschen eines Auftrags

Um einen Auftrag zu löschen, wechseln Sie zur Auftragsseite, klicken Sie auf das Kebab-Menüsymbol. Klicken Sie neben dem Namen des Auftrags, und wählen Sie im Dropdownmenü " Auftrag löschen " aus.

Konfigurieren von Schwellenwerten für die Ausführungsdauer des Auftrags oder für Streaming-Backlogmetriken

Wichtig

Die Streaming-Überwachung für Lakeflow-Jobs befindet sich in der öffentlichen Vorschau.

Sie können optionale Schwellenwerte für die Dauer der Auftragsausführung oder Streaming-Backlogmetriken konfigurieren. Klicken Sie zum Konfigurieren von Grenzwerten für die Dauer oder Streamingmetriken im Panel Auftragsdetails auf Grenzwerte für die Dauer und Streamingbacklogs.

Zum Konfigurieren von Schwellenwerten für die Auftragsdauer, einschließlich erwarteter und maximaler Abschlusszeiten für den Auftrag, wählen Sie Ausführungsdauer im Dropdownmenü Metrik aus. Geben Sie im Feld "Warnung " eine Dauer ein, um die erwartete Fertigstellungszeit des Auftrags zu konfigurieren. Wenn der Auftrag diesen Schwellenwert überschreitet, wird ein Ereignis ausgelöst. Sie können dieses Ereignis verwenden, um benachrichtigt zu werden, wenn ein Auftrag langsam ausgeführt wird. Siehe Konfigurieren von Benachrichtigungen für langsame Aufträge. Um eine maximale Abschlusszeit für einen Auftrag zu konfigurieren, geben Sie die maximale Dauer in das Feld Timeout ein. Wenn der Auftrag nicht innerhalb dieses Zeitraums abgeschlossen wird, legt Azure Databricks den Auftragsstatus auf „Zeitüberschreitung“ fest.

Um einen Schwellenwert für eine Streaming-Backlog-Metrik zu konfigurieren, wählen Sie die Metrik im Dropdownmenü Metrik aus, und geben Sie einen Wert für den Schwellenwert ein. Informationen zu den spezifischen Metriken, die von einer Streamingquelle unterstützt werden, finden Sie unter Anzeigen von Metriken für Streamingaufgaben.

Wenn ein Ereignis ausgelöst wird, weil ein Schwellenwert überschritten wird, können Sie das Ereignis verwenden, um eine Benachrichtigung zu senden. Siehe Konfigurieren von Benachrichtigungen für langsame Aufträge.

Sie können optional Schwellenwerte für die Dauer für Vorgänge angeben. Siehe Konfigurieren von Schwellenwerten für die Dauer der Vorgangsausführung oder Streaming-Backlogmetriken.

Aktivieren der Warteschlange für Auftragsausführungen

Hinweis

Die Warteschlange ist standardmäßig für Aufträge aktiviert, die nach dem 15. April 2024 über die Benutzeroberfläche erstellt wurden.

Um zu verhindern, dass Ausführungen eines Auftrags aufgrund von Parallelitätsgrenzwerten übersprungen werden, können Sie die Warteschlange für den Auftrag aktivieren. Wenn die Warteschlange aktiviert ist und keine Ressourcen für eine Auftragsausführung verfügbar sind, wird die Ausführung für bis zu 48 Stunden in die Warteschlange eingereiht. Wenn Kapazitäten verfügbar sind, wird die Einreihung des Auftrags in die Warteschlange aufgehoben und der Auftrag wird ausgeführt. In die Warteschlange eingereihte Ausführungen werden in der Ausführungsliste für den Auftrag und der Liste der letzten Auftragsausführungen angezeigt.

Eine Ausführung wird in die Warteschlange eingereiht, wenn eine der folgenden Grenzwerte erreicht ist:

  • Die maximale Anzahl gleichzeitig aktiver Ausführungen im Arbeitsbereich
  • Die maximale Anzahl gleichzeitiger Ausführungen der Run Job-Aufgabe im Arbeitsbereich
  • Die maximale Anzahl gleichzeitiger Ausführungen des Auftrags

Die Warteschlange ist eine Eigenschaft auf Auftragsebene, in die nur Ausführungen für den jeweiligen Auftrag gestellt werden.

Um die Warteschlangen zu aktivieren oder zu deaktivieren, klicken Sie auf "Erweiterte Einstellungen", und klicken Sie im Seitenbereich "Auftragsdetails" auf die Umschaltfläche "Warteschlange".

Konfigurieren der maximalen gleichzeitigen Durchläufe

Die Standardeinstellung für die maximale Anzahl gleichzeitiger Läufe bei allen neuen Aufträgen beträgt 1.

Klicken Sie unter Erweiterten Einstellungen auf 'Bearbeiten paralleler Läufe', um die maximale Anzahl paralleler Ausführungen dieses Auftrags festzulegen.

Azure Databricks überspringt die Ausführung, wenn der Auftrag beim Versuch zum Start einer neuen Ausführung bereits seine maximale Anzahl aktiver Ausführungen erreicht hat.

Legen Sie diesen Wert höher als 1 fest, um mehrere gleichzeitige Ausführungen desselben Auftrags zuzulassen. Dies ist beispielsweise nützlich, wenn Sie Ihren Auftrag in regelmäßigen Abständen auslösen und aufeinanderfolgende Ausführungen, die sich überlappen, zulassen möchten, oder wenn Sie mehrere Ausführungen auslösen möchten, die sich durch ihre Eingabeparameter unterscheiden.