Ausführen Ihres Azure Databricks-Auftrags mit serverlosem Computing für Workflows

Artikel
07/18/2024

Wichtig

Da serverloses Computing für Workflows keine Steuerung des ausgehenden Datenverkehrs unterstützt, haben Ihre Aufträge Vollzugriff auf das Internet.

Serverloses Computing für Workflows ermöglicht Ihnen, Ihren Azure Databricks-Auftrag auszuführen, ohne Infrastruktur zu konfigurieren und bereitzustellen. Beim serverlosen Computing können Sie sich auf die Implementierung Ihrer Datenverarbeitungs- und Analysepipelines konzentrieren, während Azure Databricks die Computeressourcen effizient verwaltet, einschließlich der Optimierung und Skalierung des Computings für Ihre Workloads. Die automatische Skalierung und Photon werden automatisch für die zur Ausführung Ihres Auftrags verwendeten Computeressourcen aktiviert.

Die automatische Optimierung beim serverlosen Computing für Workflows optimiert automatisch das Computing, indem geeignete Ressourcen wie Instanztypen, Arbeitsspeicher und Verarbeitungs-Engines basierend auf Ihrer Workload ausgewählt werden. Außerdem führt die automatische Optimierung Wiederhollungen fehlerhafter Aufträge durch.

Databricks aktualisiert automatisch die Databricks Runtime-Version, um Verbesserungen und Upgrades auf die Plattform anzuwenden und gleichzeitig die Stabilität Ihrer Azure Databricks-Aufträge sicherzustellen. Informationen zur aktuellen Databricks Runtime-Version, die für das serverlose Computing für Workflows verwendet wird, finden Sie in den Versionshinweisen zu serverlosem Computing.

Da die Berechtigung zum Erstellen von Clustern nicht erforderlich ist, dann serverloses Computing mit allen Benutzerkonten im Arbeitsbereich verwendet werden, um Workflows auszuführen.

In diesem Artikel wird die Verwendung der Benutzeroberfläche für Azure Databricks-Aufträge zum Erstellen und Ausführen von Aufträgen beschrieben, die serverloses Computing verwenden. Sie können auch das Erstellen und Ausführen von Aufträgen, die serverloses Computing verwenden, mit der Auftrags-API, Databrick-Ressourcenbundles oder dem Databricks SDK für Python automatisieren.

Weitere Informationen zur Verwendung der Auftrags-API zum Erstellen und Ausführen von Aufträgen, die serverloses Computing verwenden, finden Sie in der REST-API-Referenz unter Aufträge.
Weitere Informationen zur Verwendung von Databricks-Ressourcenbundles zum Erstellen und Ausführen von Aufträgen, die serverloses Computing verwenden, finden Sie unter Entwickeln eines Auftrags in Azure Databricks mithilfe von Databricks-Ressourcenbundles.
Informationen zur Verwendung des Databricks SDK für Python zum Erstellen und Ausführen von Aufträgen, die serverloses Computing verwenden, finden Sie unter Databricks SDK für Python.

Anforderungen

In Ihrem Azure Databricks-Arbeitsbereich muss Unity Catalog aktiviert sein.
Da serverloses Computing für Workflows den Modus mit freigegebenem Zugriff verwendet, müssen Ihre Workloads diesen Zugriffsmodus unterstützen.
Ihr Azure Databricks-Arbeitsbereich muss sich in einer unterstützten Region befinden. Siehe Verfügbarkeit neuer Features.
Ihr Azure Databricks-Konto muss serverlose Compute aktiviert haben. Weitere Informationen finden Sie unter Aktivieren des serverlosen Computings.

Erstellen eines Auftrags mit serverlosem Computing

Hinweis

Da serverloses Computing für Workflows sicherstellt, dass ausreichend Ressourcen bereitgestellt werden, um Ihre Workloads auszuführen, kann es zu längeren Startzeiten kommen, wenn ein Azure Databricks-Auftrag ausgeführt wird, der große Speichermengen erfordert oder viele Aufgaben umfasst.

Serverloses Computing wird mit den Aufgabentypen Notebook, Python-Skript, dbt und Python-Wheel unterstützt. Standardmäßig wird serverloses Computing als Computetyp ausgewählt, wenn Sie einen neuen Auftrag erstellen und einen dieser unterstützten Aufgabentypen hinzufügen.

Erstellen einer serverlosen Aufgabe

Databricks empfiehlt die Verwendung der serverlosen Computings für alle Auftragsaufgaben. Sie können auch unterschiedliche Computetypen für Aufgaben in einem Auftrag angeben. Dies ist möglicherweise erforderlich, wenn ein Aufgabentyp für das serverlose Computing für Workflows nicht unterstützt wird.

Konfigurieren eines vorhandenen Auftrags für die Verwendung von serverlosem Computing

Sie können einen vorhandenen Auftrag auf die Verwendung des serverlosen Computings für unterstützte Aufgabentypen umstellen, indem Sie den Auftrag bearbeiten. Um zu serverlosem Computing zu wechseln, führen Sie eine der folgenden Aktionen aus:

Wählen Sie im Bereich Auftragsdetails unter Compute die Option Tauschen und dann Neu aus, geben Sie alle Einstellungen ein, oder ändern Sie diese, und wählen Sie dann Aktualisieren aus.
Wählen Sie im Dropdownmenü Compute das Symbol und dann Serverlos aus.

Umstellen einer Aufgabe auf serverloses Computing

Planen eines Notebooks mit serverlosem Computing

Neben der Auftragsbenutzeroberfläche können Sie für das Erstellen und Planen eines Auftrags mit serverlosem Computing auch direkt aus einem Databricks-Notebook einen Auftrag erstellen und ausführen, der serverloses Computing verwendet. Weitere Informationen finden Sie unter Erstellen und Verwalten geplanter Notebookaufträge.

Festlegen von Spark-Konfigurationsparametern

Um die Konfiguration von Spark auf serverlosem Computing zu automatisieren, ermöglicht Databricks das Festlegen nur bestimmter Spark-Konfigurationsparameter. Die Liste der zulässigen Parameter finden Sie unter Unterstützte Spark-Konfigurationsparameter.

Sie können Spark-Konfigurationsparameter nur auf Sitzungsebene festlegen. Legen Sie sie dazu in einem Notebook fest, und fügen Sie das Notebook zu einer Aufgabe hinzu, die in demselben Auftrag enthalten ist, der die Parameter verwendet. Weitere Informationen finden Sie unter Abrufen und Festlegen von Apache Spark-Konfigurationseigenschaften in einem Notebook.

Konfigurieren von Umgebungen und Abhängigkeiten

Informationen zum Installieren von Bibliotheken und Abhängigkeiten mithilfe von serverlosen Berechnungen finden Sie unter Installieren von Notizbuchabhängigkeiten.

Konfigurieren der automatischen Optimierung für serverloses Computing mit Verhinderung von Wiederholungen

Die automatische Optimierung für serverloses Computing für Workflows optimiert automatisch die Computeressourcen, die zum Ausführen Ihrer Aufträge und Wiederholungen bei fehlerhaften Aufträgen verwendet werden. Standardmäßig ist die automatische Optimierung aktiviert, und Databricks empfiehlt auch, sie aktiviert zu lassen, um sicherzustellen, dass kritische Workloads mindestens einmal erfolgreich ausgeführt werden. Wenn Sie einige Ihrer Workloads höchstens einmal ausgeführt werden sollen (z. B. Aufträge, die nicht idempotent sind), können Sie die automatische Optimierung beim Hinzufügen oder Bearbeiten einer Aufgabe deaktivieren:

Wählen Sie neben Wiederholungen die Option Hinzufügen aus (oder , wenn bereits eine Wiederholungsrichtlinie vorhanden ist).
Deaktivieren Sie im Dialogfeld Wiederholungsrichtlinie die Option Serverlose automatische Optimierung aktivieren (möglicherweise zusätzliche Wiederholungen).
Klicken Sie auf Confirm (Bestätigen).
Wenn Sie eine Aufgabe hinzufügen, wählen Sie Aufgabe erstellen aus. Wenn Sie eine Aufgabe bearbeiten, wählen Sie Aufgabe speichern aus.

Überwachen der Kosten für Aufträge, die serverloses Computing für Workflows verwenden

Sie können die Kosten von Aufträgen überwachen, die serverloses Computing für Workflows verwenden, indem Sie die Systemtabelle für abrechenbaren Verbrauch abfragen. Diese Tabelle wird aktualisiert, um Benutzer- und Workloadattribute in die Kosten für serverloses Computing einzuschließen. Weitere Informationen unter Referenz zur Systemtabelle für abrechnungsfähigen Verbrauch.

Anzeigen von Details zu Ihren Spark-Abfragen

Serverloses Computing für Workflows verfügt über eine neue Benutzeroberfläche zum Anzeigen detaillierter Laufzeitinformationen für Ihre Spark-Anweisungen, z. B. Metriken und Abfragepläne. So zeigen Sie Abfrageerkenntnisse für Spark-Anweisungen aus Ihren Aufträgen an, die mit serverlosem Computing ausgeführt werden

Klicken Sie auf der Randleiste auf Workflows.
Klicken Sie in der Spalte Name auf den Auftragsnamen, für den Sie Erkenntnisse anzeigen möchten.
Klicken Sie auf die spezifische Ausführung, für die Sie Erkenntnisse anzeigen möchten.
Klicken Sie im Abschnitt Compute des Seitenbereichs Task ausgeführt auf Abfrageverlauf.
Dadurch gelangen Sie zum Abfrageverlauf, der bereits nach der Aufgabenausführungs-ID der Aufgabe gefiltert ist, in der Sie sich befanden.

Informationen zur Verwendung des Abfrageverlaufs finden Sie unter Abfrageverlauf.

Begrenzungen

Eine Liste der Einschränkungen für serverloses Computing für Workflows finden Sie in den Versionshinweisen zu serverlosem Computing unter Einschränkungen für serverloses Computing.

Freigeben über