Freigeben über


Azure Databricks

Azure Databricks bietet eine einheitliche Plattform für skalierbare Datenverwaltung, Governance und Analysen und kombiniert optimierte Workflows mit der Möglichkeit, verschiedene Datentypen effizient zu verarbeiten

Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:

Dienstleistung Class Regions
Copilot Studio Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Power Apps Premium Alle Power Apps-Regionen mit Ausnahme der folgenden:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Power Automate Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Kontakt
Name Databricks-Unterstützung
URL https://help.databricks.com
Email eng-partner-eco-help@databricks.com
Connectormetadaten
Herausgeber Databricks Inc.
Webseite https://www.databricks.com/
Datenschutzrichtlinie https://www.databricks.com/legal/privacynotice
Kategorien Daten

Verbinden mit Azure Databricks über die Microsoft Power Platform.

Auf dieser Seite wird erläutert, wie Sie eine Verbindung mit Azure Databricks von Microsoft Power Platform herstellen, indem Sie Azure Databricks als Datenverbindung hinzufügen. Wenn eine Verbindung hergestellt wird, können Sie Ihre Azure Databricks-Daten von den folgenden Plattformen verwenden:

  • Power Apps: Erstellen Sie Anwendungen, die von Azure Databricks gelesen und in Azure Databricks geschrieben werden können, während Ihre Azure Databricks-Governance-Steuerelemente erhalten bleiben.
  • Power Automate: Erstellen Sie Flüsse, und fügen Sie Aktionen hinzu, die das Ausführen von benutzerdefiniertem SQL oder einem vorhandenen Auftrag ermöglichen und die Ergebnisse zurückholen.
  • Copilot Studio: Erstellen Sie benutzerdefinierte Agents mit Ihren Azure Databricks-Daten als Wissensquelle.

Bevor Sie anfangen

Bevor Sie eine Verbindung mit Azure Databricks von Power Platform herstellen, müssen Sie die folgenden Anforderungen erfüllen:

  • Sie verfügen über ein Microsoft Entra-ID-Konto (vormals Azure Active Directory).
  • Sie verfügen über eine Premium-Power Apps-Lizenz.
  • Sie haben ein Azure Databricks-Konto.
  • Sie haben Zugriff auf ein SQL Warehouse in Azure Databricks.

Optional: Herstellen einer Verbindung mit virtuellen Azure-Netzwerken

Wenn Ihr Azure Databricks-Arbeitsbereich virtuelle Netzwerke verwendet, gibt es zwei Möglichkeiten, eine Verbindung herzustellen:

  1. Integrieren Sie Power Platform mit Ressourcen in Ihrem virtuellen Netzwerk, ohne dass diese im öffentlichen Internet verfügbar gemacht werden. Gehen Sie wie folgt vor, um eine Verbindung mit dem privaten Endpunkt Ihres Azure Databricks-Arbeitsbereichs herzustellen, nachdem Sie die private Konnektivität mit Azure Databricks konfiguriert haben:

    Weitere Informationen zu virtuellen Netzwerken finden Sie unter Übersicht über den Support für virtuelle Netzwerke.

  2. Aktivieren des Zugriffs mit einer hybriden Bereitstellung, bei der eine private Front-End-Verknüpfung mit einem öffentlichen Endpunkt durch eine IP-Zugriffsliste des Arbeitsbereichs geschützt ist. Gehen Sie wie folgt vor, um den Zugriff zu aktivieren:

    1. Aktivieren sie den öffentlichen Zugriff auf Arbeitsbereichsebene. Weitere Informationen finden Sie unter Konfigurieren von IP-Zugriffslisten für Arbeitsbereiche.
    2. Fügen Sie den IP-Bereich von AzureConnectors oder bestimmten Power Platform-IP-Bereich basierend auf der Region Ihrer Umgebung zu Ihrer Arbeitsbereich-IP-Zugriffsliste hinzu.

Optional: Erstellen eines Microsoft Entra-Dienstprinzipals

Important

Wenn Sich Azure Databricks und Power Platform in verschiedenen Mandanten befinden, müssen Sie Dienstprinzipale für die Authentifizierung verwenden.

Bevor Sie eine Verbindung herstellen, führen Sie die folgenden Schritte aus, um einen Microsoft Entra-Dienstprinzipal für Ihr Konto oder Ihren Arbeitsbereich in Azure Databricks zu erstellen, einzurichten und zuzuweisen.

Schritt 1: Hinzufügen einer Azure Databricks-Verbindung zu Power Platform

Anmerkung: Wenn Sie Copilot Studio verwenden, empfehlen wir das Erstellen der Databricks-Verbindung in Power Apps oder Power Automate. Dann kann es in Copilot Studio verwendet werden.

Gehen Sie wie folgt vor, um eine Azure Databricks-Verbindung hinzuzufügen:

  1. Klicken Sie in Power Apps oder Power Automate auf der Randleiste auf "Verbindungen".

  2. Klicken Sie in der oberen linken Ecke auf +Neue Verbindung .

  3. Suchen Sie mit der Suchleiste oben rechts nach "Azure Databricks" .

  4. Wählen Sie die Kachel "Azure Databricks" aus.

  5. Wählen Sie im Dropdownmenü Ihren Authentifizierungstyp aus.

  6. Wählen Sie Ihre Authentifizierungsmethode aus, und geben Sie Ihre Authentifizierungsinformationen ein.

    • Wenn sich Ihre Power Platform-Bereitstellung und Ihr Azure Databricks-Konto im selben Microsoft Entra-Mandanten befinden, können Sie die OAuth-Verbindung verwenden. Geben Sie die folgenden Informationen ein:

      • Geben Sie für Server-Hostname den SQL-Warehouse-Hostname von Azure Databricks ein.
      • Geben Sie für DEN HTTP-Pfad den HTTP-Pfad des SQL-Warehouses ein.
      • Klicken Sie auf "Erstellen".
      • Melden Sie sich mit Ihrer Microsoft Entra-ID an.
    • Die Dienstprinzipalverbindung kann in jedem Szenario verwendet werden. Bevor Sie verbinden, erstellen Sie einen Microsoft Entra Dienstprinzipal. Geben Sie die folgenden Informationen ein:

      • Geben Sie für die Client-ID die Dienstprinzipal-ID ein.
      • Geben Sie für den geheimen Clientschlüssel den Dienstprinzipalschlüssel ein.
      • Geben Sie für den Mandanten den Dienstprinzipalmandanten ein.
      • Geben Sie für Hostname den SQL-Warehouse-Hostnamen von Azure Databricks ein.
      • Geben Sie für DEN HTTP-Pfad den HTTP-Pfad des SQL-Warehouses ein.
      • Optional können Sie die Dienstprinzipalverbindung umbenennen oder mit Ihren Teammitgliedern teilen, nachdem die Verbindung erstellt wurde.
    • Informationen zu Ihren Azure Databricks SQL Warehouse-Verbindungsdetails finden Sie unter Abrufen von Verbindungsdetails für eine Azure Databricks-Computeressource.

  7. Klicken Sie auf "Erstellen".

Schritt 2: Verwenden der Azure Databricks-Verbindung

Nachdem Sie eine Azure Databricks-Verbindung in Power Apps oder Power Automate erstellt haben, können Sie Ihre Azure Databricks-Daten verwenden, um Power Canvas-Apps, Power Automate-Flüsse und Copilot Studio-Agents zu erstellen.

Verwenden Ihrer Azure Databricks-Daten zum Erstellen von Power Canvas-Apps

Important

Sie können Canvas-Apps nur verwenden, wenn Sie direkt eine Verbindung mit Azure Databricks in der App herstellen. Virtuelle Tabellen können nicht verwendet werden.

Gehen Sie wie folgt vor, um Ihre Azure Databricks-Daten zu Ihrer Anwendung hinzuzufügen:

  1. Klicken Sie auf der navigationsleiste ganz links auf "Erstellen".
  2. Klicken Sie auf "Mit einer leeren Leinwand beginnen" und wählen Sie die gewünschte Leinwandgröße aus, um eine neue Canvas-App zu erstellen.
  3. Klicken Sie in Ihrer Anwendung aufAzure Databricks für>>hinzufügen. Wählen Sie die von Ihnen erstellte Azure Databricks-Verbindung aus.
  4. Wählen Sie einen Katalog aus der Randleiste "Dataset auswählen " aus.
  5. Wählen Sie in der Randleiste "Dataset auswählen" alle Tabellen aus, mit der Sie Ihre Canvas-App verbinden möchten.
  6. Klicken Sie auf Verbinden.

Datenvorgänge in Power Apps:

Der Connector unterstützt Erstellungs-, Aktualisierungs- und Löschvorgänge, jedoch nur für Tabellen, die einen Primärschlüssel definiert haben. Beim Ausführen von Erstellungsvorgängen müssen Sie immer den Primärschlüssel angeben.

Anmerkung: Azure Databricks unterstützt generierte Identitätsspalten. In diesem Fall werden Primärschlüsselwerte während der Zeilenerstellung automatisch auf dem Server generiert und können nicht manuell angegeben werden.

Verwenden Ihrer Azure Databricks-Daten zum Erstellen von Power Automate-Flüssen

Die Anweisungsausführungs-API und die Auftrags-API werden in Power Automate verfügbar gemacht, sodass Sie SQL-Anweisungen schreiben und vorhandene Aufträge ausführen können. Gehen Sie wie folgt vor, um einen Power Automate-Fluss mithilfe von Azure Databricks als Aktion zu erstellen:

  1. Klicken Sie auf der navigationsleiste ganz links auf "Erstellen".
  2. Erstellen Sie einen Fluss, und fügen Sie einen beliebigen Triggertyp hinzu.
  3. Klicken Sie im neuen Fluss auf +"Databricks", und suchen Sie nach "Databricks" , um die verfügbaren Aktionen anzuzeigen.

Um SQL zu schreiben, wählen Sie eine der folgenden Aktionen aus:

  • Führen Sie eine SQL-Anweisung aus: Schreiben und Ausführen einer SQL-Anweisung. Geben Sie Folgendes ein:

    • Geben Sie für "Body/warehouse_id" die ID des Lagers ein, auf dem die SQL-Anweisung ausgeführt werden soll.
    • Geben Sie für "Body/statement_id" die ID der auszuführenden SQL-Anweisung ein.
    • Weitere Informationen zu den erweiterten Parametern finden Sie hier.
  • Überprüfen Sie den Status und erhalten Sie Ergebnisse: Überprüfen Sie den Status einer SQL-Anweisung, und sammeln Sie Ergebnisse. Geben Sie Folgendes ein:

    • Geben Sie für die Anweisungs-ID die ID ein, die zurückgegeben wird, wenn die SQL-Anweisung ausgeführt wurde.
    • Weitere Informationen zum Parameter finden Sie hier.
  • Abbrechen der Ausführung einer Anweisung: Beenden der Ausführung einer SQL-Anweisung. Geben Sie Folgendes ein:

    • Geben Sie für die Anweisungs-ID die ID der zu beendenden SQL-Anweisung ein.
    • Weitere Informationen zum Parameter finden Sie hier.
  • Ergebnis nach Blockindex abrufen: Ergebnisse nach Blockindex abrufen, die für große Resultsets geeignet ist. Geben Sie Folgendes ein:

    • Geben Sie für die Anweisungs-ID die ID der SQL-Anweisung ein, deren Ergebnisse Sie abrufen möchten.
    • Geben Sie für den Blockindex den Zielabschnittsindex ein.
    • Weitere Informationen zu den Parametern finden Sie hier.

Um mit einem vorhandenen Databricks-Auftrag zu interagieren, wählen Sie eine der folgenden Aktionen aus:

  • Listenaufträge: Ruft eine Liste von Aufträgen ab. Weitere Informationen finden Sie hier.
  • Auslösen eines neuen Auftragslaufs: Führt einen Auftrag aus und gibt die run_id der ausgelösten Ausführung zurück. Weitere Informationen finden Sie hier.
  • Abrufen einer einzelnen Auftragsausführung: Gibt Metadaten zu einer Ausführung zurück, einschließlich Ausführungsstatus (z. B. RUNNING, SUCCESS, FAILED), Start- und Endzeit, Ausführungsdauern, Clusterinformationen usw. Weitere Informationen finden Sie hier.
  • Abbrechen einer Auftragsausführung: Bricht einen Auftrag ab, oder eine Aufgabe wird ausgeführt. Weitere Informationen finden Sie hier.
  • Abrufen der Ausgabe für einen einzelnen Auftrag: Ruft die Ausgabe und Metadaten einer einzelnen Aufgabenausführung ab. Weitere Informationen finden Sie hier.

Verwenden von Azure Databricks als Wissensquelle in Copilot Studio

Gehen Sie wie folgt vor, um Ihre Azure Databricks-Daten als Wissensquelle zu einem Copilot Studio-Agent hinzuzufügen:

  1. Klicken Sie auf der Randleiste auf "Agent".
  2. Wählen Sie einen vorhandenen Agent aus, oder erstellen Sie einen neuen Agent, indem Sie auf +Neuer Agent klicken.
    • Beschreiben Sie den Agent, indem Sie eine Nachricht eingeben und dann auf "Erstellen" klicken.
    • Oder klicken Sie auf "Überspringen" , um die Informationen des Agenten manuell anzugeben.
  3. Klicken Sie auf der Registerkarte " Wissen " auf +Wissen.
  4. Klicken Sie auf "Erweitert".
  5. Wählen Sie Azure Databricks als Wissensquelle aus.
  6. Geben Sie den Katalognamen ein, in dem sich Ihre Daten befindet.
  7. Klicken Sie auf Verbinden.
  8. Wählen Sie die Tabellen aus, die Ihr Agent als Wissensquelle verwenden soll, und klicken Sie auf "Hinzufügen".

Erstellen von virtuellen Dataverse-Tabellen mit Ihren Azure Databricks-Daten

Sie können auch virtuelle Dataverse-Tabellen mit dem Azure Databricks-Connector erstellen. Virtuelle Tabellen, auch als virtuelle Entitäten bezeichnet, integrieren Daten aus externen Systemen in Microsoft Dataverse. Eine virtuelle Tabelle definiert eine Tabelle in Dataverse, ohne die physische Tabelle in der Dataverse-Datenbank zu speichern. Weitere Informationen zu virtuellen Tabellen finden Sie unter "Erste Schritte mit virtuellen Tabellen (Entitäten)".

Hinweis

Obwohl virtuelle Tabellen keine Dataverse-Speicherkapazität nutzen, empfiehlt Databricks, direkte Verbindungen für eine bessere Leistung zu verwenden.

Sie müssen über die Rolle "System Customizer" oder "Systemadministrator" verfügen. Weitere Informationen finden Sie unter Sicherheitsrollen für Power Platform.

Führen Sie die folgenden Schritte aus, um eine virtuelle Dataverse-Tabelle zu erstellen:

  1. Klicken Sie in Power Apps auf der Randleiste auf "Tabellen".

  2. Klicken Sie in der Menüleiste auf +Neue Tabelle , und wählen Sie "Virtuelle Tabelle erstellen" aus.

  3. Wählen Sie eine vorhandene Azure Databricks-Verbindung aus, oder erstellen Sie eine neue Verbindung mit Azure Databricks. Informationen zum Hinzufügen einer neuen Verbindung finden Sie unter Schritt 1: Hinzufügen einer Azure Databricks-Verbindung zu Power Platform.

    Databricks empfiehlt die Verwendung einer Dienstprinzipalverbindung zum Erstellen einer virtuellen Tabelle.

  4. Klicke auf Weiter.

  5. Wählen Sie die Tabellen aus, die als virtuelle Dataverse-Tabelle dargestellt werden sollen.

    • Virtuelle Dataverse-Tabellen erfordern einen Primärschlüssel. Daher können Ansichten keine virtuellen Tabellen sein, aber materialisierte Ansichten können.
  6. Klicke auf Weiter.

  7. Konfigurieren Sie die virtuelle Tabelle, indem Sie die Details der Tabelle bei Bedarf aktualisieren.

  8. Klicke auf Weiter.

  9. Bestätigen Sie die Details der Datenquelle, und klicken Sie auf "Fertig stellen".

  10. Verwenden Sie die virtuelle Tabelle "Dataverse" in Power Apps, Power Automate und Copilot Studio.

Eine Liste der bekannten Einschränkungen virtueller Dataverse-Tabellen finden Sie unter "Bekannte Einschränkungen" und "Problembehandlung".

Durchführen von Batchaktualisierungen

Wenn Sie als Reaktion auf Power Apps-Eingaben Massenerstellungs-, Aktualisierungs- oder Löschvorgänge ausführen müssen, empfiehlt Databricks, einen Power Automate-Fluss zu implementieren. Führen Sie hierzu die folgenden Schritte aus:

  1. Erstellen Sie eine Canvas-App mit Ihrer Azure Databricks-Verbindung in Power Apps.

  2. Erstellen Sie einen Power Automate-Fluss mithilfe der Azure Databricks-Verbindung, und verwenden Sie Power Apps als Trigger.

  3. Fügen Sie im Power Automate-Trigger die Eingabefelder hinzu, die Sie von Power Apps an Power Automate übergeben möchten.

  4. Erstellen Sie ein Sammlungsobjekt in Power Apps, um alle Ihre Änderungen zu sammeln.

  5. Fügen Sie Ihrer Canvas-App den Power Automate Flow hinzu.

  6. Rufen Sie den Power Automate-Flow aus Ihrer Canvas-App auf, und iterieren Sie über die Sammlung mithilfe eines ForAll Befehls.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Gleichzeitige Schreibvorgänge

Parallelität auf Zeilenebene reduziert Konflikte zwischen gleichzeitigen Schreibvorgängen, indem Änderungen auf Zeilenebene erkannt und Konflikte automatisch aufgelöst werden, die auftreten, wenn gleichzeitige Schreibvorgänge verschiedene Zeilen in derselben Datendatei aktualisieren oder löschen.

Parallelität auf Zeilenebene ist in Databricks Runtime 14.2 oder höher enthalten. Parallelität auf Zeilenebene wird standardmäßig für die folgenden Tabellentypen unterstützt:

  • Tabellen mit aktivierten Löschvektoren und ohne Partitionierung
  • Tabellen mit flüssigem Clustering, es sei denn, Löschvektoren sind deaktiviert

Führen Sie zum Aktivieren von Löschvektoren den folgenden SQL-Befehl aus:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Weitere Informationen zu gleichzeitigen Schreibkonflikten in Azure Databricks finden Sie unter Isolationsstufen und Schreibkonflikten in Azure Databricks.

Hinzufügen von Azure Databricks zu einer Datenrichtlinie

Durch die Integration von Azure Databricks in eine Richtlinie für Geschäftsdaten kann Azure Databricks keine Daten mit Connectors in anderen Gruppen teilen. Dadurch werden Ihre Daten geschützt und verhindert, dass sie für diejenigen freigegeben werden, die keinen Zugriff darauf haben sollten. Weitere Informationen finden Sie unter Verwalten von Datenrichtlinien.

So fügen Sie den Azure Databricks-Connector zu einer Power Platform-Datenrichtlinie hinzu:

  1. Klicken Sie in einer beliebigen Power Platform-Anwendung auf das Einstellungsrad auf der oberen rechten Seite, und wählen Sie Admin Center aus.
  2. Klicken Sie auf der Randleiste aufRichtliniendatenrichtlinien>.
  3. Wenn Sie das neue Admin Center verwenden, klicken Sie auf "Sicherheitsdaten>-und Datenschutzrichtlinie">.
  4. Klicken Sie auf +Neue Richtlinie , oder wählen Sie eine vorhandene Richtlinie aus.
  5. Wenn Sie eine neue Richtlinie erstellen, geben Sie einen Namen ein.
  6. Wählen Sie eine Umgebung aus, die Sie Ihrer Richtlinie hinzufügen möchten, und klicken Sie oben auf +Zur Richtlinie hinzufügen .
  7. Klicke auf Weiter.
  8. Suchen Und wählen Sie den Azure Databricks-Connector aus.
  9. Klicken Sie auf In „Geschäftlich“ verschieben und dann auf Weiter.
  10. Überprüfen Sie Ihre Richtlinie, und klicken Sie auf "Richtlinie erstellen".

Einschränkungen

  • Der Power Platform-Connector unterstützt keine Government Clouds.

Einschränkungen von Power App

Die folgenden PowerFx-Formeln berechnen Werte nur mit den Daten, die lokal abgerufen wurden:

Kategorie Formula
Tabellenfunktion - GroupBy
-Deutlich
Aggregation - CountRows
- StdevP
- StdevS

Erstellen einer Verbindung

Der Connector unterstützt die folgenden Authentifizierungstypen:

OAuth-Verbindung OAuth-Verbindung Alle Regionen Nicht teilbar
Dienstprinzipalverbindung Dienstprinzipalverbindung Alle Regionen Freigabefähig
Standard [VERALTET] Diese Option ist nur für ältere Verbindungen ohne expliziten Authentifizierungstyp vorgesehen und wird nur aus Gründen der Abwärtskompatibilität bereitgestellt. Alle Regionen Nicht teilbar

OAuth-Verbindung

Authentifizierungs-ID: oauth2-auth

Anwendbar: Alle Regionen

OAuth-Verbindung

Dies ist keine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird ein anderer Benutzer aufgefordert, eine neue Verbindung explizit zu erstellen.

Name Typ Description Erforderlich
Serverhostname (Beispiel: adb-3980263885549757139.2.azuredatabricks.net) Schnur Servername des Databricks-Arbeitsbereichs Richtig
HTTP-Pfad (Beispiel: /sql/1.0/warehouses/a9c4e781bd29f315) Schnur HTTP-Pfad von Databricks SQL Warehouse Richtig

Dienstprinzipalverbindung

Auth-ID: oAuthClientCredentials

Anwendbar: Alle Regionen

Dienstprinzipalverbindung

Dies ist eine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird auch die Verbindung freigegeben. Weitere Informationen finden Sie in der Übersicht über Connectors für Canvas-Apps – Power Apps | Microsoft-Dokumente

Name Typ Description Erforderlich
Kunden-ID Schnur Richtig
Geheimer Clientschlüssel securestring Richtig
Tenant Schnur Richtig
Serverhostname (Beispiel: adb-3980263885549757139.2.azuredatabricks.net) Schnur Servername des Databricks-Arbeitsbereichs Richtig
HTTP-Pfad (Beispiel: /sql/1.0/warehouses/a9c4e781bd29f315) Schnur HTTP-Pfad von Databricks SQL Warehouse Richtig

Standard [VERALTET]

Anwendbar: Alle Regionen

Diese Option ist nur für ältere Verbindungen ohne expliziten Authentifizierungstyp vorgesehen und wird nur aus Gründen der Abwärtskompatibilität bereitgestellt.

Dies ist keine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird ein anderer Benutzer aufgefordert, eine neue Verbindung explizit zu erstellen.

Drosselungsgrenzwerte

Name Aufrufe Verlängerungszeitraum
API-Aufrufe pro Verbindung 100 60 Sekunden

Aktionen

Abbrechen der Anweisungsausführung

Fordert an, dass eine ausgeführte Anweisung abgebrochen wird. Anrufer müssen den Status abfragen, um den Terminalstatus anzuzeigen.

Abbrechen einer Ausführung

Bricht einen Auftrag ab, der ausgeführt wird oder eine Aufgabe ausgeführt wird. Die Ausführung wird asynchron abgebrochen, sodass sie möglicherweise noch ausgeführt wird, wenn diese Anforderung abgeschlossen ist.

Abrufen der Ausgabe für eine einzelne Ausführung

Rufen Sie die Ausgabe und Metadaten einer einzelnen Aufgabenausführung ab. Wenn eine Notizbuchaufgabe einen Wert über den Aufruf "dbutils.notebook.exit()" zurückgibt, können Sie diesen Endpunkt verwenden, um diesen Wert abzurufen. Azure Databricks schränkt diese API auf die Rückgabe der ersten 5 MB der Ausgabe ein. Um ein größeres Ergebnis zurückzugeben, können Sie Auftragsergebnisse in einem Cloudspeicherdienst speichern. Dieser Endpunkt überprüft, ob der parameter run_id gültig ist und gibt einen HTTP-Statuscode 400 zurück, wenn der run_id-Parameter ungültig ist. Die Ausführung wird nach 60 Tagen automatisch entfernt. Wenn Sie nach 60 Tagen auf sie verweisen möchten, müssen Sie alte Ausführungsergebnisse speichern, bevor sie ablaufen.

Abrufen eines einzelnen Auftragsausführung

Ruft die Metadaten einer Ausführung ab. Große Arrays in den Ergebnissen werden paginiert, wenn sie 100 Elemente überschreiten. Eine Anforderung für eine einzelne Ausführung gibt alle Eigenschaften für diese Ausführung und die ersten 100 Elemente von Arrayeigenschaften (Aufgaben, job_clusters, job_parameters und repair_history) zurück. Verwenden Sie das feld next_page_token, um nach weiteren Ergebnissen zu suchen und den Wert als page_token in nachfolgenden Anforderungen zu übergeben. Wenn Arrayeigenschaften mehr als 100 Elemente aufweisen, werden zusätzliche Ergebnisse für nachfolgende Anforderungen zurückgegeben. Arrays ohne zusätzliche Ergebnisse werden auf späteren Seiten leer sein.

Aufträge auflisten

Ruft eine Liste von Aufträgen ab.

Ausführen einer SQL-Anweisung

Führen Sie eine SQL-Anweisung aus, und warten Sie optional ihre Ergebnisse für eine bestimmte Zeit.

Auslösen einer neuen Auftragsausführung

Führen Sie einen Auftrag aus, und geben Sie den run_id der ausgelösten Ausführung zurück.

Azure Databricks Genie

Fragen Sie Genie Spaces ab, um Einblicke aus Ihren Daten zu erhalten.

Ergebnis nach Blockindex abrufen

Nachdem die Anweisung erfolgreich ausgeführt wurde, kann diese Anforderung verwendet werden, um einen beliebigen Block nach Index abzurufen.

Überprüfen des Status und Abrufen von Ergebnissen

Abrufen des Status, des Manifests und der Ergebnisse der Anweisung

Abbrechen der Anweisungsausführung

Fordert an, dass eine ausgeführte Anweisung abgebrochen wird. Anrufer müssen den Status abfragen, um den Terminalstatus anzuzeigen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Anweisungs-ID
statement_id True string

Anweisungs-ID

Abbrechen einer Ausführung

Bricht einen Auftrag ab, der ausgeführt wird oder eine Aufgabe ausgeführt wird. Die Ausführung wird asynchron abgebrochen, sodass sie möglicherweise noch ausgeführt wird, wenn diese Anforderung abgeschlossen ist.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
run_id
run_id True integer

Dieses Feld ist ein Pflichtfeld.

Abrufen der Ausgabe für eine einzelne Ausführung

Rufen Sie die Ausgabe und Metadaten einer einzelnen Aufgabenausführung ab. Wenn eine Notizbuchaufgabe einen Wert über den Aufruf "dbutils.notebook.exit()" zurückgibt, können Sie diesen Endpunkt verwenden, um diesen Wert abzurufen. Azure Databricks schränkt diese API auf die Rückgabe der ersten 5 MB der Ausgabe ein. Um ein größeres Ergebnis zurückzugeben, können Sie Auftragsergebnisse in einem Cloudspeicherdienst speichern. Dieser Endpunkt überprüft, ob der parameter run_id gültig ist und gibt einen HTTP-Statuscode 400 zurück, wenn der run_id-Parameter ungültig ist. Die Ausführung wird nach 60 Tagen automatisch entfernt. Wenn Sie nach 60 Tagen auf sie verweisen möchten, müssen Sie alte Ausführungsergebnisse speichern, bevor sie ablaufen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Ausführungs-ID
run_id True integer

Der kanonische Bezeichner für die Ausführung.

Gibt zurück

Abrufen eines einzelnen Auftragsausführung

Ruft die Metadaten einer Ausführung ab. Große Arrays in den Ergebnissen werden paginiert, wenn sie 100 Elemente überschreiten. Eine Anforderung für eine einzelne Ausführung gibt alle Eigenschaften für diese Ausführung und die ersten 100 Elemente von Arrayeigenschaften (Aufgaben, job_clusters, job_parameters und repair_history) zurück. Verwenden Sie das feld next_page_token, um nach weiteren Ergebnissen zu suchen und den Wert als page_token in nachfolgenden Anforderungen zu übergeben. Wenn Arrayeigenschaften mehr als 100 Elemente aufweisen, werden zusätzliche Ergebnisse für nachfolgende Anforderungen zurückgegeben. Arrays ohne zusätzliche Ergebnisse werden auf späteren Seiten leer sein.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Ausführungs-ID
run_id True integer

Der kanonische Bezeichner der Ausführung, für die die Metadaten abgerufen werden sollen. Dieses Feld ist ein Pflichtfeld.

Verlauf einschließen
include_history boolean

Gibt an, ob der Reparaturverlauf in die Antwort eingeschlossen werden soll.

Aufgelöste Werte einschließen
include_resolved_values boolean

Gibt an, ob aufgelöste Parameterwerte in die Antwort eingeschlossen werden sollen.

Seitentoken
page_token string

Verwenden Sie next_page_token, die von der vorherigen GetRun-Antwort zurückgegeben wurde, um die nächste Seite der Arrayeigenschaften der Ausführung anzufordern.

Gibt zurück

Body
JobsRun

Aufträge auflisten

Ruft eine Liste von Aufträgen ab.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Limit
limit integer

Die Anzahl der zurückzugebenden Aufträge. Dieser Wert muss größer als 0 und kleiner oder gleich 100 sein. Der Standardwert ist 20.

Vorgänge erweitern
expand_tasks boolean

Gibt an, ob Aufgaben- und Clusterdetails in die Antwort eingeschlossen werden sollen. Beachten Sie, dass nur die ersten 100 Elemente angezeigt werden. Verwenden Sie ":method:jobs/get", um alle Aufgaben und Cluster zu durchlaufen.

Auftragsname
name string

Ein Filter für die Liste basierend auf dem genauen Auftragsnamen (Groß-/Kleinschreibung wird nicht beachtet).

Seitentoken
page_token string

Verwenden Sie next_page_token oder prev_page_token, die von der vorherigen Anforderung zurückgegeben wurden, um die nächste oder vorherige Seite von Aufträgen auflisten zu können.

Gibt zurück

Ausführen einer SQL-Anweisung

Führen Sie eine SQL-Anweisung aus, und warten Sie optional ihre Ergebnisse für eine bestimmte Zeit.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
warehouse_id
warehouse_id True string

Ziellager-ID

Anweisung
statement True string

Die auszuführende SQL-Anweisung. Die Anweisung kann optional parametrisiert werden, siehe Parameter

name
name True string

Parametermarkername

type
type string

Parameterdatentyp

value
value string

Parameterwert

catalog
catalog string

Standardkatalog für die Ausführung

schema
schema string

Standardschema für die Ausführung

Veranlagung
disposition string

Ergebnisabrufmodus

format
format string

Resultsetformat

on_wait_timeout
on_wait_timeout string

Aktion beim Timeout

wait_timeout
wait_timeout string

Timeout für Ergebniswartezeit

byte_limit
byte_limit integer

Ergebnisbytelimit

row_limit
row_limit integer

Ergebniszeilenlimit

Gibt zurück

Anweisungsausführungsantwort

Auslösen einer neuen Auftragsausführung

Führen Sie einen Auftrag aus, und geben Sie den run_id der ausgelösten Ausführung zurück.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
idempotency_token
idempotency_token string

Ein optionales Token, um die Idempotenz von Auftragsausführungsanforderungen zu garantieren. Wenn eine Ausführung mit dem bereitgestellten Token bereits vorhanden ist, erstellt die Anforderung keine neue Ausführung, sondern gibt stattdessen die ID der vorhandenen Ausführung zurück. Wenn eine Ausführung mit dem bereitgestellten Token gelöscht wird, wird ein Fehler zurückgegeben. Wenn Sie das idempotency-Token angeben, können Sie nach einem Fehler erneut versuchen, bis die Anforderung erfolgreich ist. Azure Databricks garantiert, dass genau eine Ausführung mit diesem idempotency-Token gestartet wird. Dieses Token muss höchstens 64 Zeichen enthalten. Weitere Informationen finden Sie unter How to ensure idempotency for jobs.

job_id
job_id True integer

Die ID des auszuführenden Auftrags

job_parameters
job_parameters object

Parameter auf Auftragsebene, die in der Ausführung verwendet werden. z. B. "param": "overriding_val"

nur
only array of string

Eine Liste der Aufgabenschlüssel, die innerhalb des Auftrags ausgeführt werden sollen. Wenn dieses Feld nicht angegeben wird, werden alle Aufgaben im Auftrag ausgeführt.

performance_target
performance_target string
full_refresh
full_refresh boolean

Bei "true" wird eine vollständige Aktualisierung der Delta-Livetabelle ausgelöst.

enabled
enabled True boolean

Wenn true, aktivieren Sie die Warteschlange für den Auftrag. Dies ist ein Pflichtfeld.

Gibt zurück

Azure Databricks Genie

Fragen Sie Genie Spaces ab, um Einblicke aus Ihren Daten zu erhalten.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Genie Space ID
genie_space_id True string

Genie Space ID

Ergebnis nach Blockindex abrufen

Nachdem die Anweisung erfolgreich ausgeführt wurde, kann diese Anforderung verwendet werden, um einen beliebigen Block nach Index abzurufen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Anweisungs-ID
statement_id True string

Anweisungs-ID

Blockindex
chunk_index True string

Blockindex

Gibt zurück

Überprüfen des Status und Abrufen von Ergebnissen

Abrufen des Status, des Manifests und der Ergebnisse der Anweisung

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Anweisungs-ID
statement_id True string

Anweisungs-ID

Gibt zurück

Anweisungsausführungsantwort

Definitionen

Object

SqlBaseChunkInfo

Metadaten für einen Resultsetabschnitt

Name Pfad Typ Beschreibung
byte_count
byte_count integer

Anzahl der Bytes im Ergebnisabschnitt

chunk_index
chunk_index integer

Position in der Sequenz von Resultsetblöcken

row_count
row_count integer

Anzahl der Zeilen im Ergebnisabschnitt

row_offset
row_offset integer

Zeilenoffset im Resultset wird gestartet

SqlColumnInfo

Name Pfad Typ Beschreibung
name
name string

Spaltenname

Position
position integer

Spaltenposition (0-basiert)

type_interval_type
type_interval_type string

Intervalltypformat

type_name
type_name SqlColumnInfoTypeName

Der Name des Basisdatentyps. Dazu gehören keine Details zu komplexen Typen wie STRUCT, MAP oder ARRAY.

type_precision
type_precision integer

Anzahl der Ziffern für den DEZIMAL-Typ

type_scale
type_scale integer

Anzahl der Dezimalstellen für DECIMAL-Typ

type_text
type_text string

Vollständige SQL-Typspezifikation

SqlColumnInfoTypeName

Der Name des Basisdatentyps. Dazu gehören keine Details zu komplexen Typen wie STRUCT, MAP oder ARRAY.

Der Name des Basisdatentyps. Dazu gehören keine Details zu komplexen Typen wie STRUCT, MAP oder ARRAY.

SqlStatementResponse

Anweisungsausführungsantwort

Name Pfad Typ Beschreibung
manifest
manifest SqlResultManifest

Resultsetschema und Metadaten

Ergebnis
result SqlResultData
statement_id
statement_id string

Anweisungs-ID

status
status SqlStatementStatus

Ausführungsstatus der Anweisung

SqlResultManifest

Resultsetschema und Metadaten

Name Pfad Typ Beschreibung
Stücke
chunks array of SqlBaseChunkInfo

Ergebnisabschnittsmetadaten

format
format string
schema
schema SqlResultSchema

Spaltendefinitionen für Resultset

total_byte_count
total_byte_count integer

Gesamtanzahl der Bytes im Resultset

total_chunk_count
total_chunk_count integer

Gesamtanzahl der Blöcke

total_row_count
total_row_count integer

Gesamtanzahl der Zeilen

abgeschnitten
truncated boolean

Ergebnisabkürzungsstatus

SqlStatementStatus

Ausführungsstatus der Anweisung

Name Pfad Typ Beschreibung
Fehler
error SqlServiceError
Staat
state SqlStatementState

Ausführungszustand der Anweisung

SqlStatementState

Ausführungszustand der Anweisung

Ausführungszustand der Anweisung

SqlServiceError

Name Pfad Typ Beschreibung
error_code
error_code string
message
message string

Fehlermeldung

SqlResultSchema

Spaltendefinitionen für Resultset

Name Pfad Typ Beschreibung
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Name Pfad Typ Beschreibung
byte_count
byte_count integer

Bytes im Ergebnisabschnitt

chunk_index
chunk_index integer

Blockposition

data_array
data_array SqlJsonArray

Array von Arrays mit Zeichenfolgenwerten

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Nächster Blockindex

next_chunk_internal_link
next_chunk_internal_link string

Nächster Abschnittslink

row_count
row_count integer

Zeilen im Block

row_offset
row_offset integer

Anfangszeilenoffset

SqlJsonArray

Array von Arrays mit Zeichenfolgenwerten

Name Pfad Typ Beschreibung
Gegenstände
array of
Name Pfad Typ Beschreibung
byte_count
byte_count integer

Bytes in Blöcken

chunk_index
chunk_index integer

Blockposition

Ablauf
expiration date-time

Ablaufzeit für Verknüpfungen

external_link
external_link string
http_headers
http_headers object

Erforderliche HTTP-Header

next_chunk_index
next_chunk_index integer

Nächster Blockindex

next_chunk_internal_link
next_chunk_internal_link string

Nächster Abschnittslink

row_count
row_count integer

Zeilen im Block

row_offset
row_offset integer

Anfangszeilenoffset

JobsRunNowResponse

Name Pfad Typ Beschreibung
run_id
run_id integer

Die global eindeutige ID der neu ausgelösten Ausführung.

JobsPerformanceTarget

JobsPipelineParams

Name Pfad Typ Beschreibung
full_refresh
full_refresh boolean

Bei "true" wird eine vollständige Aktualisierung der Delta-Livetabelle ausgelöst.

JobsQueueSettings

Name Pfad Typ Beschreibung
enabled
enabled boolean

Wenn true, aktivieren Sie die Warteschlange für den Auftrag. Dies ist ein Pflichtfeld.

JobsListJobsResponse

Name Pfad Typ Beschreibung
jobs
jobs array of JobsBaseJob

Die Liste der Aufträge. Nur in der Antwort enthalten, wenn aufträge zur Liste vorhanden sind.

next_page_token
next_page_token string

Ein Token, das zum Auflisten der nächsten Seite von Aufträgen verwendet werden kann (falls zutreffend).

prev_page_token
prev_page_token string

Ein Token, das zum Auflisten der vorherigen Seite von Aufträgen verwendet werden kann (falls zutreffend).

JobsBaseJob

Name Pfad Typ Beschreibung
created_time
created_time integer

Die Zeit, zu der dieser Auftrag in Epochen millisekunden erstellt wurde (Millisekunden seit 1.1.1970 UTC).

creator_user_name
creator_user_name string

Der Erstellerbenutzername. Dieses Feld wird nicht in die Antwort einbezogen, wenn der Benutzer bereits gelöscht wurde.

effective_budget_policy_id
effective_budget_policy_id uuid

Die ID der Budgetrichtlinie, die von diesem Auftrag für Kostenzuordnungszwecke verwendet wird. Dies kann durch (in Der Reihenfolge der Rangfolge) festgelegt werden: 1. Budgetadministratoren über das Konto oder die Arbeitsbereichskonsole 2. Auftragsbenutzeroberfläche auf der Auftragsdetailseite und der Auftrags-API mit budget_policy_id 3. Abgeleiteter Standardwert basierend auf barrierefreien Budgetrichtlinien der run_as Identität bei der Erstellung oder Änderung von Arbeitsplätzen.

has_more
has_more boolean

Gibt an, ob der Auftrag über weitere Arrayeigenschaften (Aufgaben, job_clusters) verfügt, die nicht angezeigt werden. Auf sie kann über :method:jobs/get endpoint zugegriffen werden. Es ist nur für API 2.2 :method:jobs/list requests with expand_tasks=true relevant.

job_id
job_id integer

Der kanonische Bezeichner für diesen Auftrag.

Einstellungen
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

JobsJobSettings

Name Pfad Typ Beschreibung
budget_policy_id
budget_policy_id uuid

Die ID der vom Benutzer angegebenen Budgetrichtlinie, die für diesen Auftrag verwendet werden soll. Wenn nicht angegeben, kann beim Erstellen oder Ändern des Auftrags eine Standardbudgetrichtlinie angewendet werden. Siehe effective_budget_policy_id für die von dieser Workload verwendete Budgetrichtlinie.

stetig
continuous JobsContinuous
Einsatz
deployment JobsJobDeployment
Beschreibung
description string

Eine optionale Beschreibung für den Auftrag. Die maximale Länge beträgt 27700 Zeichen in UTF-8-Codierung.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Eine Liste der Spezifikationen für die Aufgabenausführungsumgebung, auf die von serverlosen Tasks dieses Auftrags verwiesen werden kann. Für serverlose Aufgaben muss eine Umgebung vorhanden sein. Für serverlose Notizbuchaufgaben kann auf die Umgebung im Notizbuchumgebungsbereich zugegriffen werden. Für andere serverlose Aufgaben muss die Aufgabenumgebung mithilfe von environment_key in den Aufgabeneinstellungen angegeben werden.

git_source
git_source JobsGitSource
Gesundheit
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Bibliotheken können nicht in einem freigegebenen Auftragscluster deklariert werden. Sie müssen abhängige Bibliotheken in Aufgabeneinstellungen deklarieren.

max_concurrent_runs
max_concurrent_runs integer

Eine optionale maximal zulässige Anzahl gleichzeitiger Ausführungen des Jobs. Legen Sie diesen Wert fest, wenn Sie mehrere Ausführungen desselben Auftrags gleichzeitig ausführen möchten. Dies ist z. B. hilfreich, wenn Sie Ihren Auftrag in einem häufigen Zeitplan auslösen und aufeinander folgende Läufe miteinander überlappen möchten, oder wenn Sie mehrere Ausführungen auslösen möchten, die sich von ihren Eingabeparametern unterscheiden. Diese Einstellung wirkt sich nur auf neue Ausführungen aus. Angenommen, die Parallelität des Auftrags ist 4, und es gibt vier gleichzeitige aktive Ausführungen. Wenn Sie dann die Parallelität auf 3 festlegen, werden keine der aktiven Läufe beendet. Ab diesem Schritt werden jedoch neue Läufe übersprungen, es sei denn, es gibt weniger als 3 aktive Läufe. Dieser Wert darf 1000 nicht überschreiten. Wenn Sie diesen Wert auf 0 festlegen, werden alle neuen Läufe übersprungen.

name
name string

Ein optionaler Name für den Job. Die maximale Länge beträgt 4096 Bytes in UTF-8-Codierung.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Parameterdefinitionen auf Auftragsebene

performance_target
performance_target JobsPerformanceTarget
queue
queue JobsQueueSettings
run_as
run_as JobsJobRunAs
Zeitplan
schedule JobsCronSchedule
tags
tags object

Eine Karte von Tags, die dem Auftrag zugeordnet sind. Diese werden an den Cluster als Clustertags für Auftragscluster weitergeleitet und unterliegen den gleichen Einschränkungen wie Clustertags. Es können maximal 25 Tags zu dem Auftrag hinzugefügt werden.

Tasks
tasks array of JobsTask

Eine Liste der Aufgabenvorgaben, die von diesem Auftrag ausgeführt werden sollen. Es unterstützt bis zu 1000 Elemente in Schreibendpunkten (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Leseendpunkte geben nur 100 Aufgaben zurück. Wenn mehr als 100 Aufgaben verfügbar sind, können Sie sie mithilfe von :method:jobs/get durchlaufen. Verwenden Sie das feld next_page_token im Objektstamm, um zu ermitteln, ob weitere Ergebnisse verfügbar sind.

timeout_seconds
timeout_seconds integer

Ein optionales Timeout, das auf jede Ausführung dieses Auftrags angewendet wird. Ein Wert von 0 bedeutet kein Timeout.

trigger
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsContinuous

Name Pfad Typ Beschreibung
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

JobsJobDeployment

Name Pfad Typ Beschreibung
freundlich
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Pfad der Datei, die Bereitstellungsmetadaten enthält.

JobsJobDeploymentKind

JobsJobEditMode

JobsJobEmailNotifications

Name Pfad Typ Beschreibung
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn die Dauer einer Ausführung den für die Metrik RUN_DURATION_SECONDS im Integritätsfeld angegebenen Schwellenwert überschreitet. Wenn keine Regel für die Metrik RUN_DURATION_SECONDS im Integritätsfeld für den Auftrag angegeben wird, werden keine Benachrichtigungen gesendet.

on_failure
on_failure array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolglos abgeschlossen ist. Eine Ausführung gilt als erfolglos abgeschlossen, wenn sie mit einem INTERNAL_ERROR life_cycle_state oder einem FAILED oder TIMED_OUT result_state endet. Wenn dies bei der Auftragserstellung nicht angegeben ist, wird die Liste zurückgesetzt oder aktualisiert, und Benachrichtigungen werden nicht gesendet.

on_start
on_start array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung beginnt. Wenn sie bei der Auftragserstellung, beim Zurücksetzen oder aktualisieren nicht angegeben ist, ist die Liste leer, und Benachrichtigungen werden nicht gesendet.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn alle Schwellenwerte für Streaming-Backlogs für jeden Datenstrom überschritten werden. Schwellenwerte für Streaming-Backlogs können im Integritätsfeld mithilfe der folgenden Metriken festgelegt werden: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS oder STREAMING_BACKLOG_FILES. Die Warnung basiert auf dem Durchschnitt von 10 Minuten dieser Metriken. Wenn das Problem weiterhin besteht, werden Benachrichtigungen alle 30 Minuten erneut gesendet.

on_success
on_success array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich abgeschlossen wurde. Eine Ausführung gilt als erfolgreich abgeschlossen, wenn sie mit einem TERMINATED-life_cycle_state und einem SUCCESS-result_state endet. Wenn sie bei der Auftragserstellung, beim Zurücksetzen oder aktualisieren nicht angegeben ist, ist die Liste leer, und Benachrichtigungen werden nicht gesendet.

JobsJobEnvironment

Name Pfad Typ Beschreibung
environment_key
environment_key string

Der Schlüssel einer Umgebung. Es muss innerhalb eines Auftrags einzigartig sein.

Spekulation
spec ComputeEnvironment

ComputeEnvironment

Name Pfad Typ Beschreibung
Abhängigkeiten
dependencies array of string

Liste der Pip-Abhängigkeiten, wie von der Version der Pip in dieser Umgebung unterstützt. Jede Abhängigkeit ist eine gültige Pip-Anforderungsdateizeile pro https://pip.pypa.io/en/stable/reference/requirements-file-format/. Zulässige Abhängigkeiten umfassen einen Anforderungsbezeichner, eine Archiv-URL, einen lokalen Projektpfad (z. B. WSFS oder UC Volumes in Azure Databricks) oder eine VCS-Projekt-URL.

environment_version
environment_version string

Erforderlich. Von der Umgebung verwendete Umgebungsversion. Jede Version enthält eine bestimmte Python-Version und eine Reihe von Python-Paketen. Die Version ist eine Zeichenfolge, die aus einer ganzen Zahl besteht. Siehe https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

JobsGitSource

Name Pfad Typ Beschreibung
git_branch
git_branch string

Name der Verzweigung, die ausgecheckt und von diesem Auftrag verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_tag oder git_commit angegeben werden.

git_commit
git_commit string

Übernehmen Sie diesen Commit, um ausgecheckt und von diesem Auftrag verwendet zu werden. Dieses Feld kann nicht in Verbindung mit git_branch oder git_tag angegeben werden.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Name des Tags, das ausgecheckt und von diesem Auftrag verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_branch oder git_commit angegeben werden.

git_url
git_url string

DIE URL des Repositorys, das von diesem Auftrag geklont werden soll.

JobsGitProvider

JobsGitSnapshot

Name Pfad Typ Beschreibung
used_commit
used_commit string

Commit, der zum Ausführen der Ausführung verwendet wurde. Wenn git_branch angegeben wurde, verweist dies zum Zeitpunkt der Ausführung auf den HEAD der Verzweigung; wenn git_tag angegeben wurde, verweist dies auf den Commit des Tags.

JobsJobsHealthRules

Name Pfad Typ Beschreibung
Regeln
rules array of JobsJobsHealthRule

JobsJobsHealthRule

Name Pfad Typ Beschreibung
metric
metric JobsJobsHealthMetric
op
op JobsJobsHealthOperator
value
value integer

Gibt den Schwellenwert an, dem die Integritätsmetrik gehorchen soll, um die Integritätsregel zu erfüllen.

JobsJobsHealthMetric

JobsJobsHealthOperator

JobsJobCluster

Name Pfad Typ Beschreibung
job_cluster_key
job_cluster_key string

Ein eindeutiger Name für den Auftragscluster. Dieses Feld ist erforderlich und muss innerhalb des Auftrags eindeutig sein. JobTaskSettings kann auf dieses Feld verweisen, um zu bestimmen, welcher Cluster für die Aufgabenausführung gestartet werden soll.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Name Pfad Typ Beschreibung
apply_policy_default_values
apply_policy_default_values boolean

Wenn dieser Wert auf "true" festgelegt ist, werden feste und Standardwerte aus der Richtlinie für felder verwendet, die weggelassen werden. Wenn dieser Wert auf "false" festgelegt ist, werden nur feste Werte aus der Richtlinie angewendet.

autoscale
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Dadurch wird der Cluster automatisch beendet, wenn er für diese Zeit in Minuten inaktiv ist. Wenn nicht festgelegt, wird dieser Cluster nicht automatisch beendet. Wenn angegeben, muss der Schwellenwert zwischen 10 und 10000 Minuten liegen. Benutzer können diesen Wert auch auf 0 festlegen, um die automatische Beendigung explizit zu deaktivieren.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
cluster_name
cluster_name string

Der vom Benutzer angeforderte Clustername. Das muss nicht einzigartig sein. Wenn beim Erstellen nicht angegeben, ist der Clustername eine leere Zeichenfolge. Bei Auftragsclustern wird der Clustername automatisch basierend auf dem Auftrag und den Auftragsausführungs-IDs festgelegt.

custom_tags
custom_tags object

Zusätzliche Tags für Cluster-Ressourcen. Azure Databricks tagt alle Clusterressourcen (z. B. AWS-Instanzen und EBS-Volumes) zusätzlich zu default_tags mit diesen Tags. Hinweis: - Derzeit erlaubt Azure Databricks höchstens 45 benutzerdefinierte Tags – Cluster können Cloudressourcen nur wiederverwenden, wenn die Tags der Ressourcen eine Teilmenge der Clustertags sind.

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

Die optionale ID des Instanzpools für den Treiber, zu dem der Cluster gehört. Der Poolcluster verwendet den Instanzpool mit id (instance_pool_id), wenn der Treiberpool nicht zugewiesen ist.

driver_node_type_id
driver_node_type_id string

Der Knotentyp des Spark-Treibers. Beachten Sie, dass dieses Feld optional ist; wenn nicht festgelegt, wird der Treiberknotentyp mit demselben Wert festgelegt wie node_type_id oben definiert. Dieses Feld zusammen mit node_type_id sollte nicht festgelegt werden, wenn virtual_cluster_size festgelegt ist. Wenn sowohl driver_node_type_id, node_type_id als auch virtual_cluster_size angegeben werden, haben driver_node_type_id und node_type_id Vorrang.

enable_elastic_disk
enable_elastic_disk boolean

Autoskalierung des lokalen Speichers: Wenn diese Option aktiviert ist, erwirbt der Cluster dynamisch zusätzlichen Datenträgerspeicher, wenn der Speicherplatz seiner Spark-Worker zur Neige geht. Für dieses Feature sind bestimmte AWS-Berechtigungen erforderlich, um ordnungsgemäß zu funktionieren . Weitere Details finden Sie im Benutzerhandbuch.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Gibt an, ob LUKS auf den lokalen Datenträgern von Cluster-VMs aktiviert werden soll.

init_scripts
init_scripts array of ComputeInitScriptInfo

Die Konfiguration zum Speichern von Init-Skripts. Es kann eine beliebige Anzahl von Zielen angegeben werden. Die Skripts werden sequenziell in der angegebenen Reihenfolge ausgeführt. Wenn cluster_log_conf angegeben ist, werden init-Skriptprotokolle an <ziel>-/<cluster-ID>/init_scripts gesendet.

instance_pool_id
instance_pool_id string

Die optionale ID des Instanzpools, zu dem der Cluster gehört.

is_single_node
is_single_node boolean

Dieses Feld kann nur verwendet werden, wenn art = CLASSIC_PREVIEW. Bei Festlegung auf "true" werden in Azure Databricks automatisch einzelne knotenbezogene custom_tags, spark_conf und num_workers

freundlich
kind ComputeKind
node_type_id
node_type_id string

Dieses Feld codiert mithilfe eines einzigen Werts die Ressourcen, die jedem der Spark-Knoten in diesem Cluster zur Verfügung stehen. Beispielsweise können die Spark-Knoten für arbeitsspeicher- oder rechenintensive Workloads bereitgestellt und optimiert werden. Eine Liste der verfügbaren Knotentypen kann mithilfe des API-Aufrufs :method:clusters/listNodeTypes abgerufen werden.

num_workers
num_workers integer

Die Anzahl der Workerknoten, die dieser Cluster haben sollte. Ein Cluster verfügt über einen Spark Driver und num_workers Executors für insgesamt num_workers + 1 Spark-Knoten. Hinweis: Beim Lesen der Eigenschaften eines Clusters spiegelt dieses Feld die gewünschte Anzahl von Arbeitskräften und nicht die tatsächliche aktuelle Anzahl von Mitarbeitern wider. Wenn beispielsweise die Größe eines Clusters von 5 auf 10 Mitarbeiter geändert wird, wird dieses Feld sofort aktualisiert, um die Zielgröße von 10 Mitarbeitern widerzuspiegeln, während die in spark_info aufgeführten Arbeitskräfte schrittweise von 5 auf 10 steigen, da die neuen Knoten bereitgestellt werden.

policy_id
policy_id string

Die ID der Clusterrichtlinie, die zum Erstellen des Clusters verwendet wird, falls zutreffend.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Einzelner Benutzername, wenn data_security_mode SINGLE_USER

spark_conf
spark_conf object

Ein Objekt, das einen Satz optionaler, vom Benutzer angegebener Spark-Konfigurationsschlüssel-Wert-Paare enthält. Benutzer können auch eine Zeichenfolge mit zusätzlichen JVM-Optionen an den Treiber und die Executoren über spark.driver.extraJavaOptions bzw. spark.executor.extraJavaOptions übergeben.

spark_env_vars
spark_env_vars object

Ein Objekt, das einen Satz optionaler, benutzerdefinierter Umgebungsvariablen-Schlüsselwertpaare enthält. Beachten Sie, dass das Schlüsselwertpaar des Formulars (X,Y) beim Starten des Treibers und der Mitarbeiter exportiert wird (d. h. X='Y'). Um einen zusätzlichen Satz von SPARK_DAEMON_JAVA_OPTS anzugeben, empfehlen wir, sie an $SPARK_DAEMON_JAVA_OPTS anzufügen, wie im folgenden Beispiel gezeigt. Dadurch wird sichergestellt, dass auch alle vom Databrick verwalteten Umgebungsvariablen enthalten sind. Beispiel für Spark-Umgebungsvariablen: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} oder {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

Die Spark-Version des Clusters, z. B. 3.3.x-scala2.11. Eine Liste der verfügbaren Spark-Versionen kann mithilfe des API-Aufrufs :method:clusters/sparkVersions abgerufen werden.

ssh_public_keys
ssh_public_keys array of string

Inhalt des öffentlichen SSH-Schlüssels, der jedem Spark-Knoten in diesem Cluster hinzugefügt wird. Die entsprechenden privaten Schlüssel können verwendet werden, um sich mit dem Benutzernamen Ubuntu am Port 2200 anzumelden. Bis zu 10 Tasten können angegeben werden.

use_ml_runtime
use_ml_runtime boolean

Dieses Feld kann nur verwendet werden, wenn art = CLASSIC_PREVIEW. effective_spark_version wird durch spark_version (DBR Release) bestimmt, dieses Feld use_ml_runtime und ob node_type_id gpu-Knoten ist oder nicht.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Name Pfad Typ Beschreibung
max_workers
max_workers integer

Die maximale Anzahl von Mitarbeitern, auf die der Cluster skaliert werden kann, wenn er überlastet ist. Beachten Sie, dass max_workers streng größer als min_workers sein müssen.

min_workers
min_workers integer

Die Mindestanzahl der Mitarbeiter, auf die der Cluster verkleinert werden kann, wenn sie nicht genutzt werden. Es ist auch die erste Anzahl der Mitarbeiter, die der Cluster nach der Erstellung haben wird.

ComputeAzureAttributes

Name Pfad Typ Beschreibung
availability
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

Die ersten first_on_demand Knoten des Clusters werden auf On-Demand-Instanzen platziert. Dieser Wert sollte größer als 0 sein, um sicherzustellen, dass der Clustertreiberknoten in einer On-Demand-Instanz platziert wird. Wenn dieser Wert größer oder gleich der aktuellen Clustergröße ist, werden alle Knoten auf Bedarfsinstanzen platziert. Wenn dieser Wert kleiner als die aktuelle Clustergröße ist, werden first_on_demand Knoten auf On-Demand-Instanzen platziert, und der Rest wird auf Verfügbarkeitsinstanzen platziert. Beachten Sie, dass sich dieser Wert nicht auf die Clustergröße auswirkt und derzeit nicht während der Lebensdauer eines Clusters stummgeschaltet werden kann.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

Der maximal zu verwendende Angebotspreis für Azure-Spotinstanzen. Der Max-Preis für das Angebot darf nicht höher sein als der On-Demand-Preis der Instanz. Wenn nicht angegeben, ist der Standardwert -1, der angibt, dass die Instanz nicht auf der Grundlage des Preises und nur auf der Grundlage der Verfügbarkeit verräumt werden kann. Außerdem sollte > der Wert 0 oder -1 sein.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Name Pfad Typ Beschreibung
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Name Pfad Typ Beschreibung
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Name Pfad Typ Beschreibung
destination
destination string

dbfs-Ziel, z. B. dbfs:/my/path

ComputeVolumesStorageInfo

Name Pfad Typ Beschreibung
destination
destination string

UC Volumes-Ziel, z. B. /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh oder dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Name Pfad Typ Beschreibung
basic_auth
basic_auth ComputeDockerBasicAuth
URL
url string

DIE URL des Docker-Images.

ComputeDockerBasicAuth

Name Pfad Typ Beschreibung
Kennwort
password string

Kennwort des Benutzers

username
username string

Name des Benutzers

ComputeInitScriptInfo

Name Pfad Typ Beschreibung
Abfss
abfss ComputeAdlsgen2Info
file
file ComputeLocalFileInfo
Gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
Arbeitsbereich
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Name Pfad Typ Beschreibung
destination
destination string

ziel abfss, z. B. abfss://< container-name>@<storage-account-name.dfs.core.windows.net/>< directory-name>.

ComputeLocalFileInfo

Name Pfad Typ Beschreibung
destination
destination string

lokales Dateiziel, z. B. Datei:/my/local/file.sh

ComputeGcsStorageInfo

Name Pfad Typ Beschreibung
destination
destination string

GCS-Ziel/URI, z. B. gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Name Pfad Typ Beschreibung
destination
destination string

wsfs-Ziel, z. B. workspace:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Name Pfad Typ Beschreibung
clients
clients ComputeClientsTypes

ComputeClientsTypes

Name Pfad Typ Beschreibung
jobs
jobs boolean

Bei festgelegten Aufträgen kann der Cluster für Aufträge verwendet werden.

Notizbücher
notebooks boolean

Wenn Notizbücher festgelegt sind, kann dieser Cluster für Notizbücher verwendet werden.

JobsJobNotificationSettings

Name Pfad Typ Beschreibung
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Wenn true, senden Sie keine Benachrichtigungen an Empfänger, die in on_failure angegeben sind, wenn die Ausführung abgebrochen wird.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Wenn true, senden Sie keine Benachrichtigungen an Empfänger, die in on_failure angegeben sind, wenn die Ausführung übersprungen wird.

JobsJobParameterDefinition

Name Pfad Typ Beschreibung
Standardeinstellung
default string

Standardwert des Parameters.

name
name string

Der Name des definierten Parameters. Darf nur alphanumerische Zeichen, _, -, und .

JobsJobRunAs

Name Pfad Typ Beschreibung
service_principal_name
service_principal_name string

Anwendungs-ID eines aktiven Dienstprinzipals. Das Festlegen dieses Felds erfordert die ServicePrincipal/Benutzerrolle.

user_name
user_name string

Die E-Mail-Adresse eines aktiven Arbeitsbereichsbenutzers. Benutzer, die keine Administratoren sind, können dieses Feld nur auf ihre eigene E-Mail-Adresse festlegen.

JobsCronSchedule

Name Pfad Typ Beschreibung
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Ein Cron-Ausdruck mit Quarzsyntax, der den Zeitplan für einen Auftrag beschreibt. Details finden Sie unter Cron Trigger . Dieses Feld ist ein Pflichtfeld.

timezone_id
timezone_id string

Eine Java-Zeitzonen-ID. Der Zeitplan für einen Auftrag wird in Bezug auf diese Zeitzone aufgelöst. Details finden Sie unter Java TimeZone . Dieses Feld ist ein Pflichtfeld.

JobsTask

Name Pfad Typ Beschreibung
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Ein optionales Array von Objekten, das das Abhängigkeitsdiagramm der Aufgabe angibt. Alle in diesem Feld angegebenen Vorgänge müssen abgeschlossen werden, bevor sie diesen Vorgang ausführen. Die Aufgabe wird nur ausgeführt, wenn die run_if Bedingung "true" ist. Der Schlüssel ist task_key, und der Wert ist der Name, der dem abhängigen Vorgang zugewiesen ist.

Beschreibung
description string

Eine optionale Beschreibung für diese Aufgabe.

disable_auto_optimization
disable_auto_optimization boolean

Eine Option zum Deaktivieren der automatischen Optimierung ohne Server

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Der Schlüssel, der auf eine Umgebungsspezifikation in einem Auftrag verweist. Dieses Feld ist für Python-Skript-, Python-Rad- und DBT-Aufgaben erforderlich, wenn serverlose Compute verwendet wird.

existing_cluster_id
existing_cluster_id string

Wenn existing_cluster_id, wird die ID eines vorhandenen Clusters angegeben, der für alle Ausführungen verwendet wird. Wenn Sie Aufträge oder Aufgaben auf einem vorhandenen Cluster ausführen, müssen Sie den Cluster möglicherweise manuell neu starten, wenn er nicht mehr reagiert. Wir empfehlen, Aufträge und Aufgaben in neuen Clustern auszuführen, um eine höhere Zuverlässigkeit zu erzielen.

for_each_task
for_each_task JobsForEachTask
Gesundheit
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Wenn job_cluster_key, wird diese Aufgabe ausgeführt, um den in job.settings.job_clusters angegebenen Cluster erneut zu verwenden.

libraries
libraries array of ComputeLibrary

Eine optionale Liste der Bibliotheken, die auf dem Cluster installiert werden sollen. Der Standardwert ist eine leere Liste.

max_retries
max_retries integer

Eine optionale maximale Anzahl von Wiederholungsversuche für eine erfolglose Ausführung. Eine Ausführung gilt als erfolglos, wenn sie mit dem FAILED-result_state oder INTERNAL_ERROR life_cycle_state abgeschlossen ist. Der Wert -1 bedeutet, dass der Vorgang unbegrenzt wiederholt wird, und der Wert 0 bedeutet, dass er nie erneut versucht.

min_retry_interval_millis
min_retry_interval_millis integer

Ein optionales minimales Intervall in Millisekunden zwischen dem Start der fehlgeschlagenen Ausführung und der nachfolgenden Wiederholungsausführung. Das Standardverhalten besteht darin, dass nicht erfolgreiche Ausführungen sofort wiederholt werden.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Eine optionale Richtlinie, die angibt, ob ein Auftrag wiederholt werden soll, wenn es zu einem Zeitüberschreitungen kommt. Das Standardverhalten besteht darin, das Timeout nicht erneut auszuführen.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Ein eindeutiger Name für den Vorgang. Dieses Feld wird verwendet, um von anderen Vorgängen auf diesen Vorgang zu verweisen. Dieses Feld ist erforderlich und muss innerhalb des übergeordneten Auftrags eindeutig sein. Bei "Aktualisieren" oder "Zurücksetzen" wird dieses Feld verwendet, um auf die vorgänge zu verweisen, die aktualisiert oder zurückgesetzt werden sollen.

timeout_seconds
timeout_seconds integer

Ein optionales Timeout, das auf jede Ausführung dieser Auftragsaufgabe angewendet wird. Ein Wert von 0 bedeutet kein Timeout.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Name Pfad Typ Beschreibung
Linker Join
left string

Der linke Operand der Bedingungsaufgabe. Dabei kann es sich entweder um einen Zeichenfolgenwert oder einen Auftragszustand oder einen Parameterverweis sein.

op
op JobsConditionTaskOp
Rechts
right string

Der rechte Operand der Bedingungsaufgabe. Dabei kann es sich entweder um einen Zeichenfolgenwert oder einen Auftragszustand oder einen Parameterverweis sein.

JobsConditionTaskOp

JobsDashboardTask

Name Pfad Typ Beschreibung
dashboard_id
dashboard_id string

Der Bezeichner des zu aktualisierenden Dashboards.

subscription
subscription JobsSubscription
warehouse_id
warehouse_id string

Optional: Die Lager-ID, mit der das Dashboard für den Zeitplan ausgeführt werden soll. Wenn nicht angegeben, wird das Standardlager des Dashboards verwendet.

JobsSubscription

Name Pfad Typ Beschreibung
custom_subject
custom_subject string

Optional: Ermöglicht Benutzern das Angeben einer benutzerdefinierten Betreffzeile in der E-Mail, die an Abonnenten gesendet wird.

pausiert
paused boolean

Wenn dies der Fall ist, sendet das Abonnement keine E-Mails.

Abonnenten
subscribers array of JobsSubscriptionSubscriber

Die Liste der Abonnenten, an die die Momentaufnahme des Dashboards gesendet werden soll.

JobsSubscriptionSubscriber

Name Pfad Typ Beschreibung
destination_id
destination_id string

Eine Momentaufnahme des Dashboards wird an das Ziel gesendet, wenn das feld destination_id vorhanden ist.

user_name
user_name string

Eine Momentaufnahme des Dashboards wird an die E-Mail des Benutzers gesendet, wenn das feld user_name vorhanden ist.

JobsSource

JobsTaskDependency

Name Pfad Typ Beschreibung
Ergebnis
outcome string

Kann nur für Bedingungsaufgabenabhängigkeiten angegeben werden. Das Ergebnis der abhängigen Aufgabe, die erfüllt werden muss, damit diese Aufgabe ausgeführt werden kann.

task_key
task_key string

Der Name des Vorgangs, von dem dieser Vorgang abhängt.

JobsTaskEmailNotifications

Name Pfad Typ Beschreibung
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn die Dauer einer Ausführung den für die Metrik RUN_DURATION_SECONDS im Integritätsfeld angegebenen Schwellenwert überschreitet. Wenn keine Regel für die Metrik RUN_DURATION_SECONDS im Integritätsfeld für den Auftrag angegeben wird, werden keine Benachrichtigungen gesendet.

on_failure
on_failure array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolglos abgeschlossen ist. Eine Ausführung gilt als erfolglos abgeschlossen, wenn sie mit einem INTERNAL_ERROR life_cycle_state oder einem FAILED oder TIMED_OUT result_state endet. Wenn dies bei der Auftragserstellung nicht angegeben ist, wird die Liste zurückgesetzt oder aktualisiert, und Benachrichtigungen werden nicht gesendet.

on_start
on_start array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung beginnt. Wenn sie bei der Auftragserstellung, beim Zurücksetzen oder aktualisieren nicht angegeben ist, ist die Liste leer, und Benachrichtigungen werden nicht gesendet.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn alle Schwellenwerte für Streaming-Backlogs für jeden Datenstrom überschritten werden. Schwellenwerte für Streaming-Backlogs können im Integritätsfeld mithilfe der folgenden Metriken festgelegt werden: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS oder STREAMING_BACKLOG_FILES. Die Warnung basiert auf dem Durchschnitt von 10 Minuten dieser Metriken. Wenn das Problem weiterhin besteht, werden Benachrichtigungen alle 30 Minuten erneut gesendet.

on_success
on_success array of string

Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich abgeschlossen wurde. Eine Ausführung gilt als erfolgreich abgeschlossen, wenn sie mit einem TERMINATED-life_cycle_state und einem SUCCESS-result_state endet. Wenn sie bei der Auftragserstellung, beim Zurücksetzen oder aktualisieren nicht angegeben ist, ist die Liste leer, und Benachrichtigungen werden nicht gesendet.

ComputeLibrary

Name Pfad Typ Beschreibung
Cran
cran ComputeRCranLibrary
Krug
jar string

URI der zu installierenden JAR-Bibliothek. Unterstützte URIs umfassen Arbeitsbereichspfade, Unity-Katalogvolumespfade und ADLS-URIs. Beispiel: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } oder { "jar": "abfss://my-bucket/library.jar" }. Wenn ADLS verwendet wird, stellen Sie sicher, dass der Cluster Lesezugriff auf die Bibliothek hat. Möglicherweise müssen Sie den Cluster mit einem Microsoft Entra ID-Dienstprinzipal starten, um auf den ADLS-URI zuzugreifen.

Experte
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
requirements
requirements string

URI der zu installierenden requirements.txt-Datei. Es werden nur Arbeitsbereichspfade und Unity-Katalogvolumespfade unterstützt. Beispiel: { "requirements": "/Workspace/path/to/requirements.txt" } oder { "requirements" : "/Volumes/path/to/requirements.txt" }

whl
whl string

URI der zu installierenden Radbibliothek. Unterstützte URIs umfassen Arbeitsbereichspfade, Unity-Katalogvolumespfade und ADLS-URIs. Beispiel: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } oder { "whl": "abfss://my-bucket/library.whl" }. Wenn ADLS verwendet wird, stellen Sie sicher, dass der Cluster Lesezugriff auf die Bibliothek hat. Möglicherweise müssen Sie den Cluster mit einem Microsoft Entra ID-Dienstprinzipal starten, um auf den ADLS-URI zuzugreifen.

JobsForEachTask

Name Pfad Typ Beschreibung
concurrency
concurrency integer

Eine optionale maximal zulässige Anzahl gleichzeitiger Ausführung der Aufgabe. Legen Sie diesen Wert fest, wenn Sie mehrere Ausführungen der Aufgabe gleichzeitig ausführen möchten.

Eingaben
inputs string

Array für die Aufgabe, die durchlaufen werden soll. Dies kann eine JSON-Zeichenfolge oder ein Verweis auf einen Arrayparameter sein.

Aufgabe
task Object

ComputeRCranLibrary

Name Pfad Typ Beschreibung
Paket
package string

Der Name des zu installierenden CRAN-Pakets.

Repo
repo string

Das Repository, in dem das Paket gefunden werden kann. Wenn nicht angegeben, wird das standardmäßige CRAN-Repository verwendet.

ComputeMavenLibrary

Name Pfad Typ Beschreibung
Koordinaten
coordinates string

Gradle-Style maven-Koordinaten. Beispiel: "org.jsoup:jsoup:1.7.2".

Ausschlüsse
exclusions array of string

Liste der auszuschließenden Abhängigkeiten. Beispiel: ["slf4j:slf4j", "*:hadoop-client"]. Maven-Abhängigkeitsausschlüsse: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

Repo
repo string

Maven repo zum Installieren des Maven-Pakets von. Wenn nicht angegeben, werden sowohl maven Central Repository als auch Spark Packages durchsucht.

ComputePythonPyPiLibrary

Name Pfad Typ Beschreibung
Paket
package string

Der Name des zu installierenden Pypi-Pakets. Eine optionale genaue Versionsspezifikation wird ebenfalls unterstützt. Beispiele: "simplejson" und "simplejson==3.8.0".

Repo
repo string

Das Repository, in dem das Paket gefunden werden kann. Wenn nicht angegeben, wird der Standardmäßige Pip-Index verwendet.

JobsNotebookTask

Name Pfad Typ Beschreibung
base_parameters
base_parameters object

Basisparameter, die für jede Ausführung dieses Auftrags verwendet werden sollen. Wenn die Ausführung durch einen Aufruf von :method:jobs/run Now mit angegebenen Parametern initiiert wird, werden die beiden Parameterzuordnungen zusammengeführt. Wenn derselbe Schlüssel in base_parameters und jetzt ausgeführt wird, wird der Wert aus "run-now" verwendet. Verwenden Sie Task-Parametervariablen , um Parameter festzulegen, die Informationen zu Auftragsausführungen enthalten. Wenn das Notizbuch einen Parameter verwendet, der nicht im base_parameters des Auftrags angegeben ist, oder die Parameter für die Ausführung jetzt außer Kraft setzen, wird der Standardwert aus dem Notizbuch verwendet. Rufen Sie diese Parameter in einem Notizbuch mithilfe von dbutils.widgets.get ab. Die JSON-Darstellung dieses Felds darf 1 MB nicht überschreiten.

notebook_path
notebook_path string

Der Pfad des Notizbuchs, das im Azure Databricks-Arbeitsbereich oder Remote-Repository ausgeführt werden soll. Für Notizbücher, die im Azure Databricks-Arbeitsbereich gespeichert sind, muss der Pfad absolut sein und mit einem Schrägstrich beginnen. Für Notizbücher, die in einem Remote-Repository gespeichert sind, muss der Pfad relativ sein. Dieses Feld ist ein Pflichtfeld.

source
source JobsSource
warehouse_id
warehouse_id string

Optionaler warehouse_id zum Ausführen des Notizbuchs in einem SQL Warehouse. Klassische SQL-Lagerhäuser werden NICHT unterstützt, verwenden Sie serverlose oder pro SQL-Lagerhäuser. Beachten Sie, dass SQL-Lagerhäuser nur SQL-Zellen unterstützen; Wenn das Notizbuch nicht SQL-Zellen enthält, schlägt die Ausführung fehl.

JobsTaskNotificationSettings

Name Pfad Typ Beschreibung
alert_on_last_attempt
alert_on_last_attempt boolean

Wenn true, senden Sie keine Benachrichtigungen an Empfänger, die in on_start für die wiederholten Ausführung angegeben sind, und senden Sie keine Benachrichtigungen an Empfänger, die in on_failure angegeben sind, bis der letzte Wiederholungsversuch der Ausführung.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Wenn true, senden Sie keine Benachrichtigungen an Empfänger, die in on_failure angegeben sind, wenn die Ausführung abgebrochen wird.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Wenn true, senden Sie keine Benachrichtigungen an Empfänger, die in on_failure angegeben sind, wenn die Ausführung übersprungen wird.

JobsPipelineTask

Name Pfad Typ Beschreibung
full_refresh
full_refresh boolean

Bei "true" wird eine vollständige Aktualisierung der Delta-Livetabelle ausgelöst.

pipeline_id
pipeline_id string

Der vollständige Name der auszuführenden Pipelineaufgabe.

JobsPythonWheelTask

Name Pfad Typ Beschreibung
entry_point
entry_point string

Benannter Einstiegspunkt, der verwendet werden soll, wenn er nicht in den Metadaten des Pakets vorhanden ist, wird die Funktion direkt mithilfe von $packageName.$entryPoint() aus dem Paket ausgeführt.

named_parameters
named_parameters object

Befehlszeilenparameter, die in Form von ["-name=task", "-data=dbfs:/path/to/data.json" an Python-Radaufgabe übergeben werden. Lassen Sie sie leer, wenn Parameter nicht NULL sind.

package_name
package_name string

Name des auszuführenden Pakets

parameters
parameters array of string

Befehlszeilenparameter, die an die Python-Radaufgabe übergeben werden. Lassen Sie sie leer, wenn named_parameters nicht NULL ist.

JobsRunIf

JobsRunJobTask

Name Pfad Typ Beschreibung
job_id
job_id integer

ID des auszulösenden Auftrags.

job_parameters
job_parameters object

Parameter auf Auftragsebene, die zum Auslösen des Auftrags verwendet werden.

pipeline_params
pipeline_params JobsPipelineParams

JobsSparkJarTask

Name Pfad Typ Beschreibung
main_class_name
main_class_name string

Der vollständige Name der Klasse, die die auszuführende Hauptmethode enthält. Diese Klasse muss in einem JAR enthalten sein, das als Bibliothek bereitgestellt wird. Der Code muss SparkContext.getOrCreate verwenden, um einen Spark-Kontext abzurufen. andernfalls schlägt die Ausführung des Auftrags fehl.

parameters
parameters array of string

Parameter, die an die Hauptmethode übergeben werden. Verwenden Sie Task-Parametervariablen , um Parameter festzulegen, die Informationen zu Auftragsausführungen enthalten.

JobsSparkPythonTask

Name Pfad Typ Beschreibung
parameters
parameters array of string

Befehlszeilenparameter, die an die Python-Datei übergeben werden. Verwenden Sie Task-Parametervariablen , um Parameter festzulegen, die Informationen zu Auftragsausführungen enthalten.

python_file
python_file string

Die python-Datei, die ausgeführt werden soll. Clouddatei-URIs (z. B. dbfs:/, s3:/, adls:/, gcs:/) und Arbeitsbereichspfade werden unterstützt. Für Python-Dateien, die im Azure Databricks-Arbeitsbereich gespeichert sind, muss der Pfad absolut sein und mit /beginnen. Für Dateien, die in einem Remote-Repository gespeichert sind, muss der Pfad relativ sein. Dieses Feld ist ein Pflichtfeld.

source
source JobsSource

JobsSparkSubmitTask

Name Pfad Typ Beschreibung
parameters
parameters array of string

Befehlszeilenparameter, die an spark submit übergeben werden. Verwenden Sie Task-Parametervariablen , um Parameter festzulegen, die Informationen zu Auftragsausführungen enthalten.

JobsWebhookNotifications

Name Pfad Typ Beschreibung
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Eine optionale Liste von Systembenachrichtigungs-IDs, die aufgerufen werden sollen, wenn die Dauer einer Ausführung den für die RUN_DURATION_SECONDS Metrik im Integritätsfeld angegebenen Schwellenwert überschreitet. Für die eigenschaft on_duration_warning_threshold_exceeded können maximal 3 Ziele angegeben werden.

on_failure
on_failure array of JobsWebhook

Eine optionale Liste der Systembenachrichtigungs-IDs, die aufgerufen werden sollen, wenn die Ausführung fehlschlägt. Für die eigenschaft on_failure können maximal 3 Ziele angegeben werden.

on_start
on_start array of JobsWebhook

Eine optionale Liste der Systembenachrichtigungs-IDs, die beim Starten der Ausführung aufgerufen werden sollen. Für die eigenschaft on_start können maximal 3 Ziele angegeben werden.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Eine optionale Liste der Systembenachrichtigungs-IDs, die aufgerufen werden sollen, wenn alle Schwellenwerte für Streaming-Backlogs für einen beliebigen Datenstrom überschritten werden. Schwellenwerte für Streaming-Backlogs können im Integritätsfeld mithilfe der folgenden Metriken festgelegt werden: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS oder STREAMING_BACKLOG_FILES. Die Warnung basiert auf dem Durchschnitt von 10 Minuten dieser Metriken. Wenn das Problem weiterhin besteht, werden Benachrichtigungen alle 30 Minuten erneut gesendet. Für die eigenschaft on_streaming_backlog_exceeded können maximal 3 Ziele angegeben werden.

on_success
on_success array of JobsWebhook

Eine optionale Liste der Systembenachrichtigungs-IDs, die aufgerufen werden sollen, wenn die Ausführung erfolgreich abgeschlossen ist. Für die eigenschaft on_success können maximal 3 Ziele angegeben werden.

JobsWebhook

Name Pfad Typ Beschreibung
id
id string

JobsTriggerSettings

Name Pfad Typ Beschreibung
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
periodisch
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Name Pfad Typ Beschreibung
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

Bei Festlegung startet der Trigger eine Ausführung erst nach der angegebenen Zeitspanne, die seit dem letzten Auslösen des Triggers überschritten wurde. Der minimal zulässige Wert beträgt 60 Sekunden.

URL
url string

URL, die auf Dateiankünfte überwacht werden soll. Der Pfad muss auf den Stamm oder einen Unterpfad der externen Position verweisen.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

Wenn festgelegt, startet der Trigger eine Ausführung nur, nachdem für die angegebene Zeitspanne keine Dateiaktivität aufgetreten ist. Dies ermöglicht es, auf einen Batch eingehender Dateien zu warten, bevor eine Ausführung ausgelöst wird. Der mindest zulässige Wert beträgt 60 Sekunden.

JobsPeriodicTriggerConfiguration

Name Pfad Typ Beschreibung
interval
interval integer

Das Intervall, in dem der Trigger ausgeführt werden soll.

Einheit
unit JobsPeriodicTriggerConfigurationTimeUnit

JobsPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Name Pfad Typ Beschreibung
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Name Pfad Typ Beschreibung
using_file_events
using_file_events boolean

Gibt an, ob der Trigger Dateiereignisse nutzt, um Dateiankünfte zu erkennen.

JobsRun

Name Pfad Typ Beschreibung
attempt_number
attempt_number integer

Die Sequenznummer dieses Ausführungsversuchs für einen ausgelösten Auftrag. Der anfängliche Versuch einer Ausführung weist einen attempt_number von 0 auf. Wenn der anfängliche Ausführungsversuch fehlschlägt und der Auftrag über eine Wiederholungsrichtlinie (max_retries > 0) verfügt, werden nachfolgende Ausführungen mit einer original_attempt_run_id der ID des ursprünglichen Versuchs und einer inkrementierenden attempt_number erstellt. Die Ausführung wird nur ausgeführt, bis sie erfolgreich sind, und die maximale attempt_number entspricht dem max_retries Wert für den Auftrag.

cleanup_duration
cleanup_duration integer

Die Zeit in Millisekunden, die es dauerte, um den Cluster zu beenden und alle zugehörigen Artefakte zu bereinigen. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das feld "cleanup_duration" ist für Die Ausführung von Multitaskaufträgen auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Der Erstellerbenutzername. Dieses Feld wird nicht in die Antwort einbezogen, wenn der Benutzer bereits gelöscht wurde.

Beschreibung
description string

Beschreibung der Ausführung

effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Die Zeit, zu der dieser Lauf in epochen Millisekunden endete (Millisekunden seit dem 1.1.1970 UTC). Dieses Feld ist auf 0 festgelegt, wenn der Auftrag noch ausgeführt wird.

execution_duration
execution_duration integer

Die Zeit in Millisekunden, die zum Ausführen der Befehle im JAR oder Notizbuch benötigt wurde, bis sie abgeschlossen, fehlgeschlagen, timeout, abgebrochen wurden oder ein unerwarteter Fehler aufgetreten ist. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das feld "execution_duration" ist für Die Ausführung des Multitasksauftrags auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

git_source
git_source JobsGitSource
has_more
has_more boolean

Gibt an, ob die Ausführung weitere Arrayeigenschaften (Tasks, job_clusters) aufweist, die nicht angezeigt werden. Auf sie kann über den Endpunkt :method:jobs/getrun zugegriffen werden. Es ist nur für API 2.2 :method:jobs/listruns requests with expand_tasks=true relevant.

job_clusters
job_clusters array of JobsJobCluster

Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Bibliotheken können nicht in einem freigegebenen Auftragscluster deklariert werden. Sie müssen abhängige Bibliotheken in Aufgabeneinstellungen deklarieren. Wenn mehr als 100 Auftragscluster verfügbar sind, können Sie diese mithilfe von :method:jobs/getrun durchlaufen.

job_id
job_id integer

Der kanonische Bezeichner des Auftrags, der diese Ausführung enthält.

job_parameters
job_parameters array of JobsJobParameter

Parameter auf Auftragsebene, die in der Ausführung verwendet werden

job_run_id
job_run_id integer

ID des Auftragsausführung, zu dem diese Ausführung gehört. Bei Legacy- und Einzelaufgabenaufträgen wird das Feld mit der Auftragsausführungs-ID aufgefüllt. Bei Aufgabenausführungen wird das Feld mit der ID des Auftrags ausgeführt, zu dem die Aufgabe gehört.

next_page_token
next_page_token string

Ein Token, das zum Auflisten der nächsten Seite von Arrayeigenschaften verwendet werden kann.

original_attempt_run_id
original_attempt_run_id integer

Wenn diese Ausführung ein Wiederholungsversuch eines vorherigen Ausführungsversuchs ist, enthält dieses Feld die run_id des ursprünglichen Versuchs. andernfalls ist sie mit dem run_id identisch.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Die Zeit in Millisekunden, die die Ausführung in der Warteschlange aufgewendet hat.

repair_history
repair_history array of JobsRepairHistoryItem

Der Reparaturverlauf der Ausführung.

run_duration
run_duration integer

Die Zeit in Millisekunden dauerte die Ausführung des Auftrags und alle reparaturen.

run_id
run_id integer

Der kanonische Bezeichner der Ausführung. Diese ID ist für alle Ausführungsläufe aller Aufträge eindeutig.

run_name
run_name string

Ein optionaler Name für die Ausführung. Die maximale Länge beträgt 4096 Bytes in UTF-8-Codierung.

run_page_url
run_page_url string

Die URL zur Detailseite der Ausführung.

Lauftyp
run_type JobsRunType
Zeitplan
schedule JobsCronSchedule
setup_duration
setup_duration integer

Die Zeit in Millisekunden, die zum Einrichten des Clusters benötigt wurde. Bei Ausführungen, die auf neuen Clustern ausgeführt werden, ist dies die Zeit für die Clustererstellung, bei Ausführungen, die in vorhandenen Clustern ausgeführt werden, dieses Mal sehr kurz sein. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das Feld "setup_duration" ist für Die Ausführung von Multitaskaufträgen auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

Startzeit
start_time integer

Die Zeit, zu der dieser Lauf in Epochen millisekunden gestartet wurde (Millisekunden seit dem 1.1.1.1970 UTC). Dies ist möglicherweise nicht der Zeitpunkt, zu dem die Auftragsaufgabe mit der Ausführung beginnt, z. B. wenn der Auftrag auf einem neuen Cluster ausgeführt werden soll, ist dies der Zeitpunkt, zu dem der Clustererstellungsaufruf ausgegeben wird.

status
status JobsRunStatus
Tasks
tasks array of JobsRunTask

Die Liste der von der Ausführung ausgeführten Aufgaben. Jede Aufgabe verfügt über eine eigene run_id, mit der Sie JobsGetOutput aufrufen können, um die Run-Resutls abzurufen. Wenn mehr als 100 Aufgaben verfügbar sind, können Sie diese mithilfe von :method:jobs/getrun durchlaufen. Verwenden Sie das feld next_page_token im Objektstamm, um zu ermitteln, ob weitere Ergebnisse verfügbar sind.

trigger
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

JobsClusterInstance

Name Pfad Typ Beschreibung
cluster_id
cluster_id string

Der kanonische Bezeichner für den cluster, der von einer Ausführung verwendet wird. Dieses Feld ist immer für Ausführungen auf vorhandenen Clustern verfügbar. Für Die Ausführung auf neuen Clustern wird sie verfügbar, sobald der Cluster erstellt wurde. Dieser Wert kann zum Anzeigen von Protokollen verwendet werden, indem sie zu /#setting/sparkui/$cluster_id/driver-logs navigieren. Die Protokolle sind nach Abschluss der Ausführung weiterhin verfügbar. Die Antwort enthält dieses Feld nicht, wenn der Bezeichner noch nicht verfügbar ist.

spark_context_id
spark_context_id string

Der kanonische Bezeichner für den Spark-Kontext, der von einer Ausführung verwendet wird. Dieses Feld wird ausgefüllt, sobald die Ausführung beginnt. Dieser Wert kann verwendet werden, um die Spark-Benutzeroberfläche anzuzeigen, indem sie zu /#setting/sparkui/$cluster_id/$spark_context_id navigieren. Die Spark-Benutzeroberfläche ist nach Abschluss der Ausführung weiterhin verfügbar. Die Antwort enthält dieses Feld nicht, wenn der Bezeichner noch nicht verfügbar ist.

JobsClusterSpec

Name Pfad Typ Beschreibung
existing_cluster_id
existing_cluster_id string

Wenn existing_cluster_id, wird die ID eines vorhandenen Clusters angegeben, der für alle Ausführungen verwendet wird. Wenn Sie Aufträge oder Aufgaben auf einem vorhandenen Cluster ausführen, müssen Sie den Cluster möglicherweise manuell neu starten, wenn er nicht mehr reagiert. Wir empfehlen, Aufträge und Aufgaben in neuen Clustern auszuführen, um eine höhere Zuverlässigkeit zu erzielen.

job_cluster_key
job_cluster_key string

Wenn job_cluster_key, wird diese Aufgabe ausgeführt, um den in job.settings.job_clusters angegebenen Cluster erneut zu verwenden.

libraries
libraries array of ComputeLibrary

Eine optionale Liste der Bibliotheken, die auf dem Cluster installiert werden sollen. Der Standardwert ist eine leere Liste.

new_cluster
new_cluster ComputeClusterSpec

JobsJobParameter

Name Pfad Typ Beschreibung
Standardeinstellung
default string

Der optionale Standardwert des Parameters

name
name string

Der Name des Parameters

value
value string

Der in der Ausführung verwendete Wert

JobsRunParameters

Name Pfad Typ Beschreibung
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Name Pfad Typ Beschreibung
effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Die Endzeit der (reparierten) Ausführung.

id
id integer

Die ID der Reparatur. Wird nur für die Elemente zurückgegeben, die eine Reparatur in repair_history darstellen.

Startzeit
start_time integer

Die Startzeit der (reparierten) Ausführung.

status
status JobsRunStatus
task_run_ids
task_run_ids array of integer

Die Ausführungs-IDs der Aufgabe werden ausgeführt, die als Teil dieses Reparaturverlaufselements ausgeführt wurden.

type
type JobsRepairHistoryItemType

JobsRunStatus

Name Pfad Typ Beschreibung
queue_details
queue_details JobsQueueDetails
Staat
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Name Pfad Typ Beschreibung
Code
code JobsQueueDetailsCodeCode
message
message string

Eine beschreibende Nachricht mit den Warteschlangendetails. Dieses Feld ist unstrukturiert, und das genaue Format kann geändert werden.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Name Pfad Typ Beschreibung
Code
code JobsTerminationCodeCode
message
message string

Eine beschreibende Nachricht mit den Beendigungsdetails. Dieses Feld ist unstrukturiert, und das Format kann sich ändern.

type
type JobsTerminationTypeType

JobsTerminationCodeCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Name Pfad Typ Beschreibung
attempt_number
attempt_number integer

Die Sequenznummer dieses Ausführungsversuchs für einen ausgelösten Auftrag. Der anfängliche Versuch einer Ausführung weist einen attempt_number von 0 auf. Wenn der anfängliche Ausführungsversuch fehlschlägt und der Auftrag über eine Wiederholungsrichtlinie (max_retries > 0) verfügt, werden nachfolgende Ausführungen mit einer original_attempt_run_id der ID des ursprünglichen Versuchs und einer inkrementierenden attempt_number erstellt. Die Ausführung wird nur ausgeführt, bis sie erfolgreich sind, und die maximale attempt_number entspricht dem max_retries Wert für den Auftrag.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Die Zeit in Millisekunden, die es dauerte, um den Cluster zu beenden und alle zugehörigen Artefakte zu bereinigen. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das feld "cleanup_duration" ist für Die Ausführung von Multitaskaufträgen auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Ein optionales Array von Objekten, das das Abhängigkeitsdiagramm der Aufgabe angibt. Alle in diesem Feld angegebenen Vorgänge müssen erfolgreich abgeschlossen werden, bevor diese Aufgabe ausgeführt wird. Der Schlüssel ist task_key, und der Wert ist der Name, der dem abhängigen Vorgang zugewiesen ist.

Beschreibung
description string

Eine optionale Beschreibung für diese Aufgabe.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
end_time
end_time integer

Die Zeit, zu der dieser Lauf in epochen Millisekunden endete (Millisekunden seit dem 1.1.1970 UTC). Dieses Feld ist auf 0 festgelegt, wenn der Auftrag noch ausgeführt wird.

environment_key
environment_key string

Der Schlüssel, der auf eine Umgebungsspezifikation in einem Auftrag verweist. Dieses Feld ist für Python-Skript-, Python-Rad- und DBT-Aufgaben erforderlich, wenn serverlose Compute verwendet wird.

execution_duration
execution_duration integer

Die Zeit in Millisekunden, die zum Ausführen der Befehle im JAR oder Notizbuch benötigt wurde, bis sie abgeschlossen, fehlgeschlagen, timeout, abgebrochen wurden oder ein unerwarteter Fehler aufgetreten ist. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das feld "execution_duration" ist für Die Ausführung des Multitasksauftrags auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

existing_cluster_id
existing_cluster_id string

Wenn existing_cluster_id, wird die ID eines vorhandenen Clusters angegeben, der für alle Ausführungen verwendet wird. Wenn Sie Aufträge oder Aufgaben auf einem vorhandenen Cluster ausführen, müssen Sie den Cluster möglicherweise manuell neu starten, wenn er nicht mehr reagiert. Wir empfehlen, Aufträge und Aufgaben in neuen Clustern auszuführen, um eine höhere Zuverlässigkeit zu erzielen.

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Wenn job_cluster_key, wird diese Aufgabe ausgeführt, um den in job.settings.job_clusters angegebenen Cluster erneut zu verwenden.

libraries
libraries array of Object

Eine optionale Liste der Bibliotheken, die auf dem Cluster installiert werden sollen. Der Standardwert ist eine leere Liste.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Die Zeit in Millisekunden, die die Ausführung in der Warteschlange aufgewendet hat.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

Die Zeit in Millisekunden dauerte die Ausführung des Auftrags und alle reparaturen.

run_id
run_id integer

Die ID der Ausführung der Aufgabe.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

Die Zeit in Millisekunden, die zum Einrichten des Clusters benötigt wurde. Bei Ausführungen, die auf neuen Clustern ausgeführt werden, ist dies die Zeit für die Clustererstellung, bei Ausführungen, die in vorhandenen Clustern ausgeführt werden, dieses Mal sehr kurz sein. Die Dauer einer Vorgangsausführung ist die Summe der setup_duration, execution_duration und der cleanup_duration. Das Feld "setup_duration" ist für Die Ausführung von Multitaskaufträgen auf 0 festgelegt. Die Gesamtdauer eines Ausführens eines Multitasksauftrags ist der Wert des felds run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
Startzeit
start_time integer

Die Zeit, zu der dieser Lauf in Epochen millisekunden gestartet wurde (Millisekunden seit dem 1.1.1.1970 UTC). Dies ist möglicherweise nicht der Zeitpunkt, zu dem die Auftragsaufgabe mit der Ausführung beginnt, z. B. wenn der Auftrag auf einem neuen Cluster ausgeführt werden soll, ist dies der Zeitpunkt, zu dem der Clustererstellungsaufruf ausgegeben wird.

status
status JobsRunStatus
task_key
task_key string

Ein eindeutiger Name für den Vorgang. Dieses Feld wird verwendet, um von anderen Vorgängen auf diesen Vorgang zu verweisen. Dieses Feld ist erforderlich und muss innerhalb des übergeordneten Auftrags eindeutig sein. Bei "Aktualisieren" oder "Zurücksetzen" wird dieses Feld verwendet, um auf die vorgänge zu verweisen, die aktualisiert oder zurückgesetzt werden sollen.

timeout_seconds
timeout_seconds integer

Ein optionales Timeout, das auf jede Ausführung dieser Auftragsaufgabe angewendet wird. Ein Wert von 0 bedeutet kein Timeout.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Name Pfad Typ Beschreibung
Linker Join
left string

Der linke Operand der Bedingungsaufgabe. Dabei kann es sich entweder um einen Zeichenfolgenwert oder einen Auftragszustand oder einen Parameterverweis sein.

op
op JobsConditionTaskOp
Ergebnis
outcome string

Das Auswertungsergebnis des Bedingungsausdrucks. Wird ausgefüllt, wenn die Aufgabe erfolgreich abgeschlossen wurde. Kann "true" oder "false" sein

Rechts
right string

Der rechte Operand der Bedingungsaufgabe. Dabei kann es sich entweder um einen Zeichenfolgenwert oder einen Auftragszustand oder einen Parameterverweis sein.

JobsTriggerType

JobsTriggerInfo

Name Pfad Typ Beschreibung
run_id
run_id integer

Die Ausführungs-ID der Ausführungsaufgabe "Auftrag ausführen"

JobsRunOutput

Name Pfad Typ Beschreibung
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
Fehler
error string

Eine Fehlermeldung, die angibt, warum eine Aufgabe fehlgeschlagen ist oder warum die Ausgabe nicht verfügbar ist. Die Nachricht ist unstrukturiert, und das genaue Format kann geändert werden.

error_trace
error_trace string

Wenn beim Ausführen der Ausführung ein Fehler aufgetreten ist, enthält dieses Feld alle verfügbaren Stapelablaufverfolgungen.

info
info string
logs
logs string

Die Ausgabe von Aufgaben, die in Standarddatenströme (stdout/stderr) schreiben, z. B. spark_jar_task, spark_python_task, python_wheel_task. Es wird für die notebook_task, pipeline_task oder spark_submit_task nicht unterstützt. Azure Databricks schränkt diese API so ein, dass die letzten 5 MB dieser Protokolle zurückgegeben werden.

logs_truncated
logs_truncated boolean

Gibt an, ob die Protokolle abgeschnitten werden.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Name Pfad Typ Beschreibung
Ergebnis
result string

Der Wert, der an dbutils.notebook.exit()übergeben wird. Azure Databricks schränkt diese API ein, um die ersten 5 MB des Werts zurückzugeben. Für ein größeres Ergebnis kann Ihr Auftrag die Ergebnisse in einem Cloudspeicherdienst speichern. Dieses Feld ist nicht vorhanden, wenn dbutils.notebook.exit() nie aufgerufen wurde.

abgeschnitten
truncated boolean

Gibt an, ob das Ergebnis abgeschnitten wurde.

JobsRunJobOutput

Name Pfad Typ Beschreibung
run_id
run_id integer

Die Ausführungs-ID des ausgelösten Auftrags

JobsResolvedValues

Name Pfad Typ Beschreibung
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Name Pfad Typ Beschreibung
Linker Join
left string
Rechts
right string

JobsResolvedDbtTaskValues

Name Pfad Typ Beschreibung
commands
commands array of string

JobsResolvedNotebookTaskValues

Name Pfad Typ Beschreibung
base_parameters
base_parameters object

JobsResolvedPythonWheelTaskValues

Name Pfad Typ Beschreibung
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Name Pfad Typ Beschreibung
job_parameters
job_parameters object
parameters
parameters object

JobsResolvedParamPairValues

Name Pfad Typ Beschreibung
parameters
parameters object

JobsResolvedStringParamsValues

Name Pfad Typ Beschreibung
parameters
parameters array of string