Delen via


Azure Databricks

Azure Databricks biedt een geïntegreerd platform voor schaalbaar gegevensbeheer, governance en analyses, waarbij gestroomlijnde werkstromen worden gecombineerd met de mogelijkheid om verschillende gegevenstypen efficiënt te verwerken

Deze connector is beschikbaar in de volgende producten en regio's:

Dienst Class Regions
Copilot Studio Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Power Apps Premium Alle Power Apps-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Power Automate Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Contactpersoon
Naam Ondersteuning voor Databricks
URL https://help.databricks.com
E-mailen eng-partner-eco-help@databricks.com
Connectormetagegevens
Uitgever Databricks Inc.
Webpagina https://www.databricks.com/
Privacybeleid https://www.databricks.com/legal/privacynotice
Categorieën Gegevens

Verbinding maken met Azure Databricks vanuit Microsoft Power Platform

Op deze pagina wordt uitgelegd hoe u vanuit Microsoft Power Platform verbinding maakt met Azure Databricks vanuit Microsoft Power Platform door Azure Databricks toe te voegen als gegevensverbinding. Wanneer u verbinding hebt, kunt u uw Azure Databricks-gegevens van de volgende platforms gebruiken:

  • Power Apps: Bouw toepassingen die kunnen lezen van en schrijven naar Azure Databricks, terwijl u uw Beheerbesturingselementen voor Azure Databricks behoudt.
  • Power Automate: Bouw stromen en voeg acties toe waarmee aangepaste SQL of een bestaande taak kan worden uitgevoerd en de resultaten worden geretourneerd.
  • Copilot Studio: bouw aangepaste agents met behulp van uw Azure Databricks-gegevens als kennisbron.

Voordat u begint

Voordat u vanuit Power Platform verbinding maakt met Azure Databricks, moet u aan de volgende vereisten voldoen:

  • U hebt een Microsoft Entra ID-account (voorheen Azure Active Directory).
  • U hebt een Premium Power Apps-licentie.
  • U hebt een Azure Databricks-account.
  • U hebt toegang tot een SQL-warehouse in Azure Databricks.

Optioneel: Verbinding maken met virtuele Azure-netwerken

Als uw Azure Databricks-werkruimte gebruikmaakt van virtuele netwerken, zijn er twee manieren om verbinding te maken:

  1. Integreer Power Platform met resources in uw virtuele netwerk zonder ze beschikbaar te maken via het openbare internet. Als u verbinding wilt maken met het privé-eindpunt van uw Azure Databricks-werkruimte, gaat u als volgt te werk nadat u de privéconnectiviteit met Azure Databricks hebt geconfigureerd:

    Zie het overzicht van ondersteuning voor Virtual Network voor meer informatie over virtuele netwerken.

  2. Toegang met hybride implementatie inschakelen, waarbij een front-end privékoppeling met een openbaar eindpunt wordt beveiligd door een IP-toegangslijst voor werkruimten. Ga als volgt te werk om toegang in te schakelen:

    1. Openbare toegang op werkruimteniveau inschakelen. Zie IP-toegangslijsten configureren voor werkruimten voor meer informatie.
    2. Voeg het IP-bereik van AzureConnectors of het specifieke IP-bereik van Power Platform toe op basis van de regio van uw omgeving, aan uw ip-toegangslijst voor werkruimten.

Optioneel: Een Microsoft Entra-service-principal maken

Important

Als Azure Databricks en Power Platform zich in verschillende tenants bevinden, moet u service-principals gebruiken voor verificatie.

Voordat u verbinding maakt, voert u de volgende stappen uit om een Microsoft Entra-service-principal te maken, in te stellen en toe te wijzen aan uw Azure Databricks-account of -werkruimte:

Stap 1: Een Azure Databricks-verbinding toevoegen aan Power Platform

Notitie: Als u Copilot Studio gebruikt, raden we u aan om de Databricks-verbinding te maken in Power Apps of Power Automate. Vervolgens kan het worden gebruikt in Copilot Studio.

Ga als volgt te werk om een Azure Databricks-verbinding toe te voegen:

  1. Klik in Power Apps of Power Automate in de zijbalk op Verbindingen.

  2. Klik op + Nieuwe verbinding in de linkerbovenhoek.

  3. Zoek naar Azure Databricks met behulp van de zoekbalk in de rechterbovenhoek.

  4. Selecteer de tegel Azure Databricks .

  5. Selecteer uw verificatietype in de vervolgkeuzelijst.

  6. Selecteer uw verificatiemethode en voer uw verificatiegegevens in.

    • Als uw Power Platform-implementatie en Azure Databricks-account zich in dezelfde Microsoft Entra-tenant bevinden, kunt u de OAuth-verbinding gebruiken. Voer de volgende gegevens in:

      • Voer voor Server Hostname de hostnaam van azure Databricks SQL Warehouse in.
      • Voer voor HTTP-pad het HTTP-pad van het SQL Warehouse in.
      • Klik op Create.
      • Meld u aan met uw Microsoft Entra-id.
    • Service-principalverbinding kan in elk scenario worden gebruikt. Voordat u verbinding maakt, maakt u een Microsoft Entra-service-principal. Voer de volgende gegevens in:

      • Voer voor client-id de service-principal-id in.
      • Voer voor clientgeheim het geheim van de service-principal in.
      • Voer voor Tenant de tenant van de service-principal in.
      • Voer voor Hostname de hostnaam van azure Databricks SQL Warehouse in.
      • Voer voor HTTP-pad het HTTP-pad van het SQL Warehouse in.
      • (Optional) U kunt de service-principalverbinding wijzigen of delen met uw teamleden nadat de verbinding is aangemaakt.
    • Zie Verbindingsgegevens voor een Azure Databricks-rekenresource ophalen voor uw Azure Databricks SQL Warehouse-verbindingsdetails.

  7. Klik op Create.

Stap 2: De Azure Databricks-verbinding gebruiken

Nadat u een Azure Databricks-verbinding hebt gemaakt in Power Apps of Power Automate, kunt u uw Azure Databricks-gegevens gebruiken om Power Canvas-apps, Power Automate-stromen en Copilot Studio-agents te maken.

Uw Azure Databricks-gegevens gebruiken om Power Canvas-apps te bouwen

Important

U kunt alleen canvas-apps gebruiken als u rechtstreeks verbinding maakt met Azure Databricks in de app. U kunt geen virtuele tabellen gebruiken.

Ga als volgt te werk om uw Azure Databricks-gegevens toe te voegen aan uw toepassing:

  1. Klik in de meest linkse navigatiebalk op Maken.
  2. Klik op Beginnen met een leeg canvas en selecteer de gewenste canvasgrootte om een nieuwe canvas-app te maken.
  3. Klikin uw toepassing op>> toevoegenAzure Databricks. Selecteer de Azure Databricks-verbinding die u hebt gemaakt.
  4. Selecteer een catalogus in de zijbalk Een gegevensset kiezen .
  5. Selecteer in de zijbalk Een gegevensset kiezen alle tabellen waarmee u de canvas-app wilt verbinden.
  6. Klik op Verbinding maken.

Gegevensbewerkingen in Power Apps:

De connector ondersteunt bewerkingen voor maken, bijwerken en verwijderen, maar alleen voor tabellen waarvoor een primaire sleutel is gedefinieerd. Bij het uitvoeren van maakbewerkingen moet u altijd de primaire sleutel opgeven.

Notitie: Azure Databricks ondersteunt gegenereerde identiteitskolommen. In dit geval worden primaire-sleutelwaarden automatisch gegenereerd op de server tijdens het maken van rijen en kunnen ze niet handmatig worden opgegeven.

Uw Azure Databricks-gegevens gebruiken om Power Automate-stromen te bouwen

De API voor het uitvoeren van instructies en de taken-API worden weergegeven in Power Automate, zodat u SQL-instructies kunt schrijven en bestaande taken kunt uitvoeren. Ga als volgt te werk om een Power Automate-stroom te maken met behulp van Azure Databricks:

  1. Klik in de meest linkse navigatiebalk op Maken.
  2. Maak een stroom en voeg een triggertype toe.
  3. Klik in uw nieuwe stroom op +Databricks om de beschikbare acties te bekijken.

Als u SQL wilt schrijven, selecteert u een van de volgende acties:

  • Een SQL-instructie uitvoeren: een SQL-instructie schrijven en uitvoeren. Voer het volgende in:

    • Voer voor hoofdtekst/warehouse_id de id in van het magazijn waarop de SQL-instructie moet worden uitgevoerd.
    • Voer voor hoofdtekst/statement_id de id van de SQL-instructie in die moet worden uitgevoerd.
    • Zie hier voor meer informatie over de geavanceerde parameters.
  • Controleer de status en haal resultaten op: controleer de status van een SQL-instructie en verzamel resultaten. Voer het volgende in:

    • Voer voor instructie-id de id in die is geretourneerd toen de SQL-instructie werd uitgevoerd.
    • Zie hier voor meer informatie over de parameter.
  • De uitvoering van een instructie annuleren: de uitvoering van een SQL-instructie beëindigen. Voer het volgende in:

    • Voer voor instructie-id de id in van de SQL-instructie die moet worden beëindigd.
    • Zie hier voor meer informatie over de parameter.
  • Resultaat ophalen op segmentindex: Resultaten ophalen op segmentindex, die geschikt is voor grote resultatensets. Voer het volgende in:

    • Voer voor instructie-id de id in van de SQL-instructie waarvan u de resultaten wilt ophalen.
    • Voer voor segmentindex de doelsegmentindex in.
    • Zie hier voor meer informatie over de parameters.

Als u wilt communiceren met een bestaande Databricks-taak, selecteert u een van de volgende acties:

  • Taken weergeven: hiermee haalt u een lijst met taken op. Zie voor meer informatie hier.
  • Een nieuwe taakuitvoering activeren: voert een taak uit en retourneert de run_id van de geactiveerde uitvoering. Zie voor meer informatie hier.
  • Eén taakuitvoering ophalen: retourneert metagegevens over een uitvoering, waaronder de uitvoeringsstatus (bijvoorbeeld ACTIEF, GESLAAGD, MISLUKT), begin- en eindtijd, uitvoeringsduur, clustergegevens, enzovoort. Zie voor meer informatie hier.
  • Een taakuitvoering annuleren: Hiermee annuleert u een taakuitvoering of een taakuitvoering. Zie hier voor meer informatie.
  • Haal de uitvoer op voor één taakuitvoering: haalt de uitvoer en metagegevens van één taakuitvoering op. Zie hier voor meer informatie.

Azure Databricks gebruiken als kennisbron in Copilot Studio

Ga als volgt te werk om uw Azure Databricks-gegevens als kennisbron toe te voegen aan een Copilot Studio-agent:

  1. Klik in de zijbalk op Agent.
  2. Selecteer een bestaande agent of maak een nieuwe agent door op + Nieuwe agent te klikken.
    • Beschrijf de agent door een bericht in te voeren en klik vervolgens op Maken.
    • Of klik op Overslaan om de gegevens van de agent handmatig op te geven.
  3. Klik op het tabblad Kennis op + Kennis.
  4. Klik op Geavanceerd.
  5. Selecteer Azure Databricks als kennisbron.
  6. Voer de catalogusnaam in waarin uw gegevens zich bevindt.
  7. Klik op Verbinding maken.
  8. Selecteer de tabellen die uw agent als kennisbron wilt gebruiken en klik op Toevoegen.

Virtuele Dataverse-tabellen maken met uw Azure Databricks-gegevens

U kunt ook virtuele Dataverse-tabellen maken met de Azure Databricks-connector. Virtuele tabellen, ook wel virtuele entiteiten genoemd, integreren gegevens van externe systemen met Microsoft Dataverse. Een virtuele tabel definieert een tabel in Dataverse zonder de fysieke tabel op te slaan in de Dataverse-database. Zie Aan de slag met virtuele tabellen (entiteiten) voor meer informatie over virtuele tabellen.

Opmerking

Hoewel virtuele tabellen geen dataverse-opslagcapaciteit verbruiken, raadt Databricks u aan om directe verbindingen te gebruiken voor betere prestaties.

U moet de rol Systeemaanpassing of Systeembeheerder hebben. Zie beveiligingsrollen voor Power Platform voor meer informatie.

Volg deze stappen om een virtuele Dataverse-tabel te maken:

  1. Klik in Power Apps in de zijbalk op Tabellen.

  2. Klik op + Nieuwe tabel in de menubalk en selecteer Een virtuele tabel maken.

  3. Selecteer een bestaande Azure Databricks-verbinding of maak een nieuwe verbinding met Azure Databricks. Zie stap 1: Een Azure Databricks-verbinding met Power Platform toevoegen om een nieuwe verbinding toe te voegen.

    Databricks raadt aan een service-principal-verbinding te gebruiken om een virtuele tabel te maken.

  4. Klik op Volgende.

  5. Selecteer de tabellen die u wilt weergeven als een virtuele Dataverse-tabel.

    • Voor virtuele dataverse-tabellen is een primaire sleutel vereist. Daarom kunnen weergaven geen virtuele tabellen zijn, maar gerealiseerde weergaven wel.
  6. Klik op Volgende.

  7. Configureer de virtuele tabel door de details van de tabel bij te werken, indien nodig.

  8. Klik op Volgende.

  9. Bevestig de details van de gegevensbron en klik op Voltooien.

  10. Gebruik de virtuele Dataverse-tabel in Power Apps, Power Automate en Copilot Studio.

Zie Bekende beperkingen en probleemoplossing voor een lijst met bekende beperkingen van virtuele Dataverse-tabellen.

Batchupdates uitvoeren

Als u bulksgewijs bewerkingen voor maken, bijwerken of verwijderen wilt uitvoeren als reactie op Power Apps-invoer, raadt Databricks aan om een Power Automate-stroom te implementeren. Ga als volgt te werk om dit te doen:

  1. Maak een canvas-app met behulp van uw Azure Databricks-verbinding in Power Apps.

  2. Maak een Power Automate-stroom met behulp van de Azure Databricks-verbinding en gebruik Power Apps als trigger.

  3. Voeg in de Power Automate-trigger de invoervelden toe die u van Power Apps wilt doorgeven aan Power Automate.

  4. Maak een verzamelingsobject in Power Apps om al uw wijzigingen te verzamelen.

  5. Voeg de Power Automate Flow toe aan uw canvasapp.

  6. Roep de Power Automate-stroom aan vanuit uw canvas-app en doorloop de verzameling met behulp van een ForAll opdracht.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Gelijktijdige schrijfbewerkingen

Gelijktijdigheid op rijniveau vermindert conflicten tussen gelijktijdige schrijfbewerkingen door wijzigingen op rijniveau te detecteren en automatisch conflicten op te lossen die optreden wanneer gelijktijdige schrijfbewerkingen worden bijgewerkt of verschillende rijen in hetzelfde gegevensbestand worden verwijderd.

Gelijktijdigheid op rijniveau is opgenomen in Databricks Runtime 14.2 of hoger. Gelijktijdigheid op rijniveau wordt standaard ondersteund voor de volgende typen tabellen:

  • Tabellen waarvoor verwijderingsvectoren zijn ingeschakeld en zonder partitionering
  • Tabellen met vloeibare clustering, tenzij verwijderingsvectoren zijn uitgeschakeld

Voer de volgende SQL-opdracht uit om verwijderingsvectoren in te schakelen:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Zie Isolatieniveaus en schrijfconflicten in Azure Databricks voor meer informatie over gelijktijdige schrijfconflicten in Azure Databricks.

Azure Databricks toevoegen aan een gegevensbeleid

Door Azure Databricks toe te voegen aan een beleid voor zakelijke gegevens, kan Azure Databricks geen gegevens delen met connectors in andere groepen. Dit beveiligt uw gegevens en voorkomt dat deze worden gedeeld met degenen die er geen toegang toe mogen hebben. Zie Gegevensbeleid beheren voor meer informatie.

De Azure Databricks-connector toevoegen aan een Power Platform-gegevensbeleid:

  1. Klik in een Power Platform-toepassing op de instellingen in de rechterbovenhoek en selecteer beheercentrum.
  2. Klik in de zijbalk opBeleidsgegevensbeleid>.
  3. Als u het nieuwe beheercentrum gebruikt, klikt u op>>.
  4. Klik op + Nieuw beleid of selecteer een bestaand beleid.
  5. Als u een nieuw beleid maakt, voert u een naam in.
  6. Selecteer een omgeving die u aan uw beleid wilt toevoegen en klik op + Toevoegen aan beleid hierboven.
  7. Klik op Volgende.
  8. Zoek en selecteer de Azure Databricks-connector .
  9. Klik op Verplaatsen naar Bedrijf en klik op Volgende.
  10. Controleer uw beleid en klik op Beleid maken.

Beperkingen

  • De Power Platform-connector biedt geen ondersteuning voor overheidsclouds.

Power App-beperkingen

Met de volgende PowerFx-formules worden waarden berekend met behulp van alleen de gegevens die lokaal zijn opgehaald:

Categorie Formula
De functie Table - GroupBy
-Duidelijk
Aggregation - CountRows
- StdevP
- StdevS

Een verbinding maken

De connector ondersteunt de volgende verificatietypen:

OAuth-verbinding OAuth-verbinding Alle regio's Niet deelbaar
Verbinding met service-principal Verbinding met service-principal Alle regio's Deelbaar
Standaard [AFGESCHAFT] Deze optie is alleen bedoeld voor oudere verbindingen zonder expliciet verificatietype en is alleen beschikbaar voor compatibiliteit met eerdere versies. Alle regio's Niet deelbaar

OAuth-verbinding

Verificatie-id: oauth2-auth

Van toepassing: Alle regio's

OAuth-verbinding

Dit is geen deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt een andere gebruiker gevraagd om expliciet een nieuwe verbinding te maken.

Naam Typologie Description Verplicht
Serverhostnaam (voorbeeld: adb-3980263885549757139.2.azuredatabricks.net) touw Servernaam van Databricks-werkruimte Klopt
HTTP-pad (voorbeeld: /sql/1.0/warehouses/a9c4e781bd29f315) touw HTTP-pad van Databricks SQL Warehouse Klopt

Verbinding met service-principal

Verificatie-id: oAuthClientCredentials

Van toepassing: Alle regio's

Verbinding met service-principal

Dit is deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt de verbinding ook gedeeld. Zie het overzicht van connectors voor canvas-apps - Power Apps | Microsoft Docs

Naam Typologie Description Verplicht
Klant-ID touw Klopt
Clientgeheim beveiligde string Klopt
Tenant touw Klopt
Serverhostnaam (voorbeeld: adb-3980263885549757139.2.azuredatabricks.net) touw Servernaam van Databricks-werkruimte Klopt
HTTP-pad (voorbeeld: /sql/1.0/warehouses/a9c4e781bd29f315) touw HTTP-pad van Databricks SQL Warehouse Klopt

Standaard [AFGESCHAFT]

Van toepassing: Alle regio's

Deze optie is alleen bedoeld voor oudere verbindingen zonder expliciet verificatietype en is alleen beschikbaar voor compatibiliteit met eerdere versies.

Dit is geen deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt een andere gebruiker gevraagd om expliciet een nieuwe verbinding te maken.

Beperkingslimieten

Name Aanroepen Verlengingsperiode
API-aanroepen per verbinding 100 60 seconden

Acties

Azure Databricks Genie

Query's uitvoeren op Genie-ruimten om inzichten te krijgen uit uw gegevens.

De uitvoer voor één uitvoering ophalen

Haal de uitvoer en metagegevens van één taakuitvoering op. Wanneer een notebooktaak een waarde retourneert via de aanroep dbutils.notebook.exit(), kunt u dit eindpunt gebruiken om die waarde op te halen. Azure Databricks beperkt deze API tot het retourneren van de eerste 5 MB van de uitvoer. Als u een groter resultaat wilt retourneren, kunt u taakresultaten opslaan in een cloudopslagservice. Dit eindpunt valideert dat de parameter run_id geldig is en retourneert een HTTP-statuscode 400 als de parameter run_id ongeldig is. Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen.

Een nieuwe taakuitvoering activeren

Voer een taak uit en retourneer de run_id van de geactiveerde uitvoering.

Een SQL-instructie uitvoeren

Voer een SQL-instructie uit en wacht eventueel op de resultaten voor een opgegeven tijd.

Een uitvoering annuleren

Hiermee annuleert u een taakuitvoering of een taakuitvoering. De uitvoering wordt asynchroon geannuleerd, dus deze kan nog steeds worden uitgevoerd wanneer deze aanvraag is voltooid.

Eén taakuitvoering ophalen

Haalt de metagegevens van een uitvoering op. Grote matrices in de resultaten worden gepagineerd wanneer ze meer dan 100 elementen bevatten. Een aanvraag voor één uitvoering retourneert alle eigenschappen voor die uitvoering en de eerste 100 elementen van matrixeigenschappen (taken, job_clusters, job_parameters en repair_history). Gebruik het next_page_token veld om meer resultaten te controleren en de waarde ervan door te geven als de page_token in volgende aanvragen. Als matrixeigenschappen meer dan 100 elementen bevatten, worden er aanvullende resultaten geretourneerd voor volgende aanvragen. Matrices zonder extra resultaten zijn leeg op latere pagina's.

Resultaat ophalen op segmentindex

Nadat de uitvoering van de instructie IS GESLAAGD, kan deze aanvraag worden gebruikt om een segment op te halen per index.

Status controleren en resultaten ophalen

De status, het manifest en de resultaten van de instructie ophalen

Taken weergeven

Hiermee haalt u een lijst met taken op.

Uitvoering van instructie annuleren

Aanvragen dat een uitvoeringsinstructie wordt geannuleerd. Bellers moeten de status van de terminal controleren om de status te zien.

Azure Databricks Genie

Query's uitvoeren op Genie-ruimten om inzichten te krijgen uit uw gegevens.

Parameters

Name Sleutel Vereist Type Description
Genie Space ID
genie_space_id True string

Genie Space ID

De uitvoer voor één uitvoering ophalen

Haal de uitvoer en metagegevens van één taakuitvoering op. Wanneer een notebooktaak een waarde retourneert via de aanroep dbutils.notebook.exit(), kunt u dit eindpunt gebruiken om die waarde op te halen. Azure Databricks beperkt deze API tot het retourneren van de eerste 5 MB van de uitvoer. Als u een groter resultaat wilt retourneren, kunt u taakresultaten opslaan in een cloudopslagservice. Dit eindpunt valideert dat de parameter run_id geldig is en retourneert een HTTP-statuscode 400 als de parameter run_id ongeldig is. Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen.

Parameters

Name Sleutel Vereist Type Description
Uitvoerings-id
run_id True integer

De canonieke id voor de uitvoering.

Retouren

Een nieuwe taakuitvoering activeren

Voer een taak uit en retourneer de run_id van de geactiveerde uitvoering.

Parameters

Name Sleutel Vereist Type Description
idempotency_token
idempotency_token string

Een optioneel token om de idempotentie van taakuitvoeringsaanvragen te garanderen. Als er al een uitvoering met het opgegeven token bestaat, maakt de aanvraag geen nieuwe uitvoering, maar retourneert de id van de bestaande uitvoering. Als een uitvoering met het opgegeven token wordt verwijderd, wordt er een fout geretourneerd. Als u het idempotentietoken opgeeft, kunt u na een fout opnieuw proberen totdat de aanvraag is geslaagd. Azure Databricks garandeert dat precies één uitvoering wordt gestart met dat idempotentietoken. Dit token moet maximaal 64 tekens bevatten. Zie Idempotentie voor taken voor meer informatie.

job_id
job_id True integer

De id van de taak die moet worden uitgevoerd

job_parameters
job_parameters object

Parameters op taakniveau die in de uitvoering worden gebruikt. bijvoorbeeld 'param': 'overriding_val'

alleen
only array of string

Een lijst met taaksleutels die binnen de taak moeten worden uitgevoerd. Als dit veld niet is opgegeven, worden alle taken in de taak uitgevoerd.

performance_target
performance_target string
full_refresh
full_refresh boolean

Indien waar, activeert u een volledige vernieuwing in de delta live-tabel.

enabled
enabled True boolean

Indien waar, schakelt u wachtrijen voor de taak in. Dit is een verplicht veld.

Retouren

Een SQL-instructie uitvoeren

Voer een SQL-instructie uit en wacht eventueel op de resultaten voor een opgegeven tijd.

Parameters

Name Sleutel Vereist Type Description
warehouse_id
warehouse_id True string

Doelwarehouse-id

verklaring
statement True string

De SQL-instructie die moet worden uitgevoerd. De instructie kan eventueel worden geparameteriseerd, zie parameters

naam
name True string

Parametermarkeringsnaam

type
type string

Parametergegevenstype

waarde
value string

Parameterwaarde

catalogus
catalog string

Standaardcatalogus voor uitvoering

schema
schema string

Standaardschema voor uitvoering

aanleg
disposition string

Modus voor het ophalen van resultaten

format
format string

Indeling van resultatenset

on_wait_timeout
on_wait_timeout string

Actie bij time-out

wait_timeout
wait_timeout string

Time-out van resultaatwachttijd

byte_limit
byte_limit integer

Limiet voor resultaat-byte

row_limit
row_limit integer

Limiet voor resultaatrijen

Retouren

Antwoord van uitvoering van instructie

Een uitvoering annuleren

Hiermee annuleert u een taakuitvoering of een taakuitvoering. De uitvoering wordt asynchroon geannuleerd, dus deze kan nog steeds worden uitgevoerd wanneer deze aanvraag is voltooid.

Parameters

Name Sleutel Vereist Type Description
run_id
run_id True integer

Dit veld is vereist.

Eén taakuitvoering ophalen

Haalt de metagegevens van een uitvoering op. Grote matrices in de resultaten worden gepagineerd wanneer ze meer dan 100 elementen bevatten. Een aanvraag voor één uitvoering retourneert alle eigenschappen voor die uitvoering en de eerste 100 elementen van matrixeigenschappen (taken, job_clusters, job_parameters en repair_history). Gebruik het next_page_token veld om meer resultaten te controleren en de waarde ervan door te geven als de page_token in volgende aanvragen. Als matrixeigenschappen meer dan 100 elementen bevatten, worden er aanvullende resultaten geretourneerd voor volgende aanvragen. Matrices zonder extra resultaten zijn leeg op latere pagina's.

Parameters

Name Sleutel Vereist Type Description
Uitvoerings-id
run_id True integer

De canonieke id van de uitvoering waarvoor de metagegevens moeten worden opgehaald. Dit veld is vereist.

Inclusief geschiedenis
include_history boolean

Of de reparatiegeschiedenis in het antwoord moet worden opgenomen.

Opgeloste waarden opnemen
include_resolved_values boolean

Of u opgeloste parameterwaarden wilt opnemen in het antwoord.

Paginatoken
page_token string

Gebruik next_page_token geretourneerd uit het vorige GetRun-antwoord om de volgende pagina van de matrixeigenschappen van de uitvoering aan te vragen.

Retouren

Body
JobsRun

Resultaat ophalen op segmentindex

Nadat de uitvoering van de instructie IS GESLAAGD, kan deze aanvraag worden gebruikt om een segment op te halen per index.

Parameters

Name Sleutel Vereist Type Description
Instructie-id
statement_id True string

Instructie-id

Segmentindex
chunk_index True string

Segmentindex

Retouren

Status controleren en resultaten ophalen

De status, het manifest en de resultaten van de instructie ophalen

Parameters

Name Sleutel Vereist Type Description
Instructie-id
statement_id True string

Instructie-id

Retouren

Antwoord van uitvoering van instructie

Taken weergeven

Hiermee haalt u een lijst met taken op.

Parameters

Name Sleutel Vereist Type Description
Limit
limit integer

Het aantal te retourneren taken. Deze waarde moet groter zijn dan 0 en kleiner of gelijk aan 100. De standaardwaarde is 20.

Taken uitvouwen
expand_tasks boolean

Of u taak- en clustergegevens wilt opnemen in het antwoord. Houd er rekening mee dat alleen de eerste 100 elementen worden weergegeven. Gebruik :method:jobs/get om te pagineren door alle taken en clusters.

Taaknaam
name string

Een filter op de lijst op basis van de exacte taaknaam (niet hoofdlettergevoelig).

Paginatoken
page_token string

Gebruik next_page_token of prev_page_token geretourneerd uit de vorige aanvraag om respectievelijk de volgende of vorige pagina met taken weer te geven.

Retouren

Uitvoering van instructie annuleren

Aanvragen dat een uitvoeringsinstructie wordt geannuleerd. Bellers moeten de status van de terminal controleren om de status te zien.

Parameters

Name Sleutel Vereist Type Description
Instructie-id
statement_id True string

Instructie-id

Definities

Object

SqlBaseChunkInfo

Metagegevens voor een segment van een resultatenset

Name Pad Type Description
byte_count
byte_count integer

Aantal bytes in het resultaatsegment

chunk_index
chunk_index integer

Positie in de volgorde van segmenten van de resultatenset

row_count
row_count integer

Aantal rijen in het resultaatsegment

row_offset
row_offset integer

Verschuiving van rij starten in de resultatenset

SqlColumnInfo

Name Pad Type Description
naam
name string

Kolomnaam

positie
position integer

Kolompositie (op basis van 0)

type_interval_type
type_interval_type string

Intervaltypenotatie

type_name
type_name SqlColumnInfoTypeName

De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY.

type_precision
type_precision integer

Aantal cijfers voor het type DECIMAAL

type_scale
type_scale integer

Aantal decimalen voor het type DECIMAAL

type_text
type_text string

Specificatie van volledige SQL-type

SqlColumnInfoTypeName

De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY.

De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY.

SqlStatementResponse

Antwoord van uitvoering van instructie

Name Pad Type Description
manifesteren
manifest SqlResultManifest

Schema en metagegevens van resultatenset

resultaat
result SqlResultData
statement_id
statement_id string

Instructie-id

status
status SqlStatementStatus

Uitvoeringsstatus van instructie

SqlResultManifest

Schema en metagegevens van resultatenset

Name Pad Type Description
Brokken
chunks array of SqlBaseChunkInfo

Metagegevens van resultaatsegment

format
format string
schema
schema SqlResultSchema

Kolomdefinities voor resultatenset

total_byte_count
total_byte_count integer

Totaal aantal bytes in resultatenset

total_chunk_count
total_chunk_count integer

Totaal aantal segmenten

total_row_count
total_row_count integer

Totaal aantal rijen

Afgekapt
truncated boolean

Status van afkapping van resultaten

SqlStatementStatus

Uitvoeringsstatus van instructie

Name Pad Type Description
fout
error SqlServiceError
state
state SqlStatementState

Uitvoeringsstatus van instructie

SqlStatementState

Uitvoeringsstatus van instructie

Uitvoeringsstatus van instructie

SqlServiceError

Name Pad Type Description
error_code
error_code string
message
message string

Foutmelding

SqlResultSchema

Kolomdefinities voor resultatenset

Name Pad Type Description
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Name Pad Type Description
byte_count
byte_count integer

Bytes in resultaatsegment

chunk_index
chunk_index integer

Segmentpositie

data_array
data_array SqlJsonArray

Matrix van matrices met tekenreekswaarden

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Volgende segmentindex

next_chunk_internal_link
next_chunk_internal_link string

Koppeling naar volgende segment

row_count
row_count integer

Rijen in segment

row_offset
row_offset integer

Verschuiving van beginrij

SqlJsonArray

Matrix van matrices met tekenreekswaarden

Name Pad Type Description
Artikelen
array of
Name Pad Type Description
byte_count
byte_count integer

Bytes in segment

chunk_index
chunk_index integer

Segmentpositie

afloop
expiration date-time

Verlooptijd van koppeling

external_link
external_link string
http_headers
http_headers object

Vereiste HTTP-headers

next_chunk_index
next_chunk_index integer

Volgende segmentindex

next_chunk_internal_link
next_chunk_internal_link string

Koppeling naar volgende segment

row_count
row_count integer

Rijen in segment

row_offset
row_offset integer

Verschuiving van beginrij

JobsRunNowResponse

Name Pad Type Description
run_id
run_id integer

De wereldwijd unieke id van de zojuist geactiveerde uitvoering.

JobsPerformanceTarget

JobsPipelineParams

Name Pad Type Description
full_refresh
full_refresh boolean

Indien waar, activeert u een volledige vernieuwing in de delta live-tabel.

JobsQueueSettings

Name Pad Type Description
enabled
enabled boolean

Indien waar, schakelt u wachtrijen voor de taak in. Dit is een verplicht veld.

JobsListJobsResponse

Name Pad Type Description
jobs
jobs array of JobsBaseJob

De lijst met taken. Alleen opgenomen in het antwoord als er taken moeten worden vermeld.

next_page_token
next_page_token string

Een token dat kan worden gebruikt om de volgende pagina met taken weer te geven (indien van toepassing).

prev_page_token
prev_page_token string

Een token dat kan worden gebruikt om de vorige pagina met taken weer te geven (indien van toepassing).

JobsBaseJob

Name Pad Type Description
created_time
created_time integer

Het tijdstip waarop deze taak is gemaakt in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC).

creator_user_name
creator_user_name string

De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd.

effective_budget_policy_id
effective_budget_policy_id uuid

De id van het budgetbeleid dat door deze taak wordt gebruikt voor kostentoewijzingsdoeleinden. Dit kan worden ingesteld op (in volgorde van prioriteit): 1. Budgetbeheerders via het account of de werkruimteconsole 2. De gebruikersinterface voor taken op de pagina met taakdetails en de Taken-API met behulp van budget_policy_id 3. Uitgestelde standaardinstelling op basis van toegankelijk budgetbeleid van de run_as identiteit bij het maken of wijzigen van taken.

heeft_meer
has_more boolean

Geeft aan of de taak meer matrixeigenschappen (taken, job_clusters) bevat die niet worden weergegeven. Ze kunnen worden geopend via :method:jobs/get-eindpunt. Het is alleen relevant voor API 2.2:method:jobs/list-aanvragen met expand_tasks=true.

job_id
job_id integer

De canonieke id voor deze taak.

settings
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

JobsJobSettings

Name Pad Type Description
budget_policy_id
budget_policy_id uuid

De id van het door de gebruiker opgegeven budgetbeleid dat voor deze taak moet worden gebruikt. Als dit niet is opgegeven, kan een standaardbudgetbeleid worden toegepast bij het maken of wijzigen van de taak. Zie effective_budget_policy_id voor het budgetbeleid dat door deze workload wordt gebruikt.

continu
continuous JobsContinuous
Uitrol
deployment JobsJobDeployment
beschrijving
description string

Een optionele beschrijving voor de taak. De maximale lengte is 27700 tekens in UTF-8-codering.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Een lijst met omgevingsspecificaties voor taakuitvoering waarnaar kan worden verwezen door serverloze taken van deze taak. Er moet een omgeving aanwezig zijn voor serverloze taken. Voor serverloze notebooktaken is de omgeving toegankelijk in het deelvenster notebookomgeving. Voor andere serverloze taken moet de taakomgeving worden opgegeven met behulp van environment_key in de taakinstellingen.

git_source
git_source JobsGitSource
Gezondheid
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Een lijst met taakclusterspecificaties die kunnen worden gedeeld en hergebruikt door taken van deze taak. Bibliotheken kunnen niet worden gedeclareerd in een gedeeld taakcluster. U moet afhankelijke bibliotheken declareren in taakinstellingen.

max_concurrent_runs
max_concurrent_runs integer

Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van dezelfde taak tegelijk wilt kunnen uitvoeren. Dit is bijvoorbeeld handig als u uw taak activeert volgens een frequent schema en opeenvolgende uitvoeringen wilt laten overlappen met elkaar, of als u meerdere uitvoeringen wilt activeren die verschillen per invoerparameters. Deze instelling is alleen van invloed op nieuwe uitvoeringen. Stel dat de gelijktijdigheid van de taak 4 is en dat er 4 gelijktijdige actieve uitvoeringen zijn. Als u vervolgens de gelijktijdigheid instelt op 3, worden geen actieve uitvoeringen gedood. Vanaf dat tijdstip worden nieuwe uitvoeringen echter overgeslagen, tenzij er minder dan 3 actieve uitvoeringen zijn. Deze waarde mag niet groter zijn dan 1000. Als u deze waarde instelt op 0, worden alle nieuwe uitvoeringen overgeslagen.

naam
name string

Een optionele naam voor de taak. De maximale lengte is 4096 bytes volgens de UTF-8-codering.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Parameterdefinities op taakniveau

performance_target
performance_target JobsPerformanceTarget
queue
queue JobsQueueSettings
uitvoeren als
run_as JobsJobRunAs
schedule
schedule JobsCronSchedule
tags
tags object

Een kaart met tags die aan de taak zijn gekoppeld. Deze worden doorgestuurd naar het cluster als clustertags voor taakclusters en zijn onderhevig aan dezelfde beperkingen als clustertags. Er kunnen maximaal 25 tags aan de taak worden toegevoegd.

tasks
tasks array of JobsTask

Een lijst met taakspecificaties die door deze taak moeten worden uitgevoerd. Het ondersteunt maximaal 1000 elementen in schrijfeindpunten (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Leeseindpunten retourneren slechts 100 taken. Als er meer dan 100 taken beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/get. Gebruik het next_page_token veld in de hoofdmap van het object om te bepalen of er meer resultaten beschikbaar zijn.

timeout_seconds
timeout_seconds integer

Er is een optionele time-out toegepast op elke uitvoering van deze taak. Een waarde van 0 betekent geen time-out.

trigger
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsContinuous

Name Pad Type Description
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

JobsJobDeployment

Name Pad Type Description
vriendelijk
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Pad naar het bestand dat metagegevens van de implementatie bevat.

JobsJobDeploymentKind

JobsJobEditMode

JobsJobEmailNotifications

Name Pad Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het statusveld. Als er geen regel voor de RUN_DURATION_SECONDS metrische waarde is opgegeven in het statusveld voor de taak, worden er geen meldingen verzonden.

on_failure
on_failure array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering niet is voltooid. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een MISLUKT, of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden.

on_start
on_start array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de drempelwaarden voor streamingachterstanden worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden.

on_success
on_success array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een BEËINDIGDe life_cycle_state en een GESLAAGDe result_state. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden.

JobsJobEnvironment

Name Pad Type Description
environment_key
environment_key string

De sleutel van een omgeving. Het moet uniek zijn binnen een job.

Specificatie
spec ComputeEnvironment

ComputeEnvironment

Name Pad Type Description
afhankelijkheden
dependencies array of string

Lijst met pip-afhankelijkheden, zoals ondersteund door de versie van pip in deze omgeving. Elke afhankelijkheid is een geldige pip-vereistenbestandsregel per https://pip.pypa.io/en/stable/reference/requirements-file-format/. Toegestane afhankelijkheden omvatten een vereisteaanduiding, een archief-URL, een lokaal projectpad (zoals WSFS- of UC-volumes in Azure Databricks) of een VCS-project-URL.

environment_version
environment_version string

Verplicht. Omgevingsversie die wordt gebruikt door de omgeving. Elke versie wordt geleverd met een specifieke Python-versie en een set Python-pakketten. De versie is een tekenreeks die bestaat uit een geheel getal. Zie https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

JobsGitSource

Name Pad Type Description
git_branch
git_branch string

De naam van de vertakking die moet worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_tag of git_commit.

git_commit
git_commit string

Doorvoeren om te worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_branch of git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

De naam van de tag die moet worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_branch of git_commit.

git_url
git_url string

URL van de opslagplaats die moet worden gekloond door deze taak.

JobsGitProvider

JobsGitSnapshot

Name Pad Type Description
used_commit
used_commit string

Doorvoer die is gebruikt om de uitvoering uit te voeren. Als git_branch is opgegeven, verwijst dit naar de HEAD van de vertakking op het moment van de uitvoering; als git_tag is opgegeven, verwijst dit naar de doorvoering van de tagpunten.

JobsJobsHealthRules

Name Pad Type Description
rules
rules array of JobsJobsHealthRule

JobsJobsHealthRule

Name Pad Type Description
metric
metric JobsJobsHealthMetric
op
op JobsJobsHealthOperator
waarde
value integer

Hiermee geeft u de drempelwaarde op waaraan de metrische status moet voldoen om te voldoen aan de statusregel.

JobsJobsHealthMetric

JobsJobsHealthOperator

JobsJobCluster

Name Pad Type Description
job_cluster_key
job_cluster_key string

Een unieke naam voor het taakcluster. Dit veld is vereist en moet uniek zijn binnen de taak. JobTaskSettings kan naar dit veld verwijzen om te bepalen welk cluster moet worden gestart voor de taakuitvoering.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Name Pad Type Description
apply_policy_default_values
apply_policy_default_values boolean

Als deze waarde is ingesteld op waar, worden vaste en standaardwaarden van het beleid gebruikt voor velden die worden weggelaten. Als deze waarde is ingesteld op onwaar, worden alleen vaste waarden van het beleid toegepast.

autoscale
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Hiermee wordt het cluster automatisch beëindigd nadat het gedurende deze tijd in minuten inactief is. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10000 minuten zijn. Gebruikers kunnen deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
clusternaam
cluster_name string

De clusternaam die door de gebruiker is aangevraagd. Dit hoeft niet uniek te zijn. Als deze niet is opgegeven bij het maken, is de clusternaam een lege tekenreeks. Voor taakclusters wordt de clusternaam automatisch ingesteld op basis van de taak- en taakuitvoerings-id's.

custom_tags
custom_tags object

Extra labels voor clusterbronnen. Azure Databricks tagt alle clusterbronnen (bijvoorbeeld AWS-exemplaren en EBS-volumes) met deze tags naast default_tags. Opmerkingen: - Momenteel staat Azure Databricks maximaal 45 aangepaste tags toe: clusters kunnen alleen cloudresources hergebruiken als de tags van de resources een subset van de clustertags zijn

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

De optionele ID van de instantiepool waartoe de bestuurder van het cluster behoort. Het cluster van pools gebruikt de instancepool met ID (instance_pool_id) als de stuurprogramma pool niet is toegewezen.

driver_node_type_id
driver_node_type_id string

Het knooppunttype van de Spark driver. Houd er rekening mee dat dit veld optioneel is; als dit niet is ingesteld, wordt het type stuurprogrammaknooppunt ingesteld als dezelfde waarde als node_type_id hierboven gedefinieerd. Dit veld, samen met node_type_id, mag niet worden ingesteld als virtual_cluster_size is ingesteld. Als zowel driver_node_type_id, node_type_id als virtual_cluster_size zijn opgegeven, hebben driver_node_type_id en node_type_id voorrang.

enable_elastic_disk
enable_elastic_disk boolean

Lokale opslag automatisch schalen: wanneer deze functie is ingeschakeld, verwerft dit cluster dynamisch extra schijfruimte wanneer de schijfruimte van de Spark-werkers bijna op is. Voor deze functie zijn specifieke AWS-machtigingen vereist om correct te functioneren. Raadpleeg de gebruikershandleiding voor meer informatie.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Of LUKS moet worden ingeschakeld op lokale schijven van cluster-VM's

init_scripts
init_scripts array of ComputeInitScriptInfo

De configuratie voor het opslaan van init-scripts. Er kan een willekeurig aantal bestemmingen worden opgegeven. De scripts worden sequentieel uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar <doel>/<cluster-id>/init_scripts.

instance_pool_id
instance_pool_id string

De optionele id van de exemplaargroep waartoe het cluster behoort.

is_single_node
is_single_node boolean

Dit veld kan alleen worden gebruikt als soort = CLASSIC_PREVIEW. Wanneer deze instelling is ingesteld op true, wordt in Azure Databricks automatisch één knooppunt ingesteld met betrekking tot custom_tags, spark_conf en num_workers

vriendelijk
kind ComputeKind
node_type_id
node_type_id string

Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep :method:clusters/listNodeTypes.

num_workers
num_workers integer

Aantal werkernodes dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Opmerking: bij het lezen van de eigenschappen van een cluster weerspiegelt dit veld het gewenste aantal werkrollen in plaats van het werkelijke huidige aantal werknemers. Als een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werknemers, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werknemers, terwijl de werknemers die in spark_info worden vermeld, geleidelijk van 5 tot 10 toenemen naarmate de nieuwe knooppunten worden ingericht.

policy_id
policy_id string

De id van het clusterbeleid dat wordt gebruikt om het cluster te maken, indien van toepassing.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Eén gebruikersnaam als data_security_mode is SINGLE_USER

spark_conf
spark_conf object

Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions.

spark_env_vars
spark_env_vars object

Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Houd er rekening mee dat het sleutel-waardepaar van het formulier (X,Y) wordt geëxporteerd zoals is (bijvoorbeeld X='Y') tijdens het starten van het stuurprogramma en de werknemers. Als u een extra set SPARK_DAEMON_JAVA_OPTS wilt opgeven, raden we u aan deze toe te voegen aan $SPARK_DAEMON_JAVA_OPTS, zoals wordt weergegeven in het onderstaande voorbeeld. Dit zorgt ervoor dat ook alle door Databricks beheerde omgevingsvariabelen worden opgenomen. Voorbeeld van Spark-omgevingsvariabelen: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

De Spark-versie van het cluster, bijvoorbeeld 3.3.x-scala2.11. Een lijst met beschikbare Spark-versies kan worden opgehaald met behulp van de API-aanroep :method:clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Inhoud van openbare SSH-sleutels die wordt toegevoegd aan elk Spark-knooppunt in dit cluster. De bijbehorende persoonlijke sleutels kunnen worden gebruikt om u aan te melden met de gebruikersnaam ubuntu op poort 2200. Er kunnen maximaal 10 sleutels worden opgegeven.

use_ml_runtime
use_ml_runtime boolean

Dit veld kan alleen worden gebruikt als soort = CLASSIC_PREVIEW. effective_spark_version wordt bepaald door spark_version (DBR-release), dit veld use_ml_runtime en of node_type_id gpu-knooppunt is of niet.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Name Pad Type Description
max_workers
max_workers integer

Het maximum aantal werkrollen waarnaar het cluster omhoog kan schalen wanneer het overbelast is. Houd er rekening mee dat max_workers strikt groter moet zijn dan min_workers.

min_workers
min_workers integer

Het minimale aantal werkrollen waarnaar het cluster omlaag kan schalen wanneer het te weinig wordt gebruikt. Het is ook het eerste aantal werkrollen dat het cluster na het maken heeft.

ComputeAzureAttributes

Name Pad Type Description
availability
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

De eerste first_on_demand knooppunten van het cluster worden op aanvraag geplaatst. Deze waarde moet groter zijn dan 0 om ervoor te zorgen dat het knooppunt van het clusterstuurprogramma wordt geplaatst op een on-demand exemplaar. Als deze waarde groter is dan of gelijk is aan de huidige clustergrootte, worden alle knooppunten op aanvraag-exemplaren geplaatst. Als deze waarde kleiner is dan de huidige clustergrootte, worden first_on_demand knooppunten op aanvraag-exemplaren geplaatst en wordt de rest op beschikbaarheidsexemplaren geplaatst. Houd er rekening mee dat deze waarde geen invloed heeft op de clustergrootte en momenteel niet kan worden gedempt gedurende de levensduur van een cluster.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

De maximale biedprijs die moet worden gebruikt voor Azure spot-exemplaren. De maximumprijs voor het bod mag niet hoger zijn dan de on-demand prijs van het exemplaar. Als dit niet is opgegeven, is de standaardwaarde -1, die aangeeft dat het exemplaar niet kan worden verwijderd op basis van de prijs en alleen op basis van beschikbaarheid. Verder moet > de waarde 0 of -1 zijn.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Name Pad Type Description
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Name Pad Type Description
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Name Pad Type Description
destination
destination string

dbfs-bestemming, bijvoorbeeld dbfs:/my/path

ComputeVolumesStorageInfo

Name Pad Type Description
destination
destination string

UC Volumes bestemming, bijvoorbeeld /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh of dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Name Pad Type Description
basic_auth
basic_auth ComputeDockerBasicAuth
url
url string

URL van de docker-installatiekopieën.

ComputeDockerBasicAuth

Name Pad Type Description
wachtwoord
password string

Wachtwoord van de gebruiker

username
username string

Naam van de gebruiker

ComputeInitScriptInfo

Name Pad Type Description
abfss
abfss ComputeAdlsgen2Info
bestand
file ComputeLocalFileInfo
Gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
workspace
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Name Pad Type Description
destination
destination string

abfss-bestemming, bijvoorbeeld abfss:// container-name<@>storage-account-name.dfs.core.windows.net/<> directory-name<>.

ComputeLocalFileInfo

Name Pad Type Description
destination
destination string

doel van lokaal bestand, bijvoorbeeld bestand:/my/local/file.sh

ComputeGcsStorageInfo

Name Pad Type Description
destination
destination string

GCS-bestemming/URI, bijvoorbeeld gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Name Pad Type Description
destination
destination string

wsfs-bestemming, bijvoorbeeld werkruimte:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Name Pad Type Description
clients
clients ComputeClientsTypes

ComputeClientsTypes

Name Pad Type Description
jobs
jobs boolean

Wanneer taken zijn ingesteld, kan het cluster worden gebruikt voor taken

Notebooks
notebooks boolean

Met notebooks ingesteld, kan dit cluster worden gebruikt voor notebooks

JobsJobNotificationSettings

Name Pad Type Description
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Indien waar, stuur dan geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering is geannuleerd.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering wordt overgeslagen.

JobsJobParameterDefinition

Name Pad Type Description
standaard
default string

Standaardwaarde van de parameter.

naam
name string

De naam van de gedefinieerde parameter. Mag alleen alfanumerieke tekens, _, -en .

JobsJobRunAs

Name Pad Type Description
service_principal_name
service_principal_name string

Toepassings-id van een actieve service-principal. Voor het instellen van dit veld is de servicePrincipal/gebruikersrol vereist.

user_name
user_name string

Het e-mailadres van een actieve werkruimtegebruiker. Niet-beheerders kunnen dit veld alleen instellen op hun eigen e-mail.

JobsCronSchedule

Name Pad Type Description
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Een Cron-expressie met behulp van kwartssyntaxis die het schema voor een taak beschrijft. Zie Cron-trigger voor meer informatie. Dit veld is vereist.

timezone_id
timezone_id string

Een Java-tijdzone-id. Het schema voor een taak wordt opgelost met betrekking tot deze tijdzone. Zie Java TimeZone voor meer informatie. Dit veld is vereist.

JobsTask

Name Pad Type Description
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Een optionele matrix met objecten die de afhankelijkheidsgrafiek van de taak opgeven. Alle taken die in dit veld zijn opgegeven, moeten worden voltooid voordat deze taak wordt uitgevoerd. De taak wordt alleen uitgevoerd als de voorwaarde run_if waar is. De sleutel is task_key en de waarde is de naam die is toegewezen aan de afhankelijke taak.

beschrijving
description string

Een optionele beschrijving voor deze taak.

disable_auto_optimization
disable_auto_optimization boolean

Een optie voor het uitschakelen van automatische optimalisatie in serverloze

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

De sleutel die verwijst naar een omgevingsspecificatie in een taak. Dit veld is vereist voor Python-script-, Python-wiel- en dbt-taken bij het gebruik van serverloze berekeningen.

existing_cluster_id
existing_cluster_id string

Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid

for_each_task
for_each_task JobsForEachTask
Gezondheid
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken.

libraries
libraries array of ComputeLibrary

Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst.

max_retries
max_retries integer

Een optioneel maximum aantal keren om een mislukte uitvoering opnieuw uit te voeren. Een uitvoering wordt beschouwd als mislukt als deze is voltooid met de MISLUKTe result_state of INTERNAL_ERROR life_cycle_state. De waarde -1 betekent dat u het voor onbepaalde tijd opnieuw wilt proberen en de waarde 0 betekent dat u het nooit opnieuw wilt proberen.

min_retry_interval_millis
min_retry_interval_millis integer

Een optioneel minimaal interval in milliseconden tussen het begin van de mislukte uitvoering en de volgende nieuwe poging. Het standaardgedrag is dat mislukte uitvoeringen onmiddellijk opnieuw worden geprobeerd.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Een optioneel beleid om op te geven of een taak opnieuw moet worden uitgevoerd wanneer er een time-out optreedt. Het standaardgedrag is om het niet opnieuw te proberen bij time-out.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Een unieke naam voor de taak. Dit veld wordt gebruikt om te verwijzen naar deze taak uit andere taken. Dit veld is vereist en moet uniek zijn binnen de bovenliggende taak. Bij Bijwerken of opnieuw instellen wordt dit veld gebruikt om te verwijzen naar de taken die moeten worden bijgewerkt of opnieuw worden ingesteld.

timeout_seconds
timeout_seconds integer

Er is een optionele time-out toegepast op elke uitvoering van deze taaktaak. Een waarde van 0 betekent geen time-out.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Name Pad Type Description
Links
left string

De linkeroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn.

op
op JobsConditionTaskOp
Rechts
right string

De rechteroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn.

JobsConditionTaskOp

JobsDashboardTask

Name Pad Type Description
dashboard_id
dashboard_id string

De id van het dashboard dat moet worden vernieuwd.

subscription
subscription JobsSubscription
warehouse_id
warehouse_id string

Optioneel: de magazijn-id waarmee het dashboard voor de planning moet worden uitgevoerd. Als dit niet is opgegeven, wordt het standaardwarehouse van het dashboard gebruikt.

JobsSubscription

Name Pad Type Description
custom_subject
custom_subject string

Optioneel: hiermee kunnen gebruikers een aangepaste onderwerpregel opgeven in het e-mailbericht dat naar abonnees wordt verzonden.

Onderbroken
paused boolean

Wanneer waar, verzendt het abonnement geen e-mailberichten.

Abonnees
subscribers array of JobsSubscriptionSubscriber

De lijst met abonnees om de momentopname van het dashboard naar te verzenden.

JobsSubscriptionSubscriber

Name Pad Type Description
destination_id
destination_id string

Er wordt een momentopname van het dashboard naar het doel verzonden wanneer het destination_id veld aanwezig is.

user_name
user_name string

Er wordt een momentopname van het dashboard verzonden naar het e-mailadres van de gebruiker wanneer het user_name veld aanwezig is.

JobsSource

JobsTaskDependency

Name Pad Type Description
resultaat
outcome string

Kan alleen worden opgegeven op voorwaardetaakafhankelijkheden. Het resultaat van de afhankelijke taak waaraan moet worden voldaan om deze taak uit te voeren.

task_key
task_key string

De naam van de taak waarvan deze taak afhankelijk is.

JobsTaskEmailNotifications

Name Pad Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het statusveld. Als er geen regel voor de RUN_DURATION_SECONDS metrische waarde is opgegeven in het statusveld voor de taak, worden er geen meldingen verzonden.

on_failure
on_failure array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering niet is voltooid. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een MISLUKT, of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden.

on_start
on_start array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de drempelwaarden voor streamingachterstanden worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden.

on_success
on_success array of string

Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een BEËINDIGDe life_cycle_state en een GESLAAGDe result_state. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden.

ComputeLibrary

Name Pad Type Description
Cran
cran ComputeRCranLibrary
pot
jar string

URI van de JAR-bibliotheek die moet worden geïnstalleerd. Ondersteunde URI's zijn werkruimtepaden, Unity Catalog Volumes-paden en ADLS-URL's. Bijvoorbeeld: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } of { "jar": "abfss://my-bucket/library.jar" }. Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek. Mogelijk moet u het cluster starten met een Microsoft Entra ID-service-principal voor toegang tot de ADLS-URI.

Maven
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
Eisen
requirements string

URI van het requirements.txt-bestand dat moet worden geïnstalleerd. Alleen werkruimtepaden en Unity Catalog Volumes-paden worden ondersteund. Bijvoorbeeld: { "requirements": "/Workspace/path/to/requirements.txt" } of { "requirements" : "/Volumes/path/to/requirements.txt" }

whl
whl string

De URI van de wielbibliotheek die moet worden geïnstalleerd. Ondersteunde URI's zijn werkruimtepaden, Unity Catalog Volumes-paden en ADLS-URL's. Bijvoorbeeld: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } of { "whl": "abfss://my-bucket/library.whl" }. Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek. Mogelijk moet u het cluster starten met een Microsoft Entra ID-service-principal voor toegang tot de ADLS-URI.

JobsForEachTask

Name Pad Type Description
concurrency
concurrency integer

Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van de taak tegelijk wilt kunnen uitvoeren.

Ingangen
inputs string

Matrix voor taak die moet worden herhaald. Dit kan een JSON-tekenreeks of een verwijzing naar een matrixparameter zijn.

taak
task Object

ComputeRCranLibrary

Name Pad Type Description
pakket
package string

De naam van het CRAN-pakket dat moet worden geïnstalleerd.

Repo
repo string

De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard CRAN-opslagplaats gebruikt.

ComputeMavenLibrary

Name Pad Type Description
Coördinaten
coordinates string

Maven-coördinaten in Gradle-stijl. Bijvoorbeeld: org.jsoup:jsoup:1.7.2.

Uitsluitingen
exclusions array of string

Lijst met afhankelijkheiden die moeten worden uitgesloten. Bijvoorbeeld: ["slf4j:slf4j", "*:hadoop-client"]. Uitsluitingen van Maven-afhankelijkheid: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

Repo
repo string

Maven-opslagplaats waaruit het Maven-pakket moet worden geïnstalleerd. Als u dit weglaat, worden zowel de Centrale Opslagplaats van Maven als spark-pakketten doorzocht.

ComputePythonPyPiLibrary

Name Pad Type Description
pakket
package string

De naam van het pypi-pakket dat moet worden geïnstalleerd. Er wordt ook een optionele exacte versiespecificatie ondersteund. Voorbeelden: "simplejson" en "simplejson==3.8.0".

Repo
repo string

De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard pip-index gebruikt.

JobsNotebookTask

Name Pad Type Description
base_parameters
base_parameters object

Basisparameters die moeten worden gebruikt voor elke uitvoering van deze taak. Als de uitvoering wordt gestart door een aanroep naar :method:jobs/run Now met opgegeven parameters, worden de twee parameterstoewijzingen samengevoegd. Als dezelfde sleutel is opgegeven in base_parameters en nu wordt uitgevoerd, wordt de waarde van nu uitgevoerd gebruikt. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen. Als het notebook een parameter gebruikt die niet is opgegeven in de base_parameters van de taak of de parameters voor nu uitvoeren overschrijven, wordt de standaardwaarde van het notebook gebruikt. Haal deze parameters op in een notebook met behulp van dbutils.widgets.get. De JSON-weergave van dit veld mag niet groter zijn dan 1 MB.

notebook_path
notebook_path string

Het pad van het notebook dat moet worden uitgevoerd in de Azure Databricks-werkruimte of externe opslagplaats. Voor notebooks die zijn opgeslagen in de Azure Databricks-werkruimte, moet het pad absoluut zijn en beginnen met een slash. Voor notebooks die zijn opgeslagen in een externe opslagplaats, moet het pad relatief zijn. Dit veld is vereist.

source
source JobsSource
warehouse_id
warehouse_id string

Optionele warehouse_id om het notebook uit te voeren op een SQL-warehouse. Klassieke SQL-warehouses worden NIET ondersteund. Gebruik serverloze of pro SQL-warehouses. Houd er rekening mee dat SQL-magazijnen alleen SQL-cellen ondersteunen; als het notebook niet-SQL-cellen bevat, mislukt de uitvoering.

JobsTaskNotificationSettings

Name Pad Type Description
alert_on_last_attempt
alert_on_last_attempt boolean

Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_start voor de nieuwe uitvoeringen en verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure tot de laatste poging van de uitvoering.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Indien waar, stuur dan geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering is geannuleerd.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering wordt overgeslagen.

JobsPipelineTask

Name Pad Type Description
full_refresh
full_refresh boolean

Indien waar, activeert u een volledige vernieuwing in de delta live-tabel.

pipeline_id
pipeline_id string

De volledige naam van de pijplijntaak die moet worden uitgevoerd.

JobsPythonWheelTask

Name Pad Type Description
entry_point
entry_point string

Benoemd invoerpunt dat moet worden gebruikt, als het niet bestaat in de metagegevens van het pakket, wordt de functie rechtstreeks vanuit het pakket uitgevoerd met behulp van $packageName.$entryPoint()

named_parameters
named_parameters object

Opdrachtregelparameters die zijn doorgegeven aan python-wieltaak in de vorm van ["--name=task", "-data=dbfs:/path/to/data.json"]. Laat deze leeg als parameters niet null zijn.

package_name
package_name string

Naam van het pakket dat moet worden uitgevoerd

parameters
parameters array of string

Opdrachtregelparameters doorgegeven aan python-wieltaak. Laat deze leeg als named_parameters niet null is.

JobsRunIf

JobsRunJobTask

Name Pad Type Description
job_id
job_id integer

Id van de taak die moet worden geactiveerd.

job_parameters
job_parameters object

Parameters op taakniveau die worden gebruikt om de taak te activeren.

pipeline_params
pipeline_params JobsPipelineParams

JobsSparkJarTask

Name Pad Type Description
main_class_name
main_class_name string

De volledige naam van de klasse die de hoofdmethode bevat die moet worden uitgevoerd. Deze klasse moet zijn opgenomen in een JAR die als bibliotheek wordt geleverd. De code moet SparkContext.getOrCreate gebruiken om een Spark-context te verkrijgen; anders mislukken uitvoeringen van de taak.

parameters
parameters array of string

Parameters doorgegeven aan de hoofdmethode. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen.

JobsSparkPythonTask

Name Pad Type Description
parameters
parameters array of string

Opdrachtregelparameters doorgegeven aan het Python-bestand. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen.

python_file
python_file string

Het Python-bestand dat moet worden uitgevoerd. Cloudbestands-URI's (zoals dbfs:/, s3:/, adls:/, gcs:/) en werkruimtepaden worden ondersteund. Voor Python-bestanden die zijn opgeslagen in de Azure Databricks-werkruimte, moet het pad absoluut zijn en beginnen met /. Voor bestanden die zijn opgeslagen in een externe opslagplaats, moet het pad relatief zijn. Dit veld is vereist.

source
source JobsSource

JobsSparkSubmitTask

Name Pad Type Description
parameters
parameters array of string

Opdrachtregelparameters die zijn doorgegeven aan spark submit. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen.

JobsWebhookNotifications

Name Pad Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de metrische RUN_DURATION_SECONDS in het statusveld. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_duration_warning_threshold_exceeded.

on_failure
on_failure array of JobsWebhook

Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering mislukt. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_failure.

on_start
on_start array of JobsWebhook

Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering wordt gestart. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_start.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de drempelwaarden voor streamingachterstand worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_streaming_backlog_exceeded.

on_success
on_success array of JobsWebhook

Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering is voltooid. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_success.

JobsWebhook

Name Pad Type Description
identiteitskaart
id string

JobsTriggerSettings

Name Pad Type Description
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
periodiek
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Name Pad Type Description
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

Als deze instelling is ingesteld, start de trigger een uitvoering pas nadat de opgegeven hoeveelheid tijd is verstreken sinds de laatste keer dat de trigger werd geactiveerd. De minimaal toegestane waarde is 60 seconden

url
url string

URL die moet worden bewaakt voor aankomsten van bestanden. Het pad moet verwijzen naar de hoofdmap of een subpad van de externe locatie.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

Als deze instelling is ingesteld, start de trigger een uitvoering pas nadat er gedurende de opgegeven tijd geen bestandsactiviteit heeft plaatsgevonden. Dit maakt het mogelijk om te wachten tot een batch binnenkomende bestanden binnenkomen voordat een uitvoering wordt geactiveerd. De minimaal toegestane waarde is 60 seconden.

JobsPeriodicTriggerConfiguration

Name Pad Type Description
interval
interval integer

Het interval waarmee de trigger moet worden uitgevoerd.

eenheid
unit JobsPeriodicTriggerConfigurationTimeUnit

JobsPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Name Pad Type Description
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Name Pad Type Description
using_file_events
using_file_events boolean

Geeft aan of de trigger bestandsevenementen gebruikt om bestandskomsten te detecteren.

JobsRun

Name Pad Type Description
attempt_number
attempt_number integer

Het volgnummer van deze uitvoeringspoging voor een geactiveerde taakuitvoering. De eerste poging van een uitvoering heeft een attempt_number van 0. Als de eerste poging mislukt en de taak een beleid voor opnieuw proberen heeft (max_retries > 0), worden volgende uitvoeringen gemaakt met een original_attempt_run_id van de id van de oorspronkelijke poging en een incrementele attempt_number. Uitvoeringen worden alleen opnieuw geprobeerd totdat ze slagen en het maximum attempt_number hetzelfde is als de max_retries waarde voor de taak.

cleanup_duration
cleanup_duration integer

De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het veld cleanup_duration is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd.

beschrijving
description string

Beschrijving van de uitvoering

effective_performance_target
effective_performance_target JobsPerformanceTarget
eindtijd
end_time integer

Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld is ingesteld op 0 als de taak nog steeds wordt uitgevoerd.

execution_duration
execution_duration integer

De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het execution_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

git_source
git_source JobsGitSource
heeft_meer
has_more boolean

Geeft aan of de uitvoering meer matrixeigenschappen (taken, job_clusters) bevat die niet worden weergegeven. Ze kunnen worden geopend via :method:jobs/getrun-eindpunt. Het is alleen relevant voor API 2.2:method:jobs/listruns-aanvragen met expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Een lijst met taakclusterspecificaties die kunnen worden gedeeld en hergebruikt door taken van deze taak. Bibliotheken kunnen niet worden gedeclareerd in een gedeeld taakcluster. U moet afhankelijke bibliotheken declareren in taakinstellingen. Als er meer dan 100 taakclusters beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/getrun.

job_id
job_id integer

De canonieke id van de taak die deze uitvoering bevat.

job_parameters
job_parameters array of JobsJobParameter

Parameters op taakniveau die worden gebruikt in de uitvoering

job_run_id
job_run_id integer

Id van de taakuitvoering waartoe deze uitvoering behoort. Voor verouderde en taaktaken wordt het veld gevuld met de taakuitvoerings-id. Voor taakuitvoeringen wordt het veld gevuld met de id van de taakuitvoering waartoe de taakuitvoering behoort.

next_page_token
next_page_token string

Een token dat kan worden gebruikt om de volgende pagina met matrixeigenschappen weer te geven.

original_attempt_run_id
original_attempt_run_id integer

Als deze uitvoering een nieuwe poging is van een eerdere poging, bevat dit veld de run_id van de oorspronkelijke poging; anders is het hetzelfde als de run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

De tijd in milliseconden die de uitvoering in de wachtrij heeft doorgebracht.

repair_history
repair_history array of JobsRepairHistoryItem

De reparatiegeschiedenis van de uitvoering.

run_duration
run_duration integer

De tijd in milliseconden die het uitvoeren van de taak en alle reparaties om te voltooien.

run_id
run_id integer

De canonieke id van de uitvoering. Deze id is uniek voor alle uitvoeringen van alle taken.

run_name
run_name string

Een optionele naam voor de uitvoering. De maximale lengte is 4096 bytes volgens de UTF-8-codering.

run_page_url
run_page_url string

De URL naar de detailpagina van de uitvoering.

run_type
run_type JobsRunType
schedule
schedule JobsCronSchedule
setup_duration
setup_duration integer

De tijd in milliseconden die nodig was om het cluster in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het setup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

starttijd
start_time integer

Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven.

status
status JobsRunStatus
tasks
tasks array of JobsRunTask

De lijst met taken die door de uitvoering worden uitgevoerd. Elke taak heeft een eigen run_id die u kunt gebruiken om JobsGetOutput aan te roepen om de uitvoer-resutls op te halen. Als er meer dan 100 taken beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/getrun. Gebruik het next_page_token veld in de hoofdmap van het object om te bepalen of er meer resultaten beschikbaar zijn.

trigger
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

JobsClusterInstance

Name Pad Type Description
cluster_id
cluster_id string

De canonieke id voor het cluster dat wordt gebruikt door een uitvoering. Dit veld is altijd beschikbaar voor uitvoeringen op bestaande clusters. Voor uitvoeringen op nieuwe clusters wordt deze beschikbaar zodra het cluster is gemaakt. Deze waarde kan worden gebruikt om logboeken weer te geven door naar /#setting/sparkui/$cluster_id/driver-logs te bladeren. De logboeken blijven beschikbaar nadat de uitvoering is voltooid. Het antwoord bevat dit veld niet als de id nog niet beschikbaar is.

spark_context_id
spark_context_id string

De canonieke id voor de Spark-context die wordt gebruikt door een uitvoering. Dit veld wordt ingevuld zodra de uitvoering begint. Deze waarde kan worden gebruikt om de Spark-gebruikersinterface weer te geven door naar /#setting/sparkui/$cluster_id/$spark_context_id te bladeren. De Spark-gebruikersinterface blijft beschikbaar nadat de uitvoering is voltooid. Het antwoord bevat dit veld niet als de id nog niet beschikbaar is.

JobsClusterSpec

Name Pad Type Description
existing_cluster_id
existing_cluster_id string

Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid

job_cluster_key
job_cluster_key string

Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken.

libraries
libraries array of ComputeLibrary

Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst.

new_cluster
new_cluster ComputeClusterSpec

JobsJobParameter

Name Pad Type Description
standaard
default string

De optionele standaardwaarde van de parameter

naam
name string

De naam van de parameter

waarde
value string

De waarde die wordt gebruikt in de uitvoering

JobsRunParameters

Name Pad Type Description
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Name Pad Type Description
effective_performance_target
effective_performance_target JobsPerformanceTarget
eindtijd
end_time integer

De eindtijd van de (gerepareerde) uitvoering.

identiteitskaart
id integer

De id van de reparatie. Alleen geretourneerd voor de items die een reparatie in repair_history vertegenwoordigen.

starttijd
start_time integer

De begintijd van de (herstelde) uitvoering.

status
status JobsRunStatus
task_run_ids
task_run_ids array of integer

De uitvoerings-id's van de taakuitvoeringen die zijn uitgevoerd als onderdeel van dit herstelgeschiedenisitem.

type
type JobsRepairHistoryItemType

JobsRunStatus

Name Pad Type Description
queue_details
queue_details JobsQueueDetails
state
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Name Pad Type Description
code
code JobsQueueDetailsCodeCode
message
message string

Een beschrijvend bericht met de wachtrijdetails. Dit veld is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Name Pad Type Description
code
code JobsTerminationCodeCode
message
message string

Een beschrijvend bericht met de beëindigingsgegevens. Dit veld is ongestructureerd en de indeling kan worden gewijzigd.

type
type JobsTerminationTypeType

JobsTerminationCodeCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Name Pad Type Description
attempt_number
attempt_number integer

Het volgnummer van deze uitvoeringspoging voor een geactiveerde taakuitvoering. De eerste poging van een uitvoering heeft een attempt_number van 0. Als de eerste poging mislukt en de taak een beleid voor opnieuw proberen heeft (max_retries > 0), worden volgende uitvoeringen gemaakt met een original_attempt_run_id van de id van de oorspronkelijke poging en een incrementele attempt_number. Uitvoeringen worden alleen opnieuw geprobeerd totdat ze slagen en het maximum attempt_number hetzelfde is als de max_retries waarde voor de taak.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het veld cleanup_duration is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Een optionele matrix met objecten die de afhankelijkheidsgrafiek van de taak opgeven. Alle taken die in dit veld zijn opgegeven, moeten zijn voltooid voordat deze taak wordt uitgevoerd. De sleutel is task_key en de waarde is de naam die is toegewezen aan de afhankelijke taak.

beschrijving
description string

Een optionele beschrijving voor deze taak.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
eindtijd
end_time integer

Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld is ingesteld op 0 als de taak nog steeds wordt uitgevoerd.

environment_key
environment_key string

De sleutel die verwijst naar een omgevingsspecificatie in een taak. Dit veld is vereist voor Python-script-, Python-wiel- en dbt-taken bij het gebruik van serverloze berekeningen.

execution_duration
execution_duration integer

De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het execution_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

existing_cluster_id
existing_cluster_id string

Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken.

libraries
libraries array of Object

Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

De tijd in milliseconden die de uitvoering in de wachtrij heeft doorgebracht.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

De tijd in milliseconden die het uitvoeren van de taak en alle reparaties om te voltooien.

run_id
run_id integer

De id van de taakuitvoering.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

De tijd in milliseconden die nodig was om het cluster in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het setup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
starttijd
start_time integer

Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven.

status
status JobsRunStatus
task_key
task_key string

Een unieke naam voor de taak. Dit veld wordt gebruikt om te verwijzen naar deze taak uit andere taken. Dit veld is vereist en moet uniek zijn binnen de bovenliggende taak. Bij Bijwerken of opnieuw instellen wordt dit veld gebruikt om te verwijzen naar de taken die moeten worden bijgewerkt of opnieuw worden ingesteld.

timeout_seconds
timeout_seconds integer

Er is een optionele time-out toegepast op elke uitvoering van deze taaktaak. Een waarde van 0 betekent geen time-out.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Name Pad Type Description
Links
left string

De linkeroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn.

op
op JobsConditionTaskOp
resultaat
outcome string

Het evaluatieresultaat van de voorwaardeexpressie. Ingevuld als de taak is voltooid. Kan 'waar' of 'onwaar' zijn

Rechts
right string

De rechteroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn.

JobsTriggerType

JobsTriggerInfo

Name Pad Type Description
run_id
run_id integer

De uitvoerings-id van de taak Uitvoeren

JobsRunOutput

Name Pad Type Description
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
fout
error string

Een foutbericht dat aangeeft waarom een taak is mislukt of waarom uitvoer niet beschikbaar is. Het bericht is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen.

error_trace
error_trace string

Als er een fout is opgetreden bij het uitvoeren van de uitvoering, bevat dit veld beschikbare stacktraceringen.

info
info string
logs
logs string

De uitvoer van taken die schrijven naar standaardstreams (stdout/stderr), zoals spark_jar_task, spark_python_task, python_wheel_task. Deze wordt niet ondersteund voor de notebook_task, pipeline_task of spark_submit_task. Azure Databricks beperkt deze API om de laatste 5 MB van deze logboeken te retourneren.

logs_truncated
logs_truncated boolean

Of de logboeken worden afgekapt.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Name Pad Type Description
resultaat
result string

De waarde die is doorgegeven aan dbutils.notebook.exit(). Azure Databricks beperkt deze API om de eerste 5 MB van de waarde te retourneren. Voor een groter resultaat kan uw taak de resultaten opslaan in een cloudopslagservice. Dit veld is afwezig als dbutils.notebook.exit() nooit is aangeroepen.

Afgekapt
truncated boolean

Of het resultaat al dan niet is afgekapt.

JobsRunJobOutput

Name Pad Type Description
run_id
run_id integer

De uitvoerings-id van de geactiveerde taakuitvoering

JobsResolvedValues

Name Pad Type Description
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Name Pad Type Description
Links
left string
Rechts
right string

JobsResolvedDbtTaskValues

Name Pad Type Description
Opdrachten
commands array of string

JobsResolvedNotebookTaskValues

Name Pad Type Description
base_parameters
base_parameters object

JobsResolvedPythonWheelTaskValues

Name Pad Type Description
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Name Pad Type Description
job_parameters
job_parameters object
parameters
parameters object

JobsResolvedParamPairValues

Name Pad Type Description
parameters
parameters object

JobsResolvedStringParamsValues

Name Pad Type Description
parameters
parameters array of string