Azure Databricks
Azure Databricks biedt een geïntegreerd platform voor schaalbaar gegevensbeheer, governance en analyses, waarbij gestroomlijnde werkstromen worden gecombineerd met de mogelijkheid om verschillende gegevenstypen efficiënt te verwerken
Deze connector is beschikbaar in de volgende producten en regio's:
| Dienst | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Alle Power Automate-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Power Apps | Premium | Alle Power Apps-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Alle Power Automate-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Contactpersoon | |
|---|---|
| Naam | Ondersteuning voor Databricks |
| URL | https://help.databricks.com |
| E-mailen | eng-partner-eco-help@databricks.com |
| Connectormetagegevens | |
|---|---|
| Uitgever | Databricks Inc. |
| Webpagina | https://www.databricks.com/ |
| Privacybeleid | https://www.databricks.com/legal/privacynotice |
| Categorieën | Gegevens |
Verbinding maken met Azure Databricks vanuit Microsoft Power Platform
Op deze pagina wordt uitgelegd hoe u vanuit Microsoft Power Platform verbinding maakt met Azure Databricks vanuit Microsoft Power Platform door Azure Databricks toe te voegen als gegevensverbinding. Wanneer u verbinding hebt, kunt u uw Azure Databricks-gegevens van de volgende platforms gebruiken:
- Power Apps: Bouw toepassingen die kunnen lezen van en schrijven naar Azure Databricks, terwijl u uw Beheerbesturingselementen voor Azure Databricks behoudt.
- Power Automate: Bouw stromen en voeg acties toe waarmee aangepaste SQL of een bestaande taak kan worden uitgevoerd en de resultaten worden geretourneerd.
- Copilot Studio: bouw aangepaste agents met behulp van uw Azure Databricks-gegevens als kennisbron.
Voordat u begint
Voordat u vanuit Power Platform verbinding maakt met Azure Databricks, moet u aan de volgende vereisten voldoen:
- U hebt een Microsoft Entra ID-account (voorheen Azure Active Directory).
- U hebt een Premium Power Apps-licentie.
- U hebt een Azure Databricks-account.
- U hebt toegang tot een SQL-warehouse in Azure Databricks.
Optioneel: Verbinding maken met virtuele Azure-netwerken
Als uw Azure Databricks-werkruimte gebruikmaakt van virtuele netwerken, zijn er twee manieren om verbinding te maken:
Integreer Power Platform met resources in uw virtuele netwerk zonder ze beschikbaar te maken via het openbare internet. Als u verbinding wilt maken met het privé-eindpunt van uw Azure Databricks-werkruimte, gaat u als volgt te werk nadat u de privéconnectiviteit met Azure Databricks hebt geconfigureerd:
Virtual Network-ondersteuning instellen voor Power Platform.
Als uw virtuele Power Platform-netwerk (of primair of secundair) verschilt van uw virtuele Azure Databricks-netwerk, gebruikt u peering van virtuele netwerken om het virtuele netwerk te verbinden met Azure Databricks.
Zie het overzicht van ondersteuning voor Virtual Network voor meer informatie over virtuele netwerken.
Toegang met hybride implementatie inschakelen, waarbij een front-end privékoppeling met een openbaar eindpunt wordt beveiligd door een IP-toegangslijst voor werkruimten. Ga als volgt te werk om toegang in te schakelen:
- Openbare toegang op werkruimteniveau inschakelen. Zie IP-toegangslijsten configureren voor werkruimten voor meer informatie.
- Voeg het IP-bereik van AzureConnectors of het specifieke IP-bereik van Power Platform toe op basis van de regio van uw omgeving, aan uw ip-toegangslijst voor werkruimten.
Optioneel: Een Microsoft Entra-service-principal maken
Important
Als Azure Databricks en Power Platform zich in verschillende tenants bevinden, moet u service-principals gebruiken voor verificatie.
Voordat u verbinding maakt, voert u de volgende stappen uit om een Microsoft Entra-service-principal te maken, in te stellen en toe te wijzen aan uw Azure Databricks-account of -werkruimte:
- Registreer een nieuwe service-principal in Microsoft Entra-id.
- Voeg service-principals toe aan uw account.
- Wijs een service-principal toe aan een werkruimte.
Stap 1: Een Azure Databricks-verbinding toevoegen aan Power Platform
Notitie: Als u Copilot Studio gebruikt, raden we u aan om de Databricks-verbinding te maken in Power Apps of Power Automate. Vervolgens kan het worden gebruikt in Copilot Studio.
Ga als volgt te werk om een Azure Databricks-verbinding toe te voegen:
Klik in Power Apps of Power Automate in de zijbalk op Verbindingen.
Klik op + Nieuwe verbinding in de linkerbovenhoek.
Zoek naar Azure Databricks met behulp van de zoekbalk in de rechterbovenhoek.
Selecteer de tegel Azure Databricks .
Selecteer uw verificatietype in de vervolgkeuzelijst.
Selecteer uw verificatiemethode en voer uw verificatiegegevens in.
Als uw Power Platform-implementatie en Azure Databricks-account zich in dezelfde Microsoft Entra-tenant bevinden, kunt u de OAuth-verbinding gebruiken. Voer de volgende gegevens in:
- Voer voor Server Hostname de hostnaam van azure Databricks SQL Warehouse in.
- Voer voor HTTP-pad het HTTP-pad van het SQL Warehouse in.
- Klik op Create.
- Meld u aan met uw Microsoft Entra-id.
Service-principalverbinding kan in elk scenario worden gebruikt. Voordat u verbinding maakt, maakt u een Microsoft Entra-service-principal. Voer de volgende gegevens in:
- Voer voor client-id de service-principal-id in.
- Voer voor clientgeheim het geheim van de service-principal in.
- Voer voor Tenant de tenant van de service-principal in.
- Voer voor Hostname de hostnaam van azure Databricks SQL Warehouse in.
- Voer voor HTTP-pad het HTTP-pad van het SQL Warehouse in.
- (Optional) U kunt de service-principalverbinding wijzigen of delen met uw teamleden nadat de verbinding is aangemaakt.
Zie Verbindingsgegevens voor een Azure Databricks-rekenresource ophalen voor uw Azure Databricks SQL Warehouse-verbindingsdetails.
Klik op Create.
Stap 2: De Azure Databricks-verbinding gebruiken
Nadat u een Azure Databricks-verbinding hebt gemaakt in Power Apps of Power Automate, kunt u uw Azure Databricks-gegevens gebruiken om Power Canvas-apps, Power Automate-stromen en Copilot Studio-agents te maken.
Uw Azure Databricks-gegevens gebruiken om Power Canvas-apps te bouwen
Important
U kunt alleen canvas-apps gebruiken als u rechtstreeks verbinding maakt met Azure Databricks in de app. U kunt geen virtuele tabellen gebruiken.
Ga als volgt te werk om uw Azure Databricks-gegevens toe te voegen aan uw toepassing:
- Klik in de meest linkse navigatiebalk op Maken.
- Klik op Beginnen met een leeg canvas en selecteer de gewenste canvasgrootte om een nieuwe canvas-app te maken.
- Klikin uw toepassing op>> toevoegenAzure Databricks. Selecteer de Azure Databricks-verbinding die u hebt gemaakt.
- Selecteer een catalogus in de zijbalk Een gegevensset kiezen .
- Selecteer in de zijbalk Een gegevensset kiezen alle tabellen waarmee u de canvas-app wilt verbinden.
- Klik op Verbinding maken.
Gegevensbewerkingen in Power Apps:
De connector ondersteunt bewerkingen voor maken, bijwerken en verwijderen, maar alleen voor tabellen waarvoor een primaire sleutel is gedefinieerd. Bij het uitvoeren van maakbewerkingen moet u altijd de primaire sleutel opgeven.
Notitie: Azure Databricks ondersteunt gegenereerde identiteitskolommen. In dit geval worden primaire-sleutelwaarden automatisch gegenereerd op de server tijdens het maken van rijen en kunnen ze niet handmatig worden opgegeven.
Uw Azure Databricks-gegevens gebruiken om Power Automate-stromen te bouwen
De API voor het uitvoeren van instructies en de taken-API worden weergegeven in Power Automate, zodat u SQL-instructies kunt schrijven en bestaande taken kunt uitvoeren. Ga als volgt te werk om een Power Automate-stroom te maken met behulp van Azure Databricks:
- Klik in de meest linkse navigatiebalk op Maken.
- Maak een stroom en voeg een triggertype toe.
- Klik in uw nieuwe stroom op +Databricks om de beschikbare acties te bekijken.
Als u SQL wilt schrijven, selecteert u een van de volgende acties:
Een SQL-instructie uitvoeren: een SQL-instructie schrijven en uitvoeren. Voer het volgende in:
- Voer voor hoofdtekst/warehouse_id de id in van het magazijn waarop de SQL-instructie moet worden uitgevoerd.
- Voer voor hoofdtekst/statement_id de id van de SQL-instructie in die moet worden uitgevoerd.
- Zie hier voor meer informatie over de geavanceerde parameters.
Controleer de status en haal resultaten op: controleer de status van een SQL-instructie en verzamel resultaten. Voer het volgende in:
- Voer voor instructie-id de id in die is geretourneerd toen de SQL-instructie werd uitgevoerd.
- Zie hier voor meer informatie over de parameter.
De uitvoering van een instructie annuleren: de uitvoering van een SQL-instructie beëindigen. Voer het volgende in:
- Voer voor instructie-id de id in van de SQL-instructie die moet worden beëindigd.
- Zie hier voor meer informatie over de parameter.
Resultaat ophalen op segmentindex: Resultaten ophalen op segmentindex, die geschikt is voor grote resultatensets. Voer het volgende in:
- Voer voor instructie-id de id in van de SQL-instructie waarvan u de resultaten wilt ophalen.
- Voer voor segmentindex de doelsegmentindex in.
- Zie hier voor meer informatie over de parameters.
Als u wilt communiceren met een bestaande Databricks-taak, selecteert u een van de volgende acties:
- Taken weergeven: hiermee haalt u een lijst met taken op. Zie voor meer informatie hier.
- Een nieuwe taakuitvoering activeren: voert een taak uit en retourneert de run_id van de geactiveerde uitvoering. Zie voor meer informatie hier.
- Eén taakuitvoering ophalen: retourneert metagegevens over een uitvoering, waaronder de uitvoeringsstatus (bijvoorbeeld ACTIEF, GESLAAGD, MISLUKT), begin- en eindtijd, uitvoeringsduur, clustergegevens, enzovoort. Zie voor meer informatie hier.
- Een taakuitvoering annuleren: Hiermee annuleert u een taakuitvoering of een taakuitvoering. Zie hier voor meer informatie.
- Haal de uitvoer op voor één taakuitvoering: haalt de uitvoer en metagegevens van één taakuitvoering op. Zie hier voor meer informatie.
Azure Databricks gebruiken als kennisbron in Copilot Studio
Ga als volgt te werk om uw Azure Databricks-gegevens als kennisbron toe te voegen aan een Copilot Studio-agent:
- Klik in de zijbalk op Agent.
- Selecteer een bestaande agent of maak een nieuwe agent door op + Nieuwe agent te klikken.
- Beschrijf de agent door een bericht in te voeren en klik vervolgens op Maken.
- Of klik op Overslaan om de gegevens van de agent handmatig op te geven.
- Klik op het tabblad Kennis op + Kennis.
- Klik op Geavanceerd.
- Selecteer Azure Databricks als kennisbron.
- Voer de catalogusnaam in waarin uw gegevens zich bevindt.
- Klik op Verbinding maken.
- Selecteer de tabellen die uw agent als kennisbron wilt gebruiken en klik op Toevoegen.
Virtuele Dataverse-tabellen maken met uw Azure Databricks-gegevens
U kunt ook virtuele Dataverse-tabellen maken met de Azure Databricks-connector. Virtuele tabellen, ook wel virtuele entiteiten genoemd, integreren gegevens van externe systemen met Microsoft Dataverse. Een virtuele tabel definieert een tabel in Dataverse zonder de fysieke tabel op te slaan in de Dataverse-database. Zie Aan de slag met virtuele tabellen (entiteiten) voor meer informatie over virtuele tabellen.
Opmerking
Hoewel virtuele tabellen geen dataverse-opslagcapaciteit verbruiken, raadt Databricks u aan om directe verbindingen te gebruiken voor betere prestaties.
U moet de rol Systeemaanpassing of Systeembeheerder hebben. Zie beveiligingsrollen voor Power Platform voor meer informatie.
Volg deze stappen om een virtuele Dataverse-tabel te maken:
Klik in Power Apps in de zijbalk op Tabellen.
Klik op + Nieuwe tabel in de menubalk en selecteer Een virtuele tabel maken.
Selecteer een bestaande Azure Databricks-verbinding of maak een nieuwe verbinding met Azure Databricks. Zie stap 1: Een Azure Databricks-verbinding met Power Platform toevoegen om een nieuwe verbinding toe te voegen.
Databricks raadt aan een service-principal-verbinding te gebruiken om een virtuele tabel te maken.
Klik op Volgende.
Selecteer de tabellen die u wilt weergeven als een virtuele Dataverse-tabel.
- Voor virtuele dataverse-tabellen is een primaire sleutel vereist. Daarom kunnen weergaven geen virtuele tabellen zijn, maar gerealiseerde weergaven wel.
Klik op Volgende.
Configureer de virtuele tabel door de details van de tabel bij te werken, indien nodig.
Klik op Volgende.
Bevestig de details van de gegevensbron en klik op Voltooien.
Gebruik de virtuele Dataverse-tabel in Power Apps, Power Automate en Copilot Studio.
Zie Bekende beperkingen en probleemoplossing voor een lijst met bekende beperkingen van virtuele Dataverse-tabellen.
Batchupdates uitvoeren
Als u bulksgewijs bewerkingen voor maken, bijwerken of verwijderen wilt uitvoeren als reactie op Power Apps-invoer, raadt Databricks aan om een Power Automate-stroom te implementeren. Ga als volgt te werk om dit te doen:
Maak een canvas-app met behulp van uw Azure Databricks-verbinding in Power Apps.
Maak een Power Automate-stroom met behulp van de Azure Databricks-verbinding en gebruik Power Apps als trigger.
Voeg in de Power Automate-trigger de invoervelden toe die u van Power Apps wilt doorgeven aan Power Automate.
Maak een verzamelingsobject in Power Apps om al uw wijzigingen te verzamelen.
Voeg de Power Automate Flow toe aan uw canvasapp.
Roep de Power Automate-stroom aan vanuit uw canvas-app en doorloop de verzameling met behulp van een
ForAllopdracht.ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
Gelijktijdige schrijfbewerkingen
Gelijktijdigheid op rijniveau vermindert conflicten tussen gelijktijdige schrijfbewerkingen door wijzigingen op rijniveau te detecteren en automatisch conflicten op te lossen die optreden wanneer gelijktijdige schrijfbewerkingen worden bijgewerkt of verschillende rijen in hetzelfde gegevensbestand worden verwijderd.
Gelijktijdigheid op rijniveau is opgenomen in Databricks Runtime 14.2 of hoger. Gelijktijdigheid op rijniveau wordt standaard ondersteund voor de volgende typen tabellen:
- Tabellen waarvoor verwijderingsvectoren zijn ingeschakeld en zonder partitionering
- Tabellen met vloeibare clustering, tenzij verwijderingsvectoren zijn uitgeschakeld
Voer de volgende SQL-opdracht uit om verwijderingsvectoren in te schakelen:
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);
Zie Isolatieniveaus en schrijfconflicten in Azure Databricks voor meer informatie over gelijktijdige schrijfconflicten in Azure Databricks.
Azure Databricks toevoegen aan een gegevensbeleid
Door Azure Databricks toe te voegen aan een beleid voor zakelijke gegevens, kan Azure Databricks geen gegevens delen met connectors in andere groepen. Dit beveiligt uw gegevens en voorkomt dat deze worden gedeeld met degenen die er geen toegang toe mogen hebben. Zie Gegevensbeleid beheren voor meer informatie.
De Azure Databricks-connector toevoegen aan een Power Platform-gegevensbeleid:
- Klik in een Power Platform-toepassing op de instellingen in de rechterbovenhoek en selecteer beheercentrum.
- Klik in de zijbalk opBeleidsgegevensbeleid>.
- Als u het nieuwe beheercentrum gebruikt, klikt u op>>.
- Klik op + Nieuw beleid of selecteer een bestaand beleid.
- Als u een nieuw beleid maakt, voert u een naam in.
- Selecteer een omgeving die u aan uw beleid wilt toevoegen en klik op + Toevoegen aan beleid hierboven.
- Klik op Volgende.
- Zoek en selecteer de Azure Databricks-connector .
- Klik op Verplaatsen naar Bedrijf en klik op Volgende.
- Controleer uw beleid en klik op Beleid maken.
Beperkingen
- De Power Platform-connector biedt geen ondersteuning voor overheidsclouds.
Power App-beperkingen
Met de volgende PowerFx-formules worden waarden berekend met behulp van alleen de gegevens die lokaal zijn opgehaald:
| Categorie | Formula |
|---|---|
| De functie Table | - GroupBy -Duidelijk |
| Aggregation | - CountRows - StdevP - StdevS |
Een verbinding maken
De connector ondersteunt de volgende verificatietypen:
| OAuth-verbinding | OAuth-verbinding | Alle regio's | Niet deelbaar |
| Verbinding met service-principal | Verbinding met service-principal | Alle regio's | Deelbaar |
| Standaard [AFGESCHAFT] | Deze optie is alleen bedoeld voor oudere verbindingen zonder expliciet verificatietype en is alleen beschikbaar voor compatibiliteit met eerdere versies. | Alle regio's | Niet deelbaar |
OAuth-verbinding
Verificatie-id: oauth2-auth
Van toepassing: Alle regio's
OAuth-verbinding
Dit is geen deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt een andere gebruiker gevraagd om expliciet een nieuwe verbinding te maken.
| Naam | Typologie | Description | Verplicht |
|---|---|---|---|
| Serverhostnaam (voorbeeld: adb-3980263885549757139.2.azuredatabricks.net) | touw | Servernaam van Databricks-werkruimte | Klopt |
| HTTP-pad (voorbeeld: /sql/1.0/warehouses/a9c4e781bd29f315) | touw | HTTP-pad van Databricks SQL Warehouse | Klopt |
Verbinding met service-principal
Verificatie-id: oAuthClientCredentials
Van toepassing: Alle regio's
Verbinding met service-principal
Dit is deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt de verbinding ook gedeeld. Zie het overzicht van connectors voor canvas-apps - Power Apps | Microsoft Docs
| Naam | Typologie | Description | Verplicht |
|---|---|---|---|
| Klant-ID | touw | Klopt | |
| Clientgeheim | beveiligde string | Klopt | |
| Tenant | touw | Klopt | |
| Serverhostnaam (voorbeeld: adb-3980263885549757139.2.azuredatabricks.net) | touw | Servernaam van Databricks-werkruimte | Klopt |
| HTTP-pad (voorbeeld: /sql/1.0/warehouses/a9c4e781bd29f315) | touw | HTTP-pad van Databricks SQL Warehouse | Klopt |
Standaard [AFGESCHAFT]
Van toepassing: Alle regio's
Deze optie is alleen bedoeld voor oudere verbindingen zonder expliciet verificatietype en is alleen beschikbaar voor compatibiliteit met eerdere versies.
Dit is geen deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt een andere gebruiker gevraagd om expliciet een nieuwe verbinding te maken.
Beperkingslimieten
| Name | Aanroepen | Verlengingsperiode |
|---|---|---|
| API-aanroepen per verbinding | 100 | 60 seconden |
Acties
| Azure Databricks Genie |
Query's uitvoeren op Genie-ruimten om inzichten te krijgen uit uw gegevens. |
| De uitvoer voor één uitvoering ophalen |
Haal de uitvoer en metagegevens van één taakuitvoering op. Wanneer een notebooktaak een waarde retourneert via de aanroep dbutils.notebook.exit(), kunt u dit eindpunt gebruiken om die waarde op te halen. Azure Databricks beperkt deze API tot het retourneren van de eerste 5 MB van de uitvoer. Als u een groter resultaat wilt retourneren, kunt u taakresultaten opslaan in een cloudopslagservice. Dit eindpunt valideert dat de parameter run_id geldig is en retourneert een HTTP-statuscode 400 als de parameter run_id ongeldig is. Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen. |
| Een nieuwe taakuitvoering activeren |
Voer een taak uit en retourneer de run_id van de geactiveerde uitvoering. |
| Een SQL-instructie uitvoeren |
Voer een SQL-instructie uit en wacht eventueel op de resultaten voor een opgegeven tijd. |
| Een uitvoering annuleren |
Hiermee annuleert u een taakuitvoering of een taakuitvoering. De uitvoering wordt asynchroon geannuleerd, dus deze kan nog steeds worden uitgevoerd wanneer deze aanvraag is voltooid. |
| Eén taakuitvoering ophalen |
Haalt de metagegevens van een uitvoering op. Grote matrices in de resultaten worden gepagineerd wanneer ze meer dan 100 elementen bevatten. Een aanvraag voor één uitvoering retourneert alle eigenschappen voor die uitvoering en de eerste 100 elementen van matrixeigenschappen (taken, job_clusters, job_parameters en repair_history). Gebruik het next_page_token veld om meer resultaten te controleren en de waarde ervan door te geven als de page_token in volgende aanvragen. Als matrixeigenschappen meer dan 100 elementen bevatten, worden er aanvullende resultaten geretourneerd voor volgende aanvragen. Matrices zonder extra resultaten zijn leeg op latere pagina's. |
| Resultaat ophalen op segmentindex |
Nadat de uitvoering van de instructie IS GESLAAGD, kan deze aanvraag worden gebruikt om een segment op te halen per index. |
| Status controleren en resultaten ophalen |
De status, het manifest en de resultaten van de instructie ophalen |
| Taken weergeven |
Hiermee haalt u een lijst met taken op. |
| Uitvoering van instructie annuleren |
Aanvragen dat een uitvoeringsinstructie wordt geannuleerd. Bellers moeten de status van de terminal controleren om de status te zien. |
Azure Databricks Genie
Query's uitvoeren op Genie-ruimten om inzichten te krijgen uit uw gegevens.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Genie Space ID
|
genie_space_id | True | string |
Genie Space ID |
De uitvoer voor één uitvoering ophalen
Haal de uitvoer en metagegevens van één taakuitvoering op. Wanneer een notebooktaak een waarde retourneert via de aanroep dbutils.notebook.exit(), kunt u dit eindpunt gebruiken om die waarde op te halen. Azure Databricks beperkt deze API tot het retourneren van de eerste 5 MB van de uitvoer. Als u een groter resultaat wilt retourneren, kunt u taakresultaten opslaan in een cloudopslagservice. Dit eindpunt valideert dat de parameter run_id geldig is en retourneert een HTTP-statuscode 400 als de parameter run_id ongeldig is. Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Uitvoerings-id
|
run_id | True | integer |
De canonieke id voor de uitvoering. |
Retouren
- Body
- JobsRunOutput
Een nieuwe taakuitvoering activeren
Voer een taak uit en retourneer de run_id van de geactiveerde uitvoering.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
idempotency_token
|
idempotency_token | string |
Een optioneel token om de idempotentie van taakuitvoeringsaanvragen te garanderen. Als er al een uitvoering met het opgegeven token bestaat, maakt de aanvraag geen nieuwe uitvoering, maar retourneert de id van de bestaande uitvoering. Als een uitvoering met het opgegeven token wordt verwijderd, wordt er een fout geretourneerd. Als u het idempotentietoken opgeeft, kunt u na een fout opnieuw proberen totdat de aanvraag is geslaagd. Azure Databricks garandeert dat precies één uitvoering wordt gestart met dat idempotentietoken. Dit token moet maximaal 64 tekens bevatten. Zie Idempotentie voor taken voor meer informatie. |
|
|
job_id
|
job_id | True | integer |
De id van de taak die moet worden uitgevoerd |
|
job_parameters
|
job_parameters | object |
Parameters op taakniveau die in de uitvoering worden gebruikt. bijvoorbeeld 'param': 'overriding_val' |
|
|
alleen
|
only | array of string |
Een lijst met taaksleutels die binnen de taak moeten worden uitgevoerd. Als dit veld niet is opgegeven, worden alle taken in de taak uitgevoerd. |
|
|
performance_target
|
performance_target | string | ||
|
full_refresh
|
full_refresh | boolean |
Indien waar, activeert u een volledige vernieuwing in de delta live-tabel. |
|
|
enabled
|
enabled | True | boolean |
Indien waar, schakelt u wachtrijen voor de taak in. Dit is een verplicht veld. |
Retouren
- Body
- JobsRunNowResponse
Een SQL-instructie uitvoeren
Voer een SQL-instructie uit en wacht eventueel op de resultaten voor een opgegeven tijd.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
warehouse_id
|
warehouse_id | True | string |
Doelwarehouse-id |
|
verklaring
|
statement | True | string |
De SQL-instructie die moet worden uitgevoerd. De instructie kan eventueel worden geparameteriseerd, zie parameters |
|
naam
|
name | True | string |
Parametermarkeringsnaam |
|
type
|
type | string |
Parametergegevenstype |
|
|
waarde
|
value | string |
Parameterwaarde |
|
|
catalogus
|
catalog | string |
Standaardcatalogus voor uitvoering |
|
|
schema
|
schema | string |
Standaardschema voor uitvoering |
|
|
aanleg
|
disposition | string |
Modus voor het ophalen van resultaten |
|
|
format
|
format | string |
Indeling van resultatenset |
|
|
on_wait_timeout
|
on_wait_timeout | string |
Actie bij time-out |
|
|
wait_timeout
|
wait_timeout | string |
Time-out van resultaatwachttijd |
|
|
byte_limit
|
byte_limit | integer |
Limiet voor resultaat-byte |
|
|
row_limit
|
row_limit | integer |
Limiet voor resultaatrijen |
Retouren
Antwoord van uitvoering van instructie
- Body
- SqlStatementResponse
Een uitvoering annuleren
Hiermee annuleert u een taakuitvoering of een taakuitvoering. De uitvoering wordt asynchroon geannuleerd, dus deze kan nog steeds worden uitgevoerd wanneer deze aanvraag is voltooid.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
run_id
|
run_id | True | integer |
Dit veld is vereist. |
Eén taakuitvoering ophalen
Haalt de metagegevens van een uitvoering op. Grote matrices in de resultaten worden gepagineerd wanneer ze meer dan 100 elementen bevatten. Een aanvraag voor één uitvoering retourneert alle eigenschappen voor die uitvoering en de eerste 100 elementen van matrixeigenschappen (taken, job_clusters, job_parameters en repair_history). Gebruik het next_page_token veld om meer resultaten te controleren en de waarde ervan door te geven als de page_token in volgende aanvragen. Als matrixeigenschappen meer dan 100 elementen bevatten, worden er aanvullende resultaten geretourneerd voor volgende aanvragen. Matrices zonder extra resultaten zijn leeg op latere pagina's.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Uitvoerings-id
|
run_id | True | integer |
De canonieke id van de uitvoering waarvoor de metagegevens moeten worden opgehaald. Dit veld is vereist. |
|
Inclusief geschiedenis
|
include_history | boolean |
Of de reparatiegeschiedenis in het antwoord moet worden opgenomen. |
|
|
Opgeloste waarden opnemen
|
include_resolved_values | boolean |
Of u opgeloste parameterwaarden wilt opnemen in het antwoord. |
|
|
Paginatoken
|
page_token | string |
Gebruik next_page_token geretourneerd uit het vorige GetRun-antwoord om de volgende pagina van de matrixeigenschappen van de uitvoering aan te vragen. |
Retouren
- Body
- JobsRun
Resultaat ophalen op segmentindex
Nadat de uitvoering van de instructie IS GESLAAGD, kan deze aanvraag worden gebruikt om een segment op te halen per index.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Instructie-id
|
statement_id | True | string |
Instructie-id |
|
Segmentindex
|
chunk_index | True | string |
Segmentindex |
Retouren
- Body
- SqlResultData
Status controleren en resultaten ophalen
De status, het manifest en de resultaten van de instructie ophalen
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Instructie-id
|
statement_id | True | string |
Instructie-id |
Retouren
Antwoord van uitvoering van instructie
- Body
- SqlStatementResponse
Taken weergeven
Hiermee haalt u een lijst met taken op.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Limit
|
limit | integer |
Het aantal te retourneren taken. Deze waarde moet groter zijn dan 0 en kleiner of gelijk aan 100. De standaardwaarde is 20. |
|
|
Taken uitvouwen
|
expand_tasks | boolean |
Of u taak- en clustergegevens wilt opnemen in het antwoord. Houd er rekening mee dat alleen de eerste 100 elementen worden weergegeven. Gebruik :method:jobs/get om te pagineren door alle taken en clusters. |
|
|
Taaknaam
|
name | string |
Een filter op de lijst op basis van de exacte taaknaam (niet hoofdlettergevoelig). |
|
|
Paginatoken
|
page_token | string |
Gebruik next_page_token of prev_page_token geretourneerd uit de vorige aanvraag om respectievelijk de volgende of vorige pagina met taken weer te geven. |
Retouren
- Body
- JobsListJobsResponse
Uitvoering van instructie annuleren
Aanvragen dat een uitvoeringsinstructie wordt geannuleerd. Bellers moeten de status van de terminal controleren om de status te zien.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Instructie-id
|
statement_id | True | string |
Instructie-id |
Definities
Object
SqlBaseChunkInfo
Metagegevens voor een segment van een resultatenset
| Name | Pad | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Aantal bytes in het resultaatsegment |
|
chunk_index
|
chunk_index | integer |
Positie in de volgorde van segmenten van de resultatenset |
|
row_count
|
row_count | integer |
Aantal rijen in het resultaatsegment |
|
row_offset
|
row_offset | integer |
Verschuiving van rij starten in de resultatenset |
SqlColumnInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
naam
|
name | string |
Kolomnaam |
|
positie
|
position | integer |
Kolompositie (op basis van 0) |
|
type_interval_type
|
type_interval_type | string |
Intervaltypenotatie |
|
type_name
|
type_name | SqlColumnInfoTypeName |
De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY. |
|
type_precision
|
type_precision | integer |
Aantal cijfers voor het type DECIMAAL |
|
type_scale
|
type_scale | integer |
Aantal decimalen voor het type DECIMAAL |
|
type_text
|
type_text | string |
Specificatie van volledige SQL-type |
SqlColumnInfoTypeName
De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY.
De naam van het basisgegevenstype. Dit bevat geen details voor complexe typen, zoals STRUCT, MAP of ARRAY.
SqlStatementResponse
Antwoord van uitvoering van instructie
| Name | Pad | Type | Description |
|---|---|---|---|
|
manifesteren
|
manifest | SqlResultManifest |
Schema en metagegevens van resultatenset |
|
resultaat
|
result | SqlResultData | |
|
statement_id
|
statement_id | string |
Instructie-id |
|
status
|
status | SqlStatementStatus |
Uitvoeringsstatus van instructie |
SqlResultManifest
Schema en metagegevens van resultatenset
| Name | Pad | Type | Description |
|---|---|---|---|
|
Brokken
|
chunks | array of SqlBaseChunkInfo |
Metagegevens van resultaatsegment |
|
format
|
format | string | |
|
schema
|
schema | SqlResultSchema |
Kolomdefinities voor resultatenset |
|
total_byte_count
|
total_byte_count | integer |
Totaal aantal bytes in resultatenset |
|
total_chunk_count
|
total_chunk_count | integer |
Totaal aantal segmenten |
|
total_row_count
|
total_row_count | integer |
Totaal aantal rijen |
|
Afgekapt
|
truncated | boolean |
Status van afkapping van resultaten |
SqlStatementStatus
Uitvoeringsstatus van instructie
| Name | Pad | Type | Description |
|---|---|---|---|
|
fout
|
error | SqlServiceError | |
|
state
|
state | SqlStatementState |
Uitvoeringsstatus van instructie |
SqlStatementState
SqlServiceError
| Name | Pad | Type | Description |
|---|---|---|---|
|
error_code
|
error_code | string | |
|
message
|
message | string |
Foutmelding |
SqlResultSchema
Kolomdefinities voor resultatenset
| Name | Pad | Type | Description |
|---|---|---|---|
|
column_count
|
column_count | integer | |
|
columns
|
columns | array of SqlColumnInfo |
SqlResultData
| Name | Pad | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Bytes in resultaatsegment |
|
chunk_index
|
chunk_index | integer |
Segmentpositie |
|
data_array
|
data_array | SqlJsonArray |
Matrix van matrices met tekenreekswaarden |
|
external_links
|
external_links | array of SqlExternalLink | |
|
next_chunk_index
|
next_chunk_index | integer |
Volgende segmentindex |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Koppeling naar volgende segment |
|
row_count
|
row_count | integer |
Rijen in segment |
|
row_offset
|
row_offset | integer |
Verschuiving van beginrij |
SqlJsonArray
Matrix van matrices met tekenreekswaarden
| Name | Pad | Type | Description |
|---|---|---|---|
|
Artikelen
|
array of |
SqlExternalLink
| Name | Pad | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Bytes in segment |
|
chunk_index
|
chunk_index | integer |
Segmentpositie |
|
afloop
|
expiration | date-time |
Verlooptijd van koppeling |
|
external_link
|
external_link | string | |
|
http_headers
|
http_headers | object |
Vereiste HTTP-headers |
|
next_chunk_index
|
next_chunk_index | integer |
Volgende segmentindex |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Koppeling naar volgende segment |
|
row_count
|
row_count | integer |
Rijen in segment |
|
row_offset
|
row_offset | integer |
Verschuiving van beginrij |
JobsRunNowResponse
| Name | Pad | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
De wereldwijd unieke id van de zojuist geactiveerde uitvoering. |
JobsPerformanceTarget
JobsPipelineParams
| Name | Pad | Type | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Indien waar, activeert u een volledige vernieuwing in de delta live-tabel. |
JobsQueueSettings
| Name | Pad | Type | Description |
|---|---|---|---|
|
enabled
|
enabled | boolean |
Indien waar, schakelt u wachtrijen voor de taak in. Dit is een verplicht veld. |
JobsListJobsResponse
| Name | Pad | Type | Description |
|---|---|---|---|
|
jobs
|
jobs | array of JobsBaseJob |
De lijst met taken. Alleen opgenomen in het antwoord als er taken moeten worden vermeld. |
|
next_page_token
|
next_page_token | string |
Een token dat kan worden gebruikt om de volgende pagina met taken weer te geven (indien van toepassing). |
|
prev_page_token
|
prev_page_token | string |
Een token dat kan worden gebruikt om de vorige pagina met taken weer te geven (indien van toepassing). |
JobsBaseJob
| Name | Pad | Type | Description |
|---|---|---|---|
|
created_time
|
created_time | integer |
Het tijdstip waarop deze taak is gemaakt in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). |
|
creator_user_name
|
creator_user_name | string |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd. |
|
effective_budget_policy_id
|
effective_budget_policy_id | uuid |
De id van het budgetbeleid dat door deze taak wordt gebruikt voor kostentoewijzingsdoeleinden. Dit kan worden ingesteld op (in volgorde van prioriteit): 1. Budgetbeheerders via het account of de werkruimteconsole 2. De gebruikersinterface voor taken op de pagina met taakdetails en de Taken-API met behulp van budget_policy_id 3. Uitgestelde standaardinstelling op basis van toegankelijk budgetbeleid van de run_as identiteit bij het maken of wijzigen van taken. |
|
heeft_meer
|
has_more | boolean |
Geeft aan of de taak meer matrixeigenschappen (taken, job_clusters) bevat die niet worden weergegeven. Ze kunnen worden geopend via :method:jobs/get-eindpunt. Het is alleen relevant voor API 2.2:method:jobs/list-aanvragen met expand_tasks=true. |
|
job_id
|
job_id | integer |
De canonieke id voor deze taak. |
|
settings
|
settings | JobsJobSettings | |
|
trigger_state
|
trigger_state | JobsTriggerStateProto |
JobsJobSettings
| Name | Pad | Type | Description |
|---|---|---|---|
|
budget_policy_id
|
budget_policy_id | uuid |
De id van het door de gebruiker opgegeven budgetbeleid dat voor deze taak moet worden gebruikt. Als dit niet is opgegeven, kan een standaardbudgetbeleid worden toegepast bij het maken of wijzigen van de taak. Zie effective_budget_policy_id voor het budgetbeleid dat door deze workload wordt gebruikt. |
|
continu
|
continuous | JobsContinuous | |
|
Uitrol
|
deployment | JobsJobDeployment | |
|
beschrijving
|
description | string |
Een optionele beschrijving voor de taak. De maximale lengte is 27700 tekens in UTF-8-codering. |
|
edit_mode
|
edit_mode | JobsJobEditMode | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
environments
|
environments | array of JobsJobEnvironment |
Een lijst met omgevingsspecificaties voor taakuitvoering waarnaar kan worden verwezen door serverloze taken van deze taak. Er moet een omgeving aanwezig zijn voor serverloze taken. Voor serverloze notebooktaken is de omgeving toegankelijk in het deelvenster notebookomgeving. Voor andere serverloze taken moet de taakomgeving worden opgegeven met behulp van environment_key in de taakinstellingen. |
|
git_source
|
git_source | JobsGitSource | |
|
Gezondheid
|
health | JobsJobsHealthRules | |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Een lijst met taakclusterspecificaties die kunnen worden gedeeld en hergebruikt door taken van deze taak. Bibliotheken kunnen niet worden gedeclareerd in een gedeeld taakcluster. U moet afhankelijke bibliotheken declareren in taakinstellingen. |
|
max_concurrent_runs
|
max_concurrent_runs | integer |
Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van dezelfde taak tegelijk wilt kunnen uitvoeren. Dit is bijvoorbeeld handig als u uw taak activeert volgens een frequent schema en opeenvolgende uitvoeringen wilt laten overlappen met elkaar, of als u meerdere uitvoeringen wilt activeren die verschillen per invoerparameters. Deze instelling is alleen van invloed op nieuwe uitvoeringen. Stel dat de gelijktijdigheid van de taak 4 is en dat er 4 gelijktijdige actieve uitvoeringen zijn. Als u vervolgens de gelijktijdigheid instelt op 3, worden geen actieve uitvoeringen gedood. Vanaf dat tijdstip worden nieuwe uitvoeringen echter overgeslagen, tenzij er minder dan 3 actieve uitvoeringen zijn. Deze waarde mag niet groter zijn dan 1000. Als u deze waarde instelt op 0, worden alle nieuwe uitvoeringen overgeslagen. |
|
naam
|
name | string |
Een optionele naam voor de taak. De maximale lengte is 4096 bytes volgens de UTF-8-codering. |
|
notification_settings
|
notification_settings | JobsJobNotificationSettings | |
|
parameters
|
parameters | array of JobsJobParameterDefinition |
Parameterdefinities op taakniveau |
|
performance_target
|
performance_target | JobsPerformanceTarget | |
|
queue
|
queue | JobsQueueSettings | |
|
uitvoeren als
|
run_as | JobsJobRunAs | |
|
schedule
|
schedule | JobsCronSchedule | |
|
tags
|
tags | object |
Een kaart met tags die aan de taak zijn gekoppeld. Deze worden doorgestuurd naar het cluster als clustertags voor taakclusters en zijn onderhevig aan dezelfde beperkingen als clustertags. Er kunnen maximaal 25 tags aan de taak worden toegevoegd. |
|
tasks
|
tasks | array of JobsTask |
Een lijst met taakspecificaties die door deze taak moeten worden uitgevoerd. Het ondersteunt maximaal 1000 elementen in schrijfeindpunten (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Leeseindpunten retourneren slechts 100 taken. Als er meer dan 100 taken beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/get. Gebruik het next_page_token veld in de hoofdmap van het object om te bepalen of er meer resultaten beschikbaar zijn. |
|
timeout_seconds
|
timeout_seconds | integer |
Er is een optionele time-out toegepast op elke uitvoering van deze taak. Een waarde van 0 betekent geen time-out. |
|
trigger
|
trigger | JobsTriggerSettings | |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsContinuous
| Name | Pad | Type | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus |
JobsPauseStatus
JobsJobDeployment
| Name | Pad | Type | Description |
|---|---|---|---|
|
vriendelijk
|
kind | JobsJobDeploymentKind | |
|
metadata_file_path
|
metadata_file_path | string |
Pad naar het bestand dat metagegevens van de implementatie bevat. |
JobsJobDeploymentKind
JobsJobEditMode
JobsJobEmailNotifications
| Name | Pad | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het statusveld. Als er geen regel voor de RUN_DURATION_SECONDS metrische waarde is opgegeven in het statusveld voor de taak, worden er geen meldingen verzonden. |
|
on_failure
|
on_failure | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering niet is voltooid. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een MISLUKT, of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden. |
|
on_start
|
on_start | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de drempelwaarden voor streamingachterstanden worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden. |
|
on_success
|
on_success | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een BEËINDIGDe life_cycle_state en een GESLAAGDe result_state. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
JobsJobEnvironment
| Name | Pad | Type | Description |
|---|---|---|---|
|
environment_key
|
environment_key | string |
De sleutel van een omgeving. Het moet uniek zijn binnen een job. |
|
Specificatie
|
spec | ComputeEnvironment |
ComputeEnvironment
| Name | Pad | Type | Description |
|---|---|---|---|
|
afhankelijkheden
|
dependencies | array of string |
Lijst met pip-afhankelijkheden, zoals ondersteund door de versie van pip in deze omgeving. Elke afhankelijkheid is een geldige pip-vereistenbestandsregel per https://pip.pypa.io/en/stable/reference/requirements-file-format/. Toegestane afhankelijkheden omvatten een vereisteaanduiding, een archief-URL, een lokaal projectpad (zoals WSFS- of UC-volumes in Azure Databricks) of een VCS-project-URL. |
|
environment_version
|
environment_version | string |
Verplicht. Omgevingsversie die wordt gebruikt door de omgeving. Elke versie wordt geleverd met een specifieke Python-versie en een set Python-pakketten. De versie is een tekenreeks die bestaat uit een geheel getal. Zie https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions. |
JobsGitSource
| Name | Pad | Type | Description |
|---|---|---|---|
|
git_branch
|
git_branch | string |
De naam van de vertakking die moet worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_tag of git_commit. |
|
git_commit
|
git_commit | string |
Doorvoeren om te worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_branch of git_tag. |
|
git_provider
|
git_provider | JobsGitProvider | |
|
git_snapshot
|
git_snapshot | JobsGitSnapshot | |
|
git_tag
|
git_tag | string |
De naam van de tag die moet worden uitgecheckt en gebruikt door deze taak. Dit veld kan niet worden opgegeven in combinatie met git_branch of git_commit. |
|
git_url
|
git_url | string |
URL van de opslagplaats die moet worden gekloond door deze taak. |
JobsGitProvider
JobsGitSnapshot
| Name | Pad | Type | Description |
|---|---|---|---|
|
used_commit
|
used_commit | string |
Doorvoer die is gebruikt om de uitvoering uit te voeren. Als git_branch is opgegeven, verwijst dit naar de HEAD van de vertakking op het moment van de uitvoering; als git_tag is opgegeven, verwijst dit naar de doorvoering van de tagpunten. |
JobsJobsHealthRules
| Name | Pad | Type | Description |
|---|---|---|---|
|
rules
|
rules | array of JobsJobsHealthRule |
JobsJobsHealthRule
| Name | Pad | Type | Description |
|---|---|---|---|
|
metric
|
metric | JobsJobsHealthMetric | |
|
op
|
op | JobsJobsHealthOperator | |
|
waarde
|
value | integer |
Hiermee geeft u de drempelwaarde op waaraan de metrische status moet voldoen om te voldoen aan de statusregel. |
JobsJobsHealthMetric
JobsJobsHealthOperator
JobsJobCluster
| Name | Pad | Type | Description |
|---|---|---|---|
|
job_cluster_key
|
job_cluster_key | string |
Een unieke naam voor het taakcluster. Dit veld is vereist en moet uniek zijn binnen de taak. JobTaskSettings kan naar dit veld verwijzen om te bepalen welk cluster moet worden gestart voor de taakuitvoering. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
ComputeClusterSpec
| Name | Pad | Type | Description |
|---|---|---|---|
|
apply_policy_default_values
|
apply_policy_default_values | boolean |
Als deze waarde is ingesteld op waar, worden vaste en standaardwaarden van het beleid gebruikt voor velden die worden weggelaten. Als deze waarde is ingesteld op onwaar, worden alleen vaste waarden van het beleid toegepast. |
|
autoscale
|
autoscale | ComputeAutoScale | |
|
autotermination_minutes
|
autotermination_minutes | integer |
Hiermee wordt het cluster automatisch beëindigd nadat het gedurende deze tijd in minuten inactief is. Als dit niet is ingesteld, wordt dit cluster niet automatisch beëindigd. Indien opgegeven, moet de drempelwaarde tussen 10 en 10000 minuten zijn. Gebruikers kunnen deze waarde ook instellen op 0 om automatische beëindiging expliciet uit te schakelen. |
|
azure_attributes
|
azure_attributes | ComputeAzureAttributes | |
|
cluster_log_conf
|
cluster_log_conf | ComputeClusterLogConf | |
|
clusternaam
|
cluster_name | string |
De clusternaam die door de gebruiker is aangevraagd. Dit hoeft niet uniek te zijn. Als deze niet is opgegeven bij het maken, is de clusternaam een lege tekenreeks. Voor taakclusters wordt de clusternaam automatisch ingesteld op basis van de taak- en taakuitvoerings-id's. |
|
custom_tags
|
custom_tags | object |
Extra labels voor clusterbronnen. Azure Databricks tagt alle clusterbronnen (bijvoorbeeld AWS-exemplaren en EBS-volumes) met deze tags naast default_tags. Opmerkingen: - Momenteel staat Azure Databricks maximaal 45 aangepaste tags toe: clusters kunnen alleen cloudresources hergebruiken als de tags van de resources een subset van de clustertags zijn |
|
data_security_mode
|
data_security_mode | ComputeDataSecurityMode | |
|
docker_image
|
docker_image | ComputeDockerImage | |
|
driver_instance_pool_id
|
driver_instance_pool_id | string |
De optionele ID van de instantiepool waartoe de bestuurder van het cluster behoort. Het cluster van pools gebruikt de instancepool met ID (instance_pool_id) als de stuurprogramma pool niet is toegewezen. |
|
driver_node_type_id
|
driver_node_type_id | string |
Het knooppunttype van de Spark driver. Houd er rekening mee dat dit veld optioneel is; als dit niet is ingesteld, wordt het type stuurprogrammaknooppunt ingesteld als dezelfde waarde als node_type_id hierboven gedefinieerd. Dit veld, samen met node_type_id, mag niet worden ingesteld als virtual_cluster_size is ingesteld. Als zowel driver_node_type_id, node_type_id als virtual_cluster_size zijn opgegeven, hebben driver_node_type_id en node_type_id voorrang. |
|
enable_elastic_disk
|
enable_elastic_disk | boolean |
Lokale opslag automatisch schalen: wanneer deze functie is ingeschakeld, verwerft dit cluster dynamisch extra schijfruimte wanneer de schijfruimte van de Spark-werkers bijna op is. Voor deze functie zijn specifieke AWS-machtigingen vereist om correct te functioneren. Raadpleeg de gebruikershandleiding voor meer informatie. |
|
enable_local_disk_encryption
|
enable_local_disk_encryption | boolean |
Of LUKS moet worden ingeschakeld op lokale schijven van cluster-VM's |
|
init_scripts
|
init_scripts | array of ComputeInitScriptInfo |
De configuratie voor het opslaan van init-scripts. Er kan een willekeurig aantal bestemmingen worden opgegeven. De scripts worden sequentieel uitgevoerd in de opgegeven volgorde. Als cluster_log_conf is opgegeven, worden init-scriptlogboeken verzonden naar <doel>/<cluster-id>/init_scripts. |
|
instance_pool_id
|
instance_pool_id | string |
De optionele id van de exemplaargroep waartoe het cluster behoort. |
|
is_single_node
|
is_single_node | boolean |
Dit veld kan alleen worden gebruikt als soort = CLASSIC_PREVIEW. Wanneer deze instelling is ingesteld op true, wordt in Azure Databricks automatisch één knooppunt ingesteld met betrekking tot custom_tags, spark_conf en num_workers |
|
vriendelijk
|
kind | ComputeKind | |
|
node_type_id
|
node_type_id | string |
Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de API-aanroep :method:clusters/listNodeTypes. |
|
num_workers
|
num_workers | integer |
Aantal werkernodes dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers Executors voor in totaal num_workers + 1 Spark-knooppunten. Opmerking: bij het lezen van de eigenschappen van een cluster weerspiegelt dit veld het gewenste aantal werkrollen in plaats van het werkelijke huidige aantal werknemers. Als een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werknemers, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werknemers, terwijl de werknemers die in spark_info worden vermeld, geleidelijk van 5 tot 10 toenemen naarmate de nieuwe knooppunten worden ingericht. |
|
policy_id
|
policy_id | string |
De id van het clusterbeleid dat wordt gebruikt om het cluster te maken, indien van toepassing. |
|
runtime_engine
|
runtime_engine | ComputeRuntimeEngine | |
|
single_user_name
|
single_user_name | string |
Eén gebruikersnaam als data_security_mode is SINGLE_USER |
|
spark_conf
|
spark_conf | object |
Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. Gebruikers kunnen ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders via spark.driver.extraJavaOptions en spark.executor.extraJavaOptions. |
|
spark_env_vars
|
spark_env_vars | object |
Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Houd er rekening mee dat het sleutel-waardepaar van het formulier (X,Y) wordt geëxporteerd zoals is (bijvoorbeeld X='Y') tijdens het starten van het stuurprogramma en de werknemers. Als u een extra set SPARK_DAEMON_JAVA_OPTS wilt opgeven, raden we u aan deze toe te voegen aan $SPARK_DAEMON_JAVA_OPTS, zoals wordt weergegeven in het onderstaande voorbeeld. Dit zorgt ervoor dat ook alle door Databricks beheerde omgevingsvariabelen worden opgenomen. Voorbeeld van Spark-omgevingsvariabelen: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
|
spark_version
|
spark_version | string |
De Spark-versie van het cluster, bijvoorbeeld 3.3.x-scala2.11. Een lijst met beschikbare Spark-versies kan worden opgehaald met behulp van de API-aanroep :method:clusters/sparkVersions. |
|
ssh_public_keys
|
ssh_public_keys | array of string |
Inhoud van openbare SSH-sleutels die wordt toegevoegd aan elk Spark-knooppunt in dit cluster. De bijbehorende persoonlijke sleutels kunnen worden gebruikt om u aan te melden met de gebruikersnaam ubuntu op poort 2200. Er kunnen maximaal 10 sleutels worden opgegeven. |
|
use_ml_runtime
|
use_ml_runtime | boolean |
Dit veld kan alleen worden gebruikt als soort = CLASSIC_PREVIEW. effective_spark_version wordt bepaald door spark_version (DBR-release), dit veld use_ml_runtime en of node_type_id gpu-knooppunt is of niet. |
|
workload_type
|
workload_type | ComputeWorkloadType |
ComputeAutoScale
| Name | Pad | Type | Description |
|---|---|---|---|
|
max_workers
|
max_workers | integer |
Het maximum aantal werkrollen waarnaar het cluster omhoog kan schalen wanneer het overbelast is. Houd er rekening mee dat max_workers strikt groter moet zijn dan min_workers. |
|
min_workers
|
min_workers | integer |
Het minimale aantal werkrollen waarnaar het cluster omlaag kan schalen wanneer het te weinig wordt gebruikt. Het is ook het eerste aantal werkrollen dat het cluster na het maken heeft. |
ComputeAzureAttributes
| Name | Pad | Type | Description |
|---|---|---|---|
|
availability
|
availability | ComputeAzureAvailability | |
|
first_on_demand
|
first_on_demand | integer |
De eerste first_on_demand knooppunten van het cluster worden op aanvraag geplaatst. Deze waarde moet groter zijn dan 0 om ervoor te zorgen dat het knooppunt van het clusterstuurprogramma wordt geplaatst op een on-demand exemplaar. Als deze waarde groter is dan of gelijk is aan de huidige clustergrootte, worden alle knooppunten op aanvraag-exemplaren geplaatst. Als deze waarde kleiner is dan de huidige clustergrootte, worden first_on_demand knooppunten op aanvraag-exemplaren geplaatst en wordt de rest op beschikbaarheidsexemplaren geplaatst. Houd er rekening mee dat deze waarde geen invloed heeft op de clustergrootte en momenteel niet kan worden gedempt gedurende de levensduur van een cluster. |
|
log_analytics_info
|
log_analytics_info | ComputeLogAnalyticsInfo | |
|
spot_bid_max_price
|
spot_bid_max_price | double |
De maximale biedprijs die moet worden gebruikt voor Azure spot-exemplaren. De maximumprijs voor het bod mag niet hoger zijn dan de on-demand prijs van het exemplaar. Als dit niet is opgegeven, is de standaardwaarde -1, die aangeeft dat het exemplaar niet kan worden verwijderd op basis van de prijs en alleen op basis van beschikbaarheid. Verder moet > de waarde 0 of -1 zijn. |
ComputeAzureAvailability
ComputeLogAnalyticsInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
log_analytics_primary_key
|
log_analytics_primary_key | string | |
|
log_analytics_workspace_id
|
log_analytics_workspace_id | string |
ComputeClusterLogConf
| Name | Pad | Type | Description |
|---|---|---|---|
|
dbfs
|
dbfs | ComputeDbfsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo |
ComputeDbfsStorageInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
dbfs-bestemming, bijvoorbeeld dbfs:/my/path |
ComputeVolumesStorageInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
UC Volumes bestemming, bijvoorbeeld /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh of dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh |
ComputeDataSecurityMode
ComputeDockerImage
| Name | Pad | Type | Description |
|---|---|---|---|
|
basic_auth
|
basic_auth | ComputeDockerBasicAuth | |
|
url
|
url | string |
URL van de docker-installatiekopieën. |
ComputeDockerBasicAuth
| Name | Pad | Type | Description |
|---|---|---|---|
|
wachtwoord
|
password | string |
Wachtwoord van de gebruiker |
|
username
|
username | string |
Naam van de gebruiker |
ComputeInitScriptInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
abfss
|
abfss | ComputeAdlsgen2Info | |
|
bestand
|
file | ComputeLocalFileInfo | |
|
Gcs
|
gcs | ComputeGcsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo | |
|
workspace
|
workspace | ComputeWorkspaceStorageInfo |
ComputeAdlsgen2Info
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
abfss-bestemming, bijvoorbeeld abfss:// container-name<@>storage-account-name.dfs.core.windows.net/<> directory-name<>. |
ComputeLocalFileInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
doel van lokaal bestand, bijvoorbeeld bestand:/my/local/file.sh |
ComputeGcsStorageInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
GCS-bestemming/URI, bijvoorbeeld gs://my-bucket/some-prefix |
ComputeWorkspaceStorageInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
wsfs-bestemming, bijvoorbeeld werkruimte:/cluster-init-scripts/setup-datadog.sh |
ComputeKind
ComputeRuntimeEngine
ComputeWorkloadType
| Name | Pad | Type | Description |
|---|---|---|---|
|
clients
|
clients | ComputeClientsTypes |
ComputeClientsTypes
| Name | Pad | Type | Description |
|---|---|---|---|
|
jobs
|
jobs | boolean |
Wanneer taken zijn ingesteld, kan het cluster worden gebruikt voor taken |
|
Notebooks
|
notebooks | boolean |
Met notebooks ingesteld, kan dit cluster worden gebruikt voor notebooks |
JobsJobNotificationSettings
| Name | Pad | Type | Description |
|---|---|---|---|
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Indien waar, stuur dan geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering is geannuleerd. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering wordt overgeslagen. |
JobsJobParameterDefinition
| Name | Pad | Type | Description |
|---|---|---|---|
|
standaard
|
default | string |
Standaardwaarde van de parameter. |
|
naam
|
name | string |
De naam van de gedefinieerde parameter. Mag alleen alfanumerieke tekens, _, -en . |
JobsJobRunAs
| Name | Pad | Type | Description |
|---|---|---|---|
|
service_principal_name
|
service_principal_name | string |
Toepassings-id van een actieve service-principal. Voor het instellen van dit veld is de servicePrincipal/gebruikersrol vereist. |
|
user_name
|
user_name | string |
Het e-mailadres van een actieve werkruimtegebruiker. Niet-beheerders kunnen dit veld alleen instellen op hun eigen e-mail. |
JobsCronSchedule
| Name | Pad | Type | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus | |
|
quartz_cron_expression
|
quartz_cron_expression | string |
Een Cron-expressie met behulp van kwartssyntaxis die het schema voor een taak beschrijft. Zie Cron-trigger voor meer informatie. Dit veld is vereist. |
|
timezone_id
|
timezone_id | string |
Een Java-tijdzone-id. Het schema voor een taak wordt opgelost met betrekking tot deze tijdzone. Zie Java TimeZone voor meer informatie. Dit veld is vereist. |
JobsTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
condition_task
|
condition_task | JobsConditionTask | |
|
dashboard_task
|
dashboard_task | JobsDashboardTask | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Een optionele matrix met objecten die de afhankelijkheidsgrafiek van de taak opgeven. Alle taken die in dit veld zijn opgegeven, moeten worden voltooid voordat deze taak wordt uitgevoerd. De taak wordt alleen uitgevoerd als de voorwaarde run_if waar is. De sleutel is task_key en de waarde is de naam die is toegewezen aan de afhankelijke taak. |
|
beschrijving
|
description | string |
Een optionele beschrijving voor deze taak. |
|
disable_auto_optimization
|
disable_auto_optimization | boolean |
Een optie voor het uitschakelen van automatische optimalisatie in serverloze |
|
email_notifications
|
email_notifications | JobsTaskEmailNotifications | |
|
environment_key
|
environment_key | string |
De sleutel die verwijst naar een omgevingsspecificatie in een taak. Dit veld is vereist voor Python-script-, Python-wiel- en dbt-taken bij het gebruik van serverloze berekeningen. |
|
existing_cluster_id
|
existing_cluster_id | string |
Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid |
|
for_each_task
|
for_each_task | JobsForEachTask | |
|
Gezondheid
|
health | JobsJobsHealthRules | |
|
job_cluster_key
|
job_cluster_key | string |
Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken. |
|
libraries
|
libraries | array of ComputeLibrary |
Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst. |
|
max_retries
|
max_retries | integer |
Een optioneel maximum aantal keren om een mislukte uitvoering opnieuw uit te voeren. Een uitvoering wordt beschouwd als mislukt als deze is voltooid met de MISLUKTe result_state of INTERNAL_ERROR life_cycle_state. De waarde -1 betekent dat u het voor onbepaalde tijd opnieuw wilt proberen en de waarde 0 betekent dat u het nooit opnieuw wilt proberen. |
|
min_retry_interval_millis
|
min_retry_interval_millis | integer |
Een optioneel minimaal interval in milliseconden tussen het begin van de mislukte uitvoering en de volgende nieuwe poging. Het standaardgedrag is dat mislukte uitvoeringen onmiddellijk opnieuw worden geprobeerd. |
|
new_cluster
|
new_cluster | ComputeClusterSpec | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | JobsTaskNotificationSettings | |
|
pipeline_task
|
pipeline_task | JobsPipelineTask | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | JobsPythonWheelTask | |
|
retry_on_timeout
|
retry_on_timeout | boolean |
Een optioneel beleid om op te geven of een taak opnieuw moet worden uitgevoerd wanneer er een time-out optreedt. Het standaardgedrag is om het niet opnieuw te proberen bij time-out. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
spark_jar_task
|
spark_jar_task | JobsSparkJarTask | |
|
spark_python_task
|
spark_python_task | JobsSparkPythonTask | |
|
spark_submit_task
|
spark_submit_task | JobsSparkSubmitTask | |
|
sql_task
|
sql_task | Object | |
|
task_key
|
task_key | string |
Een unieke naam voor de taak. Dit veld wordt gebruikt om te verwijzen naar deze taak uit andere taken. Dit veld is vereist en moet uniek zijn binnen de bovenliggende taak. Bij Bijwerken of opnieuw instellen wordt dit veld gebruikt om te verwijzen naar de taken die moeten worden bijgewerkt of opnieuw worden ingesteld. |
|
timeout_seconds
|
timeout_seconds | integer |
Er is een optionele time-out toegepast op elke uitvoering van deze taaktaak. Een waarde van 0 betekent geen time-out. |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsConditionTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
Links
|
left | string |
De linkeroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn. |
|
op
|
op | JobsConditionTaskOp | |
|
Rechts
|
right | string |
De rechteroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn. |
JobsConditionTaskOp
JobsDashboardTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
dashboard_id
|
dashboard_id | string |
De id van het dashboard dat moet worden vernieuwd. |
|
subscription
|
subscription | JobsSubscription | |
|
warehouse_id
|
warehouse_id | string |
Optioneel: de magazijn-id waarmee het dashboard voor de planning moet worden uitgevoerd. Als dit niet is opgegeven, wordt het standaardwarehouse van het dashboard gebruikt. |
JobsSubscription
| Name | Pad | Type | Description |
|---|---|---|---|
|
custom_subject
|
custom_subject | string |
Optioneel: hiermee kunnen gebruikers een aangepaste onderwerpregel opgeven in het e-mailbericht dat naar abonnees wordt verzonden. |
|
Onderbroken
|
paused | boolean |
Wanneer waar, verzendt het abonnement geen e-mailberichten. |
|
Abonnees
|
subscribers | array of JobsSubscriptionSubscriber |
De lijst met abonnees om de momentopname van het dashboard naar te verzenden. |
JobsSubscriptionSubscriber
| Name | Pad | Type | Description |
|---|---|---|---|
|
destination_id
|
destination_id | string |
Er wordt een momentopname van het dashboard naar het doel verzonden wanneer het destination_id veld aanwezig is. |
|
user_name
|
user_name | string |
Er wordt een momentopname van het dashboard verzonden naar het e-mailadres van de gebruiker wanneer het user_name veld aanwezig is. |
JobsSource
JobsTaskDependency
| Name | Pad | Type | Description |
|---|---|---|---|
|
resultaat
|
outcome | string |
Kan alleen worden opgegeven op voorwaardetaakafhankelijkheden. Het resultaat van de afhankelijke taak waaraan moet worden voldaan om deze taak uit te voeren. |
|
task_key
|
task_key | string |
De naam van de taak waarvan deze taak afhankelijk is. |
JobsTaskEmailNotifications
| Name | Pad | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het statusveld. Als er geen regel voor de RUN_DURATION_SECONDS metrische waarde is opgegeven in het statusveld voor de taak, worden er geen meldingen verzonden. |
|
on_failure
|
on_failure | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering niet is voltooid. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een MISLUKT, of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden. |
|
on_start
|
on_start | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de drempelwaarden voor streamingachterstanden worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden. |
|
on_success
|
on_success | array of string |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een BEËINDIGDe life_cycle_state en een GESLAAGDe result_state. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
ComputeLibrary
| Name | Pad | Type | Description |
|---|---|---|---|
|
Cran
|
cran | ComputeRCranLibrary | |
|
pot
|
jar | string |
URI van de JAR-bibliotheek die moet worden geïnstalleerd. Ondersteunde URI's zijn werkruimtepaden, Unity Catalog Volumes-paden en ADLS-URL's. Bijvoorbeeld: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } of { "jar": "abfss://my-bucket/library.jar" }. Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek. Mogelijk moet u het cluster starten met een Microsoft Entra ID-service-principal voor toegang tot de ADLS-URI. |
|
Maven
|
maven | ComputeMavenLibrary | |
|
pypi
|
pypi | ComputePythonPyPiLibrary | |
|
Eisen
|
requirements | string |
URI van het requirements.txt-bestand dat moet worden geïnstalleerd. Alleen werkruimtepaden en Unity Catalog Volumes-paden worden ondersteund. Bijvoorbeeld: { "requirements": "/Workspace/path/to/requirements.txt" } of { "requirements" : "/Volumes/path/to/requirements.txt" } |
|
whl
|
whl | string |
De URI van de wielbibliotheek die moet worden geïnstalleerd. Ondersteunde URI's zijn werkruimtepaden, Unity Catalog Volumes-paden en ADLS-URL's. Bijvoorbeeld: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } of { "whl": "abfss://my-bucket/library.whl" }. Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek. Mogelijk moet u het cluster starten met een Microsoft Entra ID-service-principal voor toegang tot de ADLS-URI. |
JobsForEachTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
concurrency
|
concurrency | integer |
Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van de taak tegelijk wilt kunnen uitvoeren. |
|
Ingangen
|
inputs | string |
Matrix voor taak die moet worden herhaald. Dit kan een JSON-tekenreeks of een verwijzing naar een matrixparameter zijn. |
|
taak
|
task | Object |
ComputeRCranLibrary
| Name | Pad | Type | Description |
|---|---|---|---|
|
pakket
|
package | string |
De naam van het CRAN-pakket dat moet worden geïnstalleerd. |
|
Repo
|
repo | string |
De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard CRAN-opslagplaats gebruikt. |
ComputeMavenLibrary
| Name | Pad | Type | Description |
|---|---|---|---|
|
Coördinaten
|
coordinates | string |
Maven-coördinaten in Gradle-stijl. Bijvoorbeeld: org.jsoup:jsoup:1.7.2. |
|
Uitsluitingen
|
exclusions | array of string |
Lijst met afhankelijkheiden die moeten worden uitgesloten. Bijvoorbeeld: ["slf4j:slf4j", "*:hadoop-client"]. Uitsluitingen van Maven-afhankelijkheid: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
|
Repo
|
repo | string |
Maven-opslagplaats waaruit het Maven-pakket moet worden geïnstalleerd. Als u dit weglaat, worden zowel de Centrale Opslagplaats van Maven als spark-pakketten doorzocht. |
ComputePythonPyPiLibrary
| Name | Pad | Type | Description |
|---|---|---|---|
|
pakket
|
package | string |
De naam van het pypi-pakket dat moet worden geïnstalleerd. Er wordt ook een optionele exacte versiespecificatie ondersteund. Voorbeelden: "simplejson" en "simplejson==3.8.0". |
|
Repo
|
repo | string |
De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard pip-index gebruikt. |
JobsNotebookTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
Basisparameters die moeten worden gebruikt voor elke uitvoering van deze taak. Als de uitvoering wordt gestart door een aanroep naar :method:jobs/run Now met opgegeven parameters, worden de twee parameterstoewijzingen samengevoegd. Als dezelfde sleutel is opgegeven in base_parameters en nu wordt uitgevoerd, wordt de waarde van nu uitgevoerd gebruikt. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen. Als het notebook een parameter gebruikt die niet is opgegeven in de base_parameters van de taak of de parameters voor nu uitvoeren overschrijven, wordt de standaardwaarde van het notebook gebruikt. Haal deze parameters op in een notebook met behulp van dbutils.widgets.get. De JSON-weergave van dit veld mag niet groter zijn dan 1 MB. |
|
notebook_path
|
notebook_path | string |
Het pad van het notebook dat moet worden uitgevoerd in de Azure Databricks-werkruimte of externe opslagplaats. Voor notebooks die zijn opgeslagen in de Azure Databricks-werkruimte, moet het pad absoluut zijn en beginnen met een slash. Voor notebooks die zijn opgeslagen in een externe opslagplaats, moet het pad relatief zijn. Dit veld is vereist. |
|
source
|
source | JobsSource | |
|
warehouse_id
|
warehouse_id | string |
Optionele warehouse_id om het notebook uit te voeren op een SQL-warehouse. Klassieke SQL-warehouses worden NIET ondersteund. Gebruik serverloze of pro SQL-warehouses. Houd er rekening mee dat SQL-magazijnen alleen SQL-cellen ondersteunen; als het notebook niet-SQL-cellen bevat, mislukt de uitvoering. |
JobsTaskNotificationSettings
| Name | Pad | Type | Description |
|---|---|---|---|
|
alert_on_last_attempt
|
alert_on_last_attempt | boolean |
Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_start voor de nieuwe uitvoeringen en verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure tot de laatste poging van de uitvoering. |
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Indien waar, stuur dan geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering is geannuleerd. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Indien waar, verzendt u geen meldingen naar geadresseerden die zijn opgegeven in on_failure als de uitvoering wordt overgeslagen. |
JobsPipelineTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Indien waar, activeert u een volledige vernieuwing in de delta live-tabel. |
|
pipeline_id
|
pipeline_id | string |
De volledige naam van de pijplijntaak die moet worden uitgevoerd. |
JobsPythonWheelTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
entry_point
|
entry_point | string |
Benoemd invoerpunt dat moet worden gebruikt, als het niet bestaat in de metagegevens van het pakket, wordt de functie rechtstreeks vanuit het pakket uitgevoerd met behulp van $packageName.$entryPoint() |
|
named_parameters
|
named_parameters | object |
Opdrachtregelparameters die zijn doorgegeven aan python-wieltaak in de vorm van ["--name=task", "-data=dbfs:/path/to/data.json"]. Laat deze leeg als parameters niet null zijn. |
|
package_name
|
package_name | string |
Naam van het pakket dat moet worden uitgevoerd |
|
parameters
|
parameters | array of string |
Opdrachtregelparameters doorgegeven aan python-wieltaak. Laat deze leeg als named_parameters niet null is. |
JobsRunIf
JobsRunJobTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
job_id
|
job_id | integer |
Id van de taak die moet worden geactiveerd. |
|
job_parameters
|
job_parameters | object |
Parameters op taakniveau die worden gebruikt om de taak te activeren. |
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsSparkJarTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
main_class_name
|
main_class_name | string |
De volledige naam van de klasse die de hoofdmethode bevat die moet worden uitgevoerd. Deze klasse moet zijn opgenomen in een JAR die als bibliotheek wordt geleverd. De code moet SparkContext.getOrCreate gebruiken om een Spark-context te verkrijgen; anders mislukken uitvoeringen van de taak. |
|
parameters
|
parameters | array of string |
Parameters doorgegeven aan de hoofdmethode. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
JobsSparkPythonTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Opdrachtregelparameters doorgegeven aan het Python-bestand. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
|
python_file
|
python_file | string |
Het Python-bestand dat moet worden uitgevoerd. Cloudbestands-URI's (zoals dbfs:/, s3:/, adls:/, gcs:/) en werkruimtepaden worden ondersteund. Voor Python-bestanden die zijn opgeslagen in de Azure Databricks-werkruimte, moet het pad absoluut zijn en beginnen met /. Voor bestanden die zijn opgeslagen in een externe opslagplaats, moet het pad relatief zijn. Dit veld is vereist. |
|
source
|
source | JobsSource |
JobsSparkSubmitTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Opdrachtregelparameters die zijn doorgegeven aan spark submit. Gebruik taakparametervariabelen om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
JobsWebhookNotifications
| Name | Pad | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of JobsWebhook |
Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de metrische RUN_DURATION_SECONDS in het statusveld. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_duration_warning_threshold_exceeded. |
|
on_failure
|
on_failure | array of JobsWebhook |
Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering mislukt. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_failure. |
|
on_start
|
on_start | array of JobsWebhook |
Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering wordt gestart. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_start. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of JobsWebhook |
Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de drempelwaarden voor streamingachterstand worden overschreden voor een stream. Drempelwaarden voor streamingachterstand kunnen worden ingesteld in het statusveld met behulp van de volgende metrische gegevens: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS of STREAMING_BACKLOG_FILES. Waarschuwingen zijn gebaseerd op het gemiddelde van 10 minuten van deze metrische gegevens. Als het probleem zich blijft voordoen, worden meldingen elke 30 minuten opnieuw verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_streaming_backlog_exceeded. |
|
on_success
|
on_success | array of JobsWebhook |
Een optionele lijst met systeemmeldings-id's die moeten worden aangeroepen wanneer de uitvoering is voltooid. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de eigenschap on_success. |
JobsWebhook
| Name | Pad | Type | Description |
|---|---|---|---|
|
identiteitskaart
|
id | string |
JobsTriggerSettings
| Name | Pad | Type | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerConfiguration | |
|
pause_status
|
pause_status | JobsPauseStatus | |
|
periodiek
|
periodic | JobsPeriodicTriggerConfiguration |
JobsFileArrivalTriggerConfiguration
| Name | Pad | Type | Description |
|---|---|---|---|
|
min_time_between_triggers_seconds
|
min_time_between_triggers_seconds | integer |
Als deze instelling is ingesteld, start de trigger een uitvoering pas nadat de opgegeven hoeveelheid tijd is verstreken sinds de laatste keer dat de trigger werd geactiveerd. De minimaal toegestane waarde is 60 seconden |
|
url
|
url | string |
URL die moet worden bewaakt voor aankomsten van bestanden. Het pad moet verwijzen naar de hoofdmap of een subpad van de externe locatie. |
|
wait_after_last_change_seconds
|
wait_after_last_change_seconds | integer |
Als deze instelling is ingesteld, start de trigger een uitvoering pas nadat er gedurende de opgegeven tijd geen bestandsactiviteit heeft plaatsgevonden. Dit maakt het mogelijk om te wachten tot een batch binnenkomende bestanden binnenkomen voordat een uitvoering wordt geactiveerd. De minimaal toegestane waarde is 60 seconden. |
JobsPeriodicTriggerConfiguration
| Name | Pad | Type | Description |
|---|---|---|---|
|
interval
|
interval | integer |
Het interval waarmee de trigger moet worden uitgevoerd. |
|
eenheid
|
unit | JobsPeriodicTriggerConfigurationTimeUnit |
JobsPeriodicTriggerConfigurationTimeUnit
JobsTriggerStateProto
| Name | Pad | Type | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerState |
JobsFileArrivalTriggerState
| Name | Pad | Type | Description |
|---|---|---|---|
|
using_file_events
|
using_file_events | boolean |
Geeft aan of de trigger bestandsevenementen gebruikt om bestandskomsten te detecteren. |
JobsRun
| Name | Pad | Type | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Het volgnummer van deze uitvoeringspoging voor een geactiveerde taakuitvoering. De eerste poging van een uitvoering heeft een attempt_number van 0. Als de eerste poging mislukt en de taak een beleid voor opnieuw proberen heeft (max_retries > 0), worden volgende uitvoeringen gemaakt met een original_attempt_run_id van de id van de oorspronkelijke poging en een incrementele attempt_number. Uitvoeringen worden alleen opnieuw geprobeerd totdat ze slagen en het maximum attempt_number hetzelfde is als de max_retries waarde voor de taak. |
|
cleanup_duration
|
cleanup_duration | integer |
De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het veld cleanup_duration is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
cluster_spec
|
cluster_spec | JobsClusterSpec | |
|
creator_user_name
|
creator_user_name | string |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd. |
|
beschrijving
|
description | string |
Beschrijving van de uitvoering |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
eindtijd
|
end_time | integer |
Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld is ingesteld op 0 als de taak nog steeds wordt uitgevoerd. |
|
execution_duration
|
execution_duration | integer |
De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het execution_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
git_source
|
git_source | JobsGitSource | |
|
heeft_meer
|
has_more | boolean |
Geeft aan of de uitvoering meer matrixeigenschappen (taken, job_clusters) bevat die niet worden weergegeven. Ze kunnen worden geopend via :method:jobs/getrun-eindpunt. Het is alleen relevant voor API 2.2:method:jobs/listruns-aanvragen met expand_tasks=true. |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Een lijst met taakclusterspecificaties die kunnen worden gedeeld en hergebruikt door taken van deze taak. Bibliotheken kunnen niet worden gedeclareerd in een gedeeld taakcluster. U moet afhankelijke bibliotheken declareren in taakinstellingen. Als er meer dan 100 taakclusters beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/getrun. |
|
job_id
|
job_id | integer |
De canonieke id van de taak die deze uitvoering bevat. |
|
job_parameters
|
job_parameters | array of JobsJobParameter |
Parameters op taakniveau die worden gebruikt in de uitvoering |
|
job_run_id
|
job_run_id | integer |
Id van de taakuitvoering waartoe deze uitvoering behoort. Voor verouderde en taaktaken wordt het veld gevuld met de taakuitvoerings-id. Voor taakuitvoeringen wordt het veld gevuld met de id van de taakuitvoering waartoe de taakuitvoering behoort. |
|
next_page_token
|
next_page_token | string |
Een token dat kan worden gebruikt om de volgende pagina met matrixeigenschappen weer te geven. |
|
original_attempt_run_id
|
original_attempt_run_id | integer |
Als deze uitvoering een nieuwe poging is van een eerdere poging, bevat dit veld de run_id van de oorspronkelijke poging; anders is het hetzelfde als de run_id. |
|
overriding_parameters
|
overriding_parameters | JobsRunParameters | |
|
queue_duration
|
queue_duration | integer |
De tijd in milliseconden die de uitvoering in de wachtrij heeft doorgebracht. |
|
repair_history
|
repair_history | array of JobsRepairHistoryItem |
De reparatiegeschiedenis van de uitvoering. |
|
run_duration
|
run_duration | integer |
De tijd in milliseconden die het uitvoeren van de taak en alle reparaties om te voltooien. |
|
run_id
|
run_id | integer |
De canonieke id van de uitvoering. Deze id is uniek voor alle uitvoeringen van alle taken. |
|
run_name
|
run_name | string |
Een optionele naam voor de uitvoering. De maximale lengte is 4096 bytes volgens de UTF-8-codering. |
|
run_page_url
|
run_page_url | string |
De URL naar de detailpagina van de uitvoering. |
|
run_type
|
run_type | JobsRunType | |
|
schedule
|
schedule | JobsCronSchedule | |
|
setup_duration
|
setup_duration | integer |
De tijd in milliseconden die nodig was om het cluster in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het setup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
starttijd
|
start_time | integer |
Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven. |
|
status
|
status | JobsRunStatus | |
|
tasks
|
tasks | array of JobsRunTask |
De lijst met taken die door de uitvoering worden uitgevoerd. Elke taak heeft een eigen run_id die u kunt gebruiken om JobsGetOutput aan te roepen om de uitvoer-resutls op te halen. Als er meer dan 100 taken beschikbaar zijn, kunt u deze pagineren met behulp van :method:jobs/getrun. Gebruik het next_page_token veld in de hoofdmap van het object om te bepalen of er meer resultaten beschikbaar zijn. |
|
trigger
|
trigger | JobsTriggerType | |
|
trigger_info
|
trigger_info | JobsTriggerInfo |
JobsClusterInstance
| Name | Pad | Type | Description |
|---|---|---|---|
|
cluster_id
|
cluster_id | string |
De canonieke id voor het cluster dat wordt gebruikt door een uitvoering. Dit veld is altijd beschikbaar voor uitvoeringen op bestaande clusters. Voor uitvoeringen op nieuwe clusters wordt deze beschikbaar zodra het cluster is gemaakt. Deze waarde kan worden gebruikt om logboeken weer te geven door naar /#setting/sparkui/$cluster_id/driver-logs te bladeren. De logboeken blijven beschikbaar nadat de uitvoering is voltooid. Het antwoord bevat dit veld niet als de id nog niet beschikbaar is. |
|
spark_context_id
|
spark_context_id | string |
De canonieke id voor de Spark-context die wordt gebruikt door een uitvoering. Dit veld wordt ingevuld zodra de uitvoering begint. Deze waarde kan worden gebruikt om de Spark-gebruikersinterface weer te geven door naar /#setting/sparkui/$cluster_id/$spark_context_id te bladeren. De Spark-gebruikersinterface blijft beschikbaar nadat de uitvoering is voltooid. Het antwoord bevat dit veld niet als de id nog niet beschikbaar is. |
JobsClusterSpec
| Name | Pad | Type | Description |
|---|---|---|---|
|
existing_cluster_id
|
existing_cluster_id | string |
Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid |
|
job_cluster_key
|
job_cluster_key | string |
Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken. |
|
libraries
|
libraries | array of ComputeLibrary |
Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
JobsJobParameter
| Name | Pad | Type | Description |
|---|---|---|---|
|
standaard
|
default | string |
De optionele standaardwaarde van de parameter |
|
naam
|
name | string |
De naam van de parameter |
|
waarde
|
value | string |
De waarde die wordt gebruikt in de uitvoering |
JobsRunParameters
| Name | Pad | Type | Description |
|---|---|---|---|
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsRepairHistoryItem
| Name | Pad | Type | Description |
|---|---|---|---|
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
eindtijd
|
end_time | integer |
De eindtijd van de (gerepareerde) uitvoering. |
|
identiteitskaart
|
id | integer |
De id van de reparatie. Alleen geretourneerd voor de items die een reparatie in repair_history vertegenwoordigen. |
|
starttijd
|
start_time | integer |
De begintijd van de (herstelde) uitvoering. |
|
status
|
status | JobsRunStatus | |
|
task_run_ids
|
task_run_ids | array of integer |
De uitvoerings-id's van de taakuitvoeringen die zijn uitgevoerd als onderdeel van dit herstelgeschiedenisitem. |
|
type
|
type | JobsRepairHistoryItemType |
JobsRunStatus
| Name | Pad | Type | Description |
|---|---|---|---|
|
queue_details
|
queue_details | JobsQueueDetails | |
|
state
|
state | JobsRunLifecycleStateV2State | |
|
termination_details
|
termination_details | JobsTerminationDetails |
JobsQueueDetails
| Name | Pad | Type | Description |
|---|---|---|---|
|
code
|
code | JobsQueueDetailsCodeCode | |
|
message
|
message | string |
Een beschrijvend bericht met de wachtrijdetails. Dit veld is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen. |
JobsQueueDetailsCodeCode
JobsRunLifecycleStateV2State
JobsTerminationDetails
| Name | Pad | Type | Description |
|---|---|---|---|
|
code
|
code | JobsTerminationCodeCode | |
|
message
|
message | string |
Een beschrijvend bericht met de beëindigingsgegevens. Dit veld is ongestructureerd en de indeling kan worden gewijzigd. |
|
type
|
type | JobsTerminationTypeType |
JobsTerminationCodeCode
JobsTerminationTypeType
JobsRepairHistoryItemType
JobsRunType
JobsRunTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Het volgnummer van deze uitvoeringspoging voor een geactiveerde taakuitvoering. De eerste poging van een uitvoering heeft een attempt_number van 0. Als de eerste poging mislukt en de taak een beleid voor opnieuw proberen heeft (max_retries > 0), worden volgende uitvoeringen gemaakt met een original_attempt_run_id van de id van de oorspronkelijke poging en een incrementele attempt_number. Uitvoeringen worden alleen opnieuw geprobeerd totdat ze slagen en het maximum attempt_number hetzelfde is als de max_retries waarde voor de taak. |
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
cleanup_duration
|
cleanup_duration | integer |
De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het veld cleanup_duration is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
condition_task
|
condition_task | JobsRunConditionTask | |
|
dashboard_task
|
dashboard_task | Object | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Een optionele matrix met objecten die de afhankelijkheidsgrafiek van de taak opgeven. Alle taken die in dit veld zijn opgegeven, moeten zijn voltooid voordat deze taak wordt uitgevoerd. De sleutel is task_key en de waarde is de naam die is toegewezen aan de afhankelijke taak. |
|
beschrijving
|
description | string |
Een optionele beschrijving voor deze taak. |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
eindtijd
|
end_time | integer |
Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld is ingesteld op 0 als de taak nog steeds wordt uitgevoerd. |
|
environment_key
|
environment_key | string |
De sleutel die verwijst naar een omgevingsspecificatie in een taak. Dit veld is vereist voor Python-script-, Python-wiel- en dbt-taken bij het gebruik van serverloze berekeningen. |
|
execution_duration
|
execution_duration | integer |
De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het execution_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
existing_cluster_id
|
existing_cluster_id | string |
Als existing_cluster_id, wordt de id van een bestaand cluster dat wordt gebruikt voor alle uitvoeringen. Wanneer u taken of taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken en taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid |
|
for_each_task
|
for_each_task | Object | |
|
git_source
|
git_source | JobsGitSource | |
|
job_cluster_key
|
job_cluster_key | string |
Als job_cluster_key, wordt deze taak uitgevoerd om het cluster dat is opgegeven in job.settings.job_clusters opnieuw te gebruiken. |
|
libraries
|
libraries | array of Object |
Een optionele lijst met bibliotheken die op het cluster moeten worden geïnstalleerd. De standaardwaarde is een lege lijst. |
|
new_cluster
|
new_cluster | Object | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | Object | |
|
pipeline_task
|
pipeline_task | Object | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | Object | |
|
queue_duration
|
queue_duration | integer |
De tijd in milliseconden die de uitvoering in de wachtrij heeft doorgebracht. |
|
resolved_values
|
resolved_values | JobsResolvedValues | |
|
run_duration
|
run_duration | integer |
De tijd in milliseconden die het uitvoeren van de taak en alle reparaties om te voltooien. |
|
run_id
|
run_id | integer |
De id van de taakuitvoering. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
run_page_url
|
run_page_url | string | |
|
setup_duration
|
setup_duration | integer |
De tijd in milliseconden die nodig was om het cluster in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. De duur van een taakuitvoering is de som van de setup_duration, execution_duration en de cleanup_duration. Het setup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
|
spark_jar_task
|
spark_jar_task | Object | |
|
spark_python_task
|
spark_python_task | Object | |
|
spark_submit_task
|
spark_submit_task | Object | |
|
sql_task
|
sql_task | Object | |
|
starttijd
|
start_time | integer |
Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven. |
|
status
|
status | JobsRunStatus | |
|
task_key
|
task_key | string |
Een unieke naam voor de taak. Dit veld wordt gebruikt om te verwijzen naar deze taak uit andere taken. Dit veld is vereist en moet uniek zijn binnen de bovenliggende taak. Bij Bijwerken of opnieuw instellen wordt dit veld gebruikt om te verwijzen naar de taken die moeten worden bijgewerkt of opnieuw worden ingesteld. |
|
timeout_seconds
|
timeout_seconds | integer |
Er is een optionele time-out toegepast op elke uitvoering van deze taaktaak. Een waarde van 0 betekent geen time-out. |
|
webhook_notifications
|
webhook_notifications | Object |
JobsRunConditionTask
| Name | Pad | Type | Description |
|---|---|---|---|
|
Links
|
left | string |
De linkeroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn. |
|
op
|
op | JobsConditionTaskOp | |
|
resultaat
|
outcome | string |
Het evaluatieresultaat van de voorwaardeexpressie. Ingevuld als de taak is voltooid. Kan 'waar' of 'onwaar' zijn |
|
Rechts
|
right | string |
De rechteroperand van de voorwaardetaak. Dit kan een tekenreekswaarde of een taakstatus of parameterreferentie zijn. |
JobsTriggerType
JobsTriggerInfo
| Name | Pad | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
De uitvoerings-id van de taak Uitvoeren |
JobsRunOutput
| Name | Pad | Type | Description |
|---|---|---|---|
|
clean_rooms_notebook_output
|
clean_rooms_notebook_output | Object | |
|
dashboard_output
|
dashboard_output | Object | |
|
dbt_output
|
dbt_output | Object | |
|
fout
|
error | string |
Een foutbericht dat aangeeft waarom een taak is mislukt of waarom uitvoer niet beschikbaar is. Het bericht is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen. |
|
error_trace
|
error_trace | string |
Als er een fout is opgetreden bij het uitvoeren van de uitvoering, bevat dit veld beschikbare stacktraceringen. |
|
info
|
info | string | |
|
logs
|
logs | string |
De uitvoer van taken die schrijven naar standaardstreams (stdout/stderr), zoals spark_jar_task, spark_python_task, python_wheel_task. Deze wordt niet ondersteund voor de notebook_task, pipeline_task of spark_submit_task. Azure Databricks beperkt deze API om de laatste 5 MB van deze logboeken te retourneren. |
|
logs_truncated
|
logs_truncated | boolean |
Of de logboeken worden afgekapt. |
|
metadata
|
metadata | Object | |
|
notebook_output
|
notebook_output | JobsNotebookOutput | |
|
run_job_output
|
run_job_output | JobsRunJobOutput | |
|
sql_output
|
sql_output | Object |
JobsNotebookOutput
| Name | Pad | Type | Description |
|---|---|---|---|
|
resultaat
|
result | string |
De waarde die is doorgegeven aan dbutils.notebook.exit(). Azure Databricks beperkt deze API om de eerste 5 MB van de waarde te retourneren. Voor een groter resultaat kan uw taak de resultaten opslaan in een cloudopslagservice. Dit veld is afwezig als dbutils.notebook.exit() nooit is aangeroepen. |
|
Afgekapt
|
truncated | boolean |
Of het resultaat al dan niet is afgekapt. |
JobsRunJobOutput
| Name | Pad | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
De uitvoerings-id van de geactiveerde taakuitvoering |
JobsResolvedValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
condition_task
|
condition_task | JobsResolvedConditionTaskValues | |
|
dbt_task
|
dbt_task | JobsResolvedDbtTaskValues | |
|
notebook_task
|
notebook_task | JobsResolvedNotebookTaskValues | |
|
python_wheel_task
|
python_wheel_task | JobsResolvedPythonWheelTaskValues | |
|
run_job_task
|
run_job_task | JobsResolvedRunJobTaskValues | |
|
simulation_task
|
simulation_task | JobsResolvedParamPairValues | |
|
spark_jar_task
|
spark_jar_task | JobsResolvedStringParamsValues | |
|
spark_python_task
|
spark_python_task | JobsResolvedStringParamsValues | |
|
spark_submit_task
|
spark_submit_task | JobsResolvedStringParamsValues | |
|
sql_task
|
sql_task | JobsResolvedParamPairValues |
JobsResolvedConditionTaskValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
Links
|
left | string | |
|
Rechts
|
right | string |
JobsResolvedDbtTaskValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
Opdrachten
|
commands | array of string |
JobsResolvedNotebookTaskValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
JobsResolvedPythonWheelTaskValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
named_parameters
|
named_parameters | object | |
|
parameters
|
parameters | array of string |
JobsResolvedRunJobTaskValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
job_parameters
|
job_parameters | object | |
|
parameters
|
parameters | object |
JobsResolvedParamPairValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | object |
JobsResolvedStringParamsValues
| Name | Pad | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |