Api-guide för Delta Live Tables

Viktigt!

Den här artikelns innehåll har dragits tillbaka och kanske inte uppdateras. Se Delta Live Tables (Delta Live Tables ) i Referens för Databricks REST API.

Med API:et Delta Live Tables kan du skapa, redigera, ta bort, starta och visa information om pipelines.

Viktigt!

För att få åtkomst till Databricks REST API:er måste du autentisera.

Skapa en pipeline

Slutpunkt HTTP-metod
2.0/pipelines POST

Skapar en ny Delta Live Tables-pipeline.

Exempel

I det här exemplet skapas en ny utlöst pipeline.

Begär

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Ersätta:

I det här exemplet används en .netrc-fil .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Begärandestruktur

Se Pipeline Inställningar.

Svarsstruktur

Fältnamn Typ Beskrivning
pipeline_id STRING Den unika identifieraren för den nyskapade pipelinen.

Redigera en pipeline

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id} PUT

Uppdateringar inställningarna för en befintlig pipeline.

Exempel

Det här exemplet lägger till en target parameter i pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Ersätta:

I det här exemplet används en .netrc-fil .

Begärandestruktur

Se Pipeline Inställningar.

Ta bort en pipeline

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id} DELETE

Tar bort en pipeline från Delta Live Tables-systemet.

Exempel

Det här exemplet tar bort pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Ersätta:

I det här exemplet används en .netrc-fil .

Starta en pipelineuppdatering

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id}/updates POST

Startar en uppdatering för en pipeline. Du kan starta en uppdatering för hela pipelinediagrammet eller en selektiv uppdatering av specifika tabeller.

Exempel

Starta en fullständig uppdatering

Det här exemplet startar en uppdatering med fullständig uppdatering för pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Ersätta:

I det här exemplet används en .netrc-fil .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Starta en uppdatering av valda tabeller

Det här exemplet startar en uppdatering som uppdaterar tabellerna sales_orders_cleaned och sales_order_in_chicago i pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Ersätta:

I det här exemplet används en .netrc-fil .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Starta en fullständig uppdatering av valda tabeller

Det här exemplet startar en uppdatering av tabellerna och och en uppdatering med fullständig uppdatering av tabellerna customers och sales_orders_raw i pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.sales_order_in_chicagosales_orders_cleaned

Begär
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Ersätta:

I det här exemplet används en .netrc-fil .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Begärandestruktur

Fältnamn Typ Beskrivning
full_refresh BOOLEAN Om alla data ska bearbetas på nytt. Om trueåterställer Delta Live Tables-systemet alla tabeller som är återställningsbara innan pipelinen körs.

Det här fältet är valfritt.

Standardvärdet är false.

Ett fel returneras om full_refesh är sant och antingen refresh_selection eller full_refresh_selection har angetts.
refresh_selection En matris med STRING En lista över tabeller som ska uppdateras. Använd
refresh_selection för att starta en uppdatering av en vald uppsättning tabeller i pipelinediagrammet.

Det här fältet är valfritt. Om båda
refresh_selection Och
full_refresh_selection är tomma uppdateras hela pipelinediagrammet.

Ett fel returneras om:

* full_refesh är sant och
refresh_selection har angetts.
* En eller flera av de angivna tabellerna finns inte i pipelinediagrammet.
full_refresh_selection En matris med STRING En lista över tabeller som ska uppdateras med fullständig uppdatering. Använd full_refresh_selection för att starta en uppdatering av en vald uppsättning tabeller. Tillstånden för de angivna tabellerna återställs innan Delta Live Tables-systemet startar uppdateringen.

Det här fältet är valfritt. Om båda
refresh_selection Och
full_refresh_selection är tomma uppdateras hela pipelinediagrammet.

Ett fel returneras om:

* full_refesh är sant och
refresh_selection har angetts.
* En eller flera av de angivna tabellerna finns inte i pipelinediagrammet.
* En eller flera av de angivna tabellerna kan inte återställas.

Svarsstruktur

Fältnamn Typ Beskrivning
update_id STRING Den unika identifieraren för den nyligen skapade uppdateringen.
request_id STRING Den unika identifieraren för begäran som startade uppdateringen.

Hämta status för en begäran om pipelineuppdatering

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Hämtar status och information för pipelineuppdateringen som är associerad med request_id, där request_id är en unik identifierare för begäran som initierar pipelineuppdateringen. Om uppdateringen görs om eller startas om ärver den nya uppdateringen request_id.

Exempel

För pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5returnerar det här exemplet status och information för uppdateringen som är associerad med begärande-ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429:

Begär

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Ersätta:

I det här exemplet används en .netrc-fil .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Svarsstruktur

Fältnamn Typ Beskrivning
status STRING Status för begäran om pipelineuppdatering. En av

* ACTIVE: En uppdatering för den här begäran körs aktivt eller kan göras om i en ny uppdatering.
* TERMINATED: Begäran avslutas och kommer inte att försökas igen eller startas om.
pipeline_id STRING Den unika identifieraren för pipelinen.
update_id STRING Den unika identifieraren för uppdateringen.
config Pipeline Inställningar Pipelineinställningarna.
cause STRING Utlösaren för uppdateringen. En av API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE,
JOB_TASK, eller USER_ACTION.
state STRING Tillståndet för uppdateringen. En av QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, eller CANCELED.
cluster_id STRING Identifieraren för klustret som kör uppdateringen.
creation_time INT64 Tidsstämpeln när uppdateringen skapades.
full_refresh BOOLEAN Om den här uppdateringen återställer alla tabeller innan den körs
refresh_selection En matris med STRING En lista över tabeller som ska uppdateras utan fullständig uppdatering.
full_refresh_selection En matris med STRING En lista över tabeller som ska uppdateras med fullständig uppdatering.
request_id STRING Den unika identifieraren för begäran som startade uppdateringen. Det här är värdet som returneras av uppdateringsbegäran. Om uppdateringen görs om eller startas om ärver den nya uppdateringen request_id. Men update_id kommer att vara annorlunda.

Stoppa alla aktiva pipelineuppdateringar

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id}/stop POST

Stoppar alla aktiva pipelineuppdateringar. Om ingen uppdatering körs är den här begäran en no-op.

För en kontinuerlig pipeline pausas pipelinekörningen. Tabeller som bearbetar slutför uppdatering, men underordnade tabeller uppdateras inte. Vid nästa pipelineuppdatering utför Delta Live Tables en vald uppdatering av tabeller som inte slutförde bearbetningen och återupptar bearbetningen av den återstående pipelinen DAG.

För en utlöst pipeline stoppas pipelinekörningen. Tabeller som bearbetar slutför uppdatering, men underordnade tabeller uppdateras inte. Vid nästa pipelineuppdatering uppdaterar Delta Live Tables alla tabeller.

Exempel

I det här exemplet stoppas en uppdatering för pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Ersätta:

I det här exemplet används en .netrc-fil .

Lista pipelinehändelser

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id}/events GET

Hämtar händelser för en pipeline.

Exempel

Det här exemplet hämtar högst 5 händelser för pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Begär

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Ersätta:

I det här exemplet används en .netrc-fil .

Begärandestruktur

Fältnamn Typ Beskrivning
page_token STRING Sidtoken som returnerades av föregående anrop. Det här fältet är ömsesidigt uteslutande med alla fält i den här begäran förutom max_results. Ett fel returneras om några andra fält än max_results anges när det här fältet har angetts.

Det här fältet är valfritt.
max_results INT32 Det maximala antalet poster som ska returneras på en enda sida. Systemet kan returnera färre än max_results händelser i ett svar, även om det finns fler tillgängliga händelser.

Det här fältet är valfritt.

Standardvärdet är 25.

Det maximala värdet är 100. Ett fel returneras om värdet för
max_results är större än 100.
order_by STRING En sträng som anger en sorteringsordning efter tidsstämpel för resultatet, ["timestamp asc"]till exempel .

Sorteringsordningen kan vara stigande eller fallande. Som standard returneras händelser i fallande ordning efter tidsstämpel.

Det här fältet är valfritt.
filter STRING Villkor för att välja en delmängd av resultaten, uttryckt med hjälp av en SQL-liknande syntax. Filtren som stöds är:

* level='INFO'(eller WARN )ERROR
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (eller >=,<,<=,=)

Sammansatta uttryck stöds, till exempel:
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Det här fältet är valfritt.

Svarsstruktur

Fältnamn Typ Beskrivning
events En matris med pipelinehändelser. Listan över händelser som matchar begärandevillkoren.
next_page_token STRING Om det finns en token för att hämta nästa sida med händelser.
prev_page_token STRING Om det finns en token för att hämta föregående sida med händelser.

Hämta pipelineinformation

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id} GET

Hämtar information om en pipeline, inklusive pipelineinställningarna och de senaste uppdateringarna.

Exempel

Det här exemplet hämtar information om pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Ersätta:

I det här exemplet används en .netrc-fil .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Svarsstruktur

Fältnamn Typ Beskrivning
pipeline_id STRING Den unika identifieraren för pipelinen.
spec Pipeline Inställningar Pipelineinställningarna.
state STRING Status för pipelinen. En av IDLE eller RUNNING.

Om tillstånd = RUNNING, finns det minst en aktiv uppdatering.
cluster_id STRING Identifieraren för klustret som kör pipelinen.
name STRING Det användarvänliga namnet på den här pipelinen.
creator_user_name STRING Användarnamnet för pipelineskapare.
latest_updates En matris med UpdateStateInfo Status för de senaste uppdateringarna för pipelinen, sorterad med den senaste uppdateringen först.
run_as_user_name STRING Användarnamnet som pipelinen körs som.

Hämta uppdateringsinformation

Slutpunkt HTTP-metod
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Hämtar information om en pipelineuppdatering.

Exempel

Det här exemplet hämtar information om uppdatering 9a84f906-fc51-11eb-9a03-0242ac130003 för pipelinen med ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Begär

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Ersätta:

I det här exemplet används en .netrc-fil .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Svarsstruktur

Fältnamn Typ Beskrivning
pipeline_id STRING Den unika identifieraren för pipelinen.
update_id STRING Den unika identifieraren för den här uppdateringen.
config Pipeline Inställningar Pipelineinställningarna.
cause STRING Utlösaren för uppdateringen. En av API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE.
state STRING Tillståndet för uppdateringen. En av QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, eller CANCELED.
cluster_id STRING Identifieraren för klustret som kör pipelinen.
creation_time INT64 Tidsstämpeln när uppdateringen skapades.
full_refresh BOOLEAN Om det här var en fullständig uppdatering. Om sant återställdes alla pipelinetabeller innan uppdateringen kördes.

Lista pipelines

Slutpunkt HTTP-metod
2.0/pipelines/ GET

Visar en lista över pipelines som definierats i Delta Live Tables-systemet.

Exempel

Det här exemplet hämtar information för pipelines där namnet innehåller quickstart:

Begär

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Ersätta:

I det här exemplet används en .netrc-fil .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Begärandestruktur

Fältnamn Typ Beskrivning
page_token STRING Sidtoken som returnerades av föregående anrop.

Det här fältet är valfritt.
max_results INT32 Det maximala antalet poster som ska returneras på en enda sida. Systemet kan returnera färre än max_results händelser i ett svar, även om det finns fler tillgängliga händelser.

Det här fältet är valfritt.

Standardvärdet är 25.

Det maximala värdet är 100. Ett fel returneras om värdet för
max_results är större än 100.
order_by En matris med STRING En lista med strängar som anger resultatordningen, till exempel
["name asc"]. Fält som stöds order_by är id och
name. Standardvärdet är id asc.

Det här fältet är valfritt.
filter STRING Välj en delmängd av resultaten baserat på de angivna kriterierna.

Filtren som stöds är:

"notebook='<path>'" för att välja pipelines som refererar till den angivna notebook-sökvägen.

name LIKE '[pattern]' för att välja pipelines med ett namn som matchar pattern. Jokertecken stöds, till exempel:
name LIKE '%shopping%'

Sammansatta filter stöds inte.

Det här fältet är valfritt.

Svarsstruktur

Fältnamn Typ Beskrivning
statuses En matris med PipelineStateInfo Listan över händelser som matchar begärandevillkoren.
next_page_token STRING Om det finns en token för att hämta nästa sida med händelser.
prev_page_token STRING Om det finns en token för att hämta föregående sida med händelser.

Datastrukturer

I detta avsnitt:

ABFSSStorageInfo

Lagringsinformation för Azure Data Lake Storage (ADLS).

Fältnamn Typ Beskrivning
destination STRING Fildestination. Exempel: abfss://...

ClusterLogConf

Sökväg till klusterloggen.

Fältnamn Typ Beskrivning
dbfs DbfsStorageInfo DBFS-plats för klusterloggen. Målet måste anges. Exempel:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

DBFS-lagringsinformation.

Fältnamn Typ Beskrivning
destination STRING DBFS-mål. Exempel: dbfs:/my/path

FileStorageInfo

Fillagringsinformation.

Kommentar

Den här platstypen är endast tillgänglig för kluster som konfigurerats med Databricks Container Services.

Fältnamn Typ Beskrivning
destination STRING Fildestination. Exempel: file:/my/file.sh

InitScriptInfo

Sökväg till ett init-skript.

Anvisningar om hur du använder init-skript med Databricks Container Services finns i Använda ett init-skript.

Kommentar

Fillagringstypen (fältnamn: file) är endast tillgänglig för kluster som konfigurerats med Databricks Container Services. Se FileStorageInfo.

Fältnamn Typ Beskrivning
workspace ELLER
dbfs (inaktuell)

ELLER
abfss
ArbetsytaStorageInfo

DbfsStorageInfo (inaktuell)

ABFSSStorageInfo
Arbetsytans plats för init-skriptet. Målet måste anges. Exempel:
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Inaktuell) DBFS-platsen för init-skriptet. Målet måste anges. Exempel:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Azure Data Lake Storage (ADLS) plats för init-skript. Målet måste anges. Till exempel: { "abfss": { "destination" : "abfss://..." } }

KeyValue

Ett nyckel/värde-par som anger konfigurationsparametrar.

Fältnamn Typ Beskrivning
key STRING Namnet på konfigurationsegenskapen.
value STRING Värdet för konfigurationsegenskapen.

NotebookLibrary

En specifikation för en notebook-fil som innehåller pipelinekod.

Fältnamn Typ Beskrivning
path STRING Den absoluta sökvägen till notebook-filen.

Fältet är obligatoriskt.

PipelinesAutoScale

Attribut som definierar ett autoskalningskluster.

Fältnamn Typ Beskrivning
min_workers INT32 Det minsta antalet arbetare som klustret kan skalas ned till när det är underutnyttrat. Det är också det första antalet arbetare som klustret kommer att ha när det har skapats.
max_workers INT32 Det maximala antalet arbetare som klustret kan skalas upp till när det är överbelastat. max_workers måste vara strikt större än min_workers.
mode STRING Autoskalningsläget för klustret:

* ENHANCED för att använda förbättrad autoskalning.
* LEGACY för att använda funktionen för automatisk skalning av kluster.

PipelineLibrary

En specifikation för pipelineberoenden.

Fältnamn Typ Beskrivning
notebook NotebookLibrary Sökvägen till en notebook-fil som definierar Delta Live Tables-datauppsättningar. Sökvägen måste finnas på Databricks-arbetsytan, till exempel:
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNycluster

En specifikation för pipelinekluster.

Delta Live Tables-systemet anger följande attribut. Dessa attribut kan inte konfigureras av användare:

  • spark_version
Fältnamn Typ Beskrivning
label STRING En etikett för klusterspecifikationen, antingen
default för att konfigurera standardklustret, eller
maintenance för att konfigurera underhållsklustret.

Det här fältet är valfritt. Standardvärdet är default.
spark_conf KeyValue Ett objekt som innehåller en uppsättning valfria, användardefinierade Nyckel/värde-par för Spark-konfiguration. Du kan också skicka in en sträng med extra JVM-alternativ till drivrutinen och körarna via
spark.driver.extraJavaOptions respektive spark.executor.extraJavaOptions .

Exempel på Spark-konfigurationer:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} eller
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Det här fältet kodar, via ett enda värde, de resurser som är tillgängliga för var och en av Spark-noderna i det här klustret. Spark-noderna kan till exempel etableras och optimeras för minnes- eller beräkningsintensiva arbetsbelastningar En lista över tillgängliga nodtyper kan hämtas med hjälp av KLUSTER-API-anropet.
driver_node_type_id STRING Nodtypen för Spark-drivrutinen. Det här fältet är valfritt. Om det inte anges anges drivrutinsnodtypen som samma värde som node_type_id definierats ovan.
ssh_public_keys En matris med STRING Innehåll med offentlig SSH-nyckel som läggs till i varje Spark-nod i det här klustret. Motsvarande privata nycklar kan användas för att logga in med användarnamnet ubuntu på porten 2200. Upp till 10 nycklar kan anges.
custom_tags KeyValue Ett objekt som innehåller en uppsättning taggar för klusterresurser. Databricks taggar alla klusterresurser med dessa taggar utöver default_tags.

Obs!

* Taggar stöds inte på äldre nodtyper som beräkningsoptimerade och minnesoptimerade
* Azure Databricks tillåter högst 45 anpassade taggar.
cluster_log_conf ClusterLogConf Konfigurationen för att leverera Spark-loggar till ett långsiktigt lagringsmål. Endast ett mål kan anges för ett kluster. Om den här konfigurationen tillhandahålls levereras loggarna till målet varje
5 mins. Målet för drivrutinsloggarna är <destination>/<cluster-ID>/driver, medan målet för körloggarna är <destination>/<cluster-ID>/executor.
spark_env_vars KeyValue Ett objekt som innehåller en uppsättning valfria, användardefinierade nyckel/värde-nyckel/värde-par för miljövariabeln. Nyckel/värde-par i formuläret (X,Y) exporteras som de är (det vill
export X='Y') samtidigt som drivrutinen och arbetstagarna startas.

För att kunna ange ytterligare en uppsättning rekommenderar SPARK_DAEMON_JAVA_OPTSDatabricks att du lägger till dem på $SPARK_DAEMON_JAVA_OPTS det sätt som visas i följande exempel. Detta säkerställer att även alla azure Databricks-standardhanterade miljövariabler ingår.

Exempel på Spark-miljövariabler:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} eller
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts En matris med InitScriptInfo Konfigurationen för lagring av init-skript. Valfritt antal mål kan anges. Skripten körs sekventiellt i den angivna ordningen. Om cluster_log_conf anges skickas init-skriptloggar till
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING Det valfria ID:t för instanspoolen som klustret tillhör. Se Skapa en pool.
driver_instance_pool_id STRING Det valfria ID för instanspoolen som ska användas för drivrutinsnoden. Du måste också ange
instance_pool_id. Se API för instanspooler.
policy_id STRING Ett klusterprincip-ID .
num_workers OR autoscale INT32 ELLER InitScriptInfo Om num_workers ska antalet arbetsnoder som klustret ska ha. Ett kluster har en Spark-drivrutin och num_workers köre för totalt num_workers + 1 Spark-noder.

När du läser egenskaperna för ett kluster återspeglar det här fältet önskat antal arbetare i stället för det faktiska antalet arbetare. Om ett kluster till exempel ändras från 5 till 10 arbetare uppdateras det här fältet så att det återspeglar målstorleken för 10 arbetare, medan de arbetare som anges i exekutorer gradvis ökar från 5 till 10 när de nya noderna etableras.

Om autoskalning krävs parametrar för att automatiskt skala upp och ned kluster baserat på belastning.

Det här fältet är valfritt.
apply_policy_default_values BOOLEAN Om du vill använda principstandardvärden för klusterattribut som saknas.

Pipeline Inställningar

Inställningarna för en pipelinedistribution.

Fältnamn Typ Beskrivning
id STRING Den unika identifieraren för den här pipelinen.

Identifieraren skapas av Delta Live Tables-systemet och får inte anges när du skapar en pipeline.
name STRING Ett användarvänligt namn för den här pipelinen.

Det här fältet är valfritt.

Som standard måste pipelinenamnet vara unikt. Om du vill använda ett duplicerat namn anger du allow_duplicate_names till true i pipelinekonfigurationen.
storage STRING En sökväg till en DBFS-katalog för lagring av kontrollpunkter och tabeller som skapats av pipelinen.

Det här fältet är valfritt.

Systemet använder en standardplats om fältet är tomt.
configuration En karta över STRING:STRING En lista över nyckel/värde-par som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen.

Det här fältet är valfritt.

Element måste formateras som key:value-par.
clusters En matris med pipelinesNycluster En matris med specifikationer för de kluster som ska köra pipelinen.

Det här fältet är valfritt.

Om detta inte anges väljer systemet en standardklusterkonfiguration för pipelinen.
libraries En matris med PipelineLibrary Notebook-filerna som innehåller pipelinekoden och eventuella beroenden som krävs för att köra pipelinen.
target STRING Ett databasnamn för att spara pipelineutdata.

Mer information finns i Publicera data från Delta Live Tables-pipelines till Hive-metaarkivet .
continuous BOOLEAN Om det här är en kontinuerlig pipeline.

Det här fältet är valfritt.

Standardvärdet är false.
development BOOLEAN Om pipelinen ska köras i utvecklingsläge.

Det här fältet är valfritt.

Standardvärdet är false.
photon BOOLEAN Om Photon-acceleration är aktiverat för den här pipelinen.

Det här fältet är valfritt.

Standardvärdet är false.
channel STRING Delta Live Tables-versionskanalen som anger vilken körningsversion som ska användas för den här pipelinen. Värden som stöds är:

* preview för att testa pipelinen med kommande ändringar i Delta Live Tables-körningen.
* current för att använda den aktuella Delta Live Tables-körningsversionen.

Det här fältet är valfritt.

Standardvärdet är current.
edition STRING Delta Live Tables-produktutgåvan för att köra pipelinen:

* CORE stöder strömmande inmatningsarbetsbelastningar.
* PRO stöder också strömmande inmatningsarbetsbelastningar och lägger till stöd för bearbetning av ändringsdatainsamling (CDC).
* ADVANCED stöder alla funktioner i PRO utgåvan och lägger till stöd för arbetsbelastningar som kräver förväntningar på Delta Live Tables för att framtvinga datakvalitetsbegränsningar.

Det här fältet är valfritt.

Standardvärdet är advanced.

PipelineStateInfo

Status för en pipeline, status för de senaste uppdateringarna och information om associerade resurser.

Fältnamn Typ Beskrivning
state STRING Status för pipelinen. En av IDLE eller RUNNING.
pipeline_id STRING Den unika identifieraren för pipelinen.
cluster_id STRING Den unika identifieraren för klustret som kör pipelinen.
name STRING Pipelinens användarvänliga namn.
latest_updates En matris med UpdateStateInfo Status för de senaste uppdateringarna för pipelinen, sorterad med den senaste uppdateringen först.
creator_user_name STRING Användarnamnet för pipelineskapare.
run_as_user_name STRING Användarnamnet som pipelinen körs som. Det här är ett skrivskyddat värde som härleds från pipelineägaren.

UpdateStateInfo

Aktuellt tillstånd för en pipelineuppdatering.

Fältnamn Typ Beskrivning
update_id STRING Den unika identifieraren för den här uppdateringen.
state STRING Tillståndet för uppdateringen. En av QUEUED, CREATED,
WAITING_FOR_RESOURCES, INITIALIZING, , RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, , , COMPLETED
FAILED, eller CANCELED.
creation_time STRING Tidsstämpel när den här uppdateringen skapades.

ArbetsytaStorageInfo

Lagringsinformation för arbetsyta.

Fältnamn Typ Beskrivning
destination STRING Fildestination. Exempel: /Users/someone@domain.com/init_script.sh