Příručka k rozhraní Delta Live Tables API

Důležité

Obsah tohoto článku byl vyřazen a nemusí být aktualizován. Podívejte se na tabulky Delta Live v referenčních informacích k rozhraní REST API Databricks.

Rozhraní Delta Live Tables API umožňuje vytvářet, upravovat, odstraňovat, spouštět a zobrazovat podrobnosti o kanálech.

Důležité

Pokud chcete získat přístup k rozhraním REST API služby Databricks, musíte použít ověřování.

Vytvoření kanálu

Koncový bod Metoda HTTP
2.0/pipelines POST

Vytvoří nový kanál Delta Live Tables.

Příklad

Tento příklad vytvoří nový aktivovaný kanál.

Žádost

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Nahrazení:

Tento příklad používá soubor .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Struktura požadavku

Viz Kanál Nastavení.

Struktura odpovědi

Název pole Typ Popis
pipeline_id STRING Jedinečný identifikátor nově vytvořeného kanálu.

Úprava kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id} PUT

Aktualizace nastavení existujícího kanálu.

Příklad

Tento příklad přidá target do kanálu parametr s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Nahrazení:

Tento příklad používá soubor .netrc .

Struktura požadavku

Viz Kanál Nastavení.

Odstranění kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id} DELETE

Odstraní kanál ze systému Delta Live Tables.

Příklad

Tento příklad odstraní kanál s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Nahrazení:

Tento příklad používá soubor .netrc .

Spuštění aktualizace kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id}/updates POST

Spustí aktualizaci kanálu. Můžete spustit aktualizaci pro celý graf kanálu nebo selektivní aktualizaci konkrétních tabulek.

Příklady

Spuštění úplné aktualizace

Tento příklad spustí aktualizaci s úplnou aktualizací kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Nahrazení:

Tento příklad používá soubor .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Spuštění aktualizace vybraných tabulek

Tento příklad spustí aktualizaci, která aktualizuje sales_orders_cleaned tabulky sales_order_in_chicago v kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Nahrazení:

Tento příklad používá soubor .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Spuštění úplné aktualizace vybraných tabulek

Tento příklad spustí aktualizaci tabulek sales_orders_cleaned a sales_order_in_chicago tabulek a aktualizaci s úplnou aktualizací customers tabulek a sales_orders_raw tabulek v kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Žádost
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Nahrazení:

Tento příklad používá soubor .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Struktura požadavku

Název pole Typ Popis
full_refresh BOOLEAN Zda se mají znovu zpracovat všechna data. Pokud truesystém Delta Live Tables resetuje všechny tabulky, které jsou resetovatelné před spuštěním kanálu.

Toto pole je nepovinné.

Výchozí hodnota je false.

Pokud je true nebo refresh_selectionfull_refresh_selection je nastavena, vrátí full_refesh se chyba.
refresh_selection Pole STRING Seznam tabulek, které se mají aktualizovat. Používání
refresh_selection a spusťte aktualizaci vybrané sady tabulek v grafu kanálu.

Toto pole je nepovinné. Pokud je obojí
refresh_selection A
full_refresh_selection jsou prázdné, aktualizuje se celý graf kanálu.

Pokud se vrátí chyba:

* full_refesh je true a
refresh_selection je nastavená.
* Jedna nebo více zadaných tabulek v grafu kanálu neexistuje.
full_refresh_selection Pole STRING Seznam tabulek, které se mají aktualizovat pomocí úplné aktualizace. Slouží full_refresh_selection ke spuštění aktualizace vybrané sady tabulek. Stavy zadaných tabulek se resetují před spuštěním aktualizace systému Delta Live Tables.

Toto pole je nepovinné. Pokud je obojí
refresh_selection A
full_refresh_selection jsou prázdné, aktualizuje se celý graf kanálu.

Pokud se vrátí chyba:

* full_refesh je true a
refresh_selection je nastavená.
* Jedna nebo více zadaných tabulek v grafu kanálu neexistuje.
* Nejméně jedna zadaná tabulka není resetovatelná.

Struktura odpovědi

Název pole Typ Popis
update_id STRING Jedinečný identifikátor nově vytvořené aktualizace.
request_id STRING Jedinečný identifikátor požadavku, který spustil aktualizaci.

Získání stavu žádosti o aktualizaci kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Získá stav a informace o aktualizaci kanálu přidružené request_idk , kde request_id je jedinečný identifikátor pro požadavek iniciuje aktualizaci kanálu. Pokud se aktualizace opakuje nebo restartuje, nová aktualizace zdědí request_id.

Příklad

V případě kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5tento příklad vrátí stav a informace pro aktualizaci přidruženou k ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429požadavku:

Žádost

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Nahrazení:

Tento příklad používá soubor .netrc .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Struktura odpovědi

Název pole Typ Popis
status STRING Stav žádosti o aktualizaci kanálu Jedna položka z

* ACTIVE: Aktualizace pro tento požadavek je aktivně spuštěna nebo se může opakovat v nové aktualizaci.
* TERMINATED: Žádost se ukončí a nebude se opakovat ani restartovat.
pipeline_id STRING Jedinečný identifikátor kanálu.
update_id STRING Jedinečný identifikátor aktualizace.
config Kanál Nastavení Nastavení kanálu.
cause STRING Aktivační událost pro aktualizaci. Jeden z , z API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE, , SCHEMA_CHANGE
JOB_TASKnebo USER_ACTION.
state STRING Stav aktualizace. Jeden z , z QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, , RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, , COMPLETED
FAILEDnebo CANCELED.
cluster_id STRING Identifikátor clusteru, na kterém běží aktualizace.
creation_time INT64 Časové razítko při vytvoření aktualizace.
full_refresh BOOLEAN Zda tato aktualizace resetuje všechny tabulky před spuštěním
refresh_selection Pole STRING Seznam tabulek, které se mají aktualizovat bez úplné aktualizace
full_refresh_selection Pole STRING Seznam tabulek, které se mají aktualizovat pomocí úplné aktualizace.
request_id STRING Jedinečný identifikátor požadavku, který spustil aktualizaci. Toto je hodnota vrácená požadavkem na aktualizaci . Pokud se aktualizace opakuje nebo restartuje, nová aktualizace zdědí request_id. update_id Bude se ale lišit.

Zastavení jakékoli aktivní aktualizace kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id}/stop POST

Zastaví všechny aktivní aktualizace kanálu. Pokud není spuštěna žádná aktualizace, je tento požadavek no-op.

U průběžného kanálu se spuštění kanálu pozastaví. Tabulky aktuálně zpracovávají aktualizaci, ale podřízené tabulky se neaktualizuje. Při další aktualizaci kanálu provede Delta Live Tables vybranou aktualizaci tabulek, které nedokončily zpracování, a obnoví zpracování zbývajícího kanálu DAG.

U aktivovaného kanálu se spuštění kanálu zastaví. Tabulky aktuálně zpracovávají aktualizaci, ale podřízené tabulky se neaktualizuje. Při další aktualizaci kanálu aktualizuje rozdílové živé tabulky všechny tabulky.

Příklad

Tento příklad zastaví aktualizaci kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Nahrazení:

Tento příklad používá soubor .netrc .

Výpis událostí kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id}/events GET

Načte události pro kanál.

Příklad

Tento příklad načte maximálně 5 událostí pro kanál s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Žádost

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Nahrazení:

Tento příklad používá soubor .netrc .

Struktura požadavku

Název pole Typ Popis
page_token STRING Token stránky vrácený předchozím voláním Toto pole se vzájemně vylučují se všemi poli v tomto požadavku s výjimkou max_results. Pokud jsou při nastavení tohoto pole nastavena jiná pole než max_results, vrátí se chyba.

Toto pole je nepovinné.
max_results INT32 Maximální počet položek, které se mají vrátit na jedné stránce. Systém může v odpovědi vrátit méně než max_results události, a to i v případě, že je k dispozici více událostí.

Toto pole je nepovinné.

Výchozí hodnota je 25.

Maximální hodnota je 100. Pokud je hodnota
max_results je větší než 100.
order_by STRING Řetězec označující pořadí řazení podle časového razítka pro výsledky, ["timestamp asc"]například .

Pořadí řazení může být vzestupné nebo sestupné. Ve výchozím nastavení se události vrací sestupně podle časového razítka.

Toto pole je nepovinné.
filter STRING Kritéria pro výběr podmnožina výsledků vyjádřená pomocí syntaxe podobné JAZYKu SQL Podporované filtry jsou:

* level='INFO' (nebo WARNERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (nebo >=,<,<=,=)

Složené výrazy jsou podporované například:
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Toto pole je nepovinné.

Struktura odpovědi

Název pole Typ Popis
events Pole událostí kanálu. Seznam událostí odpovídajících kritériím požadavku.
next_page_token STRING Pokud je k dispozici, token pro načtení další stránky událostí.
prev_page_token STRING Pokud je k dispozici, token pro načtení předchozí stránky událostí.

Načíst podrobnosti o kanálu

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id} GET

Získá podrobnosti o kanálu, včetně nastavení kanálu a nedávných aktualizací.

Příklad

Tento příklad získá podrobnosti o kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Nahrazení:

Tento příklad používá soubor .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Struktura odpovědi

Název pole Typ Popis
pipeline_id STRING Jedinečný identifikátor kanálu.
spec Kanál Nastavení Nastavení kanálu.
state STRING Stav kanálu. Jeden z IDLE nebo RUNNING.

Pokud je stav = RUNNING, existuje alespoň jedna aktivní aktualizace.
cluster_id STRING Identifikátor clusteru, na kterém běží kanál.
name STRING Uživatelsky přívětivý název tohoto kanálu.
creator_user_name STRING Uživatelské jméno tvůrce kanálu.
latest_updates Pole UpdateStateInfo Stav nejnovějších aktualizací pro kanál seřazený jako první s nejnovější aktualizací
run_as_user_name STRING Uživatelské jméno, které kanál spouští jako.

Získání podrobností o aktualizaci

Koncový bod Metoda HTTP
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Získá podrobnosti o aktualizaci kanálu.

Příklad

Tento příklad získá podrobnosti o aktualizaci 9a84f906-fc51-11eb-9a03-0242ac130003 kanálu s ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Žádost

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Nahrazení:

Tento příklad používá soubor .netrc .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Struktura odpovědi

Název pole Typ Popis
pipeline_id STRING Jedinečný identifikátor kanálu.
update_id STRING Jedinečný identifikátor této aktualizace.
config Kanál Nastavení Nastavení kanálu.
cause STRING Aktivační událost pro aktualizaci. Jeden z , z API_CALL,
RETRY_ON_FAILURE, . SERVICE_UPGRADE
state STRING Stav aktualizace. Jeden z , z QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, , RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, , COMPLETED
FAILEDnebo CANCELED.
cluster_id STRING Identifikátor clusteru, na kterém běží kanál.
creation_time INT64 Časové razítko při vytvoření aktualizace.
full_refresh BOOLEAN Jestli to byla úplná aktualizace. Pokud ano, všechny tabulky kanálu byly před spuštěním aktualizace resetovány.

Výpis kanálů

Koncový bod Metoda HTTP
2.0/pipelines/ GET

Zobrazí seznam kanálů definovaných v systému Delta Live Tables.

Příklad

Tento příklad načte podrobnosti o kanálech, ve kterých název obsahuje quickstart:

Žádost

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Nahrazení:

Tento příklad používá soubor .netrc .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Struktura požadavku

Název pole Typ Popis
page_token STRING Token stránky vrácený předchozím voláním

Toto pole je nepovinné.
max_results INT32 Maximální počet položek, které se mají vrátit na jedné stránce. Systém může v odpovědi vrátit méně než max_results události, a to i v případě, že je k dispozici více událostí.

Toto pole je nepovinné.

Výchozí hodnota je 25.

Maximální hodnota je 100. Pokud je hodnota
max_results je větší než 100.
order_by Pole STRING Seznam řetězců určující pořadí výsledků, například
["name asc"]. Podporovaná order_by pole jsou id a
name. Výchozí hodnota je id asc.

Toto pole je nepovinné.
filter STRING Vyberte podmnožinu výsledků na základě zadaných kritérií.

Podporované filtry jsou:

"notebook='<path>'" a vyberte kanály, které odkazují na zadanou cestu poznámkového bloku.

name LIKE '[pattern]' a vyberte kanály s názvem, který odpovídá pattern. Zástupné kóty jsou podporované, například:
name LIKE '%shopping%'

Složené filtry nejsou podporovány.

Toto pole je nepovinné.

Struktura odpovědi

Název pole Typ Popis
statuses Pole PipelineStateInfo Seznam událostí odpovídajících kritériím požadavku.
next_page_token STRING Pokud je k dispozici, token pro načtení další stránky událostí.
prev_page_token STRING Pokud je k dispozici, token pro načtení předchozí stránky událostí.

Datové struktury

V této části:

ABFSSStorageInfo

Informace o úložišti Azure Data Lake Storage (ADLS)

Název pole Typ Popis
destination STRING Místo určení souboru. Příklad: abfss://...

ClusterLogConf

Cesta k protokolu clusteru

Název pole Typ Popis
dbfs DbfsStorageInfo Umístění dbFS protokolu clusteru Cíl musí být zadaný. Příklad:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

Informace o úložišti DBFS

Název pole Typ Popis
destination STRING Cíl DBFS. Příklad: dbfs:/my/path

FileStorageInfo

Informace o úložišti souborů

Poznámka:

Tento typ umístění je k dispozici pouze pro clustery nastavené pomocí služby Databricks Container Services.

Název pole Typ Popis
destination STRING Místo určení souboru. Příklad: file:/my/file.sh

InitScriptInfo

Cesta ke inicializačnímu skriptu

Pokyny k používání inicializačních skriptů se službou Databricks Container Services najdete v tématu Použití inicializačního skriptu.

Poznámka:

Typ úložiště souborů (název pole: file) je k dispozici pouze pro clustery nastavené pomocí služby Databricks Container Services. Viz FileStorageInfo.

Název pole Typ Popis
workspace NEBO
dbfs (zastaralé)

NEBO
abfss
WorkspaceStorageInfo

DbfsStorageInfo (zastaralé)

ABFSSStorageInfo
Umístění inicializačního skriptu pracovního prostoru Cíl musí být zadaný. Příklad:
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Zastaralé) Umístění dbFS inicializačního skriptu Cíl musí být zadaný. Příklad:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Umístění inicializačního skriptu ve službě Azure Data Lake Storage (ADLS). Cíl musí být zadaný. Například { "abfss": { "destination" : "abfss://..." } }

KeyValue

Pár klíč-hodnota, který určuje parametry konfigurace.

Název pole Typ Popis
key STRING Název vlastnosti konfigurace.
value STRING Hodnota vlastnosti konfigurace.

Poznámkové bloky

Specifikace poznámkového bloku obsahujícího kód kanálu

Název pole Typ Popis
path STRING Absolutní cesta k poznámkovému bloku.

Toto pole je povinné.

PipelinesAutoScale

Atributy definující cluster automatického škálování

Název pole Typ Popis
min_workers INT32 Minimální počet pracovních procesů, na které může cluster při nedostatečně využité kapacitě vertikálně snížit. Je to také počáteční počet pracovních procesů, které cluster bude mít po vytvoření.
max_workers INT32 Maximální počet pracovních procesů, na které může cluster při přetížení vertikálně navýšit kapacitu. max_workers musí být výhradně větší než min_workers.
mode STRING Režim automatického škálování clusteru:

* ENHANCED pro použití rozšířeného automatického škálování.
* LEGACYpro použití funkce automatického škálování clusteru.

PipelineLibrary

Specifikace závislostí kanálu.

Název pole Typ Popis
notebook Poznámkové bloky Cesta k poznámkovému bloku definujícím datové sady Delta Live Tables. Cesta musí být v pracovním prostoru Databricks, například:
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

Specifikace clusteru kanálu.

Systém Delta Live Tables nastaví následující atributy. Uživatelé nemůžou konfigurovat tyto atributy:

  • spark_version
Název pole Typ Popis
label STRING Popisek specifikace clusteru, a to buď
default konfigurace výchozího clusteru nebo
maintenance konfigurace clusteru údržby.

Toto pole je nepovinné. Výchozí hodnota je default.
spark_conf KeyValue Objekt obsahující sadu volitelných párů klíč-hodnota konfigurace Sparku zadaný uživatelem. Můžete také předat řetězec dalších možností prostředí JVM ovladači a exekutorům prostřednictvím
spark.driver.extraJavaOptions a spark.executor.extraJavaOptions v uvedeném pořadí.

Příklad konfigurace Sparku:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} nebo
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Uzly Sparku je například možné zřídit a optimalizovat pro úlohy náročné na paměť nebo výpočetní výkon. Seznam dostupných typů uzlů se dá načíst pomocí volání rozhraní API clusterů.
driver_node_type_id STRING Typ uzlu ovladače Spark. Toto pole je volitelné; Pokud není nastavena sada, typ uzlu ovladače bude nastaven jako stejná hodnota jako node_type_id definovaná výše.
ssh_public_keys Pole STRING Obsah veřejného klíče SSH, který se přidá do každého uzlu Sparku v tomto clusteru. Odpovídající privátní klíče lze použít k přihlášení pomocí uživatelského jména ubuntu na portu 2200. Je možné zadat až 10 klíčů.
custom_tags KeyValue Objekt obsahující sadu značek pro prostředky clusteru. Databricks kromě default_tags označí všechny prostředky clusteru pomocí těchto značek.

Poznámka:

* Značky nejsou podporovány u starších typů uzlů, jako jsou výpočty optimalizované a optimalizované pro paměť.
* Azure Databricks umožňuje maximálně 45 vlastních značek.
cluster_log_conf ClusterLogConf Konfigurace pro doručování protokolů Sparku do dlouhodobého cíle úložiště. Pro jeden cluster je možné zadat pouze jeden cíl. Pokud je tato konfigurace zadaná, protokoly se doručí do cíle každé
5 mins. Cílem protokolů ovladačů je <destination>/<cluster-ID>/driver, zatímco cíl protokolů exekutoru je <destination>/<cluster-ID>/executor.
spark_env_vars KeyValue Objekt obsahující sadu volitelných párů klíč-hodnota proměnné prostředí zadané uživatelem. Páry klíč-hodnota formuláře (X,Y) se exportují tak, jak jsou (to znamená,
export X='Y') při spouštění řidiče a pracovníků.

Aby bylo možné zadat další sadu SPARK_DAEMON_JAVA_OPTS, Databricks doporučuje, aby $SPARK_DAEMON_JAVA_OPTS je připojil, jak je znázorněno v následujícím příkladu. Tím se zajistí zahrnutí všech výchozích proměnných prostředí spravovaných službou Azure Databricks.

Příklady proměnných prostředí Sparku:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} nebo
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts Pole InitScriptInfo Konfigurace pro ukládání inicializačních skriptů. Lze zadat libovolný počet cílů. Skripty se spouští postupně v zadaném pořadí. Pokud cluster_log_conf je zadáno, protokoly inicializačních skriptů se odesílají do
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING Volitelné ID fondu instancí, do kterého cluster patří. Viz referenční informace o konfiguraci fondu.
driver_instance_pool_id STRING Volitelné ID fondu instancí, které se má použít pro uzel ovladače. Musíte také zadat
instance_pool_id. Viz rozhraní API fondů instancí.
policy_id STRING ID zásad clusteru.
num_workers OR autoscale INT32 OR InitScriptInfo Pokud num_workers, počet pracovních uzlů, které má mít tento cluster. Cluster má jeden ovladač Sparku a num_workers exekutory celkem num_workers + 1 uzly Spark.

Při čtení vlastností clusteru toto pole odráží požadovaný počet pracovních procesů místo skutečného počtu pracovních procesů. Pokud se například změní velikost clusteru z 5 na 10 pracovních procesů, toto pole se aktualizuje tak, aby odráželo cílovou velikost 10 pracovních procesů, zatímco pracovní procesy uvedené v exekutorech se postupně zvětšují z 5 na 10 při zřizování nových uzlů.

Pokud automatické škálování, parametry potřebné k automatickému vertikálnímu navýšení a snížení kapacity clusterů na základě zatížení.

Toto pole je nepovinné.
apply_policy_default_values BOOLEAN Určuje, jestli se mají použít výchozí hodnoty zásad pro chybějící atributy clusteru.

Kanál Nastavení

Nastavení pro nasazení kanálu.

Název pole Typ Popis
id STRING Jedinečný identifikátor pro tento kanál.

Identifikátor je vytvořen systémem Delta Live Tables a nesmí být poskytnut při vytváření kanálu.
name STRING Uživatelsky přívětivý název tohoto kanálu.

Toto pole je nepovinné.

Ve výchozím nastavení musí být název kanálu jedinečný. Pokud chcete použít duplicitní název, nastavte allow_duplicate_namestrue ho v konfiguraci kanálu.
storage STRING Cesta k adresáři DBFS pro ukládání kontrolních bodů a tabulek vytvořených kanálem.

Toto pole je nepovinné.

Systém používá výchozí umístění, pokud je toto pole prázdné.
configuration Mapa STRING:STRING Seznam párů klíč-hodnota, které se mají přidat do konfigurace Sparku clusteru, který bude kanál spouštět.

Toto pole je nepovinné.

Prvky musí být formátované jako páry klíč:hodnota.
clusters Pole PipelinesNewCluster Pole specifikací pro clustery ke spuštění kanálu.

Toto pole je nepovinné.

Pokud není zadaný, systém vybere výchozí konfiguraci clusteru pro kanál.
libraries Pole PipelineLibrary Poznámkové bloky obsahující kód kanálu a všechny závislosti potřebné ke spuštění kanálu.
target STRING Název databáze pro zachování výstupních dat kanálu.

Další informace najdete v tématu Publikování dat z delta živých tabulek do metastoru Hive.
continuous BOOLEAN Určuje, jestli se jedná o průběžný kanál.

Toto pole je nepovinné.

Výchozí hodnota je false.
development BOOLEAN Určuje, jestli se má kanál spustit v režimu vývoje.

Toto pole je nepovinné.

Výchozí hodnota je false.
photon BOOLEAN Jestli je pro tento kanál povolená akcelerace Photon.

Toto pole je nepovinné.

Výchozí hodnota je false.
channel STRING Kanál verze Delta Live Tables určující verzi modulu runtime, která se má pro tento kanál použít. Podporované hodnoty jsou:

* preview a otestujte kanál s připravovanými změnami modulu runtime Delta Live Tables.
* current pro použití aktuální verze modulu runtime Delta Live Tables.

Toto pole je nepovinné.

Výchozí hodnota je current.
edition STRING Produktová edice Delta Live Tables pro spuštění kanálu:

* CORE podporuje úlohy příjmu streamování.
* PRO podporuje také úlohy ingestování streamování a přidává podporu pro zpracování zachytávání dat změn (CDC).
* ADVANCED podporuje všechny funkce PRO edice a přidává podporu pro úlohy, které vyžadují očekávání delta živých tabulek k vynucení omezení kvality dat.

Toto pole je nepovinné.

Výchozí hodnota je advanced.

PipelineStateInfo

Stav kanálu, stav nejnovějších aktualizací a informace o přidružených prostředcích.

Název pole Typ Popis
state STRING Stav kanálu. Jeden z IDLE nebo RUNNING.
pipeline_id STRING Jedinečný identifikátor kanálu.
cluster_id STRING Jedinečný identifikátor clusteru, na kterém běží kanál.
name STRING Uživatelsky přívětivý název kanálu.
latest_updates Pole UpdateStateInfo Stav nejnovějších aktualizací pro kanál seřazený jako první s nejnovější aktualizací
creator_user_name STRING Uživatelské jméno tvůrce kanálu.
run_as_user_name STRING Uživatelské jméno, které kanál spouští jako. Jedná se o hodnotu jen pro čtení odvozenou od vlastníka kanálu.

UpdateStateInfo

Aktuální stav aktualizace kanálu.

Název pole Typ Popis
update_id STRING Jedinečný identifikátor této aktualizace.
state STRING Stav aktualizace. Jeden z QUEUED, , CREATED
WAITING_FOR_RESOURCES, INITIALIZING, , RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, , COMPLETED
FAILEDnebo CANCELED.
creation_time STRING Časové razítko při vytvoření této aktualizace

WorkspaceStorageInfo

Informace o úložišti pracovního prostoru

Název pole Typ Popis
destination STRING Místo určení souboru. Příklad: /Users/someone@domain.com/init_script.sh