Przewodnik po interfejsie API tabel na żywo usługi Delta

Ważne

Zawartość tego artykułu została wycofana i może nie zostać zaktualizowana. Zobacz Delta Live Tables w dokumentacji interfejsu API REST usługi Databricks.

Interfejs API tabel delta Live Tables umożliwia tworzenie, edytowanie, usuwanie, uruchamianie i wyświetlanie szczegółów dotyczących potoków.

Ważne

Aby uzyskać dostęp do interfejsów API REST, należy uwierzytelnić się.

Tworzenie potoku

Punkt końcowy Metoda HTTP
2.0/pipelines POST

Tworzy nowy potok delta live tables.

Przykład

W tym przykładzie zostanie utworzony nowy wyzwolony potok.

Żądanie

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Struktura żądań

Zobacz Potok Ustawienia.

Struktura odpowiedzi

Nazwa pola Type Opis
pipeline_id STRING Unikatowy identyfikator nowo utworzonego potoku.

Edytowanie potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id} PUT

Aktualizacje ustawień istniejącego potoku.

Przykład

W tym przykładzie dodano target parametr do potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Wymiana:

W tym przykładzie jest używany plik .netrc .

Struktura żądań

Zobacz Potok Ustawienia.

Usuwanie potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id} DELETE

Usuwa potok z systemu Delta Live Tables.

Przykład

W tym przykładzie potok zostanie usunięty o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Wymiana:

W tym przykładzie jest używany plik .netrc .

Uruchamianie aktualizacji potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id}/updates POST

Uruchamia aktualizację potoku. Możesz uruchomić aktualizację dla całego grafu potoku lub selektywną aktualizację określonych tabel.

Przykłady

Uruchamianie pełnego odświeżania

W tym przykładzie zostanie uruchomiona aktualizacja z pełnym odświeżaniem potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Rozpoczynanie aktualizacji wybranych tabel

W tym przykładzie zostanie uruchomiona aktualizacja, która odświeża sales_orders_cleaned tabele i sales_order_in_chicago w potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Uruchamianie pełnej aktualizacji wybranych tabel

W tym przykładzie zostanie uruchomiona aktualizacja tabel i sales_order_in_chicago oraz aktualizacja z pełnym odświeżaniem customers tabel i sales_orders_raw w potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.sales_orders_cleaned

Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Struktura żądań

Nazwa pola Type Opis
full_refresh BOOLEAN Czy należy ponownie przetworzyć wszystkie dane. Jeśli truesystem Delta Live Tables resetuje wszystkie tabele, które można zresetować przed uruchomieniem potoku.

To pole jest opcjonalne.

Domyślna wartość to false.

Zwracany jest błąd, jeśli full_refesh ma wartość true i refresh_selection ustawiono wartość lub full_refresh_selection .
refresh_selection Tablica STRING Lista tabel do zaktualizowania. Używanie
refresh_selection aby rozpocząć odświeżanie wybranego zestawu tabel na wykresie potoku.

To pole jest opcjonalne. Jeśli oba
refresh_selection I
full_refresh_selection są puste, cały wykres potoku jest odświeżany.

Zwracany jest błąd, jeśli:

* full_refesh ma wartość true i
refresh_selection jest ustawiona.
* Co najmniej jedna z określonych tabel nie istnieje na wykresie potoku.
full_refresh_selection Tablica STRING Lista tabel do zaktualizowania przy użyciu pełnego odświeżania. Użyj full_refresh_selection polecenia , aby rozpocząć aktualizację wybranego zestawu tabel. Stany określonych tabel są resetowane przed uruchomieniem aktualizacji przez system Delta Live Tables.

To pole jest opcjonalne. Jeśli oba
refresh_selection I
full_refresh_selection są puste, cały wykres potoku jest odświeżany.

Zwracany jest błąd, jeśli:

* full_refesh ma wartość true i
refresh_selection jest ustawiona.
* Co najmniej jedna z określonych tabel nie istnieje na wykresie potoku.
* Co najmniej jedna z określonych tabel nie jest resetowalna.

Struktura odpowiedzi

Nazwa pola Type Opis
update_id STRING Unikatowy identyfikator nowo utworzonej aktualizacji.
request_id STRING Unikatowy identyfikator żądania, które uruchomiło aktualizację.

Pobieranie stanu żądania aktualizacji potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Pobiera stan i informacje dotyczące aktualizacji potoku skojarzonej z elementem request_id, gdzie request_id jest unikatowym identyfikatorem żądania inicjującego aktualizację potoku. Jeśli aktualizacja zostanie ponowiona lub ponownie uruchomiona, nowa aktualizacja dziedziczy request_id.

Przykład

W przypadku potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5ten przykład zwraca stan i informacje dotyczące aktualizacji skojarzonej z identyfikatorem a83d9f7c-d798-4fd5-aa39-301b6e6f4429żądania :

Żądanie

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Struktura odpowiedzi

Nazwa pola Type Opis
status STRING Stan żądania aktualizacji potoku. Jeden z

* ACTIVE: Aktualizacja tego żądania jest aktywnie uruchomiona lub może zostać ponowiona w nowej aktualizacji.
* TERMINATED: Żądanie zostanie zakończone i nie zostanie ponowione ani ponownie uruchomione.
pipeline_id STRING Unikatowy identyfikator potoku.
update_id STRING Unikatowy identyfikator aktualizacji.
config Potok Ustawienia Ustawienia potoku.
cause STRING Wyzwalacz aktualizacji. API_CALLJeden z ,
RETRY_ON_FAILURE, , SERVICE_UPGRADE, , SCHEMA_CHANGE
JOB_TASKlub USER_ACTION.
state STRING Stan aktualizacji. QUEUEDJeden z ,CREATED
WAITING_FOR_RESOURCES, , INITIALIZING, , RESETTING
SETTING_UP_TABLES, , RUNNING, STOPPING, , COMPLETED
FAILEDlub CANCELED.
cluster_id STRING Identyfikator klastra, w którym uruchomiono aktualizację.
creation_time INT64 Sygnatura czasowa utworzenia aktualizacji.
full_refresh BOOLEAN Czy ta aktualizacja resetuje wszystkie tabele przed uruchomieniem
refresh_selection Tablica STRING Lista tabel do zaktualizowania bez pełnego odświeżania.
full_refresh_selection Tablica STRING Lista tabel do zaktualizowania przy użyciu pełnego odświeżania.
request_id STRING Unikatowy identyfikator żądania, które uruchomiło aktualizację. Jest to wartość zwracana przez żądanie aktualizacji . Jeśli aktualizacja zostanie ponowiona lub ponownie uruchomiona, nowa aktualizacja dziedziczy request_id. Jednak update_id będzie to inne.

Zatrzymaj dowolną aktywną aktualizację potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id}/stop POST

Zatrzymuje każdą aktywną aktualizację potoku. Jeśli żadna aktualizacja nie jest uruchomiona, to żądanie nie jest operacją.

W przypadku potoku ciągłego wykonywanie potoku jest wstrzymane. Obecnie przetwarzanie tabel kończy odświeżanie, ale tabele podrzędne nie są odświeżane. W następnej aktualizacji potoku funkcja Delta Live Tables wykonuje wybrane odświeżanie tabel, które nie zakończyły przetwarzania, i wznawia przetwarzanie pozostałego potoku DAG.

W przypadku wyzwolonego potoku wykonywanie potoku jest zatrzymywane. Obecnie przetwarzanie tabel kończy odświeżanie, ale tabele podrzędne nie są odświeżane. W następnej aktualizacji potoku funkcja Delta Live Tables odświeża wszystkie tabele.

Przykład

Ten przykład zatrzymuje aktualizację potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Wymiana:

W tym przykładzie jest używany plik .netrc .

Wyświetlanie listy zdarzeń potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id}/events GET

Pobiera zdarzenia dla potoku.

Przykład

W tym przykładzie jest pobieranych maksymalnie 5 zdarzeń dla potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Żądanie

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Wymiana:

W tym przykładzie jest używany plik .netrc .

Struktura żądań

Nazwa pola Type Opis
page_token STRING Token strony zwrócony przez poprzednie wywołanie. To pole wzajemnie wyklucza się ze wszystkimi polami w tym żądaniu z wyjątkiem max_results. Zwracany jest błąd, jeśli jakiekolwiek pola inne niż max_results są ustawiane podczas ustawiania tego pola.

To pole jest opcjonalne.
max_results INT32 Maksymalna liczba wpisów, które mają być zwracane na jednej stronie. System może zwrócić mniej niż max_results zdarzenia w odpowiedzi, nawet jeśli jest dostępnych więcej zdarzeń.

To pole jest opcjonalne.

Wartość domyślna to 25.

Wartość maksymalna to 100. Zwracany jest błąd, jeśli wartość
max_results wartość jest większa niż 100.
order_by STRING Ciąg wskazujący kolejność sortowania według znacznika czasu dla wyników, na przykład ["timestamp asc"].

Kolejność sortowania może być rosnąca lub malejąca. Domyślnie zdarzenia są zwracane w kolejności malejącej według znacznika czasu.

To pole jest opcjonalne.
filter STRING Kryteria wybierania podzestawu wyników wyrażone przy użyciu składni podobnej do języka SQL. Obsługiwane filtry to:

* level='INFO' (lub lub WARNERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (lub >=,<,<=,=)

Wyrażenia złożone są obsługiwane, na przykład:
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

To pole jest opcjonalne.

Struktura odpowiedzi

Nazwa pola Type Opis
events Tablica zdarzeń potoku. Lista zdarzeń spełniających kryteria żądania.
next_page_token STRING Jeśli istnieje, token umożliwiający pobranie następnej strony zdarzeń.
prev_page_token STRING Jeśli istnieje, token umożliwiający pobranie poprzedniej strony zdarzeń.

Pobieranie szczegółów potoku

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id} GET

Pobiera szczegółowe informacje o potoku, w tym ustawienia potoku i najnowsze aktualizacje.

Przykład

Ten przykład pobiera szczegółowe informacje dotyczące potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Struktura odpowiedzi

Nazwa pola Type Opis
pipeline_id STRING Unikatowy identyfikator potoku.
spec Potok Ustawienia Ustawienia potoku.
state STRING Stan potoku. Jeden z IDLE lub RUNNING.

Jeśli stan = RUNNING, istnieje co najmniej jedna aktywna aktualizacja.
cluster_id STRING Identyfikator klastra uruchamiającego potok.
name STRING Przyjazna dla użytkownika nazwa tego potoku.
creator_user_name STRING Nazwa użytkownika twórcy potoku.
latest_updates Tablica UpdateStateInfo Stan najnowszych aktualizacji potoku uporządkowany przy użyciu najnowszej aktualizacji.
run_as_user_name STRING Nazwa użytkownika uruchamiana przez potok jako.

Pobieranie szczegółów aktualizacji

Punkt końcowy Metoda HTTP
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Pobiera szczegóły aktualizacji potoku.

Przykład

Ten przykład pobiera szczegółowe informacje dotyczące aktualizacji 9a84f906-fc51-11eb-9a03-0242ac130003 potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Żądanie

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Struktura odpowiedzi

Nazwa pola Type Opis
pipeline_id STRING Unikatowy identyfikator potoku.
update_id STRING Unikatowy identyfikator tej aktualizacji.
config Potok Ustawienia Ustawienia potoku.
cause STRING Wyzwalacz aktualizacji. API_CALLJeden z ,
RETRY_ON_FAILURE, SERVICE_UPGRADE.
state STRING Stan aktualizacji. QUEUEDJeden z ,CREATED
WAITING_FOR_RESOURCES, , INITIALIZING, , RESETTING
SETTING_UP_TABLES, , RUNNING, STOPPING, , COMPLETED
FAILEDlub CANCELED.
cluster_id STRING Identyfikator klastra uruchamiającego potok.
creation_time INT64 Sygnatura czasowa utworzenia aktualizacji.
full_refresh BOOLEAN Czy było to pełne odświeżanie. Jeśli wartość true, wszystkie tabele potoków zostały zresetowane przed uruchomieniem aktualizacji.

Wyświetlanie listy potoków

Punkt końcowy Metoda HTTP
2.0/pipelines/ GET

Wyświetla listę potoków zdefiniowanych w systemie Delta Live Tables.

Przykład

W tym przykładzie są pobierane szczegółowe informacje dotyczące potoków, w których nazwa zawiera quickstart:

Żądanie

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Wymiana:

W tym przykładzie jest używany plik .netrc .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Struktura żądań

Nazwa pola Type Opis
page_token STRING Token strony zwrócony przez poprzednie wywołanie.

To pole jest opcjonalne.
max_results INT32 Maksymalna liczba wpisów, które mają być zwracane na jednej stronie. System może zwrócić mniej niż max_results zdarzenia w odpowiedzi, nawet jeśli jest dostępnych więcej zdarzeń.

To pole jest opcjonalne.

Wartość domyślna to 25.

Wartość maksymalna to 100. Zwracany jest błąd, jeśli wartość
max_results wartość jest większa niż 100.
order_by Tablica STRING Lista ciągów określających kolejność wyników, na przykład
["name asc"]. Obsługiwane order_by pola to id i
name. Wartość domyślna to id asc.

To pole jest opcjonalne.
filter STRING Wybierz podzbiór wyników na podstawie określonych kryteriów.

Obsługiwane filtry to:

"notebook='<path>'" aby wybrać potoki odwołujące się do podanej ścieżki notesu.

name LIKE '[pattern]' aby wybrać potoki o nazwie zgodnej patternz . Obsługiwane są symbole wieloznaczne, na przykład:
name LIKE '%shopping%'

Filtry złożone nie są obsługiwane.

To pole jest opcjonalne.

Struktura odpowiedzi

Nazwa pola Type Opis
statuses Tablica parametrów PipelineStateInfo Lista zdarzeń spełniających kryteria żądania.
next_page_token STRING Jeśli istnieje, token umożliwiający pobranie następnej strony zdarzeń.
prev_page_token STRING Jeśli istnieje, token umożliwiający pobranie poprzedniej strony zdarzeń.

Struktury danych

W tej sekcji:

ABFSSStorageInfo

Informacje o magazynie usługi Azure Data Lake Storage (ADLS).

Nazwa pola Type Opis
destination STRING Miejsce docelowe pliku. Przykład: abfss://...

ClusterLogConf

Ścieżka do dziennika klastra.

Nazwa pola Type Opis
dbfs DbfsStorageInfo Lokalizacja dbFS dziennika klastra. Należy podać miejsce docelowe. Przykład:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

Informacje o magazynie SYSTEMU PLIKÓW DBFS.

Nazwa pola Type Opis
destination STRING Miejsce docelowe SYSTEMU PLIKÓW DBFS. Przykład: dbfs:/my/path

FileStorageInfo

Informacje o magazynie plików.

Uwaga

Ten typ lokalizacji jest dostępny tylko dla klastrów skonfigurowanych przy użyciu usług Kontener Services usługi Databricks.

Nazwa pola Type Opis
destination STRING Miejsce docelowe pliku. Przykład: file:/my/file.sh

InitScriptInfo

Ścieżka do skryptu init.

Aby uzyskać instrukcje dotyczące używania skryptów inicjowania w usługach Kontener Services usługi Databricks, zobacz Używanie skryptu inicjowania.

Uwaga

Typ magazynu plików (nazwa pola: file) jest dostępny tylko dla klastrów skonfigurowanych przy użyciu usługi Kontener Services usługi Databricks. Zobacz FileStorageInfo.

Nazwa pola Type Opis
workspace LUB
dbfs (przestarzałe)

LUB
abfss
WorkspaceStorageInfo

DbfsStorageInfo (przestarzałe)

ABFSSStorageInfo
Lokalizacja obszaru roboczego skryptu inicjowania. Należy podać miejsce docelowe. Przykład:
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Przestarzałe) Lokalizacja dbFS skryptu init. Należy podać miejsce docelowe. Przykład:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Lokalizacja skryptu inicjowania usługi Azure Data Lake Storage (ADLS). Należy podać miejsce docelowe. Na przykład { "abfss": { "destination" : "abfss://..." } }

KeyValue

Para klucz-wartość określająca parametry konfiguracji.

Nazwa pola Type Opis
key STRING Nazwa właściwości konfiguracji.
value STRING Wartość właściwości konfiguracji.

NotesLibrary

Specyfikacja notesu zawierającego kod potoku.

Nazwa pola Type Opis
path STRING Ścieżka bezwzględna do notesu.

To pole jest wymagane.

PipelinesAutoScale

Atrybuty definiujące klaster skalowania automatycznego.

Nazwa pola Type Opis
min_workers INT32 Minimalna liczba procesów roboczych, do których klaster może być skalowany w dół, gdy nie jest wykorzystywana. Jest to również początkowa liczba procesów roboczych, które klaster będzie miał po utworzeniu.
max_workers INT32 Maksymalna liczba procesów roboczych, do których klaster może być skalowany w górę po przeciążeniu. max_workers musi być ściśle większa niż min_workers.
mode STRING Tryb skalowania automatycznego dla klastra:

* ENHANCED aby użyć rozszerzonego skalowania automatycznego.
* LEGACY aby użyć funkcji skalowania automatycznego klastra.

PipelineLibrary

Specyfikacja zależności potoku.

Nazwa pola Type Opis
notebook NotesLibrary Ścieżka do notesu definiującego zestawy danych delta Live Tables. Ścieżka musi znajdować się w obszarze roboczym usługi Databricks, na przykład:
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

Specyfikacja klastra potoku.

System Delta Live Tables ustawia następujące atrybuty. Tych atrybutów nie można skonfigurować przez użytkowników:

  • spark_version
Nazwa pola Type Opis
label STRING Etykieta specyfikacji klastra, albo
default aby skonfigurować klaster domyślny lub
maintenance aby skonfigurować klaster konserwacji.

To pole jest opcjonalne. Domyślna wartość to default.
spark_conf KeyValue Obiekt zawierający zestaw opcjonalnych par klucz-wartość konfiguracji platformy Spark określony przez użytkownika. Możesz również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem polecenia
spark.driver.extraJavaOptions i spark.executor.extraJavaOptions odpowiednio.

Przykładowe ograniczenia platformy Spark:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} lub
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń Lista dostępnych typów węzłów można pobrać przy użyciu wywołania interfejsu API klastrów.
driver_node_type_id STRING Typ węzła sterownika spark. To pole jest opcjonalne; Jeśli nie zostanie ustawiona, typ węzła sterownika zostanie ustawiony jako ta sama wartość, jak node_type_id zdefiniowano powyżej.
ssh_public_keys Tablica STRING Zawartość klucza publicznego SSH, która zostanie dodana do każdego węzła Spark w tym klastrze. Odpowiednie klucze prywatne mogą służyć do logowania się przy użyciu nazwy ubuntu użytkownika na porcie 2200. Można określić maksymalnie 10 kluczy.
custom_tags KeyValue Obiekt zawierający zestaw tagów dla zasobów klastra. Usługa Databricks taguje wszystkie zasoby klastra przy użyciu tych tagów oprócz default_tags.

Uwaga:

* Tagi nie są obsługiwane w starszych typach węzłów, takich jak zoptymalizowane pod kątem obliczeń i zoptymalizowane pod kątem pamięci
* Usługa Azure Databricks zezwala na co najwyżej 45 tagów niestandardowych.
cluster_log_conf ClusterLogConf Konfiguracja dostarczania dzienników platformy Spark do długoterminowego miejsca docelowego magazynu. Dla jednego klastra można określić tylko jedno miejsce docelowe. Jeśli ta konfiguracja zostanie podana, dzienniki zostaną dostarczone do miejsca docelowego co
5 mins. Miejsce docelowe dzienników sterowników to <destination>/<cluster-ID>/driver, a miejscem docelowym dzienników funkcji wykonawczej jest <destination>/<cluster-ID>/executor.
spark_env_vars KeyValue Obiekt zawierający zestaw opcjonalnych par klucz-wartość zmiennej środowiskowej określonej przez użytkownika. Pary klucz-wartość formularza (X,Y) są eksportowane w taki sposób, jak (czyli,
export X='Y') podczas uruchamiania kierowcy i pracowników.

Aby określić dodatkowy zestaw SPARK_DAEMON_JAVA_OPTSusługi , usługa Databricks zaleca dołączenie ich do $SPARK_DAEMON_JAVA_OPTS , jak pokazano w poniższym przykładzie. Dzięki temu wszystkie domyślne zmienne środowiskowe zarządzane przez usługę Azure Databricks również zostaną uwzględnione.

Przykładowe zmienne środowiskowe platformy Spark:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} lub
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts Tablica initScriptInfo Konfiguracja przechowywania skryptów inicjowania. Można określić dowolną liczbę miejsc docelowych. Skrypty są wykonywane sekwencyjnie w podanej kolejności. Jeśli cluster_log_conf zostanie określony, dzienniki skryptów inicjowania są wysyłane do
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING Opcjonalny identyfikator puli wystąpień, do której należy klaster. Zobacz Dokumentację konfiguracji puli.
driver_instance_pool_id STRING Opcjonalny identyfikator puli wystąpień do użycia dla węzła sterownika. Należy również określić
instance_pool_id. Zobacz Interfejs API pul wystąpień.
policy_id STRING Identyfikator zasad klastra.
num_workers OR autoscale INT32OR InitScriptInfo Jeśli num_workers, liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i num_workers funkcji wykonawczych dla łącznie num_workers i 1 węzłów platformy Spark.

Podczas odczytywania właściwości klastra to pole odzwierciedla żądaną liczbę procesów roboczych, a nie rzeczywistą liczbę procesów roboczych. Na przykład jeśli rozmiar klastra zostanie zmieniony z 5 na 10 procesów roboczych, to pole zostanie zaktualizowane w celu odzwierciedlenia docelowego rozmiaru 10 procesów roboczych, natomiast pracownicy wymienieni w funkcjach wykonawczych stopniowo zwiększają się z 5 do 10, ponieważ są aprowizowane nowe węzły.

W przypadku automatycznego skalowania parametry potrzebne do automatycznego skalowania klastrów w górę i w dół na podstawie obciążenia.

To pole jest opcjonalne.
apply_policy_default_values BOOLEAN Czy używać wartości domyślnych zasad dla brakujących atrybutów klastra.

Potok Ustawienia

Ustawienia wdrożenia potoku.

Nazwa pola Type Opis
id STRING Unikatowy identyfikator tego potoku.

Identyfikator jest tworzony przez system delta live tables i nie może być podany podczas tworzenia potoku.
name STRING Przyjazna dla użytkownika nazwa tego potoku.

To pole jest opcjonalne.

Domyślnie nazwa potoku musi być unikatowa. Aby użyć zduplikowanej nazwy, ustaw wartość allow_duplicate_names na true w konfiguracji potoku.
storage STRING Ścieżka do katalogu DBFS do przechowywania punktów kontrolnych i tabel utworzonych przez potok.

To pole jest opcjonalne.

System używa domyślnej lokalizacji, jeśli to pole jest puste.
configuration Mapa STRING:STRING Lista par klucz-wartość do dodania do konfiguracji platformy Spark klastra, który będzie uruchamiał potok.

To pole jest opcjonalne.

Elementy muszą być sformatowane jako pary key:value.
clusters Tablica pipelinesNewCluster Tablica specyfikacji klastrów do uruchomienia potoku.

To pole jest opcjonalne.

Jeśli nie zostanie określony, system wybierze domyślną konfigurację klastra dla potoku.
libraries Tablica elementów PipelineLibrary Notesy zawierające kod potoku i wszelkie zależności wymagane do uruchomienia potoku.
target STRING Nazwa bazy danych do utrwalania danych wyjściowych potoku.

Aby uzyskać więcej informacji, zobacz Publikowanie danych z tabel delta Live Tables do magazynu metadanych Hive.
continuous BOOLEAN Czy jest to potok ciągły.

To pole jest opcjonalne.

Domyślna wartość to false.
development BOOLEAN Czy należy uruchomić potok w trybie programowania.

To pole jest opcjonalne.

Domyślna wartość to false.
photon BOOLEAN Określa, czy dla tego potoku włączono przyspieszanie photon.

To pole jest opcjonalne.

Domyślna wartość to false.
channel STRING Kanał wydania usługi Delta Live Tables określający wersję środowiska uruchomieniowego do użycia dla tego potoku. Obsługiwane wartości to:

* preview aby przetestować potok z nadchodzącymi zmianami w środowisku uruchomieniowym delta Live Tables.
* current aby użyć bieżącej wersji środowiska uruchomieniowego usługi Delta Live Tables.

To pole jest opcjonalne.

Domyślna wartość to current.
edition STRING Wersja produktu Delta Live Tables w celu uruchomienia potoku:

* CORE obsługuje pozyskiwanie obciążeń przesyłania strumieniowego.
* PRO Obsługuje również obciążenia pozyskiwania przesyłania strumieniowego i dodaje obsługę przetwarzania przechwytywania zmian danych (CDC).
* ADVANCED obsługuje wszystkie funkcje PRO wersji i dodaje obsługę obciążeń, które wymagają oczekiwań usługi Delta Live Tables w celu wymuszenia ograniczeń jakości danych.

To pole jest opcjonalne.

Domyślna wartość to advanced.

PipelineStateInfo

Stan potoku, stan najnowszych aktualizacji i informacje o skojarzonych zasobach.

Nazwa pola Type Opis
state STRING Stan potoku. Jeden z IDLE lub RUNNING.
pipeline_id STRING Unikatowy identyfikator potoku.
cluster_id STRING Unikatowy identyfikator klastra uruchamiającego potok.
name STRING Przyjazna dla użytkownika nazwa potoku.
latest_updates Tablica UpdateStateInfo Stan najnowszych aktualizacji potoku uporządkowany przy użyciu najnowszej aktualizacji.
creator_user_name STRING Nazwa użytkownika twórcy potoku.
run_as_user_name STRING Nazwa użytkownika uruchamiana przez potok jako. Jest to wartość tylko do odczytu pochodząca od właściciela potoku.

UpdateStateInfo

Bieżący stan aktualizacji potoku.

Nazwa pola Type Opis
update_id STRING Unikatowy identyfikator tej aktualizacji.
state STRING Stan aktualizacji. QUEUEDJeden z , , CREATED
WAITING_FOR_RESOURCES, , INITIALIZING, , RESETTING
SETTING_UP_TABLES, , RUNNING, STOPPING, , COMPLETED
FAILEDlub CANCELED.
creation_time STRING Sygnatura czasowa utworzenia tej aktualizacji.

WorkspaceStorageInfo

Informacje o magazynie obszaru roboczego.

Nazwa pola Type Opis
destination STRING Miejsce docelowe pliku. Przykład: /Users/someone@domain.com/init_script.sh