Przewodnik po interfejsie API tabel na żywo usługi Delta
Ważne
Zawartość tego artykułu została wycofana i może nie zostać zaktualizowana. Zobacz Delta Live Tables w dokumentacji interfejsu API REST usługi Databricks.
Interfejs API tabel delta Live Tables umożliwia tworzenie, edytowanie, usuwanie, uruchamianie i wyświetlanie szczegółów dotyczących potoków.
Ważne
Aby uzyskać dostęp do interfejsów API REST, należy uwierzytelnić się.
Tworzenie potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines |
POST |
Tworzy nowy potok delta live tables.
Przykład
W tym przykładzie zostanie utworzony nowy wyzwolony potok.
Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}
Struktura żądań
Zobacz Potok Ustawienia.
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
pipeline_id | STRING |
Unikatowy identyfikator nowo utworzonego potoku. |
Edytowanie potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
PUT |
Aktualizacje ustawień istniejącego potoku.
Przykład
W tym przykładzie dodano target
parametr do potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Struktura żądań
Zobacz Potok Ustawienia.
Usuwanie potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
DELETE |
Usuwa potok z systemu Delta Live Tables.
Przykład
W tym przykładzie potok zostanie usunięty o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Uruchamianie aktualizacji potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates |
POST |
Uruchamia aktualizację potoku. Możesz uruchomić aktualizację dla całego grafu potoku lub selektywną aktualizację określonych tabel.
Przykłady
Uruchamianie pełnego odświeżania
W tym przykładzie zostanie uruchomiona aktualizacja z pełnym odświeżaniem potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Rozpoczynanie aktualizacji wybranych tabel
W tym przykładzie zostanie uruchomiona aktualizacja, która odświeża sales_orders_cleaned
tabele i sales_order_in_chicago
w potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Uruchamianie pełnej aktualizacji wybranych tabel
W tym przykładzie zostanie uruchomiona aktualizacja tabel i sales_order_in_chicago
oraz aktualizacja z pełnym odświeżaniem customers
tabel i sales_orders_raw
w potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.sales_orders_cleaned
Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Struktura żądań
Nazwa pola | Type | Opis |
---|---|---|
full_refresh |
BOOLEAN |
Czy należy ponownie przetworzyć wszystkie dane. Jeśli true system Delta Live Tables resetuje wszystkie tabele, które można zresetować przed uruchomieniem potoku.To pole jest opcjonalne. Domyślna wartość to false .Zwracany jest błąd, jeśli full_refesh ma wartość true i refresh_selection ustawiono wartość lub full_refresh_selection . |
refresh_selection |
Tablica STRING |
Lista tabel do zaktualizowania. Używanierefresh_selection aby rozpocząć odświeżanie wybranego zestawu tabel na wykresie potoku.To pole jest opcjonalne. Jeśli oba refresh_selection Ifull_refresh_selection są puste, cały wykres potoku jest odświeżany.Zwracany jest błąd, jeśli: * full_refesh ma wartość true irefresh_selection jest ustawiona.* Co najmniej jedna z określonych tabel nie istnieje na wykresie potoku. |
full_refresh_selection |
Tablica STRING |
Lista tabel do zaktualizowania przy użyciu pełnego odświeżania. Użyj full_refresh_selection polecenia , aby rozpocząć aktualizację wybranego zestawu tabel. Stany określonych tabel są resetowane przed uruchomieniem aktualizacji przez system Delta Live Tables.To pole jest opcjonalne. Jeśli oba refresh_selection Ifull_refresh_selection są puste, cały wykres potoku jest odświeżany.Zwracany jest błąd, jeśli: * full_refesh ma wartość true irefresh_selection jest ustawiona.* Co najmniej jedna z określonych tabel nie istnieje na wykresie potoku. * Co najmniej jedna z określonych tabel nie jest resetowalna. |
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
update_id |
STRING |
Unikatowy identyfikator nowo utworzonej aktualizacji. |
request_id |
STRING |
Unikatowy identyfikator żądania, które uruchomiło aktualizację. |
Pobieranie stanu żądania aktualizacji potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id}/requests/{request_id} |
GET |
Pobiera stan i informacje dotyczące aktualizacji potoku skojarzonej z elementem request_id
, gdzie request_id
jest unikatowym identyfikatorem żądania inicjującego aktualizację potoku. Jeśli aktualizacja zostanie ponowiona lub ponownie uruchomiona, nowa aktualizacja dziedziczy request_id.
Przykład
W przypadku potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
ten przykład zwraca stan i informacje dotyczące aktualizacji skojarzonej z identyfikatorem a83d9f7c-d798-4fd5-aa39-301b6e6f4429
żądania :
Żądanie
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
status |
STRING |
Stan żądania aktualizacji potoku. Jeden z * ACTIVE : Aktualizacja tego żądania jest aktywnie uruchomiona lub może zostać ponowiona w nowej aktualizacji.* TERMINATED : Żądanie zostanie zakończone i nie zostanie ponowione ani ponownie uruchomione. |
pipeline_id |
STRING |
Unikatowy identyfikator potoku. |
update_id |
STRING |
Unikatowy identyfikator aktualizacji. |
config |
Potok Ustawienia | Ustawienia potoku. |
cause |
STRING |
Wyzwalacz aktualizacji. API_CALL Jeden z ,RETRY_ON_FAILURE , , SERVICE_UPGRADE , , SCHEMA_CHANGE JOB_TASK lub USER_ACTION . |
state |
STRING |
Stan aktualizacji. QUEUED Jeden z ,CREATED WAITING_FOR_RESOURCES , , INITIALIZING , , RESETTING SETTING_UP_TABLES , , RUNNING , STOPPING , , COMPLETED FAILED lub CANCELED . |
cluster_id |
STRING |
Identyfikator klastra, w którym uruchomiono aktualizację. |
creation_time |
INT64 |
Sygnatura czasowa utworzenia aktualizacji. |
full_refresh |
BOOLEAN |
Czy ta aktualizacja resetuje wszystkie tabele przed uruchomieniem |
refresh_selection |
Tablica STRING |
Lista tabel do zaktualizowania bez pełnego odświeżania. |
full_refresh_selection |
Tablica STRING |
Lista tabel do zaktualizowania przy użyciu pełnego odświeżania. |
request_id |
STRING |
Unikatowy identyfikator żądania, które uruchomiło aktualizację. Jest to wartość zwracana przez żądanie aktualizacji . Jeśli aktualizacja zostanie ponowiona lub ponownie uruchomiona, nowa aktualizacja dziedziczy request_id. Jednak update_id będzie to inne. |
Zatrzymaj dowolną aktywną aktualizację potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id}/stop |
POST |
Zatrzymuje każdą aktywną aktualizację potoku. Jeśli żadna aktualizacja nie jest uruchomiona, to żądanie nie jest operacją.
W przypadku potoku ciągłego wykonywanie potoku jest wstrzymane. Obecnie przetwarzanie tabel kończy odświeżanie, ale tabele podrzędne nie są odświeżane. W następnej aktualizacji potoku funkcja Delta Live Tables wykonuje wybrane odświeżanie tabel, które nie zakończyły przetwarzania, i wznawia przetwarzanie pozostałego potoku DAG.
W przypadku wyzwolonego potoku wykonywanie potoku jest zatrzymywane. Obecnie przetwarzanie tabel kończy odświeżanie, ale tabele podrzędne nie są odświeżane. W następnej aktualizacji potoku funkcja Delta Live Tables odświeża wszystkie tabele.
Przykład
Ten przykład zatrzymuje aktualizację potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Wyświetlanie listy zdarzeń potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id}/events |
GET |
Pobiera zdarzenia dla potoku.
Przykład
W tym przykładzie jest pobieranych maksymalnie 5 zdarzeń dla potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Żądanie
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Struktura żądań
Nazwa pola | Type | Opis |
---|---|---|
page_token |
STRING |
Token strony zwrócony przez poprzednie wywołanie. To pole wzajemnie wyklucza się ze wszystkimi polami w tym żądaniu z wyjątkiem max_results. Zwracany jest błąd, jeśli jakiekolwiek pola inne niż max_results są ustawiane podczas ustawiania tego pola. To pole jest opcjonalne. |
max_results |
INT32 |
Maksymalna liczba wpisów, które mają być zwracane na jednej stronie. System może zwrócić mniej niż max_results zdarzenia w odpowiedzi, nawet jeśli jest dostępnych więcej zdarzeń.To pole jest opcjonalne. Wartość domyślna to 25. Wartość maksymalna to 100. Zwracany jest błąd, jeśli wartość max_results wartość jest większa niż 100. |
order_by |
STRING |
Ciąg wskazujący kolejność sortowania według znacznika czasu dla wyników, na przykład ["timestamp asc"] .Kolejność sortowania może być rosnąca lub malejąca. Domyślnie zdarzenia są zwracane w kolejności malejącej według znacznika czasu. To pole jest opcjonalne. |
filter |
STRING |
Kryteria wybierania podzestawu wyników wyrażone przy użyciu składni podobnej do języka SQL. Obsługiwane filtry to: * level='INFO' (lub lub WARN ERROR )* level in ('INFO', 'WARN') * id='[event-id]' * timestamp > 'TIMESTAMP' (lub >= ,< ,<= ,= )Wyrażenia złożone są obsługiwane, na przykład: level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z' To pole jest opcjonalne. |
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
events |
Tablica zdarzeń potoku. | Lista zdarzeń spełniających kryteria żądania. |
next_page_token |
STRING |
Jeśli istnieje, token umożliwiający pobranie następnej strony zdarzeń. |
prev_page_token |
STRING |
Jeśli istnieje, token umożliwiający pobranie poprzedniej strony zdarzeń. |
Pobieranie szczegółów potoku
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
GET |
Pobiera szczegółowe informacje o potoku, w tym ustawienia potoku i najnowsze aktualizacje.
Przykład
Ten przykład pobiera szczegółowe informacje dotyczące potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
pipeline_id |
STRING |
Unikatowy identyfikator potoku. |
spec |
Potok Ustawienia | Ustawienia potoku. |
state |
STRING |
Stan potoku. Jeden z IDLE lub RUNNING .Jeśli stan = RUNNING , istnieje co najmniej jedna aktywna aktualizacja. |
cluster_id |
STRING |
Identyfikator klastra uruchamiającego potok. |
name |
STRING |
Przyjazna dla użytkownika nazwa tego potoku. |
creator_user_name |
STRING |
Nazwa użytkownika twórcy potoku. |
latest_updates |
Tablica UpdateStateInfo | Stan najnowszych aktualizacji potoku uporządkowany przy użyciu najnowszej aktualizacji. |
run_as_user_name |
STRING |
Nazwa użytkownika uruchamiana przez potok jako. |
Pobieranie szczegółów aktualizacji
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates/{update_id} |
GET |
Pobiera szczegóły aktualizacji potoku.
Przykład
Ten przykład pobiera szczegółowe informacje dotyczące aktualizacji 9a84f906-fc51-11eb-9a03-0242ac130003
potoku o identyfikatorze a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Żądanie
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
pipeline_id |
STRING |
Unikatowy identyfikator potoku. |
update_id |
STRING |
Unikatowy identyfikator tej aktualizacji. |
config |
Potok Ustawienia | Ustawienia potoku. |
cause |
STRING |
Wyzwalacz aktualizacji. API_CALL Jeden z ,RETRY_ON_FAILURE , SERVICE_UPGRADE . |
state |
STRING |
Stan aktualizacji. QUEUED Jeden z ,CREATED WAITING_FOR_RESOURCES , , INITIALIZING , , RESETTING SETTING_UP_TABLES , , RUNNING , STOPPING , , COMPLETED FAILED lub CANCELED . |
cluster_id |
STRING |
Identyfikator klastra uruchamiającego potok. |
creation_time |
INT64 |
Sygnatura czasowa utworzenia aktualizacji. |
full_refresh |
BOOLEAN |
Czy było to pełne odświeżanie. Jeśli wartość true, wszystkie tabele potoków zostały zresetowane przed uruchomieniem aktualizacji. |
Wyświetlanie listy potoków
Punkt końcowy | Metoda HTTP |
---|---|
2.0/pipelines/ |
GET |
Wyświetla listę potoków zdefiniowanych w systemie Delta Live Tables.
Przykład
W tym przykładzie są pobierane szczegółowe informacje dotyczące potoków, w których nazwa zawiera quickstart
:
Żądanie
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Wymiana:
<databricks-instance>
z nazwą wystąpienia obszaru roboczego usługi Azure Databricks, na przykładadb-1234567890123456.7.azuredatabricks.net
.
W tym przykładzie jest używany plik .netrc .
Response
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Struktura żądań
Nazwa pola | Type | Opis |
---|---|---|
page_token |
STRING |
Token strony zwrócony przez poprzednie wywołanie. To pole jest opcjonalne. |
max_results |
INT32 |
Maksymalna liczba wpisów, które mają być zwracane na jednej stronie. System może zwrócić mniej niż max_results zdarzenia w odpowiedzi, nawet jeśli jest dostępnych więcej zdarzeń.To pole jest opcjonalne. Wartość domyślna to 25. Wartość maksymalna to 100. Zwracany jest błąd, jeśli wartość max_results wartość jest większa niż 100. |
order_by |
Tablica STRING |
Lista ciągów określających kolejność wyników, na przykład["name asc"] . Obsługiwane order_by pola to id iname . Wartość domyślna to id asc .To pole jest opcjonalne. |
filter |
STRING |
Wybierz podzbiór wyników na podstawie określonych kryteriów. Obsługiwane filtry to: "notebook='<path>'" aby wybrać potoki odwołujące się do podanej ścieżki notesu.name LIKE '[pattern]' aby wybrać potoki o nazwie zgodnej pattern z . Obsługiwane są symbole wieloznaczne, na przykład:name LIKE '%shopping%' Filtry złożone nie są obsługiwane. To pole jest opcjonalne. |
Struktura odpowiedzi
Nazwa pola | Type | Opis |
---|---|---|
statuses |
Tablica parametrów PipelineStateInfo | Lista zdarzeń spełniających kryteria żądania. |
next_page_token |
STRING |
Jeśli istnieje, token umożliwiający pobranie następnej strony zdarzeń. |
prev_page_token |
STRING |
Jeśli istnieje, token umożliwiający pobranie poprzedniej strony zdarzeń. |
Struktury danych
W tej sekcji:
- ABFSSStorageInfo
- ClusterLogConf
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- KeyValue
- NotesLibrary
- PipelinesAutoScale
- PipelineLibrary
- PipelinesNewCluster
- Potok Ustawienia
- PipelineStateInfo
- UpdateStateInfo
- WorkspaceStorageInfo
ABFSSStorageInfo
Informacje o magazynie usługi Azure Data Lake Storage (ADLS).
Nazwa pola | Type | Opis |
---|---|---|
destination |
STRING |
Miejsce docelowe pliku. Przykład: abfss://... |
ClusterLogConf
Ścieżka do dziennika klastra.
Nazwa pola | Type | Opis |
---|---|---|
dbfs |
DbfsStorageInfo | Lokalizacja dbFS dziennika klastra. Należy podać miejsce docelowe. Przykład:{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
DbfsStorageInfo
Informacje o magazynie SYSTEMU PLIKÓW DBFS.
Nazwa pola | Type | Opis |
---|---|---|
destination |
STRING |
Miejsce docelowe SYSTEMU PLIKÓW DBFS. Przykład: dbfs:/my/path |
FileStorageInfo
Informacje o magazynie plików.
Uwaga
Ten typ lokalizacji jest dostępny tylko dla klastrów skonfigurowanych przy użyciu usług Kontener Services usługi Databricks.
Nazwa pola | Type | Opis |
---|---|---|
destination |
STRING |
Miejsce docelowe pliku. Przykład: file:/my/file.sh |
InitScriptInfo
Ścieżka do skryptu init.
Aby uzyskać instrukcje dotyczące używania skryptów inicjowania w usługach Kontener Services usługi Databricks, zobacz Używanie skryptu inicjowania.
Uwaga
Typ magazynu plików (nazwa pola: file
) jest dostępny tylko dla klastrów skonfigurowanych przy użyciu usługi Kontener Services usługi Databricks. Zobacz FileStorageInfo.
Nazwa pola | Type | Opis |
---|---|---|
workspace LUBdbfs (przestarzałe)LUB abfss |
WorkspaceStorageInfo DbfsStorageInfo (przestarzałe) ABFSSStorageInfo |
Lokalizacja obszaru roboczego skryptu inicjowania. Należy podać miejsce docelowe. Przykład:{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Przestarzałe) Lokalizacja dbFS skryptu init. Należy podać miejsce docelowe. Przykład: { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Lokalizacja skryptu inicjowania usługi Azure Data Lake Storage (ADLS). Należy podać miejsce docelowe. Na przykład { "abfss": { "destination" : "abfss://..." } } |
KeyValue
Para klucz-wartość określająca parametry konfiguracji.
Nazwa pola | Type | Opis |
---|---|---|
key |
STRING |
Nazwa właściwości konfiguracji. |
value |
STRING |
Wartość właściwości konfiguracji. |
NotesLibrary
Specyfikacja notesu zawierającego kod potoku.
Nazwa pola | Type | Opis |
---|---|---|
path |
STRING |
Ścieżka bezwzględna do notesu. To pole jest wymagane. |
PipelinesAutoScale
Atrybuty definiujące klaster skalowania automatycznego.
Nazwa pola | Type | Opis |
---|---|---|
min_workers |
INT32 |
Minimalna liczba procesów roboczych, do których klaster może być skalowany w dół, gdy nie jest wykorzystywana. Jest to również początkowa liczba procesów roboczych, które klaster będzie miał po utworzeniu. |
max_workers |
INT32 |
Maksymalna liczba procesów roboczych, do których klaster może być skalowany w górę po przeciążeniu. max_workers musi być ściśle większa niż min_workers. |
mode |
STRING |
Tryb skalowania automatycznego dla klastra: * ENHANCED aby użyć rozszerzonego skalowania automatycznego.* LEGACY aby użyć funkcji skalowania automatycznego klastra. |
PipelineLibrary
Specyfikacja zależności potoku.
Nazwa pola | Type | Opis |
---|---|---|
notebook |
NotesLibrary | Ścieżka do notesu definiującego zestawy danych delta Live Tables. Ścieżka musi znajdować się w obszarze roboczym usługi Databricks, na przykład:{ "notebook" : { "path" : "/my-pipeline-notebook-path" } } . |
PipelinesNewCluster
Specyfikacja klastra potoku.
System Delta Live Tables ustawia następujące atrybuty. Tych atrybutów nie można skonfigurować przez użytkowników:
spark_version
Nazwa pola | Type | Opis |
---|---|---|
label |
STRING |
Etykieta specyfikacji klastra, albodefault aby skonfigurować klaster domyślny lubmaintenance aby skonfigurować klaster konserwacji.To pole jest opcjonalne. Domyślna wartość to default . |
spark_conf |
KeyValue | Obiekt zawierający zestaw opcjonalnych par klucz-wartość konfiguracji platformy Spark określony przez użytkownika. Możesz również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem poleceniaspark.driver.extraJavaOptions i spark.executor.extraJavaOptions odpowiednio.Przykładowe ograniczenia platformy Spark: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} lub{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń Lista dostępnych typów węzłów można pobrać przy użyciu wywołania interfejsu API klastrów. |
driver_node_type_id |
STRING |
Typ węzła sterownika spark. To pole jest opcjonalne; Jeśli nie zostanie ustawiona, typ węzła sterownika zostanie ustawiony jako ta sama wartość, jak node_type_id zdefiniowano powyżej. |
ssh_public_keys |
Tablica STRING |
Zawartość klucza publicznego SSH, która zostanie dodana do każdego węzła Spark w tym klastrze. Odpowiednie klucze prywatne mogą służyć do logowania się przy użyciu nazwy ubuntu użytkownika na porcie 2200 . Można określić maksymalnie 10 kluczy. |
custom_tags |
KeyValue | Obiekt zawierający zestaw tagów dla zasobów klastra. Usługa Databricks taguje wszystkie zasoby klastra przy użyciu tych tagów oprócz default_tags. Uwaga: * Tagi nie są obsługiwane w starszych typach węzłów, takich jak zoptymalizowane pod kątem obliczeń i zoptymalizowane pod kątem pamięci * Usługa Azure Databricks zezwala na co najwyżej 45 tagów niestandardowych. |
cluster_log_conf |
ClusterLogConf | Konfiguracja dostarczania dzienników platformy Spark do długoterminowego miejsca docelowego magazynu. Dla jednego klastra można określić tylko jedno miejsce docelowe. Jeśli ta konfiguracja zostanie podana, dzienniki zostaną dostarczone do miejsca docelowego co5 mins . Miejsce docelowe dzienników sterowników to <destination>/<cluster-ID>/driver , a miejscem docelowym dzienników funkcji wykonawczej jest <destination>/<cluster-ID>/executor . |
spark_env_vars |
KeyValue | Obiekt zawierający zestaw opcjonalnych par klucz-wartość zmiennej środowiskowej określonej przez użytkownika. Pary klucz-wartość formularza (X,Y) są eksportowane w taki sposób, jak (czyli,export X='Y' ) podczas uruchamiania kierowcy i pracowników.Aby określić dodatkowy zestaw SPARK_DAEMON_JAVA_OPTS usługi , usługa Databricks zaleca dołączenie ich do $SPARK_DAEMON_JAVA_OPTS , jak pokazano w poniższym przykładzie. Dzięki temu wszystkie domyślne zmienne środowiskowe zarządzane przez usługę Azure Databricks również zostaną uwzględnione.Przykładowe zmienne środowiskowe platformy Spark: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} lub{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
init_scripts |
Tablica initScriptInfo | Konfiguracja przechowywania skryptów inicjowania. Można określić dowolną liczbę miejsc docelowych. Skrypty są wykonywane sekwencyjnie w podanej kolejności. Jeśli cluster_log_conf zostanie określony, dzienniki skryptów inicjowania są wysyłane do<destination>/<cluster-ID>/init_scripts . |
instance_pool_id |
STRING |
Opcjonalny identyfikator puli wystąpień, do której należy klaster. Zobacz Dokumentację konfiguracji puli. |
driver_instance_pool_id |
STRING |
Opcjonalny identyfikator puli wystąpień do użycia dla węzła sterownika. Należy również określićinstance_pool_id . Zobacz Interfejs API pul wystąpień. |
policy_id |
STRING |
Identyfikator zasad klastra. |
num_workers OR autoscale |
INT32 OR InitScriptInfo |
Jeśli num_workers, liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i num_workers funkcji wykonawczych dla łącznie num_workers i 1 węzłów platformy Spark. Podczas odczytywania właściwości klastra to pole odzwierciedla żądaną liczbę procesów roboczych, a nie rzeczywistą liczbę procesów roboczych. Na przykład jeśli rozmiar klastra zostanie zmieniony z 5 na 10 procesów roboczych, to pole zostanie zaktualizowane w celu odzwierciedlenia docelowego rozmiaru 10 procesów roboczych, natomiast pracownicy wymienieni w funkcjach wykonawczych stopniowo zwiększają się z 5 do 10, ponieważ są aprowizowane nowe węzły. W przypadku automatycznego skalowania parametry potrzebne do automatycznego skalowania klastrów w górę i w dół na podstawie obciążenia. To pole jest opcjonalne. |
apply_policy_default_values |
BOOLEAN |
Czy używać wartości domyślnych zasad dla brakujących atrybutów klastra. |
Potok Ustawienia
Ustawienia wdrożenia potoku.
Nazwa pola | Type | Opis |
---|---|---|
id |
STRING |
Unikatowy identyfikator tego potoku. Identyfikator jest tworzony przez system delta live tables i nie może być podany podczas tworzenia potoku. |
name |
STRING |
Przyjazna dla użytkownika nazwa tego potoku. To pole jest opcjonalne. Domyślnie nazwa potoku musi być unikatowa. Aby użyć zduplikowanej nazwy, ustaw wartość allow_duplicate_names na true w konfiguracji potoku. |
storage |
STRING |
Ścieżka do katalogu DBFS do przechowywania punktów kontrolnych i tabel utworzonych przez potok. To pole jest opcjonalne. System używa domyślnej lokalizacji, jeśli to pole jest puste. |
configuration |
Mapa STRING:STRING |
Lista par klucz-wartość do dodania do konfiguracji platformy Spark klastra, który będzie uruchamiał potok. To pole jest opcjonalne. Elementy muszą być sformatowane jako pary key:value. |
clusters |
Tablica pipelinesNewCluster | Tablica specyfikacji klastrów do uruchomienia potoku. To pole jest opcjonalne. Jeśli nie zostanie określony, system wybierze domyślną konfigurację klastra dla potoku. |
libraries |
Tablica elementów PipelineLibrary | Notesy zawierające kod potoku i wszelkie zależności wymagane do uruchomienia potoku. |
target |
STRING |
Nazwa bazy danych do utrwalania danych wyjściowych potoku. Aby uzyskać więcej informacji, zobacz Publikowanie danych z tabel delta Live Tables do magazynu metadanych Hive. |
continuous |
BOOLEAN |
Czy jest to potok ciągły. To pole jest opcjonalne. Domyślna wartość to false . |
development |
BOOLEAN |
Czy należy uruchomić potok w trybie programowania. To pole jest opcjonalne. Domyślna wartość to false . |
photon |
BOOLEAN |
Określa, czy dla tego potoku włączono przyspieszanie photon. To pole jest opcjonalne. Domyślna wartość to false . |
channel |
STRING |
Kanał wydania usługi Delta Live Tables określający wersję środowiska uruchomieniowego do użycia dla tego potoku. Obsługiwane wartości to: * preview aby przetestować potok z nadchodzącymi zmianami w środowisku uruchomieniowym delta Live Tables.* current aby użyć bieżącej wersji środowiska uruchomieniowego usługi Delta Live Tables.To pole jest opcjonalne. Domyślna wartość to current . |
edition |
STRING |
Wersja produktu Delta Live Tables w celu uruchomienia potoku: * CORE obsługuje pozyskiwanie obciążeń przesyłania strumieniowego.* PRO Obsługuje również obciążenia pozyskiwania przesyłania strumieniowego i dodaje obsługę przetwarzania przechwytywania zmian danych (CDC).* ADVANCED obsługuje wszystkie funkcje PRO wersji i dodaje obsługę obciążeń, które wymagają oczekiwań usługi Delta Live Tables w celu wymuszenia ograniczeń jakości danych.To pole jest opcjonalne. Domyślna wartość to advanced . |
PipelineStateInfo
Stan potoku, stan najnowszych aktualizacji i informacje o skojarzonych zasobach.
Nazwa pola | Type | Opis |
---|---|---|
state |
STRING |
Stan potoku. Jeden z IDLE lub RUNNING . |
pipeline_id |
STRING |
Unikatowy identyfikator potoku. |
cluster_id |
STRING |
Unikatowy identyfikator klastra uruchamiającego potok. |
name |
STRING |
Przyjazna dla użytkownika nazwa potoku. |
latest_updates |
Tablica UpdateStateInfo | Stan najnowszych aktualizacji potoku uporządkowany przy użyciu najnowszej aktualizacji. |
creator_user_name |
STRING |
Nazwa użytkownika twórcy potoku. |
run_as_user_name |
STRING |
Nazwa użytkownika uruchamiana przez potok jako. Jest to wartość tylko do odczytu pochodząca od właściciela potoku. |
UpdateStateInfo
Bieżący stan aktualizacji potoku.
Nazwa pola | Type | Opis |
---|---|---|
update_id |
STRING |
Unikatowy identyfikator tej aktualizacji. |
state |
STRING |
Stan aktualizacji. QUEUED Jeden z , , CREATED WAITING_FOR_RESOURCES , , INITIALIZING , , RESETTING SETTING_UP_TABLES , , RUNNING , STOPPING , , COMPLETED FAILED lub CANCELED . |
creation_time |
STRING |
Sygnatura czasowa utworzenia tej aktualizacji. |
WorkspaceStorageInfo
Informacje o magazynie obszaru roboczego.
Nazwa pola | Type | Opis |
---|---|---|
destination |
STRING |
Miejsce docelowe pliku. Przykład: /Users/someone@domain.com/init_script.sh |
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla