Guia da API Delta Live Tables
Importante
O conteúdo deste artigo foi retirado e pode não ser atualizado. Consulte Delta Live Tables na Referência da API REST do Databricks.
A API Delta Live Tables permite criar, editar, excluir, iniciar e visualizar detalhes sobre pipelines.
Importante
Para aceder às APIs REST do Databricks, tem de se autenticar.
Criar um pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines |
POST |
Cria um novo pipeline Delta Live Tables.
Exemplo
Este exemplo cria um novo pipeline acionado.
Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}
Estrutura do pedido
Consulte PipelineSettings.
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
pipeline_id | STRING |
O identificador exclusivo para o pipeline recém-criado. |
Editar um pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
PUT |
Atualiza as configurações de um pipeline existente.
Exemplo
Este exemplo adiciona um target
parâmetro ao pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Estrutura do pedido
Consulte PipelineSettings.
Excluir um pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
DELETE |
Exclui um pipeline do sistema Delta Live Tables.
Exemplo
Este exemplo exclui o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Iniciar uma atualização de pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates |
POST |
Inicia uma atualização para um pipeline. Você pode iniciar uma atualização para todo o gráfico de pipeline ou uma atualização seletiva de tabelas específicas.
Exemplos
Iniciar uma atualização completa
Este exemplo inicia uma atualização com atualização completa para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Iniciar uma atualização das tabelas selecionadas
Este exemplo inicia uma atualização que atualiza as sales_orders_cleaned
tabelas e sales_order_in_chicago
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Iniciar uma atualização completa das tabelas selecionadas
Este exemplo inicia uma atualização das sales_orders_cleaned
tabelas e sales_order_in_chicago
e uma atualização com atualização completa das customers
tabelas e sales_orders_raw
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Estrutura do pedido
Nome do Campo | Tipo | Description |
---|---|---|
full_refresh |
BOOLEAN |
Se todos os dados devem ser reprocessados. Se true , o sistema Delta Live Tables redefine todas as tabelas que são reinicializáveis antes de executar o pipeline.Este campo é opcional. O valor predefinido é false .Um erro é retornado se full_refesh for true e ou refresh_selection full_refresh_selection estiver definido. |
refresh_selection |
Uma matriz de STRING |
Uma lista de tabelas a serem atualizadas. Utilizarrefresh_selection para iniciar uma atualização de um conjunto selecionado de tabelas no gráfico de pipeline.Este campo é opcional. Se ambos refresh_selection e aindafull_refresh_selection estão vazios, todo o gráfico de pipeline é atualizado.Um erro será retornado se: * full_refesh é verdadeira erefresh_selection está definido.* Uma ou mais das tabelas especificadas não existem no gráfico de pipeline. |
full_refresh_selection |
Uma matriz de STRING |
Uma lista de tabelas a serem atualizadas com atualização completa. Use full_refresh_selection para iniciar uma atualização de um conjunto selecionado de tabelas. Os estados das tabelas especificadas são redefinidos antes que o sistema Delta Live Tables inicie a atualização.Este campo é opcional. Se ambos refresh_selection e aindafull_refresh_selection estão vazios, todo o gráfico de pipeline é atualizado.Um erro será retornado se: * full_refesh é verdadeira erefresh_selection está definido.* Uma ou mais das tabelas especificadas não existem no gráfico de pipeline. * Uma ou mais das tabelas especificadas não são reinicializáveis. |
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
update_id |
STRING |
O identificador exclusivo da atualização recém-criada. |
request_id |
STRING |
O identificador exclusivo da solicitação que iniciou a atualização. |
Obter o status de uma solicitação de atualização de pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id}/requests/{request_id} |
GET |
Obtém o status e as informações da atualização do pipeline associada ao request_id
, onde request_id
é um identificador exclusivo para a solicitação que inicia a atualização do pipeline. Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id.
Exemplo
Para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
, este exemplo retorna status e informações para a atualização associada à ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429
da solicitação:
Pedir
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
status |
STRING |
O status da solicitação de atualização do pipeline. Um de * ACTIVE : Uma atualização para esta solicitação está sendo executada ativamente ou pode ser repetida em uma nova atualização.* TERMINATED : A solicitação é encerrada e não será repetida ou reiniciada. |
pipeline_id |
STRING |
O identificador exclusivo do pipeline. |
update_id |
STRING |
O identificador exclusivo da atualização. |
config |
Configurações do pipeline | As configurações do pipeline. |
cause |
STRING |
O gatilho para a atualização. Um dos API_CALL ,RETRY_ON_FAILURE , SERVICE_UPGRADE , SCHEMA_CHANGE ,JOB_TASK , ou USER_ACTION . |
state |
STRING |
O estado da atualização. Um dos QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
cluster_id |
STRING |
O identificador do cluster que executa a atualização. |
creation_time |
INT64 |
O carimbo de data/hora quando a atualização foi criada. |
full_refresh |
BOOLEAN |
Se esta atualização redefine todas as tabelas antes da execução |
refresh_selection |
Uma matriz de STRING |
Uma lista de tabelas a serem atualizadas sem atualização completa. |
full_refresh_selection |
Uma matriz de STRING |
Uma lista de tabelas a serem atualizadas com atualização completa. |
request_id |
STRING |
O identificador exclusivo da solicitação que iniciou a atualização. Este é o valor retornado pela solicitação de atualização . Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id. No entanto, a update_id vontade será diferente. |
Parar qualquer atualização de pipeline ativa
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id}/stop |
POST |
Interrompe qualquer atualização de pipeline ativa. Se nenhuma atualização estiver em execução, essa solicitação será um no-op.
Para um pipeline contínuo, a execução do pipeline é pausada. As tabelas atualmente em processamento terminam a atualização, mas as tabelas a jusante não são atualizadas. Na próxima atualização de pipeline, o Delta Live Tables executa uma atualização selecionada de tabelas que não concluíram o processamento e retoma o processamento do DAG de pipeline restante.
Para um pipeline acionado, a execução do pipeline é interrompida. As tabelas atualmente em processamento terminam a atualização, mas as tabelas a jusante não são atualizadas. Na próxima atualização de pipeline, o Delta Live Tables atualiza todas as tabelas.
Exemplo
Este exemplo interrompe uma atualização para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Listar eventos de pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id}/events |
GET |
Recupera eventos para um pipeline.
Exemplo
Este exemplo recupera um máximo de 5 eventos para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Pedir
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Estrutura do pedido
Nome do Campo | Tipo | Description |
---|---|---|
page_token |
STRING |
Token de página retornado por chamada anterior. Este campo é mutuamente exclusivo com todos os campos deste pedido, exceto max_results. Um erro será retornado se algum campo diferente de max_results for definido quando esse campo for definido. Este campo é opcional. |
max_results |
INT32 |
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos do que max_results eventos em uma resposta, mesmo que haja mais eventos disponíveis.Este campo é opcional. O valor predefinido é 25. O valor máximo é 100. Um erro será retornado se o valor de max_results é superior a 100. |
order_by |
STRING |
Uma cadeia de caracteres que indica uma ordem de classificação por carimbo de data/hora para os resultados, por exemplo, ["timestamp asc"] .A ordem de classificação pode ser crescente ou decrescente. Por padrão, os eventos são retornados em ordem decrescente por carimbo de data/hora. Este campo é opcional. |
filter |
STRING |
Critérios para selecionar um subconjunto de resultados, expressos usando uma sintaxe semelhante a SQL. Os filtros suportados são: * level='INFO' (ou WARN ERROR )* level in ('INFO', 'WARN') * id='[event-id]' * timestamp > 'TIMESTAMP' (ou >= ,< ,<= ,= )Há suporte para expressões compostas, por exemplo: level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z' Este campo é opcional. |
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
events |
Uma matriz de eventos de pipeline. | A lista de eventos que correspondem aos critérios de solicitação. |
next_page_token |
STRING |
Se estiver presente, um token para buscar a próxima página de eventos. |
prev_page_token |
STRING |
Se estiver presente, um token para buscar a página anterior de eventos. |
Obter detalhes do pipeline
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
GET |
Obtém detalhes sobre um pipeline, incluindo as configurações do pipeline e as atualizações recentes.
Exemplo
Este exemplo obtém detalhes para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
pipeline_id |
STRING |
O identificador exclusivo do pipeline. |
spec |
Configurações do pipeline | As configurações do pipeline. |
state |
STRING |
O estado do gasoduto. Um de IDLE ou RUNNING .Se state = RUNNING , então há pelo menos uma atualização ativa. |
cluster_id |
STRING |
O identificador do cluster que executa o pipeline. |
name |
STRING |
O nome amigável para esse pipeline. |
creator_user_name |
STRING |
O nome de usuário do criador do pipeline. |
latest_updates |
Uma matriz de UpdateStateInfo | Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
run_as_user_name |
STRING |
O nome de usuário como o pipeline é executado. |
Obter detalhes da atualização
Ponto final | Método HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates/{update_id} |
GET |
Obtém detalhes para uma atualização de pipeline.
Exemplo
Este exemplo obtém detalhes para atualização 9a84f906-fc51-11eb-9a03-0242ac130003
para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Pedir
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
pipeline_id |
STRING |
O identificador exclusivo do pipeline. |
update_id |
STRING |
O identificador exclusivo desta atualização. |
config |
Configurações do pipeline | As configurações do pipeline. |
cause |
STRING |
O gatilho para a atualização. Um dos API_CALL ,RETRY_ON_FAILURE , SERVICE_UPGRADE . |
state |
STRING |
O estado da atualização. Um dos QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
cluster_id |
STRING |
O identificador do cluster que executa o pipeline. |
creation_time |
INT64 |
O carimbo de data/hora quando a atualização foi criada. |
full_refresh |
BOOLEAN |
Se isso foi uma atualização completa. Se verdadeiro, todas as tabelas de pipeline foram redefinidas antes de executar a atualização. |
Listar pipelines
Ponto final | Método HTTP |
---|---|
2.0/pipelines/ |
GET |
Lista os pipelines definidos no sistema Delta Live Tables.
Exemplo
Este exemplo recupera detalhes de pipelines em que o nome contém quickstart
:
Pedir
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Azure Databricks, por exemploadb-1234567890123456.7.azuredatabricks.net
.
Este exemplo usa um arquivo .netrc .
Response
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Estrutura do pedido
Nome do Campo | Tipo | Description |
---|---|---|
page_token |
STRING |
Token de página retornado por chamada anterior. Este campo é opcional. |
max_results |
INT32 |
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos do que max_results eventos em uma resposta, mesmo que haja mais eventos disponíveis.Este campo é opcional. O valor predefinido é 25. O valor máximo é 100. Um erro será retornado se o valor de max_results é superior a 100. |
order_by |
Uma matriz de STRING |
Uma lista de cadeias de caracteres especificando a ordem dos resultados, por exemplo,["name asc"] . Os campos suportados order_by são id ename . A predefinição é id asc .Este campo é opcional. |
filter |
STRING |
Selecione um subconjunto de resultados com base nos critérios especificados. Os filtros suportados são: "notebook='<path>'" para selecionar pipelines que fazem referência ao caminho do bloco de anotações fornecido.name LIKE '[pattern]' para selecionar pipelines com um nome que corresponda pattern ao . Há suporte para curingas, por exemplo:name LIKE '%shopping%' Não há suporte para filtros compostos. Este campo é opcional. |
Estrutura de resposta
Nome do Campo | Tipo | Description |
---|---|---|
statuses |
Uma matriz de PipelineStateInfo | A lista de eventos que correspondem aos critérios de solicitação. |
next_page_token |
STRING |
Se estiver presente, um token para buscar a próxima página de eventos. |
prev_page_token |
STRING |
Se estiver presente, um token para buscar a página anterior de eventos. |
Estruturas de dados
Nesta secção:
- ABFSSStorageInfo
- ClusterLogConf
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- Valor-chave
- Biblioteca de Notebooks
- PipelinesAutoScale
- Biblioteca de Pipeline
- PipelinesNewCluster
- Configurações do pipeline
- PipelineStateInfo
- UpdateStateInfo
- WorkspaceStorageInfo
ABFSSStorageInfo
Informações de armazenamento do Azure Data Lake Storage (ADLS).
Nome do Campo | Tipo | Description |
---|---|---|
destination |
STRING |
Destino do ficheiro. Exemplo: abfss://... |
ClusterLogConf
Caminho para o log de cluster.
Nome do Campo | Tipo | Description |
---|---|---|
dbfs |
DbfsStorageInfo | Localização DBFS do log de cluster. O destino deve ser fornecido. Por exemplo,{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
DbfsStorageInfo
Informações de armazenamento DBFS.
Nome do Campo | Tipo | Description |
---|---|---|
destination |
STRING |
Destino DBFS. Exemplo: dbfs:/my/path |
FileStorageInfo
Informações de armazenamento de arquivos.
Nota
Esse tipo de local só está disponível para clusters configurados usando o Databricks Container Services.
Nome do Campo | Tipo | Description |
---|---|---|
destination |
STRING |
Destino do ficheiro. Exemplo: file:/my/file.sh |
InitScriptInfo
Caminho para um script init.
Para obter instruções sobre como usar scripts init com o Databricks Container Services, consulte Usar um script init.
Nota
O tipo de armazenamento de arquivos (nome do campo: file
) só está disponível para clusters configurados usando os Serviços de Contêiner do Databricks. Consulte FileStorageInfo.
Nome do Campo | Tipo | Description |
---|---|---|
workspace OUdbfs (preterido)OU abfss |
WorkspaceStorageInfo DbfsStorageInfo (preterido) ABFSSStorageInfo |
Local do espaço de trabalho do script init. O destino deve ser fornecido. Por exemplo,{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Preterido) Localização DBFS do script init. O destino deve ser fornecido. Por exemplo, { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Local do script de inicialização do Azure Data Lake Storage (ADLS). O destino deve ser fornecido. Por exemplo, { "abfss": { "destination" : "abfss://..." } } |
Valor-chave
Um par chave-valor que especifica parâmetros de configuração.
Nome do Campo | Tipo | Description |
---|---|---|
key |
STRING |
O nome da propriedade de configuração. |
value |
STRING |
O valor da propriedade de configuração. |
Biblioteca de Notebooks
Uma especificação para um bloco de anotações contendo código de pipeline.
Nome do Campo | Tipo | Description |
---|---|---|
path |
STRING |
O caminho absoluto para o caderno. Este campo é obrigatório. |
PipelinesAutoScale
Atributos que definem um cluster de dimensionamento automático.
Nome do Campo | Tipo | Description |
---|---|---|
min_workers |
INT32 |
O número mínimo de trabalhadores para o qual o cluster pode ser reduzido quando subutilizado. É também o número inicial de trabalhadores que o cluster terá após a criação. |
max_workers |
INT32 |
O número máximo de trabalhadores para o qual o cluster pode ser dimensionado quando sobrecarregado. max_workers deve ser rigorosamente superior a min_workers. |
mode |
STRING |
O modo de dimensionamento automático para o cluster: * ENHANCED para usar o dimensionamento automático avançado.* LEGACY para usar a funcionalidade de dimensionamento automático do cluster. |
Biblioteca de Pipeline
Uma especificação para dependências de pipeline.
Nome do Campo | Tipo | Description |
---|---|---|
notebook |
Biblioteca de Notebooks | O caminho para um bloco de anotações que define conjuntos de dados Delta Live Tables. O caminho deve estar no espaço de trabalho Databricks, por exemplo:{ "notebook" : { "path" : "/my-pipeline-notebook-path" } } . |
PipelinesNewCluster
Uma especificação de cluster de pipeline.
O sistema Delta Live Tables define os seguintes atributos. Esses atributos não podem ser configurados pelos usuários:
spark_version
Nome do Campo | Tipo | Description |
---|---|---|
label |
STRING |
Um rótulo para a especificação do cluster, oudefault para configurar o cluster padrão, oumaintenance para configurar o cluster de manutenção.Este campo é opcional. O valor predefinido é default . |
spark_conf |
Valor-chave | Um objeto que contém um conjunto de pares opcionais de chave-valor de configuração do Spark especificados pelo usuário. Você também pode passar uma sequência de opções JVM extras para o driver e os executores viaspark.driver.extraJavaOptions e spark.executor.extraJavaOptions respetivamente.Exemplo de confs Spark: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} ou{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Este campo codifica, através de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho de memória ou computação intensiva Uma lista de tipos de nós disponíveis pode ser recuperada usando a chamada da API de Clusters. |
driver_node_type_id |
STRING |
O tipo de nó do driver Spark. Este campo é opcional; Se desdefinido, o tipo de nó do driver será definido como o mesmo valor node_type_id definido acima. |
ssh_public_keys |
Uma matriz de STRING |
Conteúdo de chave pública SSH que será adicionado a cada nó do Spark neste cluster. As chaves privadas correspondentes podem ser usadas para fazer login com o nome ubuntu de usuário na porta 2200 . Até 10 chaves podem ser especificadas. |
custom_tags |
Valor-chave | Um objeto que contém um conjunto de tags para recursos de cluster. O Databricks marca todos os recursos do cluster com essas tags, além de default_tags. Nota: * As tags não são suportadas em tipos de nós herdados, como computação otimizada e memória otimizada * O Azure Databricks permite no máximo 45 tags personalizadas. |
cluster_log_conf |
ClusterLogConf | A configuração para entregar logs do Spark a um destino de armazenamento de longo prazo. Apenas um destino pode ser especificado para um cluster. Se essa configuração for fornecida, os logs serão entregues ao destino a cada5 mins . O destino dos logs de driver é <destination>/<cluster-ID>/driver , enquanto o destino dos logs do executor é <destination>/<cluster-ID>/executor . |
spark_env_vars |
Valor-chave | Um objeto que contém um conjunto de pares opcionais de variável de ambiente especificados pelo usuário chave-valor. Os pares chave-valor do formulário (X,Y) são exportados como estão (ou seja,export X='Y' ) ao lançar o motorista e os trabalhadores.Para especificar um conjunto adicional de SPARK_DAEMON_JAVA_OPTS , Databricks recomenda anexá-los como $SPARK_DAEMON_JAVA_OPTS mostrado no exemplo a seguir. Isso garante que todas as variáveis ambientais gerenciadas padrão do Azure Databricks também sejam incluídas.Exemplo de variáveis de ambiente do Spark: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} ou{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
init_scripts |
Uma matriz de InitScriptInfo | A configuração para armazenar scripts init. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Se cluster_log_conf for especificado, os logs de script de inicialização serão enviados para<destination>/<cluster-ID>/init_scripts . |
instance_pool_id |
STRING |
A ID opcional do pool de instâncias ao qual o cluster pertence. Consulte Referência de configuração do pool. |
driver_instance_pool_id |
STRING |
A ID opcional do pool de instâncias a ser usado para o nó do driver. Você também deve especificarinstance_pool_id . Consulte API de pools de instâncias. |
policy_id |
STRING |
Uma ID de política de cluster. |
num_workers OR autoscale |
INT32 OU InitScriptInfo |
Se num_workers, número de nós de trabalho que esse cluster deve ter. Um cluster tem um driver Spark e num_workers executores para um total de num_workers + 1 nós Spark. Ao ler as propriedades de um cluster, esse campo reflete o número desejado de trabalhadores em vez do número real de trabalhadores. Por exemplo, se um cluster for redimensionado de 5 para 10 trabalhadores, esse campo será atualizado para refletir o tamanho alvo de 10 trabalhadores, enquanto os trabalhadores listados em executores aumentam gradualmente de 5 para 10 à medida que os novos nós são provisionados. Se o dimensionamento automático, os parâmetros necessários para dimensionar automaticamente os clusters para cima e para baixo com base na carga. Este campo é opcional. |
apply_policy_default_values |
BOOLEAN |
Se os valores padrão de política devem ser usados para atributos de cluster ausentes. |
Configurações do pipeline
As configurações para uma implantação de pipeline.
Nome do Campo | Tipo | Description |
---|---|---|
id |
STRING |
O identificador exclusivo para esse pipeline. O identificador é criado pelo sistema Delta Live Tables e não deve ser fornecido ao criar um pipeline. |
name |
STRING |
Um nome amigável para esse pipeline. Este campo é opcional. Por padrão, o nome do pipeline deve ser exclusivo. Para usar um nome duplicado, defina allow_duplicate_names como true na configuração do pipeline. |
storage |
STRING |
Um caminho para um diretório DBFS para armazenar pontos de verificação e tabelas criadas pelo pipeline. Este campo é opcional. O sistema usa um local padrão se esse campo estiver vazio. |
configuration |
Um mapa de STRING:STRING |
Uma lista de pares chave-valor a serem adicionados à configuração do Spark do cluster que executará o pipeline. Este campo é opcional. Os elementos devem ser formatados como pares chave:valor. |
clusters |
Uma matriz de PipelinesNewCluster | Uma matriz de especificações para os clusters executarem o pipeline. Este campo é opcional. Se isso não for especificado, o sistema selecionará uma configuração de cluster padrão para o pipeline. |
libraries |
Uma matriz de PipelineLibrary | Os blocos de anotações que contêm o código do pipeline e quaisquer dependências necessárias para executar o pipeline. |
target |
STRING |
Um nome de banco de dados para dados de saída de pipeline persistentes. Consulte Publicar dados do Delta Live Tables no metastore do Hive para obter mais informações. |
continuous |
BOOLEAN |
Se este é um pipeline contínuo. Este campo é opcional. O valor predefinido é false . |
development |
BOOLEAN |
Se o pipeline deve ser executado no modo de desenvolvimento. Este campo é opcional. O valor predefinido é false . |
photon |
BOOLEAN |
Se a aceleração de fótons está habilitada para esse pipeline. Este campo é opcional. O valor predefinido é false . |
channel |
STRING |
O canal de lançamento Delta Live Tables especificando a versão de tempo de execução a ser usada para esse pipeline. Os valores suportados são: * preview para testar o pipeline com alterações futuras no tempo de execução do Delta Live Tables.* current para usar a versão atual do tempo de execução do Delta Live Tables.Este campo é opcional. O valor predefinido é current . |
edition |
STRING |
A edição do produto Delta Live Tables para executar o pipeline: * CORE suporta cargas de trabalho de ingestão de streaming.* PRO também suporta cargas de trabalho de ingestão de streaming e adiciona suporte para processamento de captura de dados de alteração (CDC).* ADVANCED suporta todos os recursos da edição e adiciona suporte para cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de PRO dados.Este campo é opcional. O valor predefinido é advanced . |
PipelineStateInfo
O estado de um pipeline, o status das atualizações mais recentes e informações sobre recursos associados.
Nome do Campo | Tipo | Description |
---|---|---|
state |
STRING |
O estado do gasoduto. Um de IDLE ou RUNNING . |
pipeline_id |
STRING |
O identificador exclusivo do pipeline. |
cluster_id |
STRING |
O identificador exclusivo do cluster que executa o pipeline. |
name |
STRING |
O nome amigável do pipeline. |
latest_updates |
Uma matriz de UpdateStateInfo | Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
creator_user_name |
STRING |
O nome de usuário do criador do pipeline. |
run_as_user_name |
STRING |
O nome de usuário como o pipeline é executado. Este é um valor somente leitura derivado do proprietário do pipeline. |
UpdateStateInfo
O estado atual de uma atualização de pipeline.
Nome do Campo | Tipo | Description |
---|---|---|
update_id |
STRING |
O identificador exclusivo para esta atualização. |
state |
STRING |
O estado da atualização. Um dos QUEUED , CREATED ,WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
creation_time |
STRING |
Carimbo de data/hora quando esta atualização foi criada. |
WorkspaceStorageInfo
Informações de armazenamento do espaço de trabalho.
Nome do Campo | Tipo | Description |
---|---|---|
destination |
STRING |
Destino do ficheiro. Exemplo: /Users/someone@domain.com/init_script.sh |
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários