Partilhar via


Guia da API Delta Live Tables

Importante

O conteúdo deste artigo foi retirado e pode não ser atualizado. Consulte Delta Live Tables na Referência da API REST do Databricks.

A API Delta Live Tables permite criar, editar, excluir, iniciar e visualizar detalhes sobre pipelines.

Importante

Para aceder às APIs REST do Databricks, tem de se autenticar.

Criar um pipeline

Ponto final Método HTTP
2.0/pipelines POST

Cria um novo pipeline Delta Live Tables.

Exemplo

Este exemplo cria um novo pipeline acionado.

Pedir

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Substituir:

Este exemplo usa um arquivo .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Estrutura do pedido

Consulte PipelineSettings.

Estrutura de resposta

Nome do Campo Tipo Description
pipeline_id STRING O identificador exclusivo para o pipeline recém-criado.

Editar um pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id} PUT

Atualiza as configurações de um pipeline existente.

Exemplo

Este exemplo adiciona um target parâmetro ao pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Substituir:

Este exemplo usa um arquivo .netrc .

Estrutura do pedido

Consulte PipelineSettings.

Excluir um pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id} DELETE

Exclui um pipeline do sistema Delta Live Tables.

Exemplo

Este exemplo exclui o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Substituir:

Este exemplo usa um arquivo .netrc .

Iniciar uma atualização de pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id}/updates POST

Inicia uma atualização para um pipeline. Você pode iniciar uma atualização para todo o gráfico de pipeline ou uma atualização seletiva de tabelas específicas.

Exemplos

Iniciar uma atualização completa

Este exemplo inicia uma atualização com atualização completa para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Substituir:

Este exemplo usa um arquivo .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Iniciar uma atualização das tabelas selecionadas

Este exemplo inicia uma atualização que atualiza as sales_orders_cleaned tabelas e sales_order_in_chicago no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Substituir:

Este exemplo usa um arquivo .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Iniciar uma atualização completa das tabelas selecionadas

Este exemplo inicia uma atualização das sales_orders_cleaned tabelas e sales_order_in_chicago e uma atualização com atualização completa das customers tabelas e sales_orders_raw no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Pedir
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Substituir:

Este exemplo usa um arquivo .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Estrutura do pedido

Nome do Campo Tipo Description
full_refresh BOOLEAN Se todos os dados devem ser reprocessados. Se true, o sistema Delta Live Tables redefine todas as tabelas que são reinicializáveis antes de executar o pipeline.

Este campo é opcional.

O valor predefinido é false.

Um erro é retornado se full_refesh for true e ou refresh_selectionfull_refresh_selection estiver definido.
refresh_selection Uma matriz de STRING Uma lista de tabelas a serem atualizadas. Utilizar
refresh_selection para iniciar uma atualização de um conjunto selecionado de tabelas no gráfico de pipeline.

Este campo é opcional. Se ambos
refresh_selection e ainda
full_refresh_selection estão vazios, todo o gráfico de pipeline é atualizado.

Um erro será retornado se:

* full_refesh é verdadeira e
refresh_selection está definido.
* Uma ou mais das tabelas especificadas não existem no gráfico de pipeline.
full_refresh_selection Uma matriz de STRING Uma lista de tabelas a serem atualizadas com atualização completa. Use full_refresh_selection para iniciar uma atualização de um conjunto selecionado de tabelas. Os estados das tabelas especificadas são redefinidos antes que o sistema Delta Live Tables inicie a atualização.

Este campo é opcional. Se ambos
refresh_selection e ainda
full_refresh_selection estão vazios, todo o gráfico de pipeline é atualizado.

Um erro será retornado se:

* full_refesh é verdadeira e
refresh_selection está definido.
* Uma ou mais das tabelas especificadas não existem no gráfico de pipeline.
* Uma ou mais das tabelas especificadas não são reinicializáveis.

Estrutura de resposta

Nome do Campo Tipo Description
update_id STRING O identificador exclusivo da atualização recém-criada.
request_id STRING O identificador exclusivo da solicitação que iniciou a atualização.

Obter o status de uma solicitação de atualização de pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Obtém o status e as informações da atualização do pipeline associada ao request_id, onde request_id é um identificador exclusivo para a solicitação que inicia a atualização do pipeline. Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id.

Exemplo

Para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, este exemplo retorna status e informações para a atualização associada à ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429da solicitação:

Pedir

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Substituir:

Este exemplo usa um arquivo .netrc .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Estrutura de resposta

Nome do Campo Tipo Description
status STRING O status da solicitação de atualização do pipeline. Um de

* ACTIVE: Uma atualização para esta solicitação está sendo executada ativamente ou pode ser repetida em uma nova atualização.
* TERMINATED: A solicitação é encerrada e não será repetida ou reiniciada.
pipeline_id STRING O identificador exclusivo do pipeline.
update_id STRING O identificador exclusivo da atualização.
config Configurações do pipeline As configurações do pipeline.
cause STRING O gatilho para a atualização. Um dos API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE,
JOB_TASK, ou USER_ACTION.
state STRING O estado da atualização. Um dos QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
cluster_id STRING O identificador do cluster que executa a atualização.
creation_time INT64 O carimbo de data/hora quando a atualização foi criada.
full_refresh BOOLEAN Se esta atualização redefine todas as tabelas antes da execução
refresh_selection Uma matriz de STRING Uma lista de tabelas a serem atualizadas sem atualização completa.
full_refresh_selection Uma matriz de STRING Uma lista de tabelas a serem atualizadas com atualização completa.
request_id STRING O identificador exclusivo da solicitação que iniciou a atualização. Este é o valor retornado pela solicitação de atualização . Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id. No entanto, a update_id vontade será diferente.

Parar qualquer atualização de pipeline ativa

Ponto final Método HTTP
2.0/pipelines/{pipeline_id}/stop POST

Interrompe qualquer atualização de pipeline ativa. Se nenhuma atualização estiver em execução, essa solicitação será um no-op.

Para um pipeline contínuo, a execução do pipeline é pausada. As tabelas atualmente em processamento terminam a atualização, mas as tabelas a jusante não são atualizadas. Na próxima atualização de pipeline, o Delta Live Tables executa uma atualização selecionada de tabelas que não concluíram o processamento e retoma o processamento do DAG de pipeline restante.

Para um pipeline acionado, a execução do pipeline é interrompida. As tabelas atualmente em processamento terminam a atualização, mas as tabelas a jusante não são atualizadas. Na próxima atualização de pipeline, o Delta Live Tables atualiza todas as tabelas.

Exemplo

Este exemplo interrompe uma atualização para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Substituir:

Este exemplo usa um arquivo .netrc .

Listar eventos de pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id}/events GET

Recupera eventos para um pipeline.

Exemplo

Este exemplo recupera um máximo de 5 eventos para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Pedir

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Substituir:

Este exemplo usa um arquivo .netrc .

Estrutura do pedido

Nome do Campo Tipo Description
page_token STRING Token de página retornado por chamada anterior. Este campo é mutuamente exclusivo com todos os campos deste pedido, exceto max_results. Um erro será retornado se algum campo diferente de max_results for definido quando esse campo for definido.

Este campo é opcional.
max_results INT32 O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos do que max_results eventos em uma resposta, mesmo que haja mais eventos disponíveis.

Este campo é opcional.

O valor predefinido é 25.

O valor máximo é 100. Um erro será retornado se o valor de
max_results é superior a 100.
order_by STRING Uma cadeia de caracteres que indica uma ordem de classificação por carimbo de data/hora para os resultados, por exemplo, ["timestamp asc"].

A ordem de classificação pode ser crescente ou decrescente. Por padrão, os eventos são retornados em ordem decrescente por carimbo de data/hora.

Este campo é opcional.
filter STRING Critérios para selecionar um subconjunto de resultados, expressos usando uma sintaxe semelhante a SQL. Os filtros suportados são:

* level='INFO' (ou WARNERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (ou >=,<,<=,=)

Há suporte para expressões compostas, por exemplo:
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Este campo é opcional.

Estrutura de resposta

Nome do Campo Tipo Description
events Uma matriz de eventos de pipeline. A lista de eventos que correspondem aos critérios de solicitação.
next_page_token STRING Se estiver presente, um token para buscar a próxima página de eventos.
prev_page_token STRING Se estiver presente, um token para buscar a página anterior de eventos.

Obter detalhes do pipeline

Ponto final Método HTTP
2.0/pipelines/{pipeline_id} GET

Obtém detalhes sobre um pipeline, incluindo as configurações do pipeline e as atualizações recentes.

Exemplo

Este exemplo obtém detalhes para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Substituir:

Este exemplo usa um arquivo .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Estrutura de resposta

Nome do Campo Tipo Description
pipeline_id STRING O identificador exclusivo do pipeline.
spec Configurações do pipeline As configurações do pipeline.
state STRING O estado do gasoduto. Um de IDLE ou RUNNING.

Se state = RUNNING, então há pelo menos uma atualização ativa.
cluster_id STRING O identificador do cluster que executa o pipeline.
name STRING O nome amigável para esse pipeline.
creator_user_name STRING O nome de usuário do criador do pipeline.
latest_updates Uma matriz de UpdateStateInfo Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro.
run_as_user_name STRING O nome de usuário como o pipeline é executado.

Obter detalhes da atualização

Ponto final Método HTTP
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Obtém detalhes para uma atualização de pipeline.

Exemplo

Este exemplo obtém detalhes para atualização 9a84f906-fc51-11eb-9a03-0242ac130003 para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Pedir

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Substituir:

Este exemplo usa um arquivo .netrc .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Estrutura de resposta

Nome do Campo Tipo Description
pipeline_id STRING O identificador exclusivo do pipeline.
update_id STRING O identificador exclusivo desta atualização.
config Configurações do pipeline As configurações do pipeline.
cause STRING O gatilho para a atualização. Um dos API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE.
state STRING O estado da atualização. Um dos QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
cluster_id STRING O identificador do cluster que executa o pipeline.
creation_time INT64 O carimbo de data/hora quando a atualização foi criada.
full_refresh BOOLEAN Se isso foi uma atualização completa. Se verdadeiro, todas as tabelas de pipeline foram redefinidas antes de executar a atualização.

Listar pipelines

Ponto final Método HTTP
2.0/pipelines/ GET

Lista os pipelines definidos no sistema Delta Live Tables.

Exemplo

Este exemplo recupera detalhes de pipelines em que o nome contém quickstart:

Pedir

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Substituir:

Este exemplo usa um arquivo .netrc .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Estrutura do pedido

Nome do Campo Tipo Description
page_token STRING Token de página retornado por chamada anterior.

Este campo é opcional.
max_results INT32 O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos do que max_results eventos em uma resposta, mesmo que haja mais eventos disponíveis.

Este campo é opcional.

O valor predefinido é 25.

O valor máximo é 100. Um erro será retornado se o valor de
max_results é superior a 100.
order_by Uma matriz de STRING Uma lista de cadeias de caracteres especificando a ordem dos resultados, por exemplo,
["name asc"]. Os campos suportados order_by são id e
name. A predefinição é id asc.

Este campo é opcional.
filter STRING Selecione um subconjunto de resultados com base nos critérios especificados.

Os filtros suportados são:

"notebook='<path>'" para selecionar pipelines que fazem referência ao caminho do bloco de anotações fornecido.

name LIKE '[pattern]' para selecionar pipelines com um nome que corresponda patternao . Há suporte para curingas, por exemplo:
name LIKE '%shopping%'

Não há suporte para filtros compostos.

Este campo é opcional.

Estrutura de resposta

Nome do Campo Tipo Description
statuses Uma matriz de PipelineStateInfo A lista de eventos que correspondem aos critérios de solicitação.
next_page_token STRING Se estiver presente, um token para buscar a próxima página de eventos.
prev_page_token STRING Se estiver presente, um token para buscar a página anterior de eventos.

Estruturas de dados

Nesta secção:

ABFSSStorageInfo

Informações de armazenamento do Azure Data Lake Storage (ADLS).

Nome do Campo Tipo Description
destination STRING Destino do ficheiro. Exemplo: abfss://...

ClusterLogConf

Caminho para o log de cluster.

Nome do Campo Tipo Description
dbfs DbfsStorageInfo Localização DBFS do log de cluster. O destino deve ser fornecido. Por exemplo,
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

Informações de armazenamento DBFS.

Nome do Campo Tipo Description
destination STRING Destino DBFS. Exemplo: dbfs:/my/path

FileStorageInfo

Informações de armazenamento de arquivos.

Nota

Esse tipo de local só está disponível para clusters configurados usando o Databricks Container Services.

Nome do Campo Tipo Description
destination STRING Destino do ficheiro. Exemplo: file:/my/file.sh

InitScriptInfo

Caminho para um script init.

Para obter instruções sobre como usar scripts init com o Databricks Container Services, consulte Usar um script init.

Nota

O tipo de armazenamento de arquivos (nome do campo: file) só está disponível para clusters configurados usando os Serviços de Contêiner do Databricks. Consulte FileStorageInfo.

Nome do Campo Tipo Description
workspace OU
dbfs (preterido)

OU
abfss
WorkspaceStorageInfo

DbfsStorageInfo (preterido)

ABFSSStorageInfo
Local do espaço de trabalho do script init. O destino deve ser fornecido. Por exemplo,
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Preterido) Localização DBFS do script init. O destino deve ser fornecido. Por exemplo,
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Local do script de inicialização do Azure Data Lake Storage (ADLS). O destino deve ser fornecido. Por exemplo, { "abfss": { "destination" : "abfss://..." } }

Valor-chave

Um par chave-valor que especifica parâmetros de configuração.

Nome do Campo Tipo Description
key STRING O nome da propriedade de configuração.
value STRING O valor da propriedade de configuração.

Biblioteca de Notebooks

Uma especificação para um bloco de anotações contendo código de pipeline.

Nome do Campo Tipo Description
path STRING O caminho absoluto para o caderno.

Este campo é obrigatório.

PipelinesAutoScale

Atributos que definem um cluster de dimensionamento automático.

Nome do Campo Tipo Description
min_workers INT32 O número mínimo de trabalhadores para o qual o cluster pode ser reduzido quando subutilizado. É também o número inicial de trabalhadores que o cluster terá após a criação.
max_workers INT32 O número máximo de trabalhadores para o qual o cluster pode ser dimensionado quando sobrecarregado. max_workers deve ser rigorosamente superior a min_workers.
mode STRING O modo de dimensionamento automático para o cluster:

* ENHANCED para usar o dimensionamento automático avançado.
* LEGACY para usar a funcionalidade de dimensionamento automático do cluster.

Biblioteca de Pipeline

Uma especificação para dependências de pipeline.

Nome do Campo Tipo Description
notebook Biblioteca de Notebooks O caminho para um bloco de anotações que define conjuntos de dados Delta Live Tables. O caminho deve estar no espaço de trabalho Databricks, por exemplo:
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

Uma especificação de cluster de pipeline.

O sistema Delta Live Tables define os seguintes atributos. Esses atributos não podem ser configurados pelos usuários:

  • spark_version
Nome do Campo Tipo Description
label STRING Um rótulo para a especificação do cluster, ou
default para configurar o cluster padrão, ou
maintenance para configurar o cluster de manutenção.

Este campo é opcional. O valor predefinido é default.
spark_conf Valor-chave Um objeto que contém um conjunto de pares opcionais de chave-valor de configuração do Spark especificados pelo usuário. Você também pode passar uma sequência de opções JVM extras para o driver e os executores via
spark.driver.extraJavaOptions e spark.executor.extraJavaOptions respetivamente.

Exemplo de confs Spark:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} ou
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Este campo codifica, através de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho de memória ou computação intensiva Uma lista de tipos de nós disponíveis pode ser recuperada usando a chamada da API de Clusters.
driver_node_type_id STRING O tipo de nó do driver Spark. Este campo é opcional; Se desdefinido, o tipo de nó do driver será definido como o mesmo valor node_type_id definido acima.
ssh_public_keys Uma matriz de STRING Conteúdo de chave pública SSH que será adicionado a cada nó do Spark neste cluster. As chaves privadas correspondentes podem ser usadas para fazer login com o nome ubuntu de usuário na porta 2200. Até 10 chaves podem ser especificadas.
custom_tags Valor-chave Um objeto que contém um conjunto de tags para recursos de cluster. O Databricks marca todos os recursos do cluster com essas tags, além de default_tags.

Nota:

* As tags não são suportadas em tipos de nós herdados, como computação otimizada e memória otimizada
* O Azure Databricks permite no máximo 45 tags personalizadas.
cluster_log_conf ClusterLogConf A configuração para entregar logs do Spark a um destino de armazenamento de longo prazo. Apenas um destino pode ser especificado para um cluster. Se essa configuração for fornecida, os logs serão entregues ao destino a cada
5 mins. O destino dos logs de driver é <destination>/<cluster-ID>/driver, enquanto o destino dos logs do executor é <destination>/<cluster-ID>/executor.
spark_env_vars Valor-chave Um objeto que contém um conjunto de pares opcionais de variável de ambiente especificados pelo usuário chave-valor. Os pares chave-valor do formulário (X,Y) são exportados como estão (ou seja,
export X='Y') ao lançar o motorista e os trabalhadores.

Para especificar um conjunto adicional de SPARK_DAEMON_JAVA_OPTS, Databricks recomenda anexá-los como $SPARK_DAEMON_JAVA_OPTS mostrado no exemplo a seguir. Isso garante que todas as variáveis ambientais gerenciadas padrão do Azure Databricks também sejam incluídas.

Exemplo de variáveis de ambiente do Spark:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} ou
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts Uma matriz de InitScriptInfo A configuração para armazenar scripts init. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Se cluster_log_conf for especificado, os logs de script de inicialização serão enviados para
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING A ID opcional do pool de instâncias ao qual o cluster pertence. Consulte Referência de configuração do pool.
driver_instance_pool_id STRING A ID opcional do pool de instâncias a ser usado para o nó do driver. Você também deve especificar
instance_pool_id. Consulte API de pools de instâncias.
policy_id STRING Uma ID de política de cluster.
num_workers OR autoscale INT32 OU InitScriptInfo Se num_workers, número de nós de trabalho que esse cluster deve ter. Um cluster tem um driver Spark e num_workers executores para um total de num_workers + 1 nós Spark.

Ao ler as propriedades de um cluster, esse campo reflete o número desejado de trabalhadores em vez do número real de trabalhadores. Por exemplo, se um cluster for redimensionado de 5 para 10 trabalhadores, esse campo será atualizado para refletir o tamanho alvo de 10 trabalhadores, enquanto os trabalhadores listados em executores aumentam gradualmente de 5 para 10 à medida que os novos nós são provisionados.

Se o dimensionamento automático, os parâmetros necessários para dimensionar automaticamente os clusters para cima e para baixo com base na carga.

Este campo é opcional.
apply_policy_default_values BOOLEAN Se os valores padrão de política devem ser usados para atributos de cluster ausentes.

Configurações do pipeline

As configurações para uma implantação de pipeline.

Nome do Campo Tipo Description
id STRING O identificador exclusivo para esse pipeline.

O identificador é criado pelo sistema Delta Live Tables e não deve ser fornecido ao criar um pipeline.
name STRING Um nome amigável para esse pipeline.

Este campo é opcional.

Por padrão, o nome do pipeline deve ser exclusivo. Para usar um nome duplicado, defina allow_duplicate_names como true na configuração do pipeline.
storage STRING Um caminho para um diretório DBFS para armazenar pontos de verificação e tabelas criadas pelo pipeline.

Este campo é opcional.

O sistema usa um local padrão se esse campo estiver vazio.
configuration Um mapa de STRING:STRING Uma lista de pares chave-valor a serem adicionados à configuração do Spark do cluster que executará o pipeline.

Este campo é opcional.

Os elementos devem ser formatados como pares chave:valor.
clusters Uma matriz de PipelinesNewCluster Uma matriz de especificações para os clusters executarem o pipeline.

Este campo é opcional.

Se isso não for especificado, o sistema selecionará uma configuração de cluster padrão para o pipeline.
libraries Uma matriz de PipelineLibrary Os blocos de anotações que contêm o código do pipeline e quaisquer dependências necessárias para executar o pipeline.
target STRING Um nome de banco de dados para dados de saída de pipeline persistentes.

Consulte Publicar dados do Delta Live Tables no metastore do Hive para obter mais informações.
continuous BOOLEAN Se este é um pipeline contínuo.

Este campo é opcional.

O valor predefinido é false.
development BOOLEAN Se o pipeline deve ser executado no modo de desenvolvimento.

Este campo é opcional.

O valor predefinido é false.
photon BOOLEAN Se a aceleração de fótons está habilitada para esse pipeline.

Este campo é opcional.

O valor predefinido é false.
channel STRING O canal de lançamento Delta Live Tables especificando a versão de tempo de execução a ser usada para esse pipeline. Os valores suportados são:

* preview para testar o pipeline com alterações futuras no tempo de execução do Delta Live Tables.
* current para usar a versão atual do tempo de execução do Delta Live Tables.

Este campo é opcional.

O valor predefinido é current.
edition STRING A edição do produto Delta Live Tables para executar o pipeline:

* CORE suporta cargas de trabalho de ingestão de streaming.
* PRO também suporta cargas de trabalho de ingestão de streaming e adiciona suporte para processamento de captura de dados de alteração (CDC).
* ADVANCED suporta todos os recursos da edição e adiciona suporte para cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de PRO dados.

Este campo é opcional.

O valor predefinido é advanced.

PipelineStateInfo

O estado de um pipeline, o status das atualizações mais recentes e informações sobre recursos associados.

Nome do Campo Tipo Description
state STRING O estado do gasoduto. Um de IDLE ou RUNNING.
pipeline_id STRING O identificador exclusivo do pipeline.
cluster_id STRING O identificador exclusivo do cluster que executa o pipeline.
name STRING O nome amigável do pipeline.
latest_updates Uma matriz de UpdateStateInfo Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro.
creator_user_name STRING O nome de usuário do criador do pipeline.
run_as_user_name STRING O nome de usuário como o pipeline é executado. Este é um valor somente leitura derivado do proprietário do pipeline.

UpdateStateInfo

O estado atual de uma atualização de pipeline.

Nome do Campo Tipo Description
update_id STRING O identificador exclusivo para esta atualização.
state STRING O estado da atualização. Um dos QUEUED, CREATED,
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
creation_time STRING Carimbo de data/hora quando esta atualização foi criada.

WorkspaceStorageInfo

Informações de armazenamento do espaço de trabalho.

Nome do Campo Tipo Description
destination STRING Destino do ficheiro. Exemplo: /Users/someone@domain.com/init_script.sh