Compartir vía


Configuración del proceso para una canalización de Delta Live Tables

Este artículo contiene instrucciones y consideraciones al configurar opciones de proceso personalizadas para canalizaciones de Delta Live Tables.

Las canalizaciones sin servidor no proporcionan opciones de configuración de proceso. Consulte Configuración de una canalización de Delta Live Tables sin servidor.

Selección de una directiva de clúster

Los usuarios deben tener permiso para implementar el proceso para configurar y actualizar canalizaciones de Delta Live Tables. Los administradores del área de trabajo pueden configurar directivas de clúster para proporcionar a los usuarios acceso a recursos de proceso para Delta Live Tables. Consulte Definición de límites en el cálculo de canalizaciones de Tablas dinámicas Delta.

Nota:

  • Las directivas de clúster son opcionales. Consulte con el administrador del área de trabajo si carece de los privilegios de proceso necesarios para Delta Live Tables.

  • Para asegurarse de que los valores predeterminados de la directiva de clúster se aplican correctamente, establezca apply_policy_default_values true en en las configuraciones del clúster en la configuración de canalización:

    {
      "clusters": [
        {
          "label": "default",
          "policy_id": "<policy-id>",
          "apply_policy_default_values": true
        }
      ]
    }
    

Configuración de etiquetas de clúster

Puede usar etiquetas de clúster para supervisar el uso de los clústeres de canalización. Agregue etiquetas de clúster en la interfaz de usuario de Delta Live Tables al crear o editar una canalización o edite la configuración json de los clústeres de canalización.

Selección de tipos de instancia para ejecutar una canalización

De forma predeterminada, Delta Live Tables selecciona los tipos de instancia para los nodos de trabajo y el controlador de la canalización. Opcionalmente, puede configurar los tipos de instancia.

Por ejemplo, seleccione tipos de instancia para mejorar el rendimiento de la canalización o solucionar problemas de memoria al ejecutar la canalización. Puede configurar tipos de instancia al crear o editar una canalización con la API de REST o en la interfaz de usuario de Delta Live Tables.

Para configurar tipos de instancia al crear o editar una canalización en la interfaz de usuario de Delta Live Tables:

  1. Haga clic en el botón Configuración.
  2. En la sección Avanzado de la configuración de la canalización, en los menús desplegables Tipo de trabajo y Tipo de controlador, seleccione los tipos de instancia para la canalización.

Configuraciones de proceso avanzadas

Nota:

Dado que los recursos de proceso están totalmente administrados para canalizaciones DLT sin servidor, la configuración de proceso no está disponible al seleccionar Sin servidor para una canalización.

Cada canalización de Delta Live Tables tiene dos clústeres asociados:

  • El clúster updates procesa las actualizaciones de canalización.
  • El clúster maintenance ejecuta tareas de mantenimiento diarias.

La configuración de proceso especificada mediante la interfaz de usuario de configuración de canalización del área de trabajo se aplica a los clústeres de actualización y mantenimiento. Debe editar la configuración json para modificar estas opciones de forma independiente.

La configuración que usan estos clústeres viene determinada por el atributo especificado en la clusters configuración de canalización.

Con etiquetas de clúster, puede agregar la configuración de proceso que se aplica solo a un tipo de clúster específico. Hay tres etiquetas que puede usar al configurar clústeres de canalización:

Nota:

Se puede omitir la configuración de la etiqueta del clúster si se define solo una configuración de clúster. La etiqueta default se aplica a las configuraciones de clúster si no se proporciona ninguna configuración para la etiqueta. La configuración de la etiqueta del clúster solo es necesaria si necesita personalizar la configuración de diferentes tipos de clúster.

  • La default etiqueta define la configuración de proceso para los updates clústeres y maintenance . La aplicación de la misma configuración a ambos clústeres mejora la confiabilidad de las ejecuciones de mantenimiento al garantizar que las configuraciones necesarias, como las credenciales de acceso a datos para una ubicación de almacenamiento, se aplican al clúster de mantenimiento.
  • La etiqueta maintenance define la configuración del proceso que se aplica solo al clúster maintenance. También puede usar la etiqueta maintenance para invalidar las opciones configuradas por la etiqueta default.
  • La etiqueta updates define la configuración que se aplica solo al clúster updates. Úselo para configurar las opciones que no se deben aplicar al maintenance clúster.

La configuración definida mediante las etiquetas default y updates se combina para crear la configuración final del clúster updates. Si se define la misma configuración mediante las etiquetas default y updates, la configuración definida con la etiqueta updates invalida la configuración definida con la etiqueta default.

En el ejemplo siguiente, se define un parámetro de configuración de Spark que se agrega solo a la configuración del clúster updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
         "key": "value"
      }
    }
  ]
}

Delta Live Tables tiene opciones similares para la configuración del clúster como otro proceso en Azure Databricks. Al igual que otras opciones de canalización, puede modificar la configuración JSON de los clústeres para especificar opciones que no están presentes en la interfaz de usuario. Consulte Proceso.

Nota:

Dado que el entorno de ejecución de Delta Live Tables administra el ciclo de vida de los clústeres de canalización y ejecuta una versión personalizada de Databricks Runtime, no puede establecer manualmente algunas opciones de clúster en una configuración de canalización, como la versión de Spark o los nombres de clúster. Consulte Atributos de clúster que no son configurables por el usuario.

Configuración de tipos de instancia para clústeres de actualización y mantenimiento

Para configurar los tipos de instancia en la configuración JSON de la canalización, haga clic en el botón JSON y escriba las configuraciones de los tipos de instancia en la configuración del clúster:

Nota:

Para evitar asignar recursos innecesarios al clúster maintenance, en este ejemplo, se usa la etiqueta updates para establecer los tipos de instancia solo para el clúster updates. Para asignar los tipos de instancia a los clústeres updates y maintenance, use la etiqueta default u omita la configuración de la etiqueta. La etiqueta default se aplica a las configuraciones del clúster de directiva si no se proporciona ninguna configuración para la etiqueta. Consulte Configuraciones de proceso avanzadas.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "..." : "..."
    }
  ]
}

Retrasar el apagado del proceso

Para controlar el comportamiento de apagado del clúster, puede usar el modo de desarrollo o producción o usar la configuración pipelines.clusterShutdown.delay en la configuración de la canalización. En el ejemplo siguiente, se establece el valor de pipelines.clusterShutdown.delay en 60 segundos:

{
    "configuration": {
      "pipelines.clusterShutdown.delay": "60s"
    }
}

Cuando se habilita el modo production, el valor predeterminado de pipelines.clusterShutdown.delay es 0 seconds. Cuando se habilita el modo development, el valor predeterminado es 2 hours.

Nota:

Dado que un clúster de Delta Live Tables se apaga automáticamente cuando no está en uso, hacer referencia a una directiva de clúster que establece autotermination_minutes en la configuración del clúster produce un error.

Creación de un clúster de nodo único

Si establece num_workers en 0 en la configuración del clúster, este se crea como un clúster de nodo único. La configuración de un clúster de escalado automático y la configuración min_workers en 0 y max_workers en 0 crea un clúster de nodo único.

Si configura un clúster de escalado automático y solo min_workers se establece en 0, el clúster no se crea como un clúster de nodo único. El clúster tiene al menos un trabajo activo en todo momento hasta que finaliza.

Una configuración de clúster de ejemplo para crear un clúster de nodo único en Delta Live Tables:

{
    "clusters": [
      {
        "num_workers": 0
      }
    ]
}