Optimización del uso del clúster de canalizaciones de Delta Live Tables con el escalado automático mejorado

El escalado automático mejorado de Databricks optimiza el uso del clúster mediante la asignación automática de los recursos de clúster en función del volumen de cargas de trabajo, con un impacto mínimo en la latencia de procesamiento de datos de las canalizaciones.

El escalado automático mejorado mejora la funcionalidad de escalado automático del clúster de Azure Databricks con las características siguientes:

  • El escalado automático mejorado implementa la optimización de las cargas de trabajo de streaming y agrega mejoras para aumentar el rendimiento de las cargas de trabajo por lotes. El escalado automático mejorado optimiza los costos agregando o quitando máquinas a medida que cambia la carga de trabajo.
  • El escalado automático mejorado apaga proactivamente los nodos infrautilizados, a la vez que garantiza que no haya tareas con errores durante el apagado. La característica de escalado automático de clústeres existente reduce verticalmente los nodos solo si el nodo está inactivo.

El escalado automático mejorado es el modo de escalado automático predeterminado al crear una canalización en la interfaz de usuario de Delta Live Tables. Puede habilitar el escalado automático mejorado para canalizaciones existentes editando la configuración de canalización en la interfaz de usuario. También puede habilitar el escalado automático mejorado al crear o editar canalizaciones con la API de Delta Live Tables.

Habilitación del escalado automático mejorado

Nota:

Dado que los recursos de proceso están optimizados automáticamente para canalizaciones sin servidor, la configuración del escalado automático mejorado de Databricks no está disponible al seleccionar Sin servidor (versión preliminar pública) para una canalización.

Para más información sobre cómo habilitar canalizaciones de DLT sin servidor, póngase en contacto con el equipo de la cuenta de Azure Databricks.

Para usar el escalado automático mejorado, realice una de las acciones siguientes:

  • Establezca Modo de clúster en Escalado automático mejorado cuando crea una canalización o edite una canalización en la interfaz de usuario de Delta Live Tables.
  • Agregue el valor de autoscale a la configuración del clúster de canalización y establezca el campo mode en ENHANCED. Consulte Configuración del proceso.

Use las instrucciones siguientes al configurar el escalado automático mejorado para las canalizaciones de producción:

  • Deje el valor predeterminado de Min workers.
  • Establezca Max workers en un valor que se base en el presupuesto y en la prioridad de la canalización.

En el ejemplo siguiente, se configura un clúster de escalado automático mejorado con un mínimo de 5 roles de trabajo y un máximo de 10 roles de trabajo. max_workers debe ser mayor o igual que min_workers.

Nota:

  • El escalado automático mejorado solo está disponible para los clústeres updates. La característica de escalado automático existente se usa para maintenance clústeres.
  • La configuración autoscale tiene dos modos:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

La canalización se reinicia automáticamente tras los cambios en la configuración de escalado automático si la canalización está configurada para ejecución continua. Después del reinicio, espere un breve período de mayor latencia. Después de este breve período de mayor latencia, el tamaño del clúster se debe actualizar en función de la configuración autoscale y la latencia de la canalización volverá a sus características de latencia anteriores.

Supervisión de canalizaciones habilitadas para el escalado automático mejorado

Puede usar el registro de eventos en la interfaz de usuario de Delta Live Tables para supervisar las métricas de escalado automático mejorados. Los eventos de escalado automático mejorado tienen el tipo de evento autoscale. A continuación, se muestran eventos de ejemplo:

Evento Message
Se ha iniciado la solicitud de cambio de tamaño del clúster Scaling [up or down] to <y> executors from current cluster size of <x>
La solicitud de cambio de tamaño del clúster es correcta Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
La solicitud de cambio de tamaño del clúster es parcialmente correcta Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Se produjo un error en la solicitud de cambio de tamaño del clúster Achieved cluster size <x> for cluster <cluster-id> with status FAILED

También puede ver los eventos del escalado automático mejorado consultando directamente el registro de eventos: