Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota
Databricks permite la optimización predictiva de manera predeterminada para todas las cuentas creadas después del 11 de noviembre de 2024. A partir del 7 de mayo de 2025, Databricks habilitará la optimización predictiva de forma predeterminada para todas las cuentas de Databricks existentes. Esto se implementará gradualmente en función de su región y se completará el 1 de julio de 2025. Puede comprobar si la optimización predictiva está habilitada para su cuenta.
La optimización predictiva elimina la necesidad de administrar manualmente las operaciones de mantenimiento de las tablas administradas de Unity Catalog en Azure Databricks.
Con la optimización predictiva habilitada, Azure Databricks realiza automáticamente lo siguiente:
- Identifica las tablas que se beneficiarían de las operaciones de mantenimiento y las pone en cola para ejecutar estas operaciones.
- Recopila estadísticas cuando los datos se escriben en una tabla administrada.
Las operaciones de mantenimiento se ejecutan según sea necesario, lo que elimina las ejecuciones innecesarias para las operaciones de mantenimiento y la carga asociada con el seguimiento y la solución de problemas de rendimiento.
Databricks recomienda usar la optimización predictiva para todas las tablas administradas de Unity Catalog. Por ejemplo, la agrupación automática en clústeres líquidos tiene una optimización inteligente del diseño de datos en función de los patrones de uso de datos. Consulte Uso de clústeres líquidos para tablas.
Importante
La optimización predictiva solo se ejecuta en tablas administradas por el catálogo de Unity.
La optimización predictiva no está disponible en todas las regiones. Consulte Características con disponibilidad regional limitada.
¿Qué operaciones ejecuta la optimización predictiva?
La optimización predictiva ejecuta automáticamente las siguientes operaciones para las tablas habilitadas:
Operación | Descripción |
---|---|
OPTIMIZE (1) |
Desencadena la agrupación en clústeres incrementales para tablas habilitadas. Consulte Uso de clústeres líquidos para tablas. Mejora el rendimiento de las consultas porque optimiza el tamaño de los archivos. Consulte Optimización del diseño del archivo de datos. |
VACUUM |
Reduce los costos de almacenamiento porque elimina los archivos de datos a los que ya no hace referencia la tabla. Consulte Eliminar archivos de datos sin usar con el comando vacuum. |
ANALYZE |
Desencadena la actualización incremental de las estadísticas para mejorar el rendimiento de las consultas. Consulte ANALYZE TABLE. |
(1)OPTIMIZE
no se ejecuta cuando se ejecuta ZORDER
con optimización predictiva. En las tablas que usan el orden Z, la optimización predictiva omitirá los archivos ordenados por Z.
Si la agrupación automática en clústeres líquidos está habilitada, la optimización predictiva puede seleccionar nuevas claves de agrupación en clústeres antes de agrupar datos en clústeres. Consulte Agrupación automática de líquidos.
Advertencia
El período de retención del comando VACUUM
viene determinado por la propiedad de tabla delta.deletedFileRetentionDuration
, que tiene como valor predeterminado 7 días. Esto significa que VACUUM
quita los archivos de datos a los que ya no ha hecho referencia una versión de la tabla Delta en los últimos 7 días. Si desea conservar los datos durante más tiempo (por ejemplo, para admitir el viaje de tiempo durante más tiempo), debe establecer esta propiedad de tabla correctamente antes de habilitar la optimización predictiva, como en el ejemplo siguiente:
ALTER TABLE table_name SET TBLPROPERTIES ('delta.deletedFileRetentionDuration' = '30 days');
Si configura delta.deletedFileRetentionDuration
debajo del valor predeterminado de 7 días, la optimización predictiva se ejecuta VACUUM
con una duración de retención de 7 días.
¿Dónde se ejecuta la optimización predictiva?
La optimización predictiva identifica las tablas que se beneficiarían de las operaciones de ANALYZE
, OPTIMIZE
y VACUUM
. Luego, las pone en cola para ejecutarlas mediante el proceso sin servidor para los trabajos. La cuenta se factura por el proceso asociado a estas cargas de trabajo mediante una SKU de trabajos sin servidor.
Consulte los precios de los servicios administrados de Databricks. Consulte Uso de tablas del sistema para realizar un seguimiento de la optimización predictiva.
Requisitos previos de la optimización predictiva
Debe cumplir los siguientes requisitos para habilitar la optimización predictiva:
- El área de trabajo de Azure Databricks debe estar en el plan Premium de una región que admita la optimización predictiva. Consulte Características con disponibilidad regional limitada.
- Debe usar almacenes de SQL o Databricks Runtime 12.2 LTS o una versión posterior cuando habilite la optimización predictiva.
- Solo se admiten tablas administradas por Unity Catalog.
- Si necesita conectividad privada para las cuentas de almacenamiento, debe configurar la conectividad privada sin servidor. Consulte Configuración de la conectividad privada a los recursos de Azure.
Habilitar optimización predictiva
Puede habilitar la optimización predictiva para una cuenta, un catálogo o un esquema. Todas las tablas administradas del catálogo de Unity heredan el valor de la cuenta de forma predeterminada. Puede invalidar el valor predeterminado de la cuenta de un catálogo o esquema para habilitar o deshabilitar la optimización predictiva en ese nivel.
Nota
Si la cuenta se creó después del 11 de noviembre de 2024, la optimización predictiva está habilitada de forma predeterminada. A partir del 7 de mayo de 2025, la optimización predictiva está habilitada de forma predeterminada para todas las cuentas existentes. Esto se implementará gradualmente en función de su región y se completará el 1 de julio de 2025.
Debe tener los siguientes privilegios para habilitar o deshabilitar la optimización predictiva en el nivel especificado:
Objeto de Unity Catalog | Privilegio |
---|---|
Cuenta | Administrador de la cuenta |
Catálogo | Propietario del catálogo |
Esquema | Propietario del esquema |
Habilitar o deshabilitar la optimización predictiva para la cuenta
Un administrador de cuenta puede completar los pasos siguientes para habilitar la optimización predictiva para todos los metastores de una cuenta. Los objetos de la cuenta heredarán esta configuración de forma predeterminada (pero la configuración se puede invalidar en el nivel de catálogo o esquema):
- Acceder a la consola de cuentas.
- Vaya a Configuración y, a continuación, habilitación de características.
- Seleccione la opción para usar (por ejemplo, Habilitado) junto a Optimización predictiva.
Nota
- Los metastores de regiones que no admiten la optimización predictiva no están habilitados.
- Deshabilitar la optimización predictiva en el nivel de cuenta no la deshabilita para catálogos o esquemas que lo han habilitado específicamente.
Habilitación o deshabilitación de la optimización predictiva para un catálogo o esquema
La optimización predictiva usa un modelo de herencia. Cuando se habilita para un catálogo, los esquemas heredan la propiedad. Las tablas de un esquema habilitado heredan la optimización predictiva. Para invalidar este comportamiento de herencia, puede habilitar o deshabilitar explícitamente la optimización predictiva para un catálogo o esquema.
Nota
Puede deshabilitar la optimización predictiva en el nivel de catálogo o esquema antes de habilitarla en el nivel de cuenta. Si la optimización predictiva se habilita más adelante en la cuenta, se bloquea para las tablas de estos objetos.
Use la sintaxis siguiente para habilitar o deshabilitar la optimización predictiva, o para volver al valor predeterminado de heredar del objeto primario:
ALTER CATALOG [catalog_name] { ENABLE | DISABLE | INHERIT } PREDICTIVE OPTIMIZATION;
ALTER { SCHEMA | DATABASE } schema_name { ENABLE | DISABLE | INHERIT } PREDICTIVE OPTIMIZATION;
Comprobación de si la optimización predictiva está habilitada
El campo Predictive Optimization
es una propiedad de Unity Catalog que detalla si la optimización predictiva está habilitada. Si la optimización predictiva se hereda de un objeto primario, se indica en el valor del campo.
Utilice la siguiente sintaxis para ver si la optimización predictiva está habilitada:
DESCRIBE (CATALOG | SCHEMA | TABLE) EXTENDED name
Uso de tablas del sistema para realizar un seguimiento de la optimización predictiva
Azure Databricks proporciona la tabla system.storage.predictive_optimization_operations_history
del sistema para observar las operaciones de optimización predictiva, los costos y el impacto. Consulte Referencia de la tabla del sistema de optimización predictiva.
Mensaje de error de Private Link
Si la tabla del sistema marca las operaciones como con errores con FAILED: PRIVATE_LINK_SETUP_ERROR
, es posible que no haya configurado correctamente el vínculo privado para el proceso sin servidor. Consulte Configuración de la conectividad privada a los recursos de Azure.
Limitaciones
La optimización predictiva no está disponible en todas las regiones. Consulte Características con disponibilidad regional limitada.
En el caso de las tablas con duración de retención de archivos eliminados (delta.deletedFileRetentionDuration
) configuradas por debajo del valor predeterminado de 7 días, se realiza la optimización predictiva VACUUM
con una duración de retención de 7 días. Consulte Configurar la retención de datos para consultas de viajes en el tiempo.
La optimización predictiva no realiza operaciones de mantenimiento en las siguientes tablas:
- Tablas cargadas en un área de trabajo como destinatarias de Delta Sharing.
- Tablas externas