Compartir a través de


Volúmenes administrados frente a externos

En este artículo se describen las diferencias entre los volúmenes administrados y los volúmenes externos y los motivos por los que puede optar por utilizar volúmenes externos. Databricks recomienda volúmenes administrados como solución más sencilla para almacenar y administrar el acceso a datos no tabulares.

Para obtener más instrucciones sobre el uso del catálogo de Unity para configurar el acceso al almacenamiento de objetos en la nube, consulte Conexión al almacenamiento de objetos en la nube mediante el catálogo de Unity.

Diferencias de comportamiento entre volúmenes administrados y externos.

Los volúmenes administrados y externos proporcionan experiencias casi idénticas al usar herramientas, UI y API de Azure Databricks. Las diferencias entre estos tipos de volúmenes son las siguientes:

Los volúmenes administrados proporcionan una experiencia de almacenamiento totalmente administrada. Esto significa lo siguiente:

  • Todas las interacciones con archivos de volúmenes administrados deben pasar por el catálogo de Unity.
  • El catálogo de Unity administra la nomenclatura de directorios y la distribución de datos. Los nombres de directorio incluyen hashes para evitar conflictos en las cuentas de almacenamiento de objetos en la nube subyacentes.
  • Al anular un volumen administrado, Azure Databricks elimina los datos subyacentes en un plazo de 30 días.

Los volúmenes externos aplican la gobernanza de datos al almacenamiento de objetos en la nube. Esto significa lo siguiente:

  • Puede usar URI en la nube en Azure Databricks o sistemas externos para interactuar con archivos en volúmenes externos.
  • Todos los directorios creados dentro de un volumen o archivos externos cargados son relativos al LOCATION especificado en la creación.
  • Cuando se anula un volumen externo, se quita el volumen de Unity Catalog, pero los datos subyacentes permanecen sin cambios en la ubicación externa.

¿Por qué usar volúmenes externos?

Los volúmenes externos permiten agregar la gobernanza de datos de Unity Catalog a los directorios de almacenamiento de objetos en la nube existentes. Entre los casos de uso de los volúmenes externos se incluyen los siguientes:

  • Adición de gobernanza a los archivos de datos sin migración.
  • Gobernanza de archivos generados por otros sistemas y que se deben ingerir o a los que se debe tener acceso mediante Azure Databricks.
  • Gobernanza de los datos generados por Azure Databricks a los que otros sistemas deben tener acceso directamente desde el almacenamiento de objetos en la nube.

Databricks recomienda usar volúmenes externos para almacenar archivos de datos no tabulares leídos o escritos por sistemas externos además de Azure Databricks. El catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas sobre la gobernanza de datos se respetan fuera de Azure Databricks.