Compartir a través de


Almacenamiento predeterminado en Databricks

En esta página se explica cómo funciona el almacenamiento predeterminado en Azure Databricks y cómo crear catálogos y objetos de datos que lo usan.

¿Qué es el almacenamiento predeterminado?

El almacenamiento predeterminado es una plataforma de almacenamiento de objetos totalmente administrada que proporciona almacenamiento listo para usar en la cuenta de Azure Databricks. Algunas características de Azure Databricks usan el almacenamiento predeterminado como alternativa al almacenamiento externo.

Las áreas de trabajo sin servidor usan el almacenamiento predeterminado para el almacenamiento interno y del área de trabajo, y para el catálogo predeterminado que se crea con el área de trabajo. En las áreas de trabajo sin servidor, puede crear catálogos adicionales en el almacenamiento predeterminado o en su propio almacenamiento de objetos en la nube.

En las áreas de trabajo clásicas y las áreas de trabajo sin servidor, las características usan el almacenamiento predeterminado para almacenar elementos como metadatos del plano de control, datos derivados, modelos y otros artefactos. Por ejemplo, Clean Rooms, la clasificación de datos, la detección de anomalías y Agent Bricks usan el almacenamiento predeterminado de un área de trabajo. Consulte la documentación de características individuales para obtener más información sobre lo que almacena cada característica en el almacenamiento predeterminado.

Requisitos

  • La creación de catálogos en el almacenamiento predeterminado solo está disponible en áreas de trabajo sin servidor (versión preliminar pública).
  • De forma predeterminada, los catálogos que usan el almacenamiento predeterminado solo son accesibles desde el área de trabajo donde se crean. Puede conceder acceso a otras áreas de trabajo, incluidas las áreas de trabajo clásicas, pero deben utilizar computación sin servidor para acceder a los datos del catálogo. Consulte Limitación del acceso del catálogo a áreas de trabajo específicas.
  • Debe tener CREATE CATALOG privilegios para crear un catálogo con almacenamiento predeterminado. Consulte Privilegios de Unity Catalog y objetos protegibles.
  • Si el cliente usa el controlador ODBC de Azure Databricks para acceder a un catálogo de almacenamiento predeterminado desde detrás de un firewall, debe configurar el firewall para permitir el acceso a las puertas de enlace de almacenamiento regionales de Azure Databricks. Para más información sobre ip y nombre de dominio para el almacenamiento predeterminado, consulte Direcciones IP y dominios para los servicios y recursos de Azure Databricks.

Creación de un catálogo

Complete los pasos siguientes para crear un nuevo catálogo mediante el almacenamiento predeterminado:

  1. Haga clic en el icono Datos.Catálogo en la barra lateral. Aparece el Explorador de catálogos.
  2. Haga clic en Crear catálogo. Aparece el cuadro de diálogo Crear un catálogo .
  3. Proporcione un nombre de catálogo que sea único en su cuenta.
  4. Seleccione la opción Usar almacenamiento predeterminado.
  5. Haga clic en Crear.

En las áreas de trabajo sin servidor, también puede usar el siguiente comando SQL para crear un nuevo catálogo en el almacenamiento predeterminado. No es necesario especificar una ubicación para el catálogo.

CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Trabajar con almacenamiento predeterminado

Todas las interacciones con el almacenamiento predeterminado requieren recursos de computación sin servidor habilitados para el Catálogo de Unity.

Los recursos respaldados por el almacenamiento predeterminado usan el mismo modelo de privilegios que otros objetos del catálogo de Unity. Debe tener privilegios suficientes para crear, ver, consultar o modificar objetos de datos. Consulte Privilegios de Unity Catalog y objetos protegibles.

Para trabajar con el almacenamiento predeterminado, cree e interactúe con tablas administradas y volúmenes administrados respaldados por el almacenamiento predeterminado. Consulte Tablas administradas de Unity Catalog en Azure Databricks para Delta Lake y Apache Iceberg y ¿Qué son los volúmenes de Unity Catalog?.

Puede usar el Explorador de catálogos, los cuadernos, el editor de SQL y los paneles para interactuar con los objetos de datos almacenados en el almacenamiento predeterminado.

Tareas de ejemplo

A continuación se muestran ejemplos de tareas que puede completar con el almacenamiento predeterminado:

Limitaciones

Se presentan las siguientes limitaciones:

  • El proceso clásico (cualquier proceso que no sea sin servidor) no puede interactuar con los recursos de datos en el almacenamiento predeterminado.
  • Delta Sharing admite el uso compartido de tablas en cualquier destinatario (abierto o Azure Databricks) y los destinatarios pueden usar el proceso clásico para acceder a tablas compartidas (Beta). Habilite la característica Delta Sharing for Default Storage – Expanded Access en la consola de su cuenta.
    • Esta característica no se admite en las siguientes regiones: southcentralus, uksouthy westus2.
    • Todos los demás recursos que se pueden compartir solo pueden compartirse con destinatarios de Azure Databricks en la misma nube. Los destinatarios deben usar computación sin servidor.
  • Las tablas con particiones habilitadas no pueden compartirse con Delta.
  • Los clientes externos de Iceberg y Delta no pueden acceder directamente a los metadatos subyacentes, la lista de manifiestos y los archivos de datos de las tablas UC en el almacenamiento predeterminado (no se admite el acceso a FileIO). Sin embargo, las herramientas de BI, como Power BI y Tableau, pueden acceder a las tablas del catálogo de Unity en el almacenamiento predeterminado mediante controladores ODBC y JDBC. Los clientes externos también pueden acceder a los volúmenes del catálogo de Unity en el almacenamiento predeterminado mediante la API de archivos.
  • El almacenamiento predeterminado admite el acceso externo a través de controladores ODBC y JDBC de Azure Databricks, incluida la optimización del rendimiento de Cloud Fetch del controlador ODBC para las consultas en conjuntos de datos más grandes. Sin embargo, si accede a una tabla de almacenamiento predeterminada desde un área de trabajo que tiene habilitado el Private Link del front-end, las consultas de cliente ODBC superiores a 100 MB fallarán porque la optimización de Cloud Fetch para las tablas de almacenamiento predeterminadas no admite actualmente Private Link del front-end.