Compartir a través de


Conexión al almacenamiento de objetos en la nube mediante el catálogo de Unity

En este artículo se proporciona información general sobre las configuraciones de conexión de almacenamiento en la nube necesarias para trabajar con datos mediante Unity Catalog.

Databricks recomienda usar el catálogo de Unity para administrar el acceso a todos los datos almacenados en el almacenamiento de objetos en la nube. El catálogo de Unity proporciona un conjunto de herramientas para configurar conexiones seguras al almacenamiento de objetos en la nube. Estas conexiones proporcionan acceso para completar las siguientes acciones:

  • Ingesta de datos sin procesar en almacenes de lago.
  • Cree y lea tablas administradas en almacenamiento en la nube seguro.
  • Registre o cree tablas externas que contengan datos tabulares.
  • Leer y escribir datos no estructurados.

Advertencia

No proporcione a los usuarios finales acceso de nivel de almacenamiento a volúmenes o tablas administradas de Unity Catalog. Esto pone en peligro la seguridad y la gobernanza de los datos.

Conceder a los usuarios acceso directo a nivel de almacenamiento al almacenamiento de ubicación externa en Azure Data Lake Storage Gen2 no respeta ningún permiso concedido ni las auditorías mantenidas por Unity Catalog. El acceso directo omitirá la auditoría, el linaje y otras características de seguridad y supervisión de Unity Catalog, incluido el control de acceso y los permisos. Es responsable de administrar el acceso directo al almacenamiento a través de Azure Data Lake Storage Gen2 y asegurarse de que los usuarios tengan los permisos adecuados concedidos a través de Fabric.

Evite todos los escenarios que concedan acceso directo de escritura a nivel de almacenamiento para cubos que almacenan tablas administradas de Databricks. La modificación, eliminación o evolución de los objetos directamente a través del almacenamiento administrado originalmente por Unity Catalog puede provocar daños en los datos.

Nota:

Si el área de trabajo se creó antes del 9 de noviembre de 2023, es posible que no esté habilitada para Unity Catalog. Un administrador de la cuenta debe habilitar el catálogo de Unity para el área de trabajo. Consulte Habilitar un área de trabajo para Unity Catalog.

¿Cómo conecta Unity Catalog el almacenamiento de objetos a Azure Databricks?

Azure Databricks admite contenedores de Azure Data Lake Storage Gen2 y cubos R2 de Cloudflare (versión preliminar pública) como ubicaciones de almacenamiento en la nube para los recursos de datos e inteligencia artificial registrados en Unity Catalog. R2 está pensado principalmente para los casos de uso en los que desea evitar las tarifas de salida de datos, como el uso compartido de Delta entre nubes y regiones. Para más información, consulte Uso de réplicas R2 de Cloudflare o migración de almacenamiento a R2.

Para administrar el acceso al almacenamiento en la nube subyacente que contiene tablas y volúmenes, Unity Catalog usa los siguientes tipos de objeto:

  • Una credencial de almacenamiento representa un mecanismo de autenticación y autorización para acceder a los datos almacenados en el inquilino en la nube, mediante una identidad administrada de Azure o una entidad de servicio para contenedores de Azure Data Lake Storage Gen2 o un token de API de R2 para cubos R2 de Cloudflare. Cada credencial de almacenamiento está sujeta a directivas de control de acceso de Unity Catalog que controlan qué usuarios y grupos pueden acceder a la credencial. Si un usuario no tiene acceso a una credencial de almacenamiento en el catálogo de Unity, se produce un error en la solicitud, y el catálogo no intenta autenticarse en el inquilino en la nube en nombre del usuario. El permiso para crear credenciales de almacenamiento solo debe concederse a los usuarios que necesiten definir ubicaciones externas. Vea Creación de una credencial de almacenamiento para conectarse a Azure Data Lake Storage Gen2 y Creación de una credencial de almacenamiento para conectarse a Cloudflare R2.

  • Una ubicación externa es un objeto que combina una ruta de acceso de almacenamiento en la nube con una credencial de almacenamiento que autoriza el acceso a dicha ruta. Cada ubicación de almacenamiento está sujeta a directivas de control de acceso del catálogo de Unity que controlan qué usuarios y grupos pueden acceder a la credencial. Si un usuario no tiene acceso a una ubicación de almacenamiento en el catálogo de Unity, se produce un error en la solicitud, y el catálogo no intenta autenticarse en el inquilino en la nube en nombre del usuario. Solo se debería conceder permiso para crear y usar ubicaciones externas a aquellos usuarios que necesiten crear tablas externas, volúmenes externos o ubicaciones de almacenamiento administradas. Vea Creación de una ubicación externa para conectar el almacenamiento en la nube a Azure Databricks.

    Las ubicaciones externas se usan para recursos de datos externos, como tablas externas y volúmenes externos, y para recursos de datos administrados, como tablas administradas y volúmenes administrados. Para obtener más información sobre la diferencia, vea Tablas y Volúmenes.

    Cuando se usa una ubicación externa para almacenar tablas administradas y volúmenes administrados, se denomina ubicación de almacenamiento administrada. Las ubicaciones de almacenamiento administradas pueden existir en el nivel de metastore, catálogo o esquema. Databricks recomienda configurar ubicaciones de almacenamiento administradas en el nivel de catálogo. Si necesita un aislamiento más granular, especifique ubicaciones de almacenamiento administradas a nivel de esquema. Las áreas de trabajo habilitadas para Unity Catalog no tienen automáticamente ningún almacenamiento de nivel de metastore de forma predeterminada, pero puede especificar una ubicación de almacenamiento administrada en el nivel de metastore para proporcionar una ubicación predeterminada cuando no se define ningún almacenamiento de nivel de catálogo. Las áreas de trabajo habilitadas para Unity Catalog reciben manualmente una ubicación de almacenamiento administrada de nivel de metastore de forma predeterminada. Consulte Especificar una ubicación de almacenamiento administrada en el catálogo de Unity y procedimientos recomendados del catálogo de Unity.

Los volúmenes son el objeto protegible que la mayoría de los usuarios de Azure Databricks deben usar para interactuar directamente con datos no tabulares en el almacenamiento de objetos en la nube. Consulte Crear y trabajar con volúmenes.

Nota:

Aunque Unity Catalog admite el acceso basado en rutas de acceso a tablas externas y volúmenes externos mediante URI de almacenamiento en la nube, Databricks recomienda leer y escribir todas las tablas del catálogo de Unity con nombres de tabla y acceso a datos en volúmenes mediante las rutas de acceso /Volumes.

Pasos siguientes

Si acaba de empezar a trabajar con el catálogo de Unity como administrador, consulte Configuración y administración del catálogo de Unity.

Si es un usuario nuevo y su área de trabajo ya está habilitada para Unity Catalog, consulte Tutorial: creación de su primera tabla y concesión de privilegios.