Conexión al almacenamiento y servicios de objetos en la nube mediante el catálogo de Unity
En este artículo se proporciona información general sobre las conexiones de almacenamiento en la nube necesarias para trabajar con datos mediante el catálogo de Unity, junto con información sobre cómo Unity Catalog rige el acceso al almacenamiento en la nube y a los servicios en la nube externos.
Nota:
Si el área de trabajo se creó antes del 9 de noviembre de 2023, es posible que no esté habilitada para Unity Catalog. Un administrador de la cuenta debe habilitar el catálogo de Unity para el área de trabajo. Consulte Habilitar un área de trabajo para Unity Catalog.
¿Cómo usa Unity Catalog el almacenamiento en la nube?
Databricks recomienda usar El catálogo de Unity para administrar el acceso a todos los datos que ha almacenado en el almacenamiento de objetos en la nube. El catálogo de Unity proporciona un conjunto de herramientas para configurar conexiones seguras al almacenamiento de objetos en la nube. Estas conexiones proporcionan acceso para completar las siguientes acciones:
- Ingesta de datos sin procesar en almacenes de lago.
- Cree y lea tablas administradas y volúmenes administrados de datos no estructurados en el almacenamiento en la nube administrado por el catálogo de Unity.
- Registre o cree tablas externas que contengan datos tabulares y volúmenes externos que contienen datos no estructurados en el almacenamiento en la nube administrados mediante el proveedor de nube.
- Leer y escribir datos no estructurados (como volúmenes de Catálogo de Unity).
Para ser más específico, El catálogo de Unity usa el almacenamiento en la nube de dos maneras principales:
- Ubicaciones de almacenamiento predeterminadas (o "administradas") para tablas administradas y volúmenes administrados (datos no estructurados y no tabulares) que se crean en Databricks. Estas ubicaciones de almacenamiento administradas se pueden definir en el nivel de metastore, catálogo o esquema. Puede crear ubicaciones de almacenamiento administradas en el proveedor de nube, pero su ciclo de vida es totalmente administrado por El catálogo de Unity.
- Ubicaciones de almacenamiento donde se almacenan tablas y volúmenes externos. Se trata de tablas y volúmenes cuyo acceso desde Azure Databricks está administrado por Unity Catalog, pero cuyo ciclo de vida de datos y diseño de archivos se administran mediante el proveedor de nube y otras plataformas de datos. Normalmente, se usan tablas externas para registrar grandes cantidades de datos existentes en Azure Databricks, o si también necesita acceso de escritura a los datos mediante herramientas fuera de Azure Databricks.
Para obtener más información sobre las tablas y volúmenes administrados frente a externos, consulte ¿Qué son las tablas y vistas? y ¿Qué son los volúmenes del catálogo de Unity?.
Advertencia
No proporcione a los usuarios finales acceso de nivel de almacenamiento a volúmenes o tablas administradas de Unity Catalog. Esto pone en peligro la seguridad y la gobernanza de los datos.
Conceder a los usuarios acceso directo a nivel de almacenamiento al almacenamiento de ubicación externa en Azure Data Lake Storage Gen2 no respeta ningún permiso concedido ni las auditorías mantenidas por Unity Catalog. El acceso directo omitirá la auditoría, el linaje y otras características de seguridad y supervisión de Unity Catalog, incluido el control de acceso y los permisos. Es responsable de administrar el acceso directo al almacenamiento a través de Azure Data Lake Storage Gen2 y asegurarse de que los usuarios tengan los permisos adecuados concedidos a través de Fabric.
Evite todos los escenarios que concedan acceso directo de escritura a nivel de almacenamiento para cubos que almacenan tablas administradas de Databricks. La modificación, eliminación o evolución de los objetos directamente a través del almacenamiento administrado originalmente por Unity Catalog puede provocar daños en los datos.
¿Qué proveedores de almacenamiento en la nube se admiten?
Azure Databricks es compatible tanto con los contenedores de Azure Data Lake Storage Gen2 como con los cubos de Cloudflare R2 como ubicaciones de almacenamiento en la nube para datos y recursos de IA registrados en Unity Catalog. R2 está pensado principalmente para los casos de uso en los que desea evitar las tarifas de salida de datos, como el uso compartido de Delta entre nubes y regiones. Para más información, consulte Uso de réplicas R2 de Cloudflare o migración de almacenamiento a R2.
¿Cómo controla Unity Catalog el acceso al almacenamiento en la nube?
Para administrar el acceso al almacenamiento en la nube subyacente que contiene tablas y volúmenes, El catálogo de Unity usa un objeto protegible denominado ubicación externa, que define una ruta de acceso a una ubicación de almacenamiento en la nube y las credenciales necesarias para acceder a esa ubicación. Estas credenciales se definen, a su vez, en un objeto protegible del catálogo de Unity denominado credencial de almacenamiento. Al conceder y revocar el acceso a los elementos protegibles de ubicación externa en el catálogo de Unity, se controla el acceso a los datos de la ubicación de almacenamiento en la nube. Al conceder y revocar el acceso a los elementos protegibles de credenciales de almacenamiento en el catálogo de Unity, puede crear objetos de ubicación externa.
Para más información, consulte Administración del acceso al almacenamiento en la nube mediante el catálogo de Unity.
Acceso basado en rutas de acceso al almacenamiento en la nube
Aunque Unity Catalog admite el acceso basado en rutas de acceso a tablas externas y volúmenes externos mediante URI de almacenamiento en la nube, Databricks recomienda que los usuarios lean y escriban todas las tablas de Catálogo de Unity con nombres de tabla y accedan a datos en volúmenes mediante /Volumes
rutas de acceso. Los volúmenes son el objeto protegible que la mayoría de los usuarios de Azure Databricks deben usar para interactuar directamente con datos no tabulares en el almacenamiento de objetos en la nube. Consulte ¿Qué son los volúmenes de Unity Catalog?.
Procedimientos recomendados para el almacenamiento en la nube con el catálogo de Unity
Azure Databricks requiere el uso de Azure Data Lake Storage Gen2 como servicio de almacenamiento de Azure para los datos que se procesan en Azure Databricks mediante la gobernanza del catálogo de Unity. Azure Data Lake Storage Gen2 permite separar los costes de almacenamiento y proceso y aprovechar el control de acceso específico proporcionado por el catálogo de Unity. Si los datos se almacenan en OneLake (el lago de datos de Microsoft Fabric) y se procesan mediante Databricks (omitiendo el catálogo de Unity), incurrirá en costes de proceso y almacenamiento agrupados. Esto puede dar lugar a costes que son aproximadamente tres veces más altos para las lecturas y 1,6 veces mayores para las escrituras en comparación con Azure Data Lake Storage Gen2 para almacenar, leer y escribir datos. Azure Blob Storage tampoco es compatible con el catálogo de Unity.
Característica | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
Se admite en el catálogo de Unity | X | ✓ | X |
Requiere una compra adicional de capacidad de Fabric | X | X | ✓ |
Operaciones admitidas desde motores externos | - Leer - Escribir |
- Leer - Escribir |
- Lectura (las lecturas incurren en un coste tres veces mayor en comparación con la lectura de datos de Azure Data Lake Storage Gen2). - No se admiten escrituras. Para obtener más información, consulte la documentación de OneLake. |
Implementación | Regional | Regional | Global |
Autenticación | Firma de acceso compartido de Entra ID | Firma de acceso compartido de Entra ID | Entra ID |
Eventos de almacenamiento | ✓ | ✓ | X |
Eliminación temporal | ✓ | ✓ | ✓ |
Control de acceso | RBAC | RBAC, ABAC, ACL | RBAC (solo tabla/carpeta, ACL de acceso directo no compatibles) |
Claves de cifrado | ✓ | ✓ | X |
Niveles de acceso | Archivo en línea | Frecuente, esporádico, poco frecuente, archivo | Solo frecuente |
¿Cómo controla Unity Catalog el acceso a otros servicios en la nube?
El catálogo de Unity rige el acceso a los servicios que no son de almacenamiento mediante un objeto protegible denominado credenciales de servicio. Una credencial de servicio encapsula una credencial de nube a largo plazo que proporciona acceso a un servicio externo al que los usuarios necesitan conectarse desde Azure Databricks.
Las credenciales de servicio no están pensadas para gobernar el acceso al almacenamiento en la nube que se usa como una ubicación de almacenamiento administrada del Catálogo de Unity o una ubicación de almacenamiento externo. Para esos casos de uso, use una credencial de almacenamiento, como se describe en ¿Cómo controla Unity Catalog el acceso al almacenamiento en la nube?.
Para obtener detalles, consulte:
- Administración del acceso a servicios en la nube externos mediante credenciales de servicio
- Administración de credenciales de servicio
- Uso de credenciales de servicio de Catálogo de Unity para conectarse a servicios en la nube externos
Pasos siguientes
Si acaba de empezar a trabajar con El catálogo de Unity como administrador, consulte:
Si es un nuevo usuario y el área de trabajo ya está habilitada para el catálogo de Unity, consulte:
Para más información sobre cómo administrar el acceso al almacenamiento en la nube, consulte:
Para más información sobre cómo administrar el acceso a los servicios en la nube, consulte: