Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Importante
La raíz de DBFS y los montajes de DBFS están obsoletos y no son recomendados por Databricks. Las nuevas cuentas son aprovisionadas sin acceso a estas características. Databricks recomienda usar volúmenes de Unity Catalog, ubicaciones externas o archivos de área de trabajo como alternativas.
Unity Catalog presenta una serie de configuraciones y conceptos nuevos que se aproximan a la gobernanza de datos completamente diferente de DBFS. En este artículo se describen varios procedimientos recomendados para trabajar con ubicaciones externas del catálogo de Unity y DBFS.
Databricks recomienda no usar DBFS y almacenamiento de objetos en la nube montado para la mayoría de los casos de uso en áreas de trabajo de Azure Databricks con Unity Catalog habilitado. En este artículo se describen algunos escenarios en los que debe usar el almacenamiento de objetos en la nube montado. Tenga en cuenta que Databricks no recomienda usar la raíz de DBFS junto con el catálogo de Unity, a menos que deba migrar archivos o datos almacenados allí en el catálogo de Unity.
¿Cómo se usa DBFS en áreas de trabajo habilitadas para catálogos de Unity?
Las acciones realizadas en las tablas del hive_metastore utilizan patrones heredados de acceso a datos, que pueden incluir datos y credenciales de almacenamiento gestionados por DBFS. Las tablas administradas del ámbito hive_metastore del área de trabajo se almacenan en la raíz de DBFS.
¿Cómo funciona DBFS en modo de acceso dedicado (anteriormente modo de acceso de usuario único)?
Los recursos de proceso configurados con el modo de acceso dedicado tienen acceso total a DBFS, incluidos todos los archivos de la raíz de DBFS y los datos montados.
¿Cómo funciona DBFS en modo de acceso estándar (anteriormente modo de acceso compartido)?
El modo de acceso estándar combina la gobernanza de datos de Unity Catalog con las listas de control de acceso de tablas heredadas de Azure Databricks. El acceso a los datos en hive_metastore solo está disponible para los usuarios que tienen permisos concedidos explícitamente.
Para interactuar con archivos directamente mediante DBFS, debe tener ANY FILE permisos concedidos. Dado que ANY FILE permite a los usuarios omitir las ACL de las tablas heredadas en hive_metastore y acceder a todos los datos administrados por DBFS, Databricks recomienda precaución al otorgar este privilegio.
No utilice DBFS con ubicaciones externas del Unity Catalog
Unity Catalog protege el acceso a los datos de ubicaciones externas mediante rutas de acceso de URI de nube completas para identificar concesiones en directorios de almacenamiento de objetos administrados. Los montajes DBFS utilizan un modelo de acceso a datos completamente distinto que omite el Unity Catalog por completo. Databricks recomienda no reutilizar volúmenes de almacenamiento de objetos en la nube entre montajes DBFS y volúmenes externos de UC, incluido cuando se comparten datos entre áreas de trabajo o cuentas.
Protección del almacenamiento administrado por el catálogo de Unity
Catálogo de Unity usa ubicaciones de almacenamiento gestionadas para guardar archivos de datos en tablas y volúmenes gestionados.
Databricks recomienda lo siguiente para ubicaciones de almacenamiento administradas:
- Use nuevas cuentas de almacenamiento o depósitos.
- Defina una directiva de identidad personalizada para el catálogo de Unity.
- Restrinja todo el acceso a Azure Databricks administrado por Unity Catalog.
- Restrinja todo el acceso a las directivas de acceso de identidad creadas para el catálogo de Unity.
Agregar datos existentes a ubicaciones externas
Es posible cargar cuentas de almacenamiento existentes en el catálogo de Unity mediante ubicaciones externas. Para mayor seguridad, Databricks solo recomienda cargar cuentas de almacenamiento en ubicaciones externas después de revocar todas las demás credenciales de almacenamiento y patrones de acceso.
Nunca debe cargar una cuenta de almacenamiento usada como raíz de DBFS como una ubicación externa en el Catálogo de Unity.
El acceso al sistema de archivos del catálogo de Unity ignora las configuraciones de clúster.
El catálogo de Unity no respeta las configuraciones de clúster para la configuración del sistema de archivos. Esto significa que la configuración del sistema de archivos de Hadoop para configurar el comportamiento personalizado con el almacenamiento de objetos en la nube no funciona al acceder a los datos mediante el catálogo de Unity.
Limitación del acceso a múltiples rutas
Aunque por lo general puede usar el Catálogo de Unity y DBFS juntos, las rutas de acceso que son iguales o comparten una relación de padre/hijo no pueden ser referenciadas en el mismo comando o celda del cuaderno mediante diferentes métodos de acceso.
Por ejemplo, si se define una tabla foo externa en la hive_metastore ubicación a/b/c y se define una ubicación externa en el Catálogo de Unity en a/b/, el código siguiente producirá un error:
spark.read.table("foo").filter("id IS NOT NULL").write.mode("overwrite").save("a/b/c")
Este error no surgiría si esta lógica se divide en dos celdas:
df = spark.read.table("foo").filter("id IS NOT NULL")
df.write.mode("overwrite").save("a/b/c")