Recomendaciones para archivos en volúmenes y archivos de área de trabajo

Artículo
08/22/2024

Al cargar o guardar datos o archivos en Azure Databricks, puede elegir almacenar estos archivos mediante volúmenes de Unity Catalog o archivos de área de trabajo. Este artículo contiene recomendaciones y requisitos para usar estas ubicaciones. Para obtener más información sobre los volúmenes y los archivos del área de trabajo, consulte ¿Qué son los volúmenes de Unity Catalog? y ¿Qué son los archivos del área de trabajo?.

Databricks recomienda usar volúmenes de Unity Catalog para almacenar datos, bibliotecas y crear artefactos. Almacene cuadernos, consultas SQL y archivos de código como archivos de área de trabajo. Puede configurar directorios de archivos del área de trabajo como carpetas de Git para sincronizarse con repositorios de Git remotos. Vea integración de Git con carpetas de Git de Databricks. Los archivos de datos pequeños que se usan para escenarios de prueba también se pueden almacenar como archivos del área de trabajo.

En las siguientes tablas se proporcionan recomendaciones específicas para los archivos, según el tipo de archivo o las necesidades de características.

Importante

El sistema de archivos de Databricks (DBFS) también está disponible para el almacenamiento de archivos, pero no se recomienda, ya que todos los usuarios del área de trabajo tienen acceso a los archivos de DBFS. Consulte DBFS.

Tipos de archivo

En la siguiente tabla se proporcionan recomendaciones de almacenamiento para los tipos de archivo. Databricks admite muchos formatos de archivo además de los que se ofrecen en esta tabla como ejemplo.

Tipo de archivo	Recomendación
Objetos de Databricks, como cuadernos y consultas	Almacenar como archivos de área de trabajo
Archivos de datos estructurados, como archivos Parquet y archivos ORC	Almacenar en volúmenes de Unity Catalog
Archivos de datos semiestructurados, como archivos de texto (`.csv`, `.txt`) y archivos JSON (`.json`)	Almacenar en volúmenes de Unity Catalog
Archivos de datos no estructurados, como archivos de imagen (`.png`, `.svg`), archivos de audio (`.mp3`) y archivos de documento (`.pdf`, `.docx`)	Almacenar en volúmenes de Unity Catalog
Archivos de datos sin procesar usados para la exploración temprana de datos	Almacenar en volúmenes de Unity Catalog
Datos operativos, como archivos de registro	Almacenar en volúmenes de Unity Catalog
Archivos de archivo grandes, como archivos ZIP (`.zip`)	Almacenar en volúmenes de Unity Catalog
Archivos de código fuente, como archivos de Python (`.py`), archivos Java (`.java`) y archivos Scala (`.scala`)	Almacenar como archivos de área de trabajo, si procede, con otros objetos relacionados, como cuadernos y consultas. Databricks recomienda administrar estos archivos en una carpeta de Git para el control de versiones y el seguimiento de cambios de estos archivos.
Creación de artefactos y bibliotecas, como ruedas de Python (`.whl`) y archivos JAR (`.jar`)	Almacenar en volúmenes de Unity Catalog
Archivos de configuración	Almacene los archivos de configuración necesarios en las áreas de trabajo de los volúmenes de Unity Catalog, pero almacénelos como archivos de área de trabajo si son archivos de proyecto en una carpeta de Git.

Comparación de características

En la siguiente tabla se comparan las ofertas de características de archivos de área de trabajo y los volúmenes de Unity Catalog.

Característica	Archivos del área de trabajo	Volúmenes de Unity Catalog
Acceso a archivos	Los archivos del área de trabajo solo son accesibles entre sí dentro del mismo área de trabajo.	Los archivos son accesibles globalmente entre áreas de trabajo.
Acceso mediante programación	Se puede acceder a los archivos mediante: - API de Spark - FUSE - dbutils - REST API - SDK de Databricks - CLI de Databricks	Se puede acceder a los archivos mediante: - API de Spark - FUSE - dbutils - REST API - SDK de Databricks - Conectores SQL de Databricks - CLI de Databricks - Proveedor de Databricks Terraform
Conjuntos de recursos de Databricks	De forma predeterminada, todos los archivos de un conjunto (que incluyen bibliotecas y objetos de Databricks, como cuadernos y consultas) se implementan de forma segura como archivos del área de trabajo. Los permisos se definen en la configuración del conjunto.	Los conjuntos se pueden personalizar para incluir bibliotecas que ya están en volúmenes cuando estas superan el límite de tamaño de los archivos del área de trabajo. Consulte Dependencias de la biblioteca de conjuntos de recursos de Databricks.
Nivel de permisos de archivo	Los permisos están en el nivel de carpeta de Git si el archivo está en una carpeta de Git, de lo contrario, los permisos se establecen en el nivel de archivo.	Los permisos están en el nivel de volumen.
Administración de permisos	Los permisos se administran mediante el área de trabajo de ACL y se limitan al área de trabajo contenedora.	Los metadatos y los permisos se administran mediante Unity Catalog. Estos permisos son aplicables en todas las áreas de trabajo que tienen acceso al catálogo.
Montaje de almacenamiento externo	No admite el montaje de almacenamiento externo	Proporciona la opción de apuntar a conjuntos de datos preexistentes en el almacenamiento externo mediante la creación de un volumen externo. Consulte ¿Qué son los volúmenes de Unity Catalog?.
Compatibilidad con UDF	No compatible	La escritura desde UDF se admite mediante volúmenes FUSE
Tamaño de archivo	Almacene archivos más pequeños de menos de 500 MB, como archivos de código fuente (`.py`, `.md`, `.yml`) necesarios junto con cuadernos.	Almacene archivos de datos muy grandes en los límites determinados por los proveedores de servicios en la nube.
Carga y descarga	Compatibilidad con la carga y descarga de hasta 10 MB.	Compatibilidad con la carga y descarga de hasta 5 GB.
Compatibilidad con la creación de tablas	Las tablas no se pueden crear con archivos del área de trabajo como ubicación.	Las tablas se pueden crear a partir de archivos de un volumen ejecutando `COPY INTO`, el cargador automático u otras opciones descritas en Ingesta de datos en un almacén de lago de datos de Databricks.
Estructura de directorios y rutas de acceso de archivos	Los archivos se organizan en directorios anidados, cada uno con su propio modelo de permisos: - Directorios de inicio de usuario, uno para cada usuario y entidad de servicio en el área de trabajo - Carpetas de Git - Compartido	Los archivos se organizan en directorios anidados dentro de un volumen Consulte ¿Cómo acceder a los datos en Unity Catalog?.
Historial de archivos	Use carpeta de Git dentro de áreas de trabajo para realizar un seguimiento de los cambios de archivos.	Los registros de auditoría están disponibles.

Compartir a través de

Recomendaciones para archivos en volúmenes y archivos de área de trabajo

Tipos de archivo

Comparación de características

Comentarios

Recursos adicionales