Recomendaciones para archivos en volúmenes y archivos de área de trabajo
Al cargar o guardar datos o archivos en Azure Databricks, puede elegir almacenar estos archivos mediante volúmenes de Unity Catalog o archivos de área de trabajo. Este artículo contiene recomendaciones y requisitos para usar estas ubicaciones. Para obtener más información sobre los volúmenes y los archivos del área de trabajo, consulte ¿Qué son los volúmenes de Unity Catalog? y ¿Qué son los archivos del área de trabajo?.
Databricks recomienda usar volúmenes de Unity Catalog para almacenar datos, bibliotecas y crear artefactos. Almacene cuadernos, consultas SQL y archivos de código como archivos de área de trabajo. Puede configurar directorios de archivos del área de trabajo como carpetas de Git para sincronizarse con repositorios de Git remotos. Vea integración de Git con carpetas de Git de Databricks. Los archivos de datos pequeños que se usan para escenarios de prueba también se pueden almacenar como archivos del área de trabajo.
En las siguientes tablas se proporcionan recomendaciones específicas para los archivos, según el tipo de archivo o las necesidades de características.
Importante
El sistema de archivos de Databricks (DBFS) también está disponible para el almacenamiento de archivos, pero no se recomienda, ya que todos los usuarios del área de trabajo tienen acceso a los archivos de DBFS. Consulte DBFS.
Tipos de archivo
En la siguiente tabla se proporcionan recomendaciones de almacenamiento para los tipos de archivo. Databricks admite muchos formatos de archivo además de los que se ofrecen en esta tabla como ejemplo.
Tipo de archivo | Recomendación |
---|---|
Objetos de Databricks, como cuadernos y consultas | Almacenar como archivos de área de trabajo |
Archivos de datos estructurados, como archivos Parquet y archivos ORC | Almacenar en volúmenes de Unity Catalog |
Archivos de datos semiestructurados, como archivos de texto (.csv , .txt ) y archivos JSON (.json ) |
Almacenar en volúmenes de Unity Catalog |
Archivos de datos no estructurados, como archivos de imagen (.png , .svg ), archivos de audio (.mp3 ) y archivos de documento (.pdf , .docx ) |
Almacenar en volúmenes de Unity Catalog |
Archivos de datos sin procesar usados para la exploración temprana de datos | Almacenar en volúmenes de Unity Catalog |
Datos operativos, como archivos de registro | Almacenar en volúmenes de Unity Catalog |
Archivos de archivo grandes, como archivos ZIP (.zip ) |
Almacenar en volúmenes de Unity Catalog |
Archivos de código fuente, como archivos de Python (.py ), archivos Java (.java ) y archivos Scala (.scala ) |
Almacenar como archivos de área de trabajo, si procede, con otros objetos relacionados, como cuadernos y consultas. Databricks recomienda administrar estos archivos en una carpeta de Git para el control de versiones y el seguimiento de cambios de estos archivos. |
Creación de artefactos y bibliotecas, como ruedas de Python (.whl ) y archivos JAR (.jar ) |
Almacenar en volúmenes de Unity Catalog |
Archivos de configuración | Almacene los archivos de configuración necesarios en las áreas de trabajo de los volúmenes de Unity Catalog, pero almacénelos como archivos de área de trabajo si son archivos de proyecto en una carpeta de Git. |
Comparación de características
En la siguiente tabla se comparan las ofertas de características de archivos de área de trabajo y los volúmenes de Unity Catalog.
Característica | Archivos del área de trabajo | Volúmenes de Unity Catalog |
---|---|---|
Acceso a archivos | Los archivos del área de trabajo solo son accesibles entre sí dentro del mismo área de trabajo. | Los archivos son accesibles globalmente entre áreas de trabajo. |
Acceso mediante programación | Se puede acceder a los archivos mediante: - API de Spark - FUSE - dbutils - REST API - SDK de Databricks - CLI de Databricks |
Se puede acceder a los archivos mediante: - API de Spark - FUSE - dbutils - REST API - SDK de Databricks - Conectores SQL de Databricks - CLI de Databricks - Proveedor de Databricks Terraform |
Conjuntos de recursos de Databricks | De forma predeterminada, todos los archivos de un conjunto (que incluyen bibliotecas y objetos de Databricks, como cuadernos y consultas) se implementan de forma segura como archivos del área de trabajo. Los permisos se definen en la configuración del conjunto. | Los conjuntos se pueden personalizar para incluir bibliotecas que ya están en volúmenes cuando estas superan el límite de tamaño de los archivos del área de trabajo. Consulte Dependencias de la biblioteca de conjuntos de recursos de Databricks. |
Nivel de permisos de archivo | Los permisos están en el nivel de carpeta de Git si el archivo está en una carpeta de Git, de lo contrario, los permisos se establecen en el nivel de archivo. | Los permisos están en el nivel de volumen. |
Administración de permisos | Los permisos se administran mediante el área de trabajo de ACL y se limitan al área de trabajo contenedora. | Los metadatos y los permisos se administran mediante Unity Catalog. Estos permisos son aplicables en todas las áreas de trabajo que tienen acceso al catálogo. |
Montaje de almacenamiento externo | No admite el montaje de almacenamiento externo | Proporciona la opción de apuntar a conjuntos de datos preexistentes en el almacenamiento externo mediante la creación de un volumen externo. Consulte ¿Qué son los volúmenes de Unity Catalog?. |
Compatibilidad con UDF | No compatible | La escritura desde UDF se admite mediante volúmenes FUSE |
Tamaño de archivo | Almacene archivos más pequeños de menos de 500 MB, como archivos de código fuente (.py , .md , .yml ) necesarios junto con cuadernos. |
Almacene archivos de datos muy grandes en los límites determinados por los proveedores de servicios en la nube. |
Carga y descarga | Compatibilidad con la carga y descarga de hasta 10 MB. | Compatibilidad con la carga y descarga de hasta 5 GB. |
Compatibilidad con la creación de tablas | Las tablas no se pueden crear con archivos del área de trabajo como ubicación. | Las tablas se pueden crear a partir de archivos de un volumen ejecutando COPY INTO , el cargador automático u otras opciones descritas en Ingesta de datos en un almacén de lago de datos de Databricks. |
Estructura de directorios y rutas de acceso de archivos | Los archivos se organizan en directorios anidados, cada uno con su propio modelo de permisos: - Directorios de inicio de usuario, uno para cada usuario y entidad de servicio en el área de trabajo - Carpetas de Git - Compartido |
Los archivos se organizan en directorios anidados dentro de un volumen Consulte ¿Cómo acceder a los datos en Unity Catalog?. |
Historial de archivos | Use carpeta de Git dentro de áreas de trabajo para realizar un seguimiento de los cambios de archivos. | Los registros de auditoría están disponibles. |