Comparteix via


Recomendaciones para archivos en volúmenes y archivos de área de trabajo

Al cargar o guardar datos o archivos en Azure Databricks, puede elegir almacenar estos archivos mediante volúmenes de Unity Catalog o archivos de área de trabajo. Este artículo contiene recomendaciones y requisitos para usar estas ubicaciones. Para obtener más información sobre los volúmenes y los archivos del área de trabajo, consulte ¿Qué son los volúmenes de Unity Catalog? y ¿Qué son los archivos del área de trabajo?

Databricks recomienda usar volúmenes de Unity Catalog para almacenar datos, bibliotecas y crear artefactos. Almacene cuadernos, consultas SQL y archivos de código como archivos de área de trabajo. Puede configurar directorios de archivos del área de trabajo como carpetas de Git para sincronizarse con repositorios de Git remotos. Consulte Carpetas de Git de Azure Databricks. Los archivos de datos pequeños que se usan para escenarios de prueba también se pueden almacenar como archivos del área de trabajo.

En las siguientes tablas se proporcionan recomendaciones específicas para los archivos, según el tipo de archivo o las necesidades de características.

Tipos de archivo

En la siguiente tabla se proporcionan recomendaciones de almacenamiento para los tipos de archivo. Databricks admite muchos formatos de archivo además de los que se ofrecen en esta tabla como ejemplo.

Tipo de archivo Recommendation
Objetos de Databricks, como cuadernos y consultas Almacenar como archivos de área de trabajo
Archivos de datos estructurados, como archivos Parquet y archivos ORC Almacenar en volúmenes de Unity Catalog
Archivos de datos semiestructurados, como archivos de texto (.csv, .txt) y archivos JSON (.json) Almacenar en volúmenes de Unity Catalog
Archivos de datos no estructurados, como archivos de imagen (.png, .svg), archivos de audio (.mp3) y archivos de documento (.pdf, .docx) Almacenar en volúmenes de Unity Catalog
Archivos de datos sin procesar usados para la exploración temprana de datos Almacenar en volúmenes de Unity Catalog
Datos operativos, como archivos de registro Almacenar en volúmenes de Unity Catalog
Archivos de archivo grandes, como archivos ZIP (.zip) Almacenar en volúmenes de Unity Catalog
Archivos de código fuente, como archivos de Python (.py), archivos Java (.java) y archivos Scala (.scala) Almacenar como archivos de área de trabajo, si procede, con otros objetos relacionados, como cuadernos y consultas.
Databricks recomienda administrar estos archivos en una carpeta git para el control de versiones y el seguimiento de cambios de estos archivos.
Creación de artefactos y bibliotecas, como ruedas de Python (.whl) y archivos JAR (.jar) Almacenar en volúmenes de Unity Catalog
Archivos de configuración Almacene los archivos de configuración necesarios en áreas de trabajo en volúmenes de Catálogo de Unity, pero almacénelos como archivos de área de trabajo si son archivos de proyecto en una carpeta git.

Comparación de características

En la tabla siguiente se comparan las ofertas de características de los archivos del área de trabajo y los volúmenes del catálogo de Unity.

Feature Archivos del área de trabajo Volúmenes de Unity Catalog
Acceso a archivos Los archivos del área de trabajo solo son accesibles entre sí dentro del mismo área de trabajo. Los archivos son accesibles globalmente entre áreas de trabajo.
Acceso mediante programación Se puede acceder a los archivos mediante:
Se puede acceder a los archivos mediante:
Conjuntos de recursos de Databricks De forma predeterminada, todos los archivos de un conjunto (que incluyen bibliotecas y objetos de Databricks, como cuadernos y consultas) se implementan de forma segura como archivos del área de trabajo. Los permisos se definen en la configuración del conjunto. Los conjuntos se pueden personalizar para incluir bibliotecas que ya están en volúmenes cuando estas superan el límite de tamaño de los archivos del área de trabajo. Consulte Dependencias de la biblioteca de conjuntos de recursos de Databricks.
Nivel de permisos de archivo Los permisos se encuentran en el nivel de carpeta de Git si el archivo está en una carpeta de Git; de lo contrario, los permisos se establecen en el nivel de archivo. Los permisos están en el nivel de volumen.
Administración de permisos Los permisos se administran mediante ACL del área de trabajo y se limitan al área de trabajo contenedora. Los metadatos y los permisos se administran mediante Unity Catalog. Estos permisos son aplicables en todas las áreas de trabajo que tienen acceso al catálogo.
Montaje de almacenamiento externo No admite el montaje de almacenamiento externo Proporciona la opción de apuntar a conjuntos de datos preexistentes en el almacenamiento externo mediante la creación de un volumen externo. Consulte ¿Qué son los volúmenes de Unity Catalog?.
Compatibilidad con UDF No se admite La escritura desde UDF se admite mediante volúmenes FUSE
Tamaño del archivo Almacene archivos más pequeños de menos de 500 MB, como archivos de código fuente (.py, .md, .yml) necesarios junto con cuadernos. Almacene archivos de datos muy grandes en los límites determinados por los proveedores de servicios en la nube.
Cargar y descargar Compatibilidad con la carga y descarga de hasta 10 MB. Compatibilidad con la carga y descarga de hasta 5 GB.
Compatibilidad con la creación de tablas Las tablas no se pueden crear con archivos del área de trabajo como ubicación. Las tablas se pueden crear a partir de archivos en un volumen ejecutando COPY INTO, Autoloader u otras opciones descritas en Conectores estándar en Lakeflow Connect.
Estructura de directorios y rutas de acceso de archivos Los archivos se organizan en directorios anidados, cada uno con su propio modelo de permisos:
  • Directorios de inicio de usuario, uno para cada usuario y entidad de servicio en el área de trabajo
  • Carpetas de Git
  • Shared
Los archivos se organizan en directorios anidados dentro de un volumen
Consulte Acceso a datos en el catálogo de Unity.
Historial de archivos Use la carpeta Git dentro de las áreas de trabajo para realizar un seguimiento de los cambios en los archivos. Los registros de auditoría están disponibles.