Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los volúmenes son objetos del catálogo Unity que permiten gobernar conjuntos de datos no tabulares. Los volúmenes representan un volumen lógico de almacenamiento en una ubicación de almacenamiento de objetos en la nube. Los volúmenes proporcionan funcionalidades para acceder, almacenar, gobernar y organizar archivos.
Aunque las tablas rigen los datos tabulares, los volúmenes rigen los datos no tabulares de cualquier formato, incluidos estructurados, semiestructurados o no estructurados.
Databricks recomienda usar volúmenes para gobernar el acceso a todos los datos no tabulares. Los volúmenes están disponibles en dos tipos:
- Volúmenes administrados: Para un almacenamiento simple administrado por Databricks.
- Volúmenes externos: Para agregar gobernanza a las ubicaciones de almacenamiento de objetos en la nube existentes.
Casos de uso para volúmenes
Entre los casos de uso de los volúmenes se incluyen:
- Registre áreas de aterrizaje para datos sin procesar generados por sistemas externos para admitir su procesamiento en las primeras fases de las canalizaciones ETL y otras actividades de ingeniería de datos.
- Registrar ubicaciones de almacenamiento provisional para la ingesta. Por ejemplo, mediante instrucciones Auto Loader,
COPY INTOo CTAS (CREATE TABLE AS). - Proporcione ubicaciones de almacenamiento de archivos para que los científicos de datos, los analistas de datos y los ingenieros de aprendizaje automático lo usen como parte de su análisis exploratorio de datos y otras tareas de ciencia de datos.
- Proporcione a los usuarios de Azure Databricks acceso a archivos arbitrarios generados y almacenados en el almacenamiento en la nube por otros sistemas. Por ejemplo, grandes colecciones de datos no estructurados (como archivos image, audio, vídeo y PDF) capturados por sistemas de vigilancia o dispositivos IoT, o archivos de biblioteca (JAR y archivos de rueda de Python) exportados desde sistemas de administración de dependencias locales o canalizaciones de CI/CD.
- Almacene datos operativos, como archivos de registro o archivos de punto de comprobación.
Para obtener una demostración de cómo trabajar con volúmenes, consulte Simplificación de archivos, imágenes y recuperación de datos con volúmenes de catálogo de Unity.
Important
No se pueden registrar archivos en volúmenes como tablas en el catálogo de Unity. Los volúmenes están diseñados solo para el acceso a datos basado en rutas de acceso. Use tablas cuando quiera trabajar con datos tabulares en Unity Catalog.
Volúmenes administrados frente a externos
Los volúmenes administrados y externos proporcionan experiencias casi idénticas al usar herramientas, INTERFACES y API de Azure Databricks. Las principales diferencias se relacionan con la ubicación de almacenamiento, el ciclo de vida y el control:
| Característica | Volúmenes administrados | Volúmenes externos |
|---|---|---|
| Ubicación de almacenamiento | Creado dentro del almacenamiento administrado por UC para el esquema | Registrado en una ruta de acceso de almacenamiento de objetos en la nube existente |
| Ciclo de vida de los datos | UC administra el diseño y la eliminación (retención de 7 días al eliminar) | Los datos permanecen en el almacenamiento en la nube cuando se quita el volumen. |
| Control de acceso | Todo el acceso pasa a través de UC | UC rige el acceso, pero las herramientas externas pueden usar URI directos |
| ¿Se necesita la migración? | No | No: use rutas de acceso de almacenamiento existentes as-is |
| Caso de uso típico | Opción más sencilla para cargas de trabajo solo de Databricks | Acceso mixto a Databricks y al sistema externo |
¿Por qué usar volúmenes administrados?
Los volúmenes administrados tienen las siguientes ventajas:
- Opción predeterminada para las cargas de trabajo de Databricks.
- No es necesario administrar manualmente las credenciales de nube ni las rutas de acceso de almacenamiento.
- Opción más sencilla para crear ubicaciones de almacenamiento reguladas rápidamente.
¿Por qué usar volúmenes externos?
Los volúmenes externos permiten agregar la gobernanza de datos del Catálogo de Unity a los directorios de almacenamiento de objetos en la nube existentes. Algunos casos de uso para volúmenes externos incluyen lo siguiente:
- Agregar gobernanza en la que ya residen los datos, sin necesidad de copiar datos.
- Gobernanza de los archivos generados por otros sistemas a los que Azure Databricks debe ingerir o acceder a ellos.
- Gobernanza de los datos generados por Azure Databricks a los que otros sistemas deben acceder directamente desde el almacenamiento de objetos en la nube.
Databricks recomienda usar volúmenes externos para almacenar archivos de datos no tabulares leídos o escritos por sistemas externos además de Azure Databricks. El catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para que las directivas de gobernanza de datos se respeten fuera de Azure Databricks.
Ruta de acceso para acceder a los archivos de un volumen
Los volúmenes se sitúan en el tercer nivel del espacio de nombres de tres niveles de Unity Catalog (catalog.schema.volume):
La ruta de acceso a los volúmenes es la misma tanto si se usa Apache Spark, SQL o Python como otros lenguajes y bibliotecas. Esto difiere de los patrones de acceso heredados para los archivos del almacenamiento de objetos enlazados a un área de trabajo de Azure Databricks.
La ruta de acceso a los archivos de los volúmenes tiene el siguiente formato:
/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
Azure Databricks también admite un esquema dbfs:/ opcional al trabajar con Apache Spark, por lo que también funciona la siguiente ruta de acceso:
dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
La /<catalog>/<schema>/<volume> parte de la ruta de acceso se asigna a los tres nombres de objeto de catálogo de Unity para el archivo. Estos directorios son de solo lectura y se administran automáticamente mediante El catálogo de Unity. No puede crearlos ni eliminarlos con comandos del sistema de archivos.
Note
También puede acceder a los datos de volúmenes externos mediante URI de almacenamiento en la nube.
Rutas de acceso reservadas para volúmenes
Los volúmenes presentan las siguientes rutas de acceso reservadas que se usan para acceder a volúmenes:
dbfs:/Volumes/Volumes
Note
Las rutas de acceso también están reservadas para posibles errores tipográficos de estas rutas de acceso de las API de Apache Spark y dbutils, incluidos /volumes, /Volume y /volume, si están precedidas o no de dbfs:/. La ruta de acceso /dbfs/Volumes también está reservada, pero no se puede usar para acceder a los volúmenes.
Los volúmenes solo se admiten en Databricks Runtime 13.3 LTS y versiones posteriores. En Databricks Runtime 12.2 LTS y versiones anteriores, las operaciones contra rutas de acceso de /Volumes pueden tener éxito, pero solo pueden escribir datos en discos de almacenamiento efímeros conectados a clústeres de proceso en lugar de almacenar datos en volúmenes de Catálogo de Unity como se esperaba.
Important
Si tiene datos preexistentes almacenados en una ruta reservada en la raíz de DBFS, abra una incidencia de soporte técnico para obtener acceso temporal a estos datos para moverlos a otra ubicación.
Requisitos de proceso
Al trabajar con volúmenes, debe usar una instancia de SQL Warehouse o un clúster que ejecute Databricks Runtime 13.3 LTS o superior, a menos que use UIs de Azure Databricks, como el Explorador de catálogos.
Limitations
Debe usar recursos de computación habilitados para Unity Catalog para interactuar con los volúmenes de Unity Catalog.
En la tabla siguiente se describen las limitaciones del volumen del catálogo de Unity en función de la versión de Databricks Runtime:
| Versión de Databricks Runtime | Limitations |
|---|---|
| Todas las versiones admitidas de Databricks Runtime |
|
| 14.3 LTS y versiones posteriores |
|
| 14.2 y versiones posteriores |
|
Pasos siguientes
Los artículos siguientes proporcionan más información sobre cómo trabajar con volúmenes: