Explorar el almacenamiento y buscar archivos de datos
Este artículo se centra en detectar y explorar directorios y archivos de datos administrados con volúmenes de Unity Catalog, incluidas las instrucciones basadas en la interfaz de usuario para explorar volúmenes con Catalog Explorer. En este artículo también se proporcionan ejemplos para la exploración mediante programación de datos en el almacenamiento de objetos en la nube mediante rutas de acceso de volumen y URI en la nube.
Databricks recomienda usar volúmenes para administrar el acceso a los datos en el almacenamiento de objetos en la nube. Para obtener más información sobre cómo conectarse a datos en el almacenamiento de objetos en la nube, consulte Conexión a orígenes de datos.
Para ver un tutorial completo sobre cómo interactuar con archivos en todas las ubicaciones, consulte Trabajar con archivos en Azure Databricks.
Importante
Al buscar Archivos en la interfaz de usuario del área de trabajo, es posible que detecte los archivos de datos almacenados como archivos del área de trabajo. Databricks recomienda usar archivos de área de trabajo principalmente para código (como scripts y bibliotecas), scripts de inicialización o archivos de configuración. Lo ideal es limitar los datos almacenados como archivos de área de trabajo a pequeños conjuntos de datos que se pueden usar para tareas como las pruebas durante el desarrollo y el control de calidad. Consulte ¿Qué son los archivos del área de trabajo?
Volúmenes frente a configuraciones heredadas de objetos en la nube
Cuando se usan volúmenes para administrar el acceso a los datos en el almacenamiento de objetos en la nube, solo puede usar la ruta de acceso de los volúmenes para acceder a los datos, y estas rutas de acceso están disponibles con todo el proceso habilitado para Unity Catalog. No se pueden registrar archivos de datos que respaldan tablas de Unity Catalog mediante volúmenes. Databricks recomienda usar nombres de tabla en lugar de rutas de acceso de archivo para interactuar con datos estructurados registrados como tablas de Unity Catalog. Consulte ¿Cómo funcionan las rutas de acceso para los datos administrados por Unity Catalog?
Si usa un método heredado para configurar el acceso a los datos en el almacenamiento de objetos en la nube, Azure Databricks revierte a los permisos de ACL de tabla heredados. Los usuarios que deseen acceder a los datos mediante URI en la nube desde almacenes de SQL o proceso configurados con el modo de acceso compartido requieren el permiso ANY FILE
. Consulte Control de acceso a la tabla de metastore de Hive (heredado).
Azure Databricks proporciona varias API para enumerar archivos en el almacenamiento de objetos en la nube. La mayoría de los ejemplos de este artículo se centran en el uso de volúmenes. Para obtener ejemplos sobre cómo interactuar con los datos en el almacenamiento de objetos configurado sin volúmenes, consulte Enumerar archivos con URI.
Explorar volúmenes
Puede usar Catalog Explorer para explorar datos en volúmenes y revisar los detalles de un volumen. Solo podrá ver los volúmenes para los que tenga permisos de lectura, por lo que podrá consultar todos los datos detectados de esta forma.
Puede usar SQL para explorar volúmenes y sus metadatos. Para enumerar archivos en volúmenes, puede usar SQL, el comando magic %fs
o las utilidades de Databricks. Al interactuar con datos en volúmenes, se usa la ruta de acceso proporcionada por Unity Catalog, que siempre tiene el siguiente formato:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Mostrar volúmenes
SQL
Ejecute el comando siguiente para ver una lista de volúmenes en un esquema determinado.
SHOW VOLUMES IN catalog_name.schema_name;
Consulte MOSTRAR LOS VOLÚMENES.
Explorador de catálogo
Para mostrar volúmenes en un esquema determinado con Catalog Explorer, haga lo siguiente:
- Seleccione el icono Catálogo.
- Seleccione un catálogo.
- Seleccionar un esquema.
- Haga clic en Volúmenes para expandir todos los volúmenes del esquema.
Nota:
Si no se registra ningún volumen en un esquema, no se muestra la opción Volúmenes. En su lugar, verá una lista de tablas disponibles.
Consulte los detalles del volumen
SQL
Ejecute el siguiente comando para describir un volumen.
DESCRIBE VOLUME volume_name
Consulte DESCRIBIR VOLUMEN.
Explorador de catálogo
Haga clic en el nombre del volumen y seleccione la pestaña Detalles para revisar los detalles del volumen.
Ver archivos en volúmenes
SQL
Ejecute el siguiente comando para enumerar los archivos de un volumen.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Explorador de catálogo
Haga clic en el nombre del volumen y seleccione la pestaña Detalles para revisar los detalles del volumen.
%fs
Ejecute el siguiente comando para enumerar los archivos de un volumen.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Utilidades de Databricks
Ejecute el siguiente comando para enumerar los archivos de un volumen.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Enumerar archivos con URI
Puede consultar el almacenamiento de objetos en la nube configurado con métodos distintos de los volúmenes mediante URI. Debe estar conectado al proceso con privilegios para acceder a la ubicación en la nube. El permiso ANY FILE
es necesario en los almacenes de SQL y el proceso configurado con el modo de acceso compartido.
Nota:
No se admite el acceso de URI al almacenamiento de objetos configurado con volúmenes. No se puede usar Catalog Explorer para revisar el contenido del almacenamiento de objetos no configurado con volúmenes.
En los ejemplos siguientes se incluyen URI de ejemplo para los datos almacenados con Azure Data Lake Storage Gen2, S3 y GCS.
SQL
Ejecute el comando siguiente para enumerar archivos en el almacenamiento de objetos en la nube.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Ejecute el comando siguiente para enumerar archivos en el almacenamiento de objetos en la nube.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Utilidades de Databricks
Ejecute el comando siguiente para enumerar archivos en el almacenamiento de objetos en la nube.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")