Detección de datos

Azure Databricks proporciona un conjunto de herramientas y productos que simplifican la detección de recursos de datos a los que se puede acceder a través de la plataforma Databricks Data Intelligence. Este artículo ofrece una visión general de cómo puede detectar y obtener una vista previa de los datos que ya se han configurado para el acceso en el área de trabajo.

Los temas de esta sección se centran en explorar objetos de datos y archivos de datos. Si busca información sobre cómo trabajar con recursos como cuadernos, consultas SQL, bibliotecas y modelos, consulte Navegar por el área de trabajo.

Si busca instrucciones sobre cómo generar estadísticas de resumen para conjuntos de datos u otras tareas asociadas con el análisis exploratorio de datos (EDA), consulte Análisis de datos exploratorios en Azure Databricks: herramientas y técnicas.

¿Cómo puede detectar recursos de datos?

Las herramientas de detección de datos en Azure Databricks se dividen en las siguientes categorías generales:

  • Información asistida por IA, resumen y búsqueda.
  • Búsqueda de palabra clave.
  • Exploración del catálogo mediante la interfaz de usuario.
  • Exploración de metadatos y enumeración mediante programación.

Las herramientas de detección de datos están optimizadas para los datos regidos por Unity Catalog. Es posible que los recursos de datos que no se hayan registrado como objetos de Unity Catalog no se puedan detectar mediante algunos de estos enfoques.

Búsqueda de datos mediante la interfaz de usuario

Catalog Explorer proporciona herramientas para explorar y gobernar los recursos de datos. Puede acceder a Catalog Explorer mediante el Catalog iconCatálogo en la barra lateral del área de trabajo. Consulte ¿Qué es el Catalog Explorer?.

Los cuadernos y el editor de consultas SQL también proporcionan un navegador de catálogo para explorar objetos de base de datos. Haga clic en el icono Catálogo en estas interfaces para expandir o contraer el navegador del catálogo sin salir del editor de código.

Una vez haya descubierto un conjunto de datos de interés, puede usar la pestaña Información para obtener información sobre cómo se usan los datos en el área de trabajo. Consulte Vista de consultas frecuentes y usuarios de una tabla.

Explorar datos mediante programación

Puede usar el comando SHOW en todos los objetos de base de datos para detectar recursos registrados en Unity Catalog. Use el comando LIST, el comando magic %fs o las utilidades de Databricks para enumerar archivos.

Consulte Explorar el almacenamiento y buscar archivos de datos y Explorar objetos de base de datos.

Revisar comentarios de datos

Puede revisar los comentarios para obtener información sobre el contenido de los conjuntos de datos disponibles en el almacén de lago. Los comentarios se pueden establecer en objetos de datos, incluidos catálogos, esquemas, tablas y columnas. Puede ver comentarios en Catalog Explorer o usar el comando DESCRIBE para un objeto.

Catalog Explorer puede proporcionar comentarios generados por IA para las tablas, lo que facilita a los propietarios de recursos de datos proporcionar una visión general enriquecida de los conjuntos de datos. Consulte Agregar comentarios generados por IA a una tabla.

Los usuarios también pueden proporcionar comentarios sobre tablas y otros objetos de base de datos mediante Markdown, que se representa en Catalog Explorer. Consulte Datos del documento en el Explorador de catálogos mediante comentarios de Markdown.

Buscar tablas en el almacén de lago

Puede usar la barra de búsqueda de Azure Databricks para buscar tablas registradas en Unity Catalog. Puede realizar una búsqueda por palabra clave o usar la búsqueda semántica para buscar conjuntos de datos o columnas relacionados con la consulta de búsqueda. La búsqueda solo devuelve resultados de las tablas que usted tiene permiso para ver. La búsqueda revisa los nombres de tabla, los nombres de columna, los comentarios de tabla y los comentarios de columna. Consulte Búsqueda de objetos del área de trabajo.