Compartir a través de


Gobernanza de datos con Azure Databricks

En esta página se proporciona información general sobre cómo controlar los datos mediante el catálogo de Unity en Azure Databricks.

Nota:

Esta página se centra en la gobernanza de los datos. Los temas de seguridad relacionados, como los siguientes, se tratan en Seguridad y cumplimiento:

  • Autenticación y control de acceso
  • Configuración de red
  • Seguridad y cifrado de datos
  • Privacidad y cumplimiento

¿Qué es Unity Catalog?

Unity Catalog es un catálogo de datos centralizado que proporciona un control de acceso específico para datos tabulares y no estructurados en varios formatos en varias plataformas, junto con la gobernanza de recursos de inteligencia artificial como modelos de aprendizaje automático. También incluye las herramientas que necesita para detectar datos, realizar un seguimiento del uso, capturar linaje y supervisar la calidad de los datos.

Unity Catalog es de código abierto y admite varias plataformas. Está profundamente integrado en Azure Databricks.

Consulte ¿Qué es Unity Catalog?

El modelo de gobernanza de datos del catálogo de Unity

La gobernanza de datos con Unity Catalog proporciona lo siguiente:

  • Unificación de datos: una vista unificada de todos los recursos de datos e inteligencia artificial, en todas las plataformas, lo que reduce la duplicación y la expansión.
  • Control de acceso a datos: herramientas para garantizar que los datos sean fáciles de acceder, pero solo para los usuarios adecuados.
  • Detectabilidad de datos: herramientas que facilitan la búsqueda de los datos que necesita.
  • Calidad de los datos: herramientas para garantizar que los datos sean precisos, completos, coherentes y seguros a lo largo de su ciclo de vida.
  • Colaboración y uso compartido de datos: la capacidad de compartir datos de forma segura no solo dentro de su organización sino en los límites de la organización y de la plataforma.
  • Auditoría: herramientas que capturan quién usa los datos y cómo.

En esta página se explica cómo su organización puede satisfacer estas necesidades mediante unity Catalog en Azure Databricks.

Control de acceso a datos

Para asegurarse de que los usuarios solo tienen acceso a los datos que deben, El catálogo de Unity proporciona un modelo de privilegios jerárquico que le permite conceder a los usuarios, grupos y entidades de servicio acceso a los datos y los recursos de inteligencia artificial desde el nivel de cuenta hasta las filas y columnas de la tabla. Puede controlar el acceso a los recursos almacenados en el almacenamiento dedicado del catálogo de Unity o almacenados en otras plataformas, como el almacenamiento en la nube o los sistemas de base de datos: la clave es que Unity Catalog proporciona a los usuarios acceso potencial a todos los datos, independientemente de dónde esté, desde Azure Databricks y que Unity Catalog controla su acceso y realiza un seguimiento del uso de sus datos.

Tarea Descripción
Administración de privilegios Obtenga información sobre los objetos protegibles que administra Unity Catalog y cómo controlar el acceso a ellos.
Administración del control de acceso basado en atributos (ABAC) Aprenda cómo controlar el acceso a los datos mediante ABAC en Unity Catalog.
Administrar identidades Obtenga información sobre cómo administrar identidades en el contexto del catálogo de Unity.
Control de acceso específico Obtenga información sobre cómo controlar el acceso a los datos de tabla mediante filtros de fila y máscaras de columna.
Administración del acceso a plataformas de datos y almacenamiento externo Obtenga información sobre cómo controlar el acceso al almacenamiento en la nube, las plataformas de datos externas y los servicios externos que no son de datos mediante el catálogo de Unity.
Administración del acceso desde plataformas externas Aprenda cómo Unity Catalog puede administrar el acceso a sus datos desde plataformas externas que utilizan las API de Apache Iceberg o Unity Catalog de código abierto.

Detectabilidad de datos

Azure Databricks y Unity Catalog proporcionan las siguientes herramientas para ayudar a los usuarios a encontrar los datos que necesitan:

Característica Descripción
Explorador de catálogos Busque y busque datos y recursos de INTELIGENCIA ARTIFICIAL mediante nombres de recursos y metadatos, como comentarios y etiquetas.
Exploradores de catálogos Busque datos y recursos de inteligencia artificial mediante exploradores integrados en los editores de consultas SQL y cuadernos. Consulte Navegar por el cuaderno de Databricks y el editor de archivos yEscribir consultas y explorar datos en el editor de SQL.
Comentarios generados por IA Genere automáticamente documentación de los recursos de datos e inteligencia artificial para ayudar a la detectabilidad.
Análisis de la tabla Use una interfaz de usuario integrada en el Explorador de catálogos para ver los usuarios y consultas más frecuentes de cualquier tabla del catálogo de Unity.
Linaje de datos Capture y visualice la forma en que fluyen los datos a través de su organización.
Para conocer el linaje de funcionalidades y modelos, consulte Gobernanza y linaje de características.
Diagramas de relación de entidad (ERD) Muestra las relaciones de las tablas que tienen definidas claves externas.

Consulte también Detección de datos.

Supervisión de la calidad de los datos

Las herramientas para garantizar la calidad de los datos y la integridad de los datos están profundamente integradas en Delta Lake, Apache Spark y Azure Databricks. Puede obtener información sobre ellos en toda la documentación de Azure Databricks.

El catálogo de Unity agrega lo siguiente:

Característica Descripción
Supervisión de Lakehouse Una herramienta de supervisión de datos que captura las propiedades estadísticas y la calidad de los datos en todas las tablas de su cuenta. También puede usarlo para realizar un seguimiento del rendimiento de los modelos de aprendizaje automático y los endpoints de servicio de modelos mediante la monitorización de tablas de inferencia que contienen entradas y predicciones del modelo.
Etiquetas del sistema certificadas y en desuso Etiquete objetos protegibles, como catálogos, esquemas y tablas, con indicadores de calidad de datos o estado del ciclo de vida. Estas etiquetas del sistema ayudan a las organizaciones a aplicar la gobernanza, mejorar la detectabilidad de los datos y aumentar la confianza en las aplicaciones de análisis e inteligencia artificial.

Colaboración y uso compartido de datos

Unity Catalog permite a los usuarios colaborar en los mismos datos en todas las áreas de trabajo de la cuenta de la misma región. Cuando se requiere colaboración entre regiones del área de trabajo, entre organizaciones y entre plataformas, Unity Catalog proporciona la base para las siguientes herramientas de uso compartido.

Característica Descripción
Delta Sharing Una plataforma segura de uso compartido de datos que le permite compartir datos y recursos de inteligencia artificial en Azure Databricks con usuarios externos a su organización, tanto si esos usuarios usan Databricks como si no.
Salas limpias Un entorno administrado por Databricks en el que varios participantes de las plataformas databricks y que no son de Databricks pueden colaborar en proyectos sin compartir datos subyacentes entre sí.
Databricks Marketplace Un foro abierto para intercambiar datos y productos de inteligencia artificial. También proporciona un intercambio de datos privado.

Auditoría

Los registros de auditoría capturan detalles específicos sobre quién ha accedido a un conjunto de datos determinado y las acciones que han realizado. Unity Catalog agrega tablas del sistema, la manera más fácil de acceder a los registros de auditoría de la cuenta y consultarlos.

Consulte Referencia del registro de diagnóstico y Supervisión de la actividad de la cuenta con las tablas del sistema.

Herramientas heredadas de gobernanza de datos de Azure Databricks

Azure Databricks también proporciona estas características de gobernanza heredadas. Databricks recomienda usar Unity Catalog en su lugar.

Característica Descripción
Control de acceso a tablas Un modelo de gobernanza de datos heredado que le permite conceder y revocar mediante programación el acceso a los objetos administrados por el metastore integrado de Hive del área de trabajo.
Acceso directo a credenciales de Azure Data Lake Storage Una característica heredada de gobernanza de datos que le permite autenticarse automáticamente en Azure Storage desde clústeres de Azure Databricks mediante la misma identidad de Id. de Microsoft Entra que se usa para iniciar sesión en Azure Databricks.

Pasos siguientes