Gobernanza de datos con Unity Catalog

En esta guía se muestra cómo administrar los datos y el acceso a los objetos de IA en Azure Databricks. Para más información sobre la seguridad de Azure Databricks, consulte la guía de seguridad. Azure Databricks proporciona una gobernanza centralizada para los datos, así como IA con Unity Catalog y Delta Sharing.

Centralización del control de acceso mediante el catálogo de Unity

Catálogo de Unity es una solución de gobernanza específica para los datos y la inteligencia artificial en la plataforma de Databricks. Ayuda a simplificar la seguridad y gobernanza de los datos y los recursos de inteligencia artificial al proporcionar un lugar central para administrar y auditar el acceso a los datos y los recursos de inteligencia artificial.

En la mayoría de las cuentas, Unity Catalog está habilitado de forma predeterminada al crear un área de trabajo. Para obtener más información, consulte Habilitación automática de Unity Catalog.

Para obtener información sobre cómo usar Unity Catalog de forma eficaz, consulte Procedimientos recomendados de Unity Catalog.

Seguimiento del linaje de datos mediante el catálogo de Unity

Puede usar el catálogo de Unity para capturar el linaje de datos en tiempo de ejecución entre las consultas de cualquier lenguaje que se ejecuten en un clúster de Azure Databricks o un almacén de SQL. El linaje se captura hasta el nivel de columna e incluye cuadernos, flujos de trabajo y paneles relacionados con la consulta. Para obtener más información, consulte Captura y visualización del linaje de datos mediante el catálogo de Unity.

Detección de datos mediante Catalog Explorer

El explorador de catálogos de Databricks proporciona una interfaz de usuario para explorar y administrar datos y recursos de IA, incluidos esquemas (bases de datos), tablas, volúmenes (datos no tabulares) y modelos de ML registrados, junto con permisos de recursos, propietarios de datos, ubicaciones externas y credenciales. Puede usar la pestaña Información de Catalog Explorer para ver las consultas y usuarios más frecuentes de cualquier tabla registrada en el catálogo de Unity.

Compartir datos mediante Delta Sharing

Delta Sharing es un protocolo abierto que desarrolla Databricks para el uso compartido seguro de datos y recursos de IA con otras organizaciones, independientemente de las plataformas informáticas que usen.

Configuración del registro de auditoría

Databricks proporciona acceso a registros de auditoría de actividades realizadas por los usuarios de Databricks, lo que permite a su empresa supervisar patrones de uso detallados de Databricks.

El catálogo de Unity le permite acceder y consultar fácilmente los datos operativos de su cuenta, incluidos los registros de auditoría, el uso facturable y el linaje mediante tablas del sistema (versión preliminar pública).

Configurar la identidad

Cada artículo de gobernanza de datos correcto comienza con una solución de identidad sólida. Para aprender a configurar mejor la identidad en Azure Databricks, consulte Procedimientos recomendados de identidad.

Soluciones de gobernanza de datos heredadas

Azure Databricks también proporciona estos modelos de gobernanza heredados:

  • El control de acceso a tablas es un modelo de gobernanza de datos heredado que permite conceder y revocar mediante programación el acceso a los objetos administrados por el metastore de Hive integrado del área de trabajo. Databricks recomienda usar Unity Catalog en lugar del control de acceso a tablas. Unity Catalog simplifica la seguridad y la gobernanza de los datos al proporcionar un lugar central para administrar y auditar el acceso a los datos en varias áreas de trabajo de la cuenta.

  • El tránsito de credenciales de Azure Data Lake Storage (heredado) también es una característica heredada de gobernanza de datos que le permite autenticarse automáticamente en Azure Storage desde los clústeres de Azure Databricks usando la misma identidad de Microsoft Entra ID (anteriormente, Azure Active Directory) que usa para iniciar sesión en Azure Databricks. Databricks recomienda usar Unity Catalog en su lugar.