Catalogación de recursos de datos de Azure Synapse Analytics en Microsoft Purview

Completado

Azure Synapse Analytics es una plataforma para cargas de trabajo de análisis de escala en la nube que procesan datos en varios orígenes, entre ellos:

  • Bases de datos relacionales en grupos de SQL sin servidor y dedicados
  • Archivo en Azure Data Lake Storage Gen2

Una solución integral de análisis de datos puede incluir muchas carpetas y archivos en un lago de datos y varias bases de datos que contienen muchas tablas, cada una con varios campos. Para un analista de datos, buscar y comprender los recursos de datos asociados a un área de trabajo de Synapse Analytics puede suponer un desafío importante antes incluso poder comenzar cualquier análisis o informe.

Microsoft Purview puede ayudar en este escenario mediante la catalogación de los recursos de datos en un mapa de datos y la habilitación de administradores de datos para agregar metadatos, categorización, detalles de contacto de la materia tratada y otra información que ayude a los analistas de datos a identificar y comprender los datos.

Configuración del acceso a datos para Microsoft Purview

Para examinar los recursos de datos en el almacenamiento y las bases de datos de Data Lake que se usan en el área de trabajo de Azure Synapse, Microsoft Purview debe tener los permisos adecuados para leer los datos. En la práctica, esto significa que la cuenta usada por su cuenta de Microsoft Purview (normalmente una identidad administrada asignada por el sistema que se crea al suministrarse Microsoft Purview) debe ser miembro del control de acceso basado en rol (RBAC) y los roles de base de datos adecuados.

A diagram showing Microsoft Purview and the various data assets to which it requires access.

En el diagrama se muestra que Microsoft Purview requiere pertenencia a roles que permita el siguiente acceso:

  1. Acceso de lectura al área de trabajo de Azure Synapse (obtenido mediante la pertenencia al rol Lector para el recurso de área de trabajo de Azure Synapse en la suscripción de Azure).
  2. Acceso de lectura a cada base de datos SQL que se analizará (obtenido mediante la pertenencia al rol fijo de base de datos db_datareader en cada base de datos).
  3. Acceso de lectura a Data Lake Storage (obtenido a través de la pertenencia al rol Lector de datos de Storage Blob para la cuenta de Azure Storage que aloja el contenedor de Azure Data Lake Storage Gen2 para el lago de datos).

Sugerencia

Más información:

Tendrá la oportunidad de asignar la pertenencia a roles de RBAC y bases de datos SQL para dar soporte usted mismo al acceso a datos de Microsoft Purview en un ejercicio que realizará más adelante en este módulo.

Registro y examen de orígenes de datos

Microsoft Purview admite la creación de un mapa de datos que cataloga los recursos de datos en colecciones mediante el examen de orígenes registrados. Las colecciones forman una jerarquía de agrupaciones lógicas de recursos de datos relacionados, en una colección raíz que se crea al aprovisionar una cuenta de Microsoft Purview. Puede usar el Portal de gobernanza de Microsoft Purview para crear y administrar colecciones en su cuenta.

Para incluir recursos de un origen de datos determinado, debe registrar el origen en una colección. Microsoft Purview admite muchos tipos de origen, entre los que se incluyen:

  • Azure Synapse Analytics: una o varias bases de datos SQL en un área de trabajo de Synapse Analytics.
  • Azure Data Lake Storage Gen2: contenedores de blobs usados para hospedar carpetas y archivos en un lago de datos.

Para catalogar los recursos usados en un área de trabajo de Azure Synapse Analytics, puede registrar uno o ambos orígenes en una colección, como se muestra aquí:

A screenshot of a data map in Microsoft Purview Governance Portal.

Después de registrar los orígenes donde se almacenan los recursos de datos, puede examinar cada origen para catalogar los recursos que contiene. Puede examinar cada origen de forma interactiva y puede programar exámenes periódicos para mantener actualizado el mapa de datos.

Sugerencia

Para obtener más información sobre el registro y el examen de orígenes, consulte Exámenes e ingesta en Microsoft Purview.

Tendrá la oportunidad de registrar y examinar los orígenes de un área de trabajo de Azure Synapse Analytics en un ejercicio que realizará más adelante en este módulo.

Visualización y administración de recursos de datos catalogados

A medida que cada examen encuentra recursos de datos en los orígenes registrados, se agregan a la colección asociada del catálogo de datos. Puede consultar el catálogo de datos en el Portal de gobernanza de Microsoft Purview para ver y filtrar los recursos de datos, como se muestra aquí:

A screenshot of a collection being browsed in Microsoft Purview Governance Portal.

Los recursos de datos incluyen elementos en los almacenes de datos registrados en varios niveles. Por ejemplo, los recursos de un origen de Azure Synapse Analytics incluyen bases de datos, esquemas, tablas y campos individuales; y los recursos de un origen de Azure Data Lake Storage Gen 2 incluyen contenedores, carpetas y archivos.

Puede ver y editar las propiedades de cada recurso para agregar información contextual, como descripciones, contactos para ayuda experta y otros metadatos útiles. Los recursos de datos también se pueden clasificar mediante clasificaciones integradas o personalizadas que relacionen patrones específicos de campo de datos con tipos comunes de datos, por ejemplo, números de pasaporte, números de tarjeta de crédito y otros.

Sugerencia

Para más información sobre la clasificación de recursos de datos, consulte Clasificación de datos en el Portal de gobernanza de Microsoft Purview.