Administración de datos en Azure Data Lake con Microsoft Purview

Azure Data Factory
Microsoft Purview
Azure Data Lake Storage
Azure Synapse Analytics
Power BI

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

En este artículo se describe una solución que usa Azure Purview para crear una base para la gobernanza y administración de datos que pueda producir y proporcionar datos de alta calidad y de confianza.

Architecture

Architecture diagram that shows how Azure Purview scans and classifies data.

Diagrama que muestra cómo Azure Purview examina y clasifica los datos. Data Lake Storage se conecta a Azure Purview a través de una plataforma de datos moderna. Azure Purview también se conecta a Power BI. El diagrama también muestra la integración entre estos servicios y Microsoft Entra ID, Azure Monitor y Azure Key Vault.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

Azure Purview proporciona un servicio de administración de datos único y unificado para los datos de todos los orígenes, en el lago de datos y, al final, en las herramientas de informes.

Escenarios para conectar Azure Purview a los servicios de Data Lake:

  1. Azure Purview proporciona una conexión de seguridad mejorada a las canalizaciones de ingesta, almacenamiento y análisis de Data Lake para catalogar automáticamente los recursos de datos. También proporciona linaje en estos servicios. Servicios específicos de Azure Data Factory, Data Lake Storage y Azure Synapse Analytics.

  2. Azure Purview se conecta de forma nativa con Power BI y otras herramientas de informes y visualización. Muestra el linaje de los datos que se usan en los informes finales. También comparte información de confidencialidad de los recursos Power BI para evitar el uso incorrecto de datos.

Importante

La información que se transfiere de los orígenes a Azure Purview son metadatos que describen los datos dentro de los orígenes examinados. No se transfieren datos reales de los orígenes a Azure Purview.

Capacidades

  • Catálogo. El catálogo de datos de Azure Purview puede capturar y describir automáticamente las características principales de los datos en el origen, incluidos el esquema, las propiedades técnicas y la ubicación. El glosario de Azure Purview permite que una definición empresarial de los datos se realice en capas, para mejorar la búsqueda y la detección.

  • Clasificación. Azure Purview clasifica automáticamente conjuntos de datos y elementos de datos con 100 clasificaciones predefinidas de datos confidenciales. También permite definir sus propios esquemas de clasificación personalizados, que puede aplicar de forma manual y automática.

  • Linaje. En el diagrama, Azure Purview visualiza el linaje a través de las canalizaciones de Data Factory, Azure Synapse Analytics y Power BI. Estas visualizaciones muestran el flujo de datos de un extremo a otro en un nivel granular.

  • Control de acceso. La directiva de control de acceso de Azure Purview permite definir y conceder acceso a los recursos de datos desde el catálogo, directamente en los orígenes subyacentes.

  • Propiedad. Azure Purview permite aplicar la propiedad y administración de datos a los recursos de datos y los elementos del glosario del catálogo.

  • Conclusiones. Las conclusiones en Azure Purview proporcionan varios informes predefinidos para ayudar a los CDO, profesionales de datos y profesionales de gobernanza de datos a comprender detalladamente el panorama de los datos.

Componentes

  • Azure Purview es un catálogo de datos unificado que administra datos locales, en varias nubes y de software como servicio (SaaS). Este servicio de gobernanza mantiene mapas panorámicos de los datos. Entre las características se incluyen la detección automatizada de datos, la clasificación de datos confidenciales y el linaje de datos.

  • Data Factory es un servicio de integración de datos sin servidor totalmente administrado que le ayuda a construir procesos ETL y ELT.

  • Data Lake Storage proporciona almacenamiento en la nube escalable de forma masiva, de alta seguridad y rentable para cargas de trabajo de análisis de alto rendimiento.

  • Azure Synapse Analytics es un servicio de análisis ilimitado que combina la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos.

  • Power BI es una colección de servicios y aplicaciones de software. Estos servicios crean y comparten informes que conectan y visualizan múltiples orígenes de datos. Cuando se usa Power BI con Azure Purview, puede catalogar y clasificar los datos y proporcionar linaje granular que se ilustra de un extremo a otro.

  • Azure Private Link proporciona conectividad privada desde una red virtual a servicios como la plataforma como servicio (PaaS) de Azure, servicios que posee o servicios de asociados de Microsoft.

  • Azure Key Vault almacena y controla el acceso a secretos como tokens, contraseñas y claves de API. Key Vault también crea y controla claves de cifrado y administra certificados de seguridad.

  • Microsoft Entra ID ofrece un servicio de administración de identidades y accesos basado en la nube. Estas características proporcionan a los usuarios una manera de iniciar sesión y acceder a los recursos.

  • Azure Monitor recopila y analiza los datos de entornos y recursos de Azure. Estos datos incluyen la telemetría de aplicaciones, como métricas de rendimiento y registros de actividad.

Detalles del escenario

A medida que carga más datos en Azure, también crece la necesidad de controlar y administrar correctamente los datos de todos los orígenes de datos y los consumidores de datos.

Si no tiene datos de alta calidad en el patrimonio de datos de Azure, el valor empresarial de Azure se reduce. La solución es crear una base para la gobernanza y administración de datos que pueda producir y entregar datos de alta calidad y de confianza.

Los datos deben administrarse a escala en el almacenamiento local, en la nube y en varias nubes para asegurarse de que cumplen los requisitos de cumplimiento de seguridad, privacidad y uso. Los datos bien administrados también pueden mejorar la detección automática, el uso compartido de datos y la calidad de los datos, lo que mejora el uso de los datos en aplicaciones y análisis.

Azure Purview proporciona gobernanza para buscar, clasificar, definir y aplicar directivas y estándares en todos los datos. Puede usarlo para aplicar definiciones, clasificaciones y procesos de gobernanza uniformemente entre los datos. Cataloga todos los orígenes de datos, identifica cualquier información confidencial y define el linaje de datos. Proporciona una plataforma central donde puede aplicar definiciones y propiedad a los datos. Con una vista única de los informes y la información, puede ayudarle a generar estándares de datos que se deben aplicar a los datos.

Al trabajar con otros servicios de Azure, Azure Purview puede detectar, catalogar, clasificar y administrar datos automáticamente a través de ofertas de Azure Data Lake y servicios de asociados.

Posibles casos de uso

Los requisitos para la administración de datos difieren entre los sectores. En todos los sectores, la necesidad de regular los datos a escala ha aumentado a medida que aumenta el tamaño y la complejidad de los datos y las arquitecturas de datos. Es conveniente para las organizaciones que se beneficiarían de los siguientes resultados de datos bien regulados:

  • Detección automática de datos para acelerar la adopción de la nube
  • Mejora de la seguridad de los datos para el cumplimiento de las leyes y normativas de datos
  • Mejora del acceso, detección y calidad de los datos administrados para mejorar el análisis.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes