Funcionamiento de Microsoft Purview

Completado

Aquí es donde echaremos un vistazo al funcionamiento de Microsoft Purview. En esta unidad, conocerá la teoría operativa básica en la que se basa el funcionamiento de Microsoft Purview para elaborar mapas de los orígenes de datos y examinar esos orígenes. Entre las principales áreas en las que nos centraremos se incluye cómo:

  • Cargar datos en el mapa de datos.
  • Examinar y buscar información en el catálogo de datos.

Cargar datos en el mapa de datos

El mapa de datos de Microsoft Purview es un mapa unificado de los recursos de datos y sus relaciones. Como mapa cohesivo, es más fácil para los usuarios y para usted el control y la visualización. También alberga los metadatos que respaldan los Catálogo de datos de Microsoft Purview y Data Estate Insights. El mapa de datos se escala y reduce verticalmente para cumplir los requisitos de cumplimiento de la empresa. Puede usarlo para controlar el patrimonio de datos de la manera más sensata para su negocio.

Datos de origen

El abastecimiento de datos comienza con un proceso en el que se registran los orígenes de datos. Microsoft Purview admite una matriz de numerosos orígenes de datos, que pueden ser locales, multinube y de software como opciones de servicio (SaaS). Tiene que registrar los distintos orígenes de datos para que Microsoft Purview los tenga en cuenta. Los datos permanecen en su ubicación y no se migran a ninguna otra plataforma.

Una vez que tenga configurado el servicio Microsoft Purview en Azure, puede usar el portal de gobernanza de Microsoft Purview para registrar los orígenes de datos.

Screenshot that shows the Microsoft Purview governance portal. The portal includes the name of the Microsoft Purview account along with options to select, including Knowledge center, Register sources, Browse assets, and Manage glossary.

Cada tipo de origen de datos que elija requerirá información específica para completar el registro. Por ejemplo, si los orígenes de datos residen en su suscripción de Azure, elegirá la suscripción y el nombre de la cuenta de almacenamiento necesarios. En la siguiente imagen, se muestra un ejemplo de cómo elegir un origen de Azure Blob Storage.

Screenshot that shows the dialog to register an Azure Blob Storage source for Microsoft Purview. The dialog has entries for a name, Azure subscription name and storage account name, an endpoint, and a collection to which to add the source.

Después del registro, examinará el origen de datos. El examen ingiere los metadatos sobre el origen de datos en el Mapa de datos de Microsoft Purview. Cada origen de datos tiene requisitos específicos de autenticación y configuración para permitir el examen de los recursos que contiene.

Por ejemplo, si tiene datos almacenados en un cubo estándar de Amazon S3, tendrá que proporcionar la configuración de la conexión. Para este servicio, usará Microsoft Purview para proporcionar una cuenta Microsoft con acceso seguro a AWS, donde se ejecutará el detector de Microsoft Purview. El detector de Microsoft Purview usa este acceso a los cubos de Amazon S3 para leer los datos. A continuación, informa de los resultados (incluidos solo los metadatos y la clasificación) a Azure. Puede usar los informes de clasificación y etiquetado de Microsoft Purview para analizar y revisar los resultados del examen de los datos.

Nota:

Consulte la documentación del conector de Microsoft Purview para Amazon S3 para saber en qué regiones se admiten los orígenes de AWS S3.

En Microsoft Purview, hay algunas opciones que se pueden usar para la autenticación cuando el servicio necesita examinar orígenes de datos. Algunas de estas opciones son:

  • Identidad administrada de Microsoft Purview
  • Clave de cuenta (mediante Azure Key Vault)
  • Autenticación de SQL (mediante Key Vault)
  • Entidad de servicio (mediante Key Vault)

Asignar datos

El mapa de datos es la plataforma fundamental de Microsoft Purview. Consta de:

  • Recursos de datos.
  • Linaje de datos.
  • Clasificaciones de datos.
  • Contexto empresarial.

Los clientes crean un grafo de conocimiento de los datos procedentes de una gran variedad de orígenes. Microsoft Purview facilita el registro y el examen y la clasificación automáticos de los datos a gran escala. Dentro de un mapa de datos, puede identificar el tipo de origen de datos y otros detalles sobre la seguridad y el examen.

El mapa de datos usa colecciones para organizar estos detalles. Las colecciones son una manera de agrupar los recursos de datos en colecciones lógicas para simplificar la administración y la detección de los recursos en el catálogo. También se usan para administrar el acceso a los metadatos disponibles en el mapa de datos.

Seleccione la vista de mapa en el portal de gobernanza de Microsoft Purview para mostrar los orígenes de datos en una vista gráfica, junto con las colecciones que haya creado para ellos.

Screenshot that shows the Map view of the sources window in the Microsoft Purview governance portal. Three collections are listed, each with a single data source, and two other data sources that aren't assigned to a collection.

Examen de datos

Después de registrar los orígenes de datos, tendrá que ejecutar un examen para acceder a sus metadatos y examinar la información de los recursos. Antes de poder examinar los orígenes de datos, se le solicitará que escriba las credenciales que den acceso a estos orígenes. Puede usar Azure Key Vault para almacenar las credenciales por razones de seguridad y facilidad de acceso con las reglas de examen. El portal de gobernanza de Microsoft Purview incluye conjuntos de reglas de examen del sistema existentes que puede seleccionar al crear una nueva regla de examen. También puede especificar un conjunto de reglas de examen personalizado.

Un conjunto de reglas de examen es un contenedor para agrupar las reglas de examen para usar las mismas repetidamente. Un conjunto de reglas de examen permite seleccionar tipos de archivo para extraer su esquema y clasificarlos. También permite definir nuevos tipos de archivo personalizados. Puede crear un conjunto de reglas de examen predeterminado para cada uno de los tipos de orígenes de datos. A continuación, puede usar estos conjuntos de reglas de examen de forma predeterminada en todos los exámenes de la empresa.

Por ejemplo, es posible que desee examinar solo los archivos .csv en una cuenta de Azure Data Lake Storage. O bien, puede que prefiera comprobar únicamente los datos de los números de las tarjetas de crédito en lugar de todas las clasificaciones posibles. También puede que quiera que los usuarios con los permisos adecuados creen otros conjuntos de reglas de examen con configuraciones diferentes en función de las necesidades empresariales.

Screenshot that shows the Management panel selected in the Microsoft Purview governance portal. The Scan rule sets option is also selected. A list of System-provided scan rule sets are preconfigured for data sources such as Azure File Service and SQL Server.

clasificación

Los metadatos se usan para facilitar la descripción de los datos que se van a examinar y van a estar disponibles en el catálogo. Durante la configuración de un conjunto de reglas de examen, puede especificar reglas de clasificación para aplicarlas durante el examen que también sirven como metadatos. Las reglas de clasificación se dividen en cinco categorías principales:

  • Administración pública: atributos como los documentos de identidad oficiales, los números de los permisos de conducir y los números de pasaporte.
  • Datos financieros: atributos como los números de cuenta bancaria o los números de tarjeta de crédito.
  • Personal: información personal, como la edad de una persona, su fecha de nacimiento, dirección de correo electrónico y número de teléfono.
  • Seguridad: atributos que se pueden almacenar, como las contraseñas.
  • Varios: atributos no incluidos en las otras categorías.

Puede usar varias clasificaciones del sistema para clasificar los datos. Estas clasificaciones se alinean con los tipos de información confidencial del portal de cumplimiento de Microsoft Purview. También puede crear clasificaciones personalizadas para identificar otros tipos de información importante o confidencial en el patrimonio de datos.

Screenshot that shows a small snippet of the system-provided classifications for metadata. You can find this list in the Management pane of the Microsoft Purview governance portal. Some items displayed are the ABA Routing Number, Age of individual, and Argentina National Identity (DNI) Number.

Después de registrar un origen de datos, puede enriquecer sus metadatos. Con el acceso adecuado, puede anotar un origen de datos proporcionando descripciones, clasificaciones, etiquetas, términos del glosario, identificación de expertos u otros metadatos para solicitar acceder al origen de los datos. Estos metadatos descriptivos complementan a los metadatos estructurales, como los nombres de columna y los tipos de datos, registrados desde el origen de datos.

El descubrimiento y comprensión de los orígenes de datos y su uso es el propósito principal de registrar los orígenes. Si es usuario empresarial, puede necesitar los datos para la inteligencia empresarial, el desarrollo de aplicaciones, la ciencia de datos o cualquier otra tarea en la que se requieran los datos correctos. Puede usar la experiencia de detección del catálogo de datos para encontrar rápidamente datos que se ajusten a sus necesidades. Puede evaluar los datos para comprobar su idoneidad para un fin concreto y, a continuación, abrir el origen de datos en su herramienta preferida.

Al mismo tiempo, puede contribuir al catálogo mediante el etiquetado, la documentación y la anotación de los orígenes de datos que ya se han registrado. También puede registrar nuevos orígenes de datos que la comunidad de usuarios del catálogo, posteriormente, detecta, evalúa y usa.

Microsoft Purview permite buscar información desde el mapa de datos mediante el Catálogo de datos de Microsoft Purview. Puede realizar la búsqueda basada en texto y examinar los resultados mediante filtros como el tipo de origen de datos, las etiquetas, las clasificaciones o la colección.

Puede usar el contexto empresarial para buscar información en el catálogo de Microsoft Purview. También puede definir glosarios empresariales e importar en bloque otros que ya tenga. Asimismo, puede aplicar el contexto empresarial a los recursos del mapa de datos. Mediante el uso de un metamodelo, puede definir procesos empresariales en su entorno y asociar los orígenes de datos a esos procesos. A continuación, los usuarios pueden aplicar estos contextos empresariales para examinar y buscar información en el catálogo de datos.

La detección le permite usar lo siguiente:

  • Búsqueda semántica y exploración.
  • Glosario y flujos de trabajo empresariales.
  • Linaje de los datos con los orígenes, los propietarios, las transformaciones y el ciclo de vida..

Screenshot that shows the fictional company Adatum Corporation by using the search function of Microsoft Purview.

Linaje de datos

El concepto de linaje de los datos se centra en su ciclo de vida. El ciclo de vida se refiere a las distintas fases por las que pueden pasar los datos. Los datos se obtienen, mueven y almacenan durante todo su ciclo de vida. También pueden experimentar transformaciones en las operaciones de extracción, carga y transformación/extracción, transformación y carga (ELT/ETL).

El linaje de los datos puede ofrecer información detallada sobre su ciclo de vida si se analiza la canalización de datos. Puede usar el linaje para identificar la causa principal de los problemas en los datos, realizar análisis de calidad de estos y comprobar el cumplimiento normativo.

Microsoft Purview representa este linaje de los datos con un formato visual que ilustra el movimiento de los datos desde el origen hasta el destino.

Screenshot that shows a sample data lineage graph in Microsoft Purview.