Share via


Estándares de metadatos

La administración de metadatos desempeña un papel fundamental en la arquitectura de datos. Los metadatos son datos sobre otros datos. Describe los datos, proporcionando una referencia que le ayuda a encontrar, proteger y controlar los datos. Los metadatos también enlazan los datos juntos. Se puede usar para validar la integridad y la calidad de los datos, enrutar o replicar datos en una nueva ubicación, transformar datos y conocer los significados de los datos. Los metadatos también son esenciales para democratizar los datos a través de portales de autoservicio.

Una buena estrategia de administración de metadatos crece orgánicamente. Comienza simple y pequeña identificando primero las áreas más importantes. También se admite una buena estrategia de administración de metadatos con servicios y procesos claros. Para empezar, es conveniente tener en cuenta las diferentes categorías de metadatos:

  • Los metadatos empresariales describen todos los aspectos usados para la gobernanza, búsqueda y comprensión de datos. Algunos ejemplos conocidos incluyen términos y definiciones empresariales e información sobre la propiedad, el uso y el origen de los datos.
  • Los metadatos técnicos describen los aspectos estructurales de los datos en tiempo de diseño. Algunos ejemplos conocidos incluyen información de esquema, formato de datos e información de protocolo, y claves de cifrado y descifrado.
  • Los metadatos operativos describen los aspectos de procesamiento de los datos en tiempo de ejecución. Algunos ejemplos conocidos son la información del proceso, el tiempo de ejecución, la información de error del proceso y los identificadores de trabajo.
  • Los metadatos sociales describen la perspectiva del usuario de los datos de sus consumidores. Algunos ejemplos conocidos incluyen información de uso y seguimiento de usuarios, datos de resultados de búsqueda, filtros y clics, tiempo de visualización, visitas al perfil y comentarios.

En la arquitectura de datos descentralizada, la administración de metadatos es un desafío organizativo que requiere encontrar un equilibrio entre los metadatos administrados centralmente y los metadatos administrados federados. Es importante que comprenda los equipos y las funciones para el análisis a escala de nube en Azure a medida que planee la administración de metadatos. El uso de una práctica de administración de datos colaborativa mejora la comunicación, la integración y la automatización del flujo de datos entre los equipos. Puede abordar parte de la complejidad de la administración de metadatos al alcanzar el equilibrio adecuado entre la gobernanza central y la propiedad del dominio.

Cuando decida qué metadatos administrará de forma centralizada o federada en los dominios de datos y comience la implementación, pregúntese lo siguiente:

  • ¿Qué metadatos empresariales son críticos?
  • ¿Qué metadatos técnicos se necesitan para la interoperabilidad?
  • ¿Qué procesos y flujos capturan los datos?
  • ¿Dónde se crean y mantienen los modelos o esquemas?
  • ¿Qué equipos de información deben ofrecer de forma centralizada para permitir que el departamento de gobernanza de datos realice su trabajo correctamente?

Con las respuestas a estas preguntas, asigne el ciclo de vida del contenido para cada uno de los flujos de metadatos y determine todas las dependencias. A continuación, tiene un modelo de metadatos que puede conectar dominios de negocio, procesos, tecnología y datos.

Una vez que sepa qué metadatos necesita, debe elegir un lugar para almacenarlo y procesarlo. Puede hacerlo mediante Azure Purview.

Uso de Azure Purview para administrar el patrimonio de datos a gran escala

Azure Purview es una solución unificada de gobernanza de datos que le ayuda a administrar y gobernar los datos locales, de varias nubes y de software como servicio (SaaS). Realiza la administración de metadatos a gran escala, ya que es un servicio totalmente automatizado que realiza de forma inteligente la detección de datos, el análisis de datos y la administración de acceso. También proporciona un mapa holístico de muchas conclusiones sobre la arquitectura de la malla de datos.

Al implementar Azure Purview, no introduzca demasiados cambios y complejidad rápidamente. Los metadatos técnicos son la base de Azure Purview. Debe recopilar y organizar los metadatos antes de que pueda tener sentido.

Una vez que tenga los metadatos, comience con los conceptos básicos:

  • términos empresariales
  • listas de orígenes de datos autoritativos
  • listas de bases de datos
  • información de esquema
  • propiedad de los datos
  • administración de datos
  • security

A continuación, escale lentamente con más propietarios de dominio y administradores de datos, y agregue más clasificaciones y etiquetas de confidencialidad. Estas adiciones mejoran la experiencia de búsqueda y permiten una mejor administración del acceso a los datos.

Para los atributos de metadatos personalizados, como listas de dominios y metadatos de aplicación, considere la posibilidad de crear definiciones de tipos adicionales en Azure Purview.

Para la arquitectura orientada a dominios, alinee las colecciones y glosarios de Azure Purview con los dominios de datos. Las colecciones de Azure Purview organizan recursos y orígenes. Puede usar una colección como límite para los recursos y orígenes, y alinearla con un dominio determinado. Puede hacer lo mismo con el glosario. Cree estructuras jerárquicas dentro del glosario y alinéelas con los dominios. Pida a los dominios que se hagan cargo para crear relaciones entre los términos del glosario y los atributos de colección. Esto crea transparencia de propiedad de datos y mejora la semántica de los datos.

Uso de Azure Cosmos DB para crear el grafo de conocimientos de la organización

Hay una tendencia creciente en el sector para acercar la información de los datos a los analistas y científicos de datos mediante portales que usan más metadatos de forma intensiva. Esta tendencia se conoce como observabilidad de los datos. La observabilidad de los datos usa conceptos como el lago de metadatos, los gráficos de conocimiento o los gráficos de metadatos para describir las plataformas donde los metadatos están centralizados. Esta es una buena manera de crear una vista unificada de cómo se usan y se crean los datos en toda la organización al usar una malla de datos distribuida.

Una solución de información de datos debe describir cómo se usan los datos y las relaciones entre entidades, como datos de origen y productos de datos, y entre productos de datos de un dominio y productos dependientes de otro dominio. Puede usar una base de datos de grafos o una interfaz de usuario personalizada para modelar estas relaciones.

Para crear una vista unificada de los datos de la organización con experiencia de usuario personalizada, consulte Azure Cosmos DB. Azure Cosmos DB es un servicio de base de datos multimodelo distribuido globalmente con puntos de conexión NoSQL. Proporciona un servicio de base de datos de grafos a través de Azure Cosmos DB for Apache Gremlin para almacenar grafos enormes con miles de millones de vértices y bordes.

El resultado final de la arquitectura de Azure Cosmos DB es un grafo de toda la organización que proporciona una vista unificada de todos los datos de la organización mediante el contexto de un extremo a otro. El lago de metadatos no solo trata de almacenar información. También organiza activamente los metadatos como un grafo mediante la conexión con otros servicios y herramientas. Este gráfico organizado le permite correlacionar varias áreas temáticas, entre las que se incluyen:

  • domains
  • calidad de los datos
  • uso de datos
  • funcionalidades empresariales
  • funciones de la aplicación
  • información de la arquitectura técnica
  • eventos operativos
  • metadatos organizativos
  • metadatos de propiedad de la aplicación
  • información de la ubicación
  • información de la administración del ciclo de vida de la aplicación

Pasos siguientes