Compartir a través de


Zona de aterrizaje de la administración de datos

Una zona de aterrizaje de administración de datos es esencial para el análisis a escala de la nube. Supervisa la gobernanza de toda la plataforma de análisis.

Diagrama de información general sobre la zona de aterrizaje de administración de datos.

Una zona de aterrizaje de administración de datos es una suscripción independiente que tiene los mismos servicios estándar de zona de aterrizaje de Azure. Proporciona gobernanza de datos a través de rastreadores, que se conectan a lagos de datos y almacenamiento políglota en zonas de recepción de datos. El emparejamiento de red virtual conecta la zona de administración de datos con las zonas de aterrizaje de datos y la suscripción de conectividad.

Esta arquitectura es un punto de partida. Puede modificarlo para adaptarlo a sus requisitos empresariales y técnicos específicos al planear la implementación de la zona de aterrizaje de administración de datos.

Nota

La persistencia políglota hace referencia a la práctica de usar varias tecnologías de almacenamiento y gestión de datos para apoyar las necesidades de almacenamiento de los distintos tipos de datos. La persistencia políglota significa que una aplicación puede usar más de una base de datos central o una tecnología de almacenamiento.

Importante

Debe implementar la zona de gestión de datos como una suscripción independiente bajo un grupo de administración que tenga la gobernanza adecuada. Después, puede controlar la gobernanza en toda la organización. El acelerador de zonas de aterrizaje de Azure describe cómo debe abordar las zonas de aterrizaje de Azure.

Gobernanza de datos

El marco de análisis a escala de la nube de Azure sugiere que usa Microsoft Purview. Como alternativa, puede implementar soluciones que no son de Microsoft para administrar funciones específicas de gobernanza de datos.

Tenga en cuenta las siguientes funciones clave en la arquitectura:

  • Un catálogo de datos global
  • Administración de datos principales
  • Uso compartido de datos y contratos
  • Un catálogo de API
  • Administración de calidad de datos
  • Un repositorio de modelado de datos

Si tiene productos de gobernanza de datos asociados que requieren la implementación en una suscripción, impleméntelos en el grupo de recursos de gobernanza de datos dentro de la zona de aterrizaje de administración de datos.

Catálogo de datos

Un catálogo de datos registra y mantiene la información de datos en un lugar centralizado para que esté disponible para su organización. Minimiza la posibilidad de que diferentes equipos de proyecto ingieren datos redundantes, lo que evita productos de datos duplicados. Se recomienda crear un servicio de catálogo de datos para definir los metadatos de los productos de datos que se almacenan en zonas de aterrizaje de datos.

El análisis a escala en la nube se basa en Microsoft Purview para registrar orígenes de datos empresariales, clasificarlos, garantizar la calidad de los datos y proporcionar acceso de autoservicio altamente seguro.

Microsoft Purview es un servicio basado en inquilinos que puede comunicarse con cada zona de aterrizaje de datos. Crea una red virtual administrada e la implementa en la región de la zona de aterrizaje de datos. Puede implementar entornos de ejecución de integración de red virtual (IR) administrados de Azure en estas redes virtuales administradas en cualquier región de Microsoft Purview disponible. El entorno de red virtual administrada IR puede luego utilizar puntos de conexión privados para conectarse de forma segura a los orígenes de datos admitidos y examinarlos. Este enfoque ayuda a aislar y proteger el proceso de integración de datos. Para obtener más información, consulte Uso de redes virtuales administradas con su cuenta de Microsoft Purview.

Si usa Azure Databricks, se recomienda usar el catálogo de Unity de Azure Databricks además de Microsoft Purview. Unity Catalog proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Databricks. Para obtener más información, consulte Prácticas recomendadas del Catálogo de Unity.

Nota

Este artículo se centra en el uso de Microsoft Purview para la gobernanza, pero es posible que su empresa tenga inversiones en otros productos, como Alation, Okera o Collibra. Estas soluciones se basan en suscripciones. Se recomienda implementarlos en la zona de aterrizaje de administración de datos. Es posible que requieran integración personalizada.

Administración de datos principales

El control de administración de datos principal reside en la zona de aterrizaje de administración de datos. Para conocer consideraciones específicas sobre la malla de datos, consulte Administración de datos principal en la malla de datos.

Muchas soluciones de administración de datos principales se integran completamente con Microsoft Entra ID, lo que ayuda a proteger los datos y proporcionar vistas diferentes para diferentes grupos de usuarios. Para obtener más información, consulte Sistema de administración de datos principal.

Uso compartido de datos y contratos

El análisis a escala en la nube usa la administración de derechos de Microsoft Entra o directivas de Microsoft Purview para controlar el acceso al uso compartido de datos. Además de esas características, es posible que necesite un repositorio de compartición y contratos. Este repositorio es una función organizativa y debe residir en su zona de aterrizaje de administración de datos. Los contratos deben proporcionar información sobre la validación de datos, los modelos y las directivas de seguridad.

Catálogo de API

Los equipos de aplicaciones de datos crean varias API para sus aplicaciones de datos, lo que puede resultar difícil de encontrar en toda la organización. Para solucionar este problema, coloque un catálogo de API en la zona de aterrizaje de administración de datos.

Un catálogo de API normaliza la documentación, facilita la colaboración interna y mejora el consumo, la publicación y los controles de gobernanza en toda la organización.

Administración de calidad de datos

Use las prácticas de administración de calidad de datos existentes. Para evitar que los problemas se extiendan a través de los sistemas de análisis e inteligencia artificial, administre la calidad de los datos en el origen de datos.

Integre las métricas de calidad y la validación en los procesos de datos para que los equipos más familiarizados con los datos controle la administración de la calidad. Este enfoque ayuda a garantizar que el equipo tenga una comprensión más profunda y un mejor control de los recursos de datos. Proporcione linaje de datos para todos los productos de datos para mejorar la confianza en la calidad de los datos.

Para obtener más información, consulte Calidad de los datos.

Repositorio de modelado de datos

Almacene los modelos de relación de entidades de forma centralizada dentro de la zona de aterrizaje de administración de datos para que los consumidores de datos puedan encontrar fácilmente diagramas conceptuales. Para modelar los productos de datos antes de la ingesta, use herramientas como ER/Studio y OrbusInfinity.

Capa de servicio

Su organización puede crear varios servicios de automatización para aumentar las funcionalidades de análisis a escala de la nube. Estos servicios de automatización impulsan la conformidad y las soluciones de incorporación para su estado de análisis.

Si construyes estos servicios de automatización, una interfaz de usuario debe servir tanto como un mercado de datos como una consola de operaciones. Esta interfaz debe basarse en un almacén de metadatos subyacente, como los estándares de metadatos.

Su consola de operaciones o marketplace de datos llama a un nivel intermedio de microservicios para facilitar la incorporación, el registro de metadatos, el aprovisionamiento de seguridad, el ciclo de vida de los datos y la observabilidad. Puede aprovisionar el grupo de recursos de capa de servicio para hospedar el almacén de metadatos.

Importante

Los siguientes servicios de automatización no son productos reales que puede comprar. Y no representan futuras versiones ni actualizaciones. Use la siguiente lista para ayudarle a considerar qué elementos se van a automatizar.

Tipo de servicio Ámbito del servicio
Aprovisionamiento de zona de aterrizaje de datos Este servicio crea una nueva zona de aterrizaje de datos. Este servicio se usa con poca frecuencia, pero garantiza la integridad de la solución de incorporación de un extremo a otro. Para más información, consulte Aprovisionamiento de análisis a escala de la nube.
Incorporación de productos de datos Este servicio crea y modifica los grupos de recursos que pertenecen a un inquilino incorporado. También contiene funcionalidades para actualizar y degradar las SKU y para activar y desactivar grupos de recursos para inquilinos o servicios incorporados. Este servicio también crea una nueva zona de aterrizaje de datos con fines de DevOps. Para más información, consulte Aprovisionamiento de análisis a escala de la nube.
Ingesta independiente de los datos Este microservicio crea nuevos orígenes de datos para la ingesta en las zonas de aterrizaje de datos. Para administrar este proceso, se comunica con un metastore de Azure Data Factory y Azure SQL Database que se encuentra en cada zona de aterrizaje de datos. Para más información, consulte Cómo los marcos de ingesta automatizados admiten la analítica a escala de nube en Azure.
Metadatos Este servicio expone y crea metadatos para la plataforma. Para obtener más información, consulte Estándares de metadatos.
Aprovisionamiento de acceso Este servicio usa un principal de servicio o un nombre principal de usuario para crear paquetes de acceso, directivas de acceso y procesos manuales o automáticos de aprobación de acceso a activos. También puede exponer una API para proporcionar una lista de solicitudes de suscripción (o recursos) que los usuarios envían en los últimos 90 días. Para obtener más información, consulte Administración del acceso a datos.
Ciclo de vida de los datos Este servicio ayuda a mantener el ciclo de vida de los datos en función de los metadatos. Este mantenimiento puede incluir mover datos al almacenamiento en frío y eliminar registros obsoletos. Para obtener más información, consulte Administración del ciclo de vida de los datos.
Incorporación de dominios de datos Este servicio solo es aplicable a la malla de datos. Este servicio captura los nuevos metadatos de dominio e incorpora los nuevos dominios según sea necesario. También puede crear, actualizar, activar y desactivar líneas de dominio o servicio que cree en un microservicio. Para más información, consulte Aprovisionamiento de análisis a escala de la nube.

Azure Container Registry (Registro de Contenedores de Azure)

La zona de aterrizaje de administración de datos hospeda una instancia de Azure Container Registry. Las operaciones de la plataforma de datos pueden usar Container Registry para implementar contenedores estándar para proyectos de ciencia de datos que consumen los equipos de aplicaciones de datos.

Paso siguiente