Información general de la zona de aterrizaje de la gestión de datos del análisis a escala de la nube

La zona de aterrizaje de la gestión de datos es una función de gestión y es fundamental para el análisis a escala de la nube. Es responsable de la gobernanza de la plataforma de análisis.

Diagram of data management landing zone overview.

La zona de aterrizaje de la administración de datos es una suscripción independiente que tiene los servicios estándar de una zona de aterrizaje de Azure. Permite la gobernanza de datos de sus datos a través de rastreadores, que se conectan a sus lagos de datos y al almacenamiento políglota en sus zonas de aterrizaje de datos. El emparejamiento de red virtual conecta la zona de aterrizaje de administración de datos a las zonas de aterrizaje de datos y a la suscripción de conectividad.

Use esta arquitectura como punto de partida. Descargue el archivo de Visio y modifíquelo para que se ajuste a sus requisitos técnicos y empresariales concretos al planear la implementación de la zona de aterrizaje de administración de datos.

Nota

La persistencia políglota es un término de almacenamiento que describe su elección entre diferentes tecnologías de almacenamiento de datos/almacenes de datos para soportar sus diversos tipos de datos y sus necesidades de almacenamiento. Principalmente, la persistencia políglota es el concepto de que una aplicación puede usar más de una tecnología de almacenamiento o base de datos principal.

Importante

La zona de aterrizaje de administración de datos deberá implementarse como una suscripción independiente en un grupo de administración con la gobernanza adecuada. Después, puede controlar la gobernanza en toda la organización. El acelerador de zonas de aterrizaje de Azure muestra cómo debe abordar las zonas de aterrizaje de Azure.

Catálogo de datos

Grupo de recursos: governance-rg

El catálogo de datos registra y mantiene la información de datos en un lugar centralizado y hace que esté disponible para la organización. Garantiza que las empresas eviten conjuntos de productos de datos duplicados causados por la ingesta redundante de datos por parte de distintos equipos de proyecto.

Le recomendamos que aprovisione un servicio de catálogo de datos para definir los metadatos de los productos de datos almacenados en las zonas de aterrizaje de datos.

El análisis a escala de la nube se basa enAzure Purview para servir como:

  • Un sistema de registro
  • Un descubrimiento para orígenes de datos empresariales
  • Un motor de clasificación de datos
  • Un almacén de directivas
  • Una API para registrar y leer información de datos
  • Un centro del panel de cumplimiento

Dado que el catálogo de datos forma parte de la zona de aterrizaje de gestión de datos, puede comunicarse con cada zona de aterrizaje de datos a través de su red virtual (VNet) y los tiempos de ejecución de integración autohospedados. La detección de productos de datos en almacenes locales y otras nubes públicas se logra mediante más implementaciones de entornos de ejecución de integración autohospedados.

Nota

Aunque esta documentación se centra principalmente en el uso de Microsoft Purview para las funcionalidades de catálogo de datos y la clasificación de datos, las empresas pueden haber invertido en otros productos, como Alation, Okera o Collibra. Si este es el caso, póngase en contacto con su proveedor para aplicar los principios descritos para una zona de aterrizaje de la administración de datos tan cerca como sea posible. Tenga en cuenta que puede ser necesaria alguna integración personalizada.

Para más información, consulte procedimientos recomendados de implementación de Data Catalog y Microsoft Purview para el análisis a escala en la nube.

Administración de calidad de datos

Grupo de recursos: governance-rg2

Continúe con su solución actual.

Debe administrar la calidad de los datos lo más cerca posible del origen de datos para evitar problemas de calidad que se replican en el conjunto de análisis e inteligencia artificial. Mover las métricas de calidad y la validación a su integración de datos alinea el proceso de calidad con los equipos más cercanos a sus datos. Estos equipos tienen la comprensión más profunda de su recurso de datos.

El linaje de datos también proporciona confianza en la calidad de los datos y debe proporcionarlo para todos los productos de datos y productos.

Para obtener más información sobre la administración de la calidad de los datos, consulte Calidad de los datos.

Repositorio de modelado de datos

Grupo de recursos: governance-rg2

Debe capturar y almacenar modelos de relación de entidad en una ubicación central dentro de la zona de aterrizaje de administración de datos. Esto proporciona a los consumidores de datos un único lugar para buscar diagramas conceptuales.

Muchos clientes usan ER Studio e iServer para modelar sus productos de datos antes de la ingesta.

Administración de datos maestros

Grupo de recursos: governance-rg2

El control de administración de datos maestros reside en la zona de aterrizaje de administración de datos. La administración de datos maestros en la malla de datos contiene consideraciones específicas que debe llamar para la malla de datos.

Muchas soluciones de administración de datos maestros se integran completamente con Microsoft Entra ID. Esta integración le permite proteger sus datos y proporcionar vistas diferentes para distintos grupos de usuarios.

Para más información, consulte Sistema de administración de datos maestros.

Catálogo de API

Grupo de recursos: governance-rg2

Es probable que sus equipos de aplicaciones de datos de todo creen varias API para su aplicación de datos. Estas API pueden ser difíciles de detectar en toda su organización. La colocación de un catálogo de API en su zona de aterrizaje de la administración de datos puede resolver este problema.

Un catálogo de API puede ayudar a estandarizar su documentación y ofrece un lugar para la colaboración interna en las API. También puede impulsar los controles de consumo, publicación y gobernanza en toda su organización.

Uso compartido de datos y contratos

Grupo de recursos: governance-rg2

El análisis a escala en la nube usa la administración de derechos de Microsoft Entra o directivas de Microsoft Purview para controlar el acceso al uso compartido de datos. Incluso así, es posible que todavía necesite un repositorio de contratos y uso compartido. Este repositorio es una función organizativa y debe residir en su zona de aterrizaje de administración de datos.

Estos contratos deben proporcionar información sobre la validación de datos, el modelo y las directivas de seguridad.

Para más información, consulte Contratos de datos

Azure Container Registry

Grupo de recursos: containers-rg

Su zona de aterrizaje de la administración de datos hospeda una instancia de Azure Container Registry. El Azure Container Registry permite que las operaciones de la plataforma de datos implementen contenedores estándar para su uso en proyectos de ciencia de datos que consumen sus equipos de aplicaciones de datos.

Grupo de recursos: synapse-link-rg

Los centros de Private Link de Azure Synapse Analytics son recursos de Azure conectan su red protegida y la experiencia web de Azure Synapse Studio. El análisis a escala en la nube conecta de forma segura la Virtual Network de Azure a Azure Synapse Studio mediante vínculos privados de estos centros.

Para conectarse a Azure Synapse Studio mediante vínculos privados se necesitan dos pasos.

  1. Cree un recurso de centro de Private Link.
  2. Cree un punto de conexión privado entre su instancia de Azure Virtual Network y ese centro de Private Link.

Después, puede usar puntos de conexión privados para comunicarse de forma segura con Azure Synapse Studio. Integre esos puntos de conexión privados con la solución DNS, ya sea con la solución local o con DNS privado de Azure.

Para obtener más información, consulte Conexión a Azure Synapse Studio mediante vínculos privados.

Interfaces de Automation (opcional)

Es posible que su organización decida crear muchos servicios de automatización para aumentar las funcionalidades de análisis a escala de la nube. Estos servicios de automatización impulsan la conformidad y las soluciones de incorporación para su estado de análisis.

Si decide crear estos servicios de automatización, debe tener una interfaz de usuario que actúe como marketplace de datos y una consola de operaciones. Esta interfaz debe basarse en un almacén de metadatos subyacente, como hemos descrito anteriormente en Estándares de metadatos.

Su consola de operaciones o marketplace de datos llama a un nivel intermedio de microservicios para facilitar la incorporación, el registro de metadatos, el aprovisionamiento de seguridad, el ciclo de vida de los datos y la observabilidad.

Puede aprovisionar el grupo de recursos automationdb-rg para hospedar el almacén de metadatos.

Importante

Ninguno de estos servicios de automatización son productos y no ilustran ningún elemento de hoja de ruta. Se muestran para ayudarle a tener en cuenta qué elementos podría querer automatizar.

Servicios

Servicio Ámbito del servicio
Aprovisionamiento de zona de aterrizaje de datos Este servicio crea una nueva zona de aterrizaje de datos. Es poco probable que tenga un uso elevado, pero se incluye para la integridad de la solución de incorporación de un extremo a otro. Para más información, consulte Aprovisionamiento del análisis a escala de la nube
Incorporación de productos de datos Este servicio crea y modifica los grupos de recursos que pertenecen a un inquilino incorporado. También contiene funcionalidades para actualizar y degradar las SKU y para activar y desactivar grupos de recursos para cualquier inquilino o servicio incorporado. Crea una nueva zona de aterrizaje de datos DevOps. Para más información, consulte Aprovisionamiento del análisis a escala de la nube
Aprovisionamiento de acceso Este servicio crea paquetes de acceso, directivas de acceso y proceso de aprobación de acceso a recursos (manual o automático) mediante SPN/UPN. También puede exponer una API para proporcionar una lista de solicitudes de suscripción (recursos) que los usuarios han enviado en los últimos 90 días. Para más información, consulte Administración de acceso a datos
Ingesta independiente de los datos Este microservicio crea nuevos orígenes de datos para la ingesta en las zonas de aterrizaje de datos. Para ello, se comunica con un metastore de Azure Data Factory SQL Database en cada zona de aterrizaje de datos. Para más información, consulte Cómo los marcos de ingesta automatizada admiten el análisis en la nube en Azure
Metadatos Este servicio expone y crea metadatos para la plataforma. Para obtener más información, vea Estándares de metadatos
Ciclo de vida de los datos Este servicio es responsable de mantener el ciclo de vida de sus datos en función de los metadatos. Este mantenimiento puede incluir mover datos al almacenamiento en frío y eliminar registros que ya no necesitan conservarse. Para más información, consulte Administración del ciclo de vida de los datos
Incorporación de dominios de datos SOLO SE APLICA A LA MALLA DE DATOS. Este servicio captura metadatos relacionados con nuevos dominios e incorpora los nuevos dominios según sea necesario. También puede crear, actualizar, activar y desactivar cualquier línea de dominio o servicio que pueda compilar en un microservicio. Para más información, consulte Aprovisionamiento del análisis a escala de la nube

Normalización de datos

Aunque no es una característica o un producto específico de su zona de aterrizaje de gestión de datos, debe llamar la atención sobre la normalización de datos en todos los servicios. La normalización de datos define el formato en el que se deben almacenar y almacenar los datos.

Sugerencia

Utilizar el formato delta-lake siempre que sea posible como la norma de facto en todos los servicios y el almacenamiento.

Para más información, consulte Estandarización de datos.

Pasos siguientes