Compartir a través de


Zonas de aterrizaje de datos

Las zonas de aterrizaje de datos están conectadas a la zona de aterrizaje de administración de datos por emparejamiento de red virtual o puntos de conexión privados. Cada zona de aterrizaje de datos se considera una zona de aterrizaje relacionada con la arquitectura de la zona de aterrizaje de Azure.

Importante

Antes de aprovisionar una zona de aterrizaje de datos, asegúrese de que su modelo operativo de DevOps e integración y entrega continua (CI/CD) está en funcionamiento y de que se haya implementado una zona de aterrizaje de administración de datos.

Cada zona de aterrizaje de datos tiene varias capas que permiten la agilidad de las integraciones de datos del servicio y las aplicaciones de datos que contiene. Puede implementar una nueva zona de aterrizaje de datos con un conjunto estándar de servicios que permitan a la zona de aterrizaje de datos ingerir y analizar datos.

En la tabla siguiente se muestra la estructura de una suscripción típica de Azure asociada a una zona de aterrizaje de datos.

Nivel Obligatorio Grupos de recursos
Servicios de capa de plataforma
Servicios principales
Aplicación de datos Opcional
Informes y visualización Opcional

Nota:

La capa de servicios principales se marca como necesaria, pero no todos los grupos de recursos y servicios incluidos en este artículo podrían ser necesarios para la zona de aterrizaje de datos.

Arquitectura de la zona de aterrizaje de datos

La siguiente arquitectura de zona de aterrizaje de datos muestra las capas, sus grupos de recursos y los servicios que contiene cada grupo de recursos. La arquitectura proporciona información general de todos los grupos y roles asociados a la zona de aterrizaje de datos y la extensión de su acceso a los planos de datos y control. La arquitectura también muestra cómo cada capa se alinea con las responsabilidades del modelo operativo.

Diagrama de la arquitectura de la zona de aterrizaje de datos.

Sugerencia

Antes de implementar una zona de aterrizaje de datos, asegúrese de tener en cuenta el número de zonas de aterrizaje de datos iniciales que desea implementar.

Servicios de plataforma

La capa de servicios de plataforma incluye los servicios necesarios para habilitar la conectividad y la observabilidad a la zona de aterrizaje de datos en el contexto del análisis a escala de la nube. En la tabla siguiente se enumeran los grupos de recursos recomendados.

Grupo de recursos Obligatorio Descripción
network-rg Redes
security-rg Seguridad y supervisión

Redes

El grupo de recursos de red contiene servicios de conectividad, como Azure Virtual Network, grupos de seguridad de red y tablas de rutas. Todos estos servicios se implementan en un único grupo de recursos.

La red virtual de su zona de aterrizaje de datos se empareja automáticamente con la red virtual de su zona de aterrizaje de administración de datos y la red virtual de su suscripción de conectividad.

Seguridad y supervisión

El grupo de recursos de seguridad y supervisión incluye Azure Monitor y Microsoft Defender for Cloud para recopilar telemetría del servicio, definir criterios de supervisión y alertas, y aplicar directivas y análisis a los servicios.

Servicios principales

La capa de servicios principales incluye servicios fundamentales necesarios para habilitar la zona de aterrizaje de datos en el contexto del análisis a escala de la nube. En la tabla siguiente se enumeran los grupos de recursos que proporcionan el conjunto estándar de servicios disponibles en cada zona de aterrizaje de datos que implemente.

Grupo de recursos Obligatorio Descripción
storage-rg Servicios de Data Lake
runtimes-rg IRs compartidos
mgmt-rg Agentes de CI/CD
external-data-rg Almacenamiento de datos externos
data-ingestion-rg Opcional Servicios de ingesta de datos compartidos
shared-applications-rg Opcional Aplicaciones compartidas (Azure Databricks)

Almacenamiento

En el diagrama anterior se muestran tres cuentas de Azure Data Lake Storage Gen2 aprovisionadas en un único grupo de recursos de servicios de Data Lake. Los datos transformados en diferentes fases se guardan en uno de los lagos de datos de la zona de aterrizaje de datos. Los datos están disponibles para su consumo por parte de los equipos de análisis, ciencia de datos y visualización.

Las capas de Lago de datos usan terminología diferente en función de la tecnología y el proveedor. En esta tabla se proporcionan instrucciones sobre cómo aplicar términos para el análisis a escala de la nube:

Análisis a escala de nube Delta Lake Otros términos Descripción
Crudo Bronce Aterrizaje y conformidad Tablas de ingesta
Enriquecida Plata Zona de normalización Tablas refinadas. Conjuntos de registros completos almacenados y listos para el consumo de sistemas de registro.
Mantenido Oro Zona del producto Características o tablas agregadas. Zona primaria para aplicaciones, equipos y usuarios para consumir productos de datos.
Desarrollo -- Zona de desarrollo Ubicación para ingenieros y científicos de datos, que consta de un espacio aislado de análisis y una zona de desarrollo de productos.

Nota:

En el diagrama anterior, cada zona de aterrizaje de datos tiene tres cuentas de almacenamiento de lago de datos. Según sus requisitos, puede optar por consolidar las capas sin procesar, enriquecidas y seleccionadas en una cuenta de almacenamiento y mantener otra cuenta de almacenamiento denominada área de trabajo para que los consumidores de datos incorporen otros productos de datos útiles.

Para obtener más información, consulte:

IRs compartidos

Las canalizaciones de Azure Data Factory usan solicitudes de incorporación de cambios para acceder de forma segura a orígenes de datos en redes emparejadas o aisladas. Los IR compartidos deben implementarse en una máquina virtual (VM) o en Azure Virtual Machine Scale Sets en el grupo de recursos del IR compartido.

Para habilitar el grupo de recursos compartidos:

Nota:

La implementación describe una sola implementación de máquina virtual que tiene un IR autohospedado. Puede asociar un entorno de ejecución de integración autohospedado a varias máquinas virtuales locales o en Azure. Estas máquinas se llaman nodos. Puede tener hasta cuatro nodos asociados a un IR autohospedado. Entre las ventajas de tener varios nodos se incluyen:

  • Mayor disponibilidad del IR autogestionado para que ya no sea el único punto de falla en su aplicación de datos o en la orquestación de la integración de datos en la nube.

  • Mejora del rendimiento y de la capacidad de proceso durante el traslado de datos entre servicios de datos locales y en la nube. Para más información, consulte Guía de escalabilidad y rendimiento de la actividad de copia.

Puede asociar varios nodos instalando el software de IR autohospedado desde el Centro de descarga de Microsoft. A continuación, regístrelo mediante cualquiera de las claves de autenticación obtenidas del cmdlet New-AzDataFactoryV2IntegrationRuntimeKey , tal como se describe en el tutorial.

Para más información, consulte Alta disponibilidad y escalabilidad de Azure Data Factory.

Asegúrese de implementar las IR compartidas lo más cerca posible del origen de datos. Puede implementar las IR en una zona de aterrizaje de datos, en nubes que no son de Microsoft o en una nube privada si la máquina virtual tiene conectividad con los orígenes de datos necesarios.

Administración

Los agentes de CI/CD se ejecutan en máquinas virtuales y ayudan a implementar artefactos desde el repositorio de código fuente, incluidas las aplicaciones de datos y los cambios en la zona de aterrizaje de datos.

Para obtener más información, consulte agentes de canalizaciones de Azure.

Almacenamiento externo

Los publicadores de datos de partners deben aterrizar datos en la plataforma para que los equipos de aplicaciones de datos puedan extraerlos en sus lagos de datos. También puede tener orígenes de datos internos o externos que no admitan los requisitos de conectividad o autenticación que se aplican en el resto de las zonas de aterrizaje de datos. El enfoque recomendado es usar una cuenta de almacenamiento independiente para recibir datos. Luego use un IR compartido o un proceso de ingestión similar para integrarlo en su flujo de procesamiento.

Los equipos de aplicaciones de datos solicitan los blobs de almacenamiento. Estas solicitudes son aprobadas por el equipo de operaciones de la zona de recepción de datos. Los datos deben eliminarse de su blob de almacenamiento de origen después de ingerirlos en el almacenamiento de datos sin procesar.

Importante

Dado que los blobs de Azure Storage se aprovisionan según sea necesario , debe implementar inicialmente un grupo de recursos de servicios de almacenamiento vacío en cada zona de aterrizaje de datos.

Ingesta de datos

Este grupo de recursos es opcional y no le impide desplegar su zona de aterrizaje. Se aplica si tiene, o está desarrollando, un motor de ingesta independiente de datos que ingiere datos automáticamente en función de los metadatos registrados. Esta característica incluye cadenas de conexión, rutas de acceso para la transferencia de datos y programaciones de ingesta.

El grupo de recursos de ingesta y procesamiento tiene servicios clave para este tipo de marco.

Implemente una instancia de Azure SQL Database para almacenar los metadatos que usa Azure Data Factory. Aprovisione un almacén de claves de Azure para almacenar secretos relacionados con los servicios de ingesta automatizados. Estos secretos pueden incluir:

  • Credenciales del metastore de Azure Data Factory.
  • Credenciales de entidad de servicio para su proceso de ingesta automatizado.

Para obtener más información, consulte Motor de ingesta independiente de datos.

En la tabla siguiente se describen los servicios de este grupo de recursos.

Servicio Obligatorio Directrices
Azure Data Factory Azure Data Factory es su motor de orquestación para la ingestión independiente de datos.
Azure SQL Database SQL Database es el metastore para Azure Data Factory.
Azure Event Hubs o Azure IoT Hub Opcional Event Hubs o IoT Hub pueden proporcionar streaming en tiempo real a centros de eventos, además de procesamiento por lotes y streaming a través de un área de trabajo de ingeniería de Azure Databricks.
Azure Databricks Opcional Puede implementar Azure Databricks para usarlo con el motor de ingesta independiente de datos.

Aplicaciones compartidas

Use este grupo de recursos opcional cuando necesite tener un conjunto de servicios compartidos disponibles para todos los equipos que crean aplicaciones de datos en esta zona de aterrizaje de datos. Entre los casos de uso se incluyen los siguientes:

  • Un área de trabajo de Azure Databricks que se usa como metastore compartido para todas las demás áreas de trabajo de Databricks creadas en la misma zona o región de aterrizaje de datos.

Nota:

Azure Databricks usa Unity Catalog para controlar el acceso y la visibilidad a los metastores en áreas de trabajo de Databricks. Unity Catalog está habilitado en un nivel de inquilino, pero los metastores se alinean con las regiones de Azure. Esta configuración significa que todas las áreas de trabajo de Databricks habilitadas para el catálogo de Unity en una región de Azure determinada deben registrarse con el mismo metastore. Para obtener más información, consulte Procedimientos recomendados de Unity Catalog.

Para integrar Azure Databricks, siga los procedimientos recomendados de análisis a escala de la nube. Para más información, consulte Acceso seguro a Azure Data Lake Gen2 desde Azure Databricks y Prácticas recomendadas de Azure Databricks.

Aplicación de datos

Cada zona de aterrizaje de datos puede tener varias aplicaciones de datos. Puede crear estas aplicaciones mediante la ingesta de datos de varios orígenes. También puede crear aplicaciones de datos desde otras aplicaciones de datos dentro de la misma zona de aterrizaje de datos o desde otras zonas de aterrizaje de datos. La creación de aplicaciones de datos está sujeta a la aprobación del administrador de datos.

Grupo de recursos de aplicación de datos

El grupo de recursos de la aplicación de datos incluye todos los servicios necesarios para realizar la aplicación de datos. Por ejemplo, se requiere una instancia de Azure Database para MySQL, que usa una herramienta de visualización. Los datos se deben ingerir y transformar antes de entrar en esa base de datos MySQL. En este caso, puede implementar Azure Database for MySQL y Azure Data Factory en el grupo de recursos de la aplicación de datos.

Sugerencia

Si decide no implementar un motor agnóstico de datos para la ingesta única de orígenes operativos o si no se admiten conexiones complejas en el motor agnóstico de datos, desarrolle una aplicación de datos alineada al origen.

Informes y visualización

Puede usar herramientas de visualización e informes en áreas de trabajo de Fabric, que son similares a las áreas de trabajo de Power BI. Esta característica permite evitar la implementación de recursos únicos dentro de la zona de aterrizaje de datos. Puede incluir un grupo de recursos para implementar la capacidad de Fabric, las máquinas virtuales para los puertos de acceso de datos u otros servicios de datos necesarios para entregar la aplicación de datos al usuario.

Paso siguiente