Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las zonas de aterrizaje de datos están conectadas a la zona de aterrizaje de administración de datos por emparejamiento de red virtual o puntos de conexión privados. Cada zona de aterrizaje de datos se considera una zona de aterrizaje relacionada con la arquitectura de la zona de aterrizaje de Azure.
Importante
Antes de aprovisionar una zona de aterrizaje de datos, asegúrese de que su modelo operativo de DevOps e integración y entrega continua (CI/CD) está en funcionamiento y de que se haya implementado una zona de aterrizaje de administración de datos.
Cada zona de aterrizaje de datos tiene varias capas que permiten la agilidad de las integraciones de datos del servicio y las aplicaciones de datos que contiene. Puede implementar una nueva zona de aterrizaje de datos con un conjunto estándar de servicios que permitan a la zona de aterrizaje de datos ingerir y analizar datos.
En la tabla siguiente se muestra la estructura de una suscripción típica de Azure asociada a una zona de aterrizaje de datos.
Nivel | Obligatorio | Grupos de recursos |
---|---|---|
Servicios de capa de plataforma | Sí | |
Servicios principales | Sí | |
Aplicación de datos | Opcional |
|
Informes y visualización | Opcional |
Nota:
La capa de servicios principales se marca como necesaria, pero no todos los grupos de recursos y servicios incluidos en este artículo podrían ser necesarios para la zona de aterrizaje de datos.
Arquitectura de la zona de aterrizaje de datos
La siguiente arquitectura de zona de aterrizaje de datos muestra las capas, sus grupos de recursos y los servicios que contiene cada grupo de recursos. La arquitectura proporciona información general de todos los grupos y roles asociados a la zona de aterrizaje de datos y la extensión de su acceso a los planos de datos y control. La arquitectura también muestra cómo cada capa se alinea con las responsabilidades del modelo operativo.
Sugerencia
Antes de implementar una zona de aterrizaje de datos, asegúrese de tener en cuenta el número de zonas de aterrizaje de datos iniciales que desea implementar.
Servicios de plataforma
La capa de servicios de plataforma incluye los servicios necesarios para habilitar la conectividad y la observabilidad a la zona de aterrizaje de datos en el contexto del análisis a escala de la nube. En la tabla siguiente se enumeran los grupos de recursos recomendados.
Grupo de recursos | Obligatorio | Descripción |
---|---|---|
network-rg |
Sí | Redes |
security-rg |
Sí | Seguridad y supervisión |
Redes
El grupo de recursos de red contiene servicios de conectividad, como Azure Virtual Network, grupos de seguridad de red y tablas de rutas. Todos estos servicios se implementan en un único grupo de recursos.
La red virtual de su zona de aterrizaje de datos se empareja automáticamente con la red virtual de su zona de aterrizaje de administración de datos y la red virtual de su suscripción de conectividad.
Seguridad y supervisión
El grupo de recursos de seguridad y supervisión incluye Azure Monitor y Microsoft Defender for Cloud para recopilar telemetría del servicio, definir criterios de supervisión y alertas, y aplicar directivas y análisis a los servicios.
Servicios principales
La capa de servicios principales incluye servicios fundamentales necesarios para habilitar la zona de aterrizaje de datos en el contexto del análisis a escala de la nube. En la tabla siguiente se enumeran los grupos de recursos que proporcionan el conjunto estándar de servicios disponibles en cada zona de aterrizaje de datos que implemente.
Grupo de recursos | Obligatorio | Descripción |
---|---|---|
storage-rg |
Sí | Servicios de Data Lake |
runtimes-rg |
Sí | IRs compartidos |
mgmt-rg |
Sí | Agentes de CI/CD |
external-data-rg |
Sí | Almacenamiento de datos externos |
data-ingestion-rg |
Opcional | Servicios de ingesta de datos compartidos |
shared-applications-rg |
Opcional | Aplicaciones compartidas (Azure Databricks) |
Almacenamiento
En el diagrama anterior se muestran tres cuentas de Azure Data Lake Storage Gen2 aprovisionadas en un único grupo de recursos de servicios de Data Lake. Los datos transformados en diferentes fases se guardan en uno de los lagos de datos de la zona de aterrizaje de datos. Los datos están disponibles para su consumo por parte de los equipos de análisis, ciencia de datos y visualización.
Las capas de Lago de datos usan terminología diferente en función de la tecnología y el proveedor. En esta tabla se proporcionan instrucciones sobre cómo aplicar términos para el análisis a escala de la nube:
Análisis a escala de nube | Delta Lake | Otros términos | Descripción |
---|---|---|---|
Crudo | Bronce | Aterrizaje y conformidad | Tablas de ingesta |
Enriquecida | Plata | Zona de normalización | Tablas refinadas. Conjuntos de registros completos almacenados y listos para el consumo de sistemas de registro. |
Mantenido | Oro | Zona del producto | Características o tablas agregadas. Zona primaria para aplicaciones, equipos y usuarios para consumir productos de datos. |
Desarrollo | -- | Zona de desarrollo | Ubicación para ingenieros y científicos de datos, que consta de un espacio aislado de análisis y una zona de desarrollo de productos. |
Nota:
En el diagrama anterior, cada zona de aterrizaje de datos tiene tres cuentas de almacenamiento de lago de datos. Según sus requisitos, puede optar por consolidar las capas sin procesar, enriquecidas y seleccionadas en una cuenta de almacenamiento y mantener otra cuenta de almacenamiento denominada área de trabajo para que los consumidores de datos incorporen otros productos de datos útiles.
Para obtener más información, consulte:
- Introducción a Azure Data Lake Storage para análisis a escala en la nube
- Normalización de datos
- Zonas y contenedores de lago de datos
- Consideraciones clave para Data Lake Storage
- Control de acceso y configuraciones de lago de datos en Data Lake Storage
IRs compartidos
Las canalizaciones de Azure Data Factory usan solicitudes de incorporación de cambios para acceder de forma segura a orígenes de datos en redes emparejadas o aisladas. Los IR compartidos deben implementarse en una máquina virtual (VM) o en Azure Virtual Machine Scale Sets en el grupo de recursos del IR compartido.
Para habilitar el grupo de recursos compartidos:
Cree al menos una instancia de Azure Data Factory en el grupo de recursos de integración compartido de la zona de aterrizaje de datos. Úselo solo para vincular el IR autohospedado compartido, no para las canalizaciones de datos.
Cree y configure un runtime de integración autohospedado en la VM.
Asocie el IR autohospedado a las factorías de datos de Azure en las zonas de aterrizaje de datos.
Utilizar scripts de PowerShell para actualizar periódicamente el IR autohospedado.
Nota:
La implementación describe una sola implementación de máquina virtual que tiene un IR autohospedado. Puede asociar un entorno de ejecución de integración autohospedado a varias máquinas virtuales locales o en Azure. Estas máquinas se llaman nodos. Puede tener hasta cuatro nodos asociados a un IR autohospedado. Entre las ventajas de tener varios nodos se incluyen:
Mayor disponibilidad del IR autogestionado para que ya no sea el único punto de falla en su aplicación de datos o en la orquestación de la integración de datos en la nube.
Mejora del rendimiento y de la capacidad de proceso durante el traslado de datos entre servicios de datos locales y en la nube. Para más información, consulte Guía de escalabilidad y rendimiento de la actividad de copia.
Puede asociar varios nodos instalando el software de IR autohospedado desde el Centro de descarga de Microsoft. A continuación, regístrelo mediante cualquiera de las claves de autenticación obtenidas del cmdlet New-AzDataFactoryV2IntegrationRuntimeKey , tal como se describe en el tutorial.
Para más información, consulte Alta disponibilidad y escalabilidad de Azure Data Factory.
Asegúrese de implementar las IR compartidas lo más cerca posible del origen de datos. Puede implementar las IR en una zona de aterrizaje de datos, en nubes que no son de Microsoft o en una nube privada si la máquina virtual tiene conectividad con los orígenes de datos necesarios.
Administración
Los agentes de CI/CD se ejecutan en máquinas virtuales y ayudan a implementar artefactos desde el repositorio de código fuente, incluidas las aplicaciones de datos y los cambios en la zona de aterrizaje de datos.
Para obtener más información, consulte agentes de canalizaciones de Azure.
Almacenamiento externo
Los publicadores de datos de partners deben aterrizar datos en la plataforma para que los equipos de aplicaciones de datos puedan extraerlos en sus lagos de datos. También puede tener orígenes de datos internos o externos que no admitan los requisitos de conectividad o autenticación que se aplican en el resto de las zonas de aterrizaje de datos. El enfoque recomendado es usar una cuenta de almacenamiento independiente para recibir datos. Luego use un IR compartido o un proceso de ingestión similar para integrarlo en su flujo de procesamiento.
Los equipos de aplicaciones de datos solicitan los blobs de almacenamiento. Estas solicitudes son aprobadas por el equipo de operaciones de la zona de recepción de datos. Los datos deben eliminarse de su blob de almacenamiento de origen después de ingerirlos en el almacenamiento de datos sin procesar.
Importante
Dado que los blobs de Azure Storage se aprovisionan según sea necesario , debe implementar inicialmente un grupo de recursos de servicios de almacenamiento vacío en cada zona de aterrizaje de datos.
Ingesta de datos
Este grupo de recursos es opcional y no le impide desplegar su zona de aterrizaje. Se aplica si tiene, o está desarrollando, un motor de ingesta independiente de datos que ingiere datos automáticamente en función de los metadatos registrados. Esta característica incluye cadenas de conexión, rutas de acceso para la transferencia de datos y programaciones de ingesta.
El grupo de recursos de ingesta y procesamiento tiene servicios clave para este tipo de marco.
Implemente una instancia de Azure SQL Database para almacenar los metadatos que usa Azure Data Factory. Aprovisione un almacén de claves de Azure para almacenar secretos relacionados con los servicios de ingesta automatizados. Estos secretos pueden incluir:
- Credenciales del metastore de Azure Data Factory.
- Credenciales de entidad de servicio para su proceso de ingesta automatizado.
Para obtener más información, consulte Motor de ingesta independiente de datos.
En la tabla siguiente se describen los servicios de este grupo de recursos.
Servicio | Obligatorio | Directrices |
---|---|---|
Azure Data Factory | Sí | Azure Data Factory es su motor de orquestación para la ingestión independiente de datos. |
Azure SQL Database | Sí | SQL Database es el metastore para Azure Data Factory. |
Azure Event Hubs o Azure IoT Hub | Opcional | Event Hubs o IoT Hub pueden proporcionar streaming en tiempo real a centros de eventos, además de procesamiento por lotes y streaming a través de un área de trabajo de ingeniería de Azure Databricks. |
Azure Databricks | Opcional | Puede implementar Azure Databricks para usarlo con el motor de ingesta independiente de datos. |
Aplicaciones compartidas
Use este grupo de recursos opcional cuando necesite tener un conjunto de servicios compartidos disponibles para todos los equipos que crean aplicaciones de datos en esta zona de aterrizaje de datos. Entre los casos de uso se incluyen los siguientes:
- Un área de trabajo de Azure Databricks que se usa como metastore compartido para todas las demás áreas de trabajo de Databricks creadas en la misma zona o región de aterrizaje de datos.
Nota:
Azure Databricks usa Unity Catalog para controlar el acceso y la visibilidad a los metastores en áreas de trabajo de Databricks. Unity Catalog está habilitado en un nivel de inquilino, pero los metastores se alinean con las regiones de Azure. Esta configuración significa que todas las áreas de trabajo de Databricks habilitadas para el catálogo de Unity en una región de Azure determinada deben registrarse con el mismo metastore. Para obtener más información, consulte Procedimientos recomendados de Unity Catalog.
Para integrar Azure Databricks, siga los procedimientos recomendados de análisis a escala de la nube. Para más información, consulte Acceso seguro a Azure Data Lake Gen2 desde Azure Databricks y Prácticas recomendadas de Azure Databricks.
Aplicación de datos
Cada zona de aterrizaje de datos puede tener varias aplicaciones de datos. Puede crear estas aplicaciones mediante la ingesta de datos de varios orígenes. También puede crear aplicaciones de datos desde otras aplicaciones de datos dentro de la misma zona de aterrizaje de datos o desde otras zonas de aterrizaje de datos. La creación de aplicaciones de datos está sujeta a la aprobación del administrador de datos.
Grupo de recursos de aplicación de datos
El grupo de recursos de la aplicación de datos incluye todos los servicios necesarios para realizar la aplicación de datos. Por ejemplo, se requiere una instancia de Azure Database para MySQL, que usa una herramienta de visualización. Los datos se deben ingerir y transformar antes de entrar en esa base de datos MySQL. En este caso, puede implementar Azure Database for MySQL y Azure Data Factory en el grupo de recursos de la aplicación de datos.
Sugerencia
Si decide no implementar un motor agnóstico de datos para la ingesta única de orígenes operativos o si no se admiten conexiones complejas en el motor agnóstico de datos, desarrolle una aplicación de datos alineada al origen.
Informes y visualización
Puede usar herramientas de visualización e informes en áreas de trabajo de Fabric, que son similares a las áreas de trabajo de Power BI. Esta característica permite evitar la implementación de recursos únicos dentro de la zona de aterrizaje de datos. Puede incluir un grupo de recursos para implementar la capacidad de Fabric, las máquinas virtuales para los puertos de acceso de datos u otros servicios de datos necesarios para entregar la aplicación de datos al usuario.