Elección de la configuración adecuada del entorno de ejecución de integración de su escenario

El entorno de ejecución de integración es una parte importante de la infraestructura de la solución de integración de datos proporcionada por Azure Data Factory. Esto requiere tener en cuenta cómo adaptarse a la estructura de red y al origen de datos actuales al principio del diseño de la solución, así como evaluar el rendimiento, la seguridad y el costo.

Comparación de diferentes tipos de entornos de ejecución de integración

En Azure Data Factory tenemos tres tipos de entornos de ejecución de integración: el entorno de ejecución de integración de Azure, el entorno de ejecución de integración autohospedado y el entorno de ejecución de integración de SSIS para Azure. En el caso de Azure Integration Runtime, también se puede habilitar una red virtual administrada que haga que la arquitectura sea diferente al entorno de ejecución de integración de Azure global.

En esta tabla se enumeran las diferencias en algunos aspectos de todos los entornos de ejecución de integración. Puede elegir el adecuado según sus necesidades reales. En cuanto al entorno de ejecución de integración de SSIS para Azure, puede obtener más información en el artículo Creación de un entorno de ejecución de integración de SSIS para Azure.

Característica Tiempo de ejecución de integración de Azure Entorno de ejecución de integración de Azure con una red virtual administrada Integration Runtime autohospedado
Proceso administrado Y Y N
Escalado automático Y Y* No
Flujo de datos Y Y N
Acceso a datos locales N Y** Y
Vínculo privado, punto de conexión privado No S** Y
Componente/controlador personalizado N N S

* Cuando el período de vida (TTL) está habilitado, la capacidad de proceso del entorno de ejecución de integración está reservado según la configuración y no se puede escalar automáticamente.

** Los entornos locales deben estar conectados a Azure a través de ExpressRoute o una VPN. No se admiten componentes y controladores personalizados.

*** El servicio Azure Data Factory administra los puntos de conexión privados.

Es importante elegir un tipo adecuado de entorno de ejecución de integración. No solo debe ser adecuado para la arquitectura y los requisitos existentes de integración de datos, sino que también hay que tener en cuenta cómo seguir cubriendo las crecientes necesidades empresariales y cualquier aumento futuro de la carga de trabajo. Pero no hay un enfoque único que sea válido para todos los casos. La siguiente consideración puede ayudarle a tomar la decisión:

  1. ¿Cuáles son las ubicaciones del entorno de ejecución de integración y del almacén de datos?
    La ubicación del entorno de ejecución de integración define la ubicación de su proceso de back-end y dónde se realizan el movimiento de datos, la distribución de actividades y la transformación de datos. Para mejorar el rendimiento y aumentar la eficacia de la transmisión, el entorno de ejecución de integración debe estar más cerca del origen de datos o del receptor.

    • Azure Integration Runtime detecta automáticamente la ubicación más adecuada en función de algunas reglas (se conoce también como resolución automática). Consulte los detalles aquí: Ubicación de Azure IR.
    • El entorno de ejecución de integración de Azure con una red virtual administrada tiene la misma región que la factoría de datos. No se puede resolver automáticamente como el entorno de ejecución de integración de Azure.
    • El entorno de ejecución de integración autohospedado se encuentra en la región de los equipos locales o las máquinas virtuales de Azure.
  2. ¿Se puede acceder públicamente al almacén de datos?
    Si el almacén de datos es accesible públicamente, la diferencia entre los distintos tipos de entornos de ejecución de integración no es considerable. Si el almacén está detrás de un firewall o en una red privada (como una red local o virtual), las mejores opciones son el entorno de ejecución de integración de Azure con una red virtual administrada o el entorno de ejecución de integración autohospedado.

    • Es necesario definir algunas opciones de configuración más, como el servicio Private Link y Load Balancer, cuando se usa Azure Integration Runtime con una red virtual administrada para acceder a un almacén de datos que está detrás de un firewall o en una red privada. Puede tener como referencia este tutorial: Acceso a SQL Server local desde una máquina virtual administrada por Data Factory mediante un punto de conexión privado. Si el almacén de datos se encuentra en un entorno local, el entorno local debe estar conectado a Azure a través de ExpressRoute o una VPN S2S.
    • El entorno de ejecución de integración autohospedado es más flexible y no requiere configuración adicional, ExpressRoute ni VPN, pero sí tiene que proporcionar y mantener el equipo uno mismo.
    • También puede agregar las direcciones IP públicas del entorno de ejecución de integración de Azure a la lista de permitidos del firewall, y permitir que acceda al almacén de datos, pero no es una solución deseable en entornos de producción muy seguros.
  3. ¿Qué nivel de seguridad se necesita durante la transmisión de datos?
    Si necesita procesar datos muy confidenciales, conviene defenderse, por ejemplo, de ataques de tipo "man in the middle" durante la transmisión de datos. Puede elegir entre usar un punto de conexión privado y un vínculo privado para garantizar la seguridad de los datos.

    • Cuando se usa el entorno de ejecución de integración de Azure con una red virtual administrada, se pueden crear puntos de conexión privados administrados en los almacenes de datos. El servicio Azure Data Factory mantiene los puntos de conexión privados dentro de la red virtual administrada.
    • También se pueden crear puntos de conexión privados en la red virtual, y el entorno de ejecución de integración autohospedado puede usarlos para acceder a los almacenes de datos.
    • El entorno de ejecución de integración de Azure no admite puntos de conexión privados ni vínculos privados.
  4. ¿Qué nivel de mantenimiento puede proporcionar?
    Mantener la infraestructura, los servidores y los equipos es una de las tareas importantes del departamento de TI de una empresa. Normalmente conllevan mucho tiempo y esfuerzo.

    • En Azure Integration Runtime y Azure Integration Runtime con una red virtual administrada, no tiene que preocuparse por el mantenimiento (como actualizaciones, revisiones y versiones), ya que el servicio Azure Data Factory se encarga de toda la labor de mantenimiento.
    • Dado que el entorno de ejecución de integración autohospedado está instalado en los equipos del cliente, los usuarios finales deben encargarse del mantenimiento. Sin embargo, puede habilitar la actualización automática para obtener automáticamente la versión más reciente del entorno de ejecución de integración autohospedado cuando haya una actualización. Para obtener información sobre cómo habilitar la actualización automática y administrar el control de versiones del entorno de ejecución de integración autohospedado, puede consultar el artículo Notificación de expiración y actualización automática del entorno de ejecución de integración autohospedado. También proporcionamos una herramienta de diagnóstico para el entorno de ejecución de integración autohospedado, que permite comprobar el estado de algunos problemas comunes. Para obtener más información sobre la herramienta de diagnóstico, consulte el artículo Herramienta de diagnóstico del entorno de ejecución de integración autohospedado. Asimismo, se recomienda usar Azure Monitor y Azure Log Analytics específicamente para recopilar los datos y habilitar un único panel de supervisión para los entornos de ejecución de integración autohospedados. Para obtener más información e instrucciones sobre cómo configurar esto, consulte el artículo Configuración del entorno de ejecución de integración autohospedado para la recopilación de análisis de registros.
  5. ¿Qué requisitos de simultaneidad tiene?
    Al procesar datos a gran escala (por ejemplo, al migrar datos a gran escala), esperamos mejorar la eficiencia y la velocidad de procesamiento tanto como sea posible. La simultaneidad suele ser un requisito importante de la integración de datos.

    • El entorno de ejecución de integración de Azure es el más compatible con la simultaneidad de todos los tipos de entorno de ejecución de integración. La unidad de integración de datos (DIU) es la unidad de capacidad que se ejecuta en Azure Data Factory. Puede seleccionar el número de DIU que quiera, por ejemplo, Actividad de copia. Dentro del ámbito de la DIU se pueden ejecutar varias actividades al mismo tiempo. En diferentes grupos de regiones, tenemos distintos límites superiores. Para obtener información sobre los detalles de estos límites, consulte el artículo Límites de Data Factory.
    • El entorno de ejecución de integración de Azure con una red virtual administrada tiene un mecanismo similar al entorno de ejecución de integración de Azure, pero debido a algunas restricciones arquitectónicas, la simultaneidad que puede admitir es menor que este último.
    • Las actividades simultáneas que el entorno de ejecución de integración autohospedado puede ejecutar dependen del tamaño del equipo y del tamaño del clúster. Si necesita una mayor simultaneidad, puede elegir un equipo más grande o usar más nodos de integración autohospedados en el clúster.
  6. ¿Necesita alguna característica específica?
    Existen algunas diferencias funcionales entre los tipos de entornos de ejecución de integración.

    • Data Flow es compatible con el entorno de ejecución de integración de Azure y con el entorno de ejecución de integración de Azure con una red virtual administrada. Sin embargo, Data Flow no se puede ejecutar con el entorno de ejecución de integración autohospedado.
    • Si necesita instalar componentes personalizados, como controladores ODBC, una JVM o un certificado de SQL Server, el entorno de ejecución de integración autohospedado es la única opción. Los componentes personalizados no son compatibles con Azure Integration Runtime ni con Azure Integration Runtime con una red virtual administrada.

Arquitectura del entorno de ejecución de integración

En función de las características de cada entorno de ejecución de integración, se requieren arquitecturas diferentes para satisfacer las necesidades empresariales de integración de datos. Estas son algunas arquitecturas típicas que se pueden usar como referencia.

Tiempo de ejecución de integración de Azure

Azure Integration Runtime es un proceso totalmente administrado y de escalado automático que se puede usar para mover datos desde orígenes de datos de Azure y que no sean de Azure.

Screenshot of integration runtime is a fully managed.

  1. El tráfico del entorno de ejecución de integración de Azure a los almacenes de datos transcurre a través de la red pública.
  2. Proporcionamos una serie de direcciones IP públicas estáticas para el entorno de ejecución de integración de Azure, y estas direcciones IP se pueden agregar a la lista de permitidos del firewall del almacén de datos de destino. Para obtener más información sobre cómo obtener direcciones IP públicas del entorno de ejecución de integración de Azure, consulte el artículo Direcciones IP de Azure Integration Runtime.
  3. Azure Integration Runtime se puede resolver automáticamente según la región del origen de datos y el receptor de datos. También se puede elegir una región específica. Se recomienda elegir la región más cercana al origen de datos o al receptor, lo que puede suponer un mejor rendimiento de ejecución. Para obtener más información sobre las consideraciones de rendimiento, consulte el artículo Solución de problemas de la actividad de copia en Azure IR.

Entorno de ejecución de integración de Azure con una red virtual administrada

Al usar el entorno de ejecución de integración de Azure con una red virtual administrada, debe usar puntos de conexión privados administrados que conecten los orígenes de datos para garantizar la seguridad de los datos durante la transmisión. Con algunas opciones de configuración adicionales, como el servicio Private Link y Load Balancer, los puntos de conexión privados administrados también se pueden usar para acceder a orígenes de datos locales.

Screenshot of integration runtime with a managed virtual network.

  1. Un punto de conexión privado administrado no se puede reutilizar en distintos entornos. Debe crear un conjunto de puntos de conexión privados administrados para cada entorno. Para obtener información sobre todos los orígenes de datos compatibles con puntos de conexión privados administrados, consulte el artículo Orígenes de datos y servicios admitidos.
  2. También puede usar puntos de conexión privados administrados en las conexiones a recursos de proceso externos que quiera orquestar, como Azure Databricks y Azure Functions. Para ver la lista completa de recursos de proceso externos admitidos, consulte el artículo Orígenes de datos y servicios admitidos.
  3. El servicio Azure Data Factory administra la red virtual administrada. El emparejamiento de VNET no se puede usar entre una red virtual administrada y una red virtual de cliente.
  4. Los clientes no pueden cambiar las configuraciones directamente, como la regla NSG de una red virtual administrada.
  5. Si una propiedad de un punto de conexión privado administrado difiere de un entorno a otro, se puede invalidar parametrizando esa propiedad y proporcionando el valor que corresponda durante la implementación. Consulte los detalles en el artículo Procedimientos recomendados de CI/CD.

Integration Runtime autohospedado

Para evitar que los datos de diferentes entornos interfieran entre sí y garantizar la seguridad del entorno de producción, es necesario crear el correspondiente entorno de ejecución de integración autohospedado de cada entorno. Esto garantiza que haya suficiente aislamiento entre diferentes entornos.

Screenshot of creating a corresponding self-hosted integration runtime for each environment.

Dado que el entorno de ejecución de integración autohospedado se ejecuta en un equipo administrado por el cliente, si queremos reducir al máximo los costes, el mantenimiento y los esfuerzos de actualización, podemos usar las funciones compartidas del entorno de ejecución de integración autohospedado en diferentes proyectos del mismo entorno. Para obtener más información sobre el uso compartido de entornos de ejecución de integración autohospedados, consulte el artículo Creación de un entorno de ejecución de integración autohospedado compartido en Azure Data Factory. Al mismo tiempo, para que los datos sean más seguros durante la transmisión, podemos optar por usar un vínculo privado para conectar los orígenes de datos y el almacén de claves, y conectar la comunicación entre el entorno de ejecución de integración autohospedado y el servicio Azure Data Factory.

Screenshot of using the shared functions of the self-hosted integration runtime for different projects in the same environment.

  1. ExpressRoute no es obligatorio. Sin ExpressRoute, los datos no llegan al receptor a través de redes privadas (como una red virtual o un vínculo privado), sino a través de la red pública.
  2. Si la red local está conectada a la red virtual de Azure a través de ExpressRoute o una VPN, el entorno de ejecución de integración autohospedado se puede instalar en máquinas virtuales de una VPN de concentrador.
  3. La arquitectura de red virtual en estrella tipo hub-and-spoke se puede usar no solo en proyectos diferentes, sino también en entornos diferentes (producción, control de calidad y desarrollo).
  4. El entorno de ejecución de integración autohospedado se puede compartir con varias factorías de datos La factoría de datos principal hace referencia a esto como un entorno de ejecución de integración autohospedado compartido y otras factorías, como un entorno de ejecución de integración autohospedado vinculado. Un entorno de ejecución de integración autohospedado físico puede tener varios nodos en un clúster. La comunicación solo se produce entre el entorno de ejecución de integración autohospedado principal y el nodo principal, y el trabajo se distribuye entre los nodos secundarios desde el nodo principal.
  5. Las credenciales de los almacenes de datos locales se pueden almacenar en el equipo local o en una instancia de Azure Key Vault. Se recomienda encarecidamente usar Azure Key Vault.
  6. La comunicación entre el entorno de ejecución de integración autohospedado y la factoría de datos puede producirse a través de un vínculo privado, pero actualmente no se admite el uso de vínculos privados en la creación interactiva a través de Azure Relay ni en la actualización automática a la versión más reciente desde el centro de descarga. El tráfico atraviesa el firewall del entorno local. Para obtener más información, consulte el artículo Azure Private Link para Azure Data Factory.
  7. El vínculo privado solo es necesario en la factoría de datos principal. Todo el tráfico pasa por la factoría de datos principal y, tras ello, a otras factorías de datos.
  8. En todas las fases de CI/CD se espera el mismo nombre de entorno de ejecución de integración autohospedado. Puede sopesar la posibilidad de usar una fábrica ternaria solo para contener los entornos de ejecución de integración autohospedados compartidos, y usar el entorno de ejecución de integración autohospedado vinculado en las distintas fases de producción. Para obtener más información, consulte el artículo Integración y entrega continuas en Azure Data Factory.
  9. Puede controlar cómo llega el tráfico al centro de descarga y a Azure Relay mediante configuraciones de la red local y ExpressRoute, ya sea a través de un proxy local o una red virtual de concentrador. Asegúrese de que se permite el tráfico por proxy o reglas de NSG.
  10. Si desea proteger la comunicación entre los nodos del entorno de ejecución de integración, puede habilitar el acceso remoto desde la intranet con un certificado TLS/SSL. Para obtener más información, consulte el artículo Habilitación del acceso remoto desde la intranet con certificado TLS/SSL (avanzado).