Replicación y sincronización de archivos del sistema central en Azure

Azure Data Factory
Azure Data Lake
Azure SQL Database
Azure Storage
Azure Virtual Machines

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

Al migrar un sistema central en el entorno local o una aplicación de rango medio a Azure, la transferencia de los datos es una consideración principal. Varios escenarios de modernización requieren que los archivos se repliquen a Azure rápidamente o que se mantenga la sincronización entre los archivos locales y de Azure.

En este artículo se describen varios procesos para transferir archivos a Azure, convertir y transformar datos de archivos, y almacenar los datos de forma local y en Azure.

Architecture

En el diagrama siguiente se muestran algunas de las opciones para replicar y sincronizar archivos locales en Azure:

Diagrama que muestra los tres pasos para migrar archivos locales a Azure: transferencia, conversión y transformación, y almacenamiento persistente.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Transferencia de archivos a Azure:

    • La manera más fácil de transferir archivos al entorno local o a Azure es mediante el protocolo de transferencia de archivos (FTP). Puede hospedar un servidor FTP en una máquina virtual (VM) de Azure. Un lenguaje de control de trabajos (JCL) de FTP simple envía archivos a Azure en formato binario, lo que es esencial para conservar los tipos de datos binarios y de cálculo del sistema central e intermedio. Puede almacenar los archivos transmitidos en discos locales, en el almacenamiento de archivos de VM de Azure o en Azure Blob Storage.

    • También puede cargar archivos locales en Blob Storage mediante herramientas como AzCopy.

    • El conector FTP/SFTP de Azure Data Factory también se puede usar para transferir datos desde el sistema central a Blob Storage. Este método también requiere una máquina virtual intermedia en la que se instala un entorno de ejecución de integración (SHIR) autohospedado.

    • También puede encontrar herramientas de terceros en Azure Marketplace para transferir archivos de sistemas centrales a Azure.

  2. Orquestación, conversión y transformación de datos:

    • Azure no puede leer archivos de página de códigos Extended Binary Coded Decimal Interchange Code (EBCDIC) de IBM en discos de VM de Azure ni en Blob Storage. Para que estos archivos sean compatibles con Azure, Host Integration Server (HIS) los convierte de EBCDIC al formato American Standard Code for Information Interchange (ASCII).

      Los libros de copias definen la estructura de datos de los archivos de COBOL, PL/I y lenguaje de montaje. HIS convierte estos archivos a ASCII en función de los diseños del libro de copias.

    • Antes de transferir datos a los almacenes de datos de Azure, es posible que tenga que transformar o usar dichos datos para el análisis. Data Factory puede administrar estas actividades de extracción, transformación y carga (ETL) y de extracción, carga y transformación (ELT), y almacenar los datos directamente en Azure Data Lake Storage.

    • En el caso de las integraciones de macrodatos, Azure Databricks y Azure Synapse Analytics pueden realizar todas las actividades de transformación de forma rápida y eficaz mediante el motor de Apache Spark para realizar cálculos en memoria.

  3. Almacenamiento de datos:

    Puede almacenar los datos transferidos mediante uno de los distintos modos de almacenamiento persistentes de Azure disponibles, en función de sus requisitos.

    • Si no es necesario realizar análisis, Azure Data Factory puede almacenar los datos directamente en una amplia variedad de opciones de almacenamiento, como Data Lake Storage y Blob Storage.

    • Azure hospeda distintas bases de datos, que abordan diferentes necesidades:

      • Las bases de datos relacionales incluyen la familia SQL Server y bases de datos de código abierto, como PostgreSQL y MySQL.
      • Las bases de datos no relacionales incluyen Azure Cosmos DB, una base de datos NoSQL rápida, de varios modelos y distribuida globalmente.
  4. Revisión de análisis e inteligencia empresarial:

    Microsoft Fabric es una solución de análisis integral que su organización puede usar para estudiar el movimiento de datos, experimentar con ciencias de datos y revisar el análisis en tiempo real y la inteligencia empresarial. Ofrece un conjunto completo de funciones, incluido un lago de datos, ingeniería de datos e integración de datos.

Componentes

Los distintos escenarios de transferencia, integración y almacenamiento de archivos usan componentes diferentes. Puede usar la calculadora de precios de Azure para estimar los costos de los recursos de Azure.

Redes

Una puerta de enlace de datos local es una solución de software de puente que conecta los datos locales con los servicios en la nube. Puede instalar la puerta de enlace en una máquina virtual local dedicada.

Integración y transformación de datos

  • El proveedor de datos para archivos host es un componente de HIS que convierte los archivos de página de códigos de EBCDIC a ASCII. El proveedor puede leer y escribir registros sin conexión en un archivo binario local, o usar la Arquitectura de redes de sistemas (SNA) o el Protocolo de control de transmisión/Protocolo de Internet (TCP/IP) para leer y escribir registros en conjuntos de datos remotos del sistema central z/OS de IBM o archivos físicos de i5/OS. Los conectores HIS están disponibles para BizTalk y Azure Logic Apps.

  • Azure Data Factory es un servicio híbrido de integración de datos que le permite crear, programar y orquestar flujos de trabajo de ETL y ELT.

  • Azure Databricks es una plataforma de análisis basada en Apache Spark y optimizada para Azure. Puede usar Databricks para correlacionar los datos entrantes y enriquecerlos con otros datos almacenados en Databricks.

  • Azure Synapse Analytics es un almacenamiento de datos en la nube rápido y flexible con una arquitectura de procesamiento en paralelo masivo (MPP) que puede usar para escalar, procesar y almacenar datos de forma elástica e independiente.

Bases de datos

  • Azure SQL Database es un servicio de base de datos en la nube relacional y escalable. Azure SQL Database es permanente y siempre está actualizado, con características basadas en inteligencia artificial y automatizadas que optimizan el rendimiento y la durabilidad. Las opciones de almacenamiento de hiperescala y proceso sin servidor escalan automáticamente los recursos a petición. Con Ventaja híbrida de Azure, puede usar las licencias locales existentes de SQL Server en la nube sin ningún costo adicional.

  • Azure SQL Managed Instance combina la mayor compatibilidad con el motor de base de datos de SQL Server y todas las ventajas de una plataforma como servicio (PaaS) totalmente administrada y permanente. Con SQL Managed Instance, puede modernizar las aplicaciones existentes a escala con herramientas, aptitudes y recursos conocidos.

  • SQL Server en Azure Virtual Machines realiza la migración mediante lift-and-shift de las cargas de trabajo de SQL Server a la nube para combinar la flexibilidad y la conectividad híbrida de Azure con el rendimiento, la seguridad y el análisis de SQL Server. Puede acceder a las últimas actualizaciones y versiones de SQL Server con 100% de compatibilidad con el código.

  • Azure Database for PostgreSQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto PostgreSQL.

  • Azure Database for MySQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto MySQL.

  • Azure Cosmos DB es un servicio de base de datos NoSQL de varios modelos totalmente administrado para compilar y modernizar aplicaciones escalables de alto rendimiento. Azure Cosmos DB escala el rendimiento y el almacenamiento de forma elástica e independiente entre regiones geográficas, y garantiza la disponibilidad de latencias de menos de 10 milisegundos en el percentil 99 en cualquier lugar del mundo.

Otros almacenes de datos

  • Blob Storage almacena grandes cantidades de datos no estructurados, como texto o datos binarios, a los que puede acceder desde cualquier lugar del mundo a través de HTTP o HTTPS. Puede usar Blob Storage para exponer datos públicamente, o bien para almacenar los datos de la aplicación de manera privada.

  • Data Lake Storage es un repositorio de almacenamiento que contiene una gran cantidad de datos en formato nativo sin procesar. Data Lake Storage proporciona escalado para cargas de trabajo de análisis de macrodatos con terabytes y petabytes de datos. Los datos provienen típicamente de múltiples orígenes heterogéneos y pueden ser estructurados, semiestructurados o no estructurados.

Posibles casos de uso

Los casos de uso de sincronización y replicación de archivos locales incluyen:

  • Dependencias de bajada o ascendente, por ejemplo si las aplicaciones que se ejecutan en el sistema central y las aplicaciones que se ejecutan en Azure necesitan intercambiar datos a través de archivos.

  • Pruebas paralelas de aplicaciones rehospedadas o rediseñadas en Azure con aplicaciones locales.

  • Aplicaciones locales estrechamente acopladas en sistemas que no se pueden corregir ni modernizar inmediatamente.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes