Diseño de una solución de integración de datos con Azure Data Factory

Completado

Azure Data Factory es un servicio de integración de datos basado en la nube que puede ayudarle a crear y programar flujos de trabajo controlados por datos. Puede usar Azure Data Factory para orquestar el movimiento de datos y transformar los datos a escala. Los flujos de trabajo impulsados por datos o tuberías incorporan datos de diferentes almacenes de datos. Azure Data Factory es un proceso de integración de datos ETL, que significa extracción, transformación y carga. Este proceso de integración combina datos de varios orígenes de datos en un único almacén de datos.

Cosas que hay que saber sobre Azure Data Factory

Hay cuatro pasos principales para crear e implementar un flujo de trabajo controlado por datos en la arquitectura de Azure Data Factory:

  1. Conectar y recopilar. En primer lugar, ingiera los datos para recopilar todos los datos de distintos orígenes en una ubicación centralizada.

  2. Transformar y enriquecer. A continuación, transforme los datos mediante un servicio de proceso como Azure Databricks y Azure HDInsight Hadoop.

  3. Proporcione integración y entrega continuas (CI/CD) y publique. Apoye CI/CD mediante GitHub y Azure Pipelines para entregar de forma incremental el proceso ETL antes de publicar los datos en el motor de análisis.

  4. Monitor. Por último, use el portal de Azure para supervisar la canalización de actividades programadas y para detectar errores.

En el diagrama siguiente se muestra cómo Azure Data Factory orquesta la ingesta de datos de diferentes orígenes de datos. Los datos se ingieren en un blob de Storage y se almacenan en Azure Synapse Analytics. Los componentes de análisis y visualización también están conectados a Azure Data Factory. Azure Data Factory proporciona una interfaz de administración común para todas las necesidades de integración de datos.

Diagrama que muestra el Azure Data Factory architecture.

Componentes de Azure Data Factory

Azure Data Factory tiene los siguientes componentes que funcionan conjuntamente para proporcionar la plataforma para el movimiento de datos y la integración de datos.

Diagrama que muestra una canalización, actividades, conjuntos de datos y servicios vinculados en Azure Data Factory.

  • Canalizaciones y actividades: las canalizaciones proporcionan una agrupación lógica de actividades que realizan una tarea. Una actividad es un único paso de procesamiento en una canalización. Azure Data Factory admite el movimiento de datos, la transformación de datos y las actividades de control.
  • Conjuntos de datos: los conjuntos de datos son estructuras de datos dentro de los almacenes de datos.
  • Servicios vinculados: los servicios vinculados definen la información de conexión necesaria necesaria para Azure Data Factory conectarse a recursos externos.
  • Flujos de datos: los flujos de datos permiten a los ingenieros de datos desarrollar lógica de transformación de datos sin escribir código. Las actividades de flujo de datos se pueden operacionalizar mediante las funcionalidades existentes de programación, control, flujo y supervisión de Azure Data Factory existentes.
  • Entornos de ejecución de integración: Los entornos de ejecución de integración son el puente entre la actividad y los objetos de servicios vinculados. Hay tres tipos de Integration Runtime: Azure, autohospedado y Azure-SSIS.

Escenario empresarial

Un reto importante para un minorista de mejoras para el hogar de rápido crecimiento como Tailwind Traders es que genera un gran volumen de datos almacenados en sistemas de almacenamiento relacionales, no relacionales y de otro tipo, tanto en la nube como en las instalaciones. La administración precisa de información empresarial útil de estos datos que sea tan casi en tiempo real como sea posible. Además, el equipo de ventas quiere configurar e implementar soluciones de venta directa y cruzada. ¿Cómo puede crear una solución de ingesta de datos a gran escala en la nube? ¿Qué Azure servicios y soluciones debe adoptar para ayudar con el movimiento y la transformación de datos entre varios almacenes de datos y recursos de proceso?

Vamos a revisar cómo intervienen los componentes de Azure Data Factory en un escenario de preparación y movimiento de datos para Tailwind Traders. Tienen muchos orígenes de datos diferentes a los que conectarse y esos datos deben ingerirse y transformarse mediante procedimientos almacenados que se ejecutan en los datos. Por último, los datos se deben insertar en la plataforma de análisis para su análisis.

  • En este escenario, el servicio vinculado permite a Tailwind Traders ingerir datos de orígenes diferentes y almacena cadenas de conexión para activar los servicios de proceso a petición.

  • Puede ejecutar procedimientos almacenados para la transformación de datos que se produce a través del servicio vinculado en Azure-SSIS, que es el entorno de integration Runtime para Tailwind Traders.

  • El objeto de actividad usa los componentes de los conjuntos de datos y el objeto de actividad contiene la lógica de transformación.

  • Puede desencadenar la canalización, que engloba todas las actividades agrupadas.

  • Puede usar Azure Data Factory para publicar el conjunto de datos final consumido por tecnologías, como Power BI o Machine Learning.

Aspectos que se deben tener en cuenta al usar Azure Data Factory

Evalúe Azure Data Factory con los siguientes criterios de decisión y considere cómo el servicio puede beneficiar a la solución de integración de datos para Tailwind Traders.

  • Tenga en cuenta los requisitos para la integración de datos. Azure Data Factory sirve a dos comunidades: la comunidad de macrodatos y la comunidad de almacenamiento de datos relacionales que usa SQL Server Integration Services (SSIS). En función de las necesidades de datos de la organización, puede configurar canalizaciones en la nube mediante Azure Data Factory. Puede acceder a datos desde servicios de datos locales y en la nube.

  • Considere la posibilidad de codificar recursos. Si prefiere una interfaz gráfica para configurar canalizaciones, Azure Data Factory herramienta de creación y supervisión es la adecuada para sus necesidades. Azure Data Factory proporciona un proceso de código bajo o sin código para trabajar con orígenes de datos.

  • Considere la posibilidad de admitir varios orígenes de datos. Azure Data Factory admite más de 100 conectores, incluidos Microsoft Fabric Warehouse y Fabric Lakehouse junto con Azure, AWS, Google Cloud, SaaS y orígenes de base de datos.

  • Considere la posibilidad de tener en cuenta la infraestructura sin servidor. Hay ventajas en el uso de una solución sin servidor totalmente administrada para la integración de datos. No hay necesidad de mantener, configurar o implementar servidores, y se obtiene la capacidad de escalar con cargas de trabajo fluctuantes.