¿Qué es Azure Data Factory?
Vamos a empezar con una introducción a Azure Data Factory para ayudarle a determinar si es una buena opción para organizar los datos a fin de crear conclusiones empresariales.
Azure Data Factory es un servicio de integración de datos y extracción, transformación y carga (ETL) basado en la nube que le ayuda a crear flujos de trabajo controlados por datos para lo siguiente:
- Organizar el movimiento de datos.
- Transformar los datos a escala.
Nota:
Los flujos de trabajo controlados por datos también se conocen como canalizaciones.
Con Azure Data Factory puede reorganizar los datos sin procesar en almacenes y lagos de datos significativos, lo cual le proporciona una base para tomar mejores decisiones empresariales.
¿Qué es el análisis de datos?
El análisis de datos es el proceso de recopilar datos sin procesar y examinarlos para extraer conclusiones de ellos. Este proceso puede ser difícil si los datos están en varias ubicaciones, como bases de datos hospedadas y ubicaciones locales.
Sugerencia
Los datos sin procesar son los que se han recopilado de un origen y no se han procesado. A veces se denominan datos no organizados.
Azure proporciona varias tecnologías que puede implementar para facilitar el análisis de los datos de la organización, incluyendo lo siguiente:
- Azure Synapse Analytics
- Azure Blob Storage
- Azure Data Lake Storage
- Análisis con Azure Data Lake
- Azure Analysis Services
- HDInsight de Azure
- Azure Databricks
- Azure Machine Learning
Puede usar algunos o todos estos servicios, según sea necesario, para analizar los datos de la organización. Pero ninguno de estos servicios aborda la integración de datos. La integración de datos permite recopilar datos de varios orígenes y, después, cargar estos datos combinados en una ubicación adecuada para el análisis de datos. Si es necesario, durante este proceso puede transformar los datos. Aunque puede realizar estas tareas manualmente, puede considerar la posibilidad de usar Azure Data Factory.
Definición de Azure Data Factory
Azure Data Factory es un servicio de integración de datos basado en la nube diseñado para satisfacer las necesidades de dos comunidades concretas, como se describe en la tabla siguiente:
Comunidad | Descripción de las necesidades de la comunidad |
---|---|
Comunidad de macrodatos | Esta comunidad se basa en tecnologías para administrar grandes cantidades de datos diversos. Para ellos, Azure Data Factory proporciona una forma de crear y ejecutar canalizaciones en la nube. Estas canalizaciones pueden acceder a servicios de datos locales y en la nube. Estas canalizaciones normalmente funcionan con tecnologías como Azure Synapse Analytics, Azure Blobs y Azure Data Lake. También Azure HDInsight, Azure Databricks y Azure Machine Learning. |
Comunidad de almacenamiento de datos relacionales | Esta comunidad se basa normalmente en tecnologías como Microsoft SQL Server. SQL Server Integration Services (SSIS) se usa a menudo para crear paquetes SSIS. Azure Data Factory proporciona a esta comunidad la capacidad de ejecutar paquetes SSIS en Azure, lo cual les permite acceder a servicios de datos locales y en la nube. |
Nota:
Un paquete es similar a una canalización de Azure Data Factory. Cada paquete define un proceso para extraer, cargar, transformar o trabajar con datos.
El punto principal es que Azure Data Factory es un único servicio en la nube para la integración de datos. Proporciona un único conjunto de herramientas y una interfaz de administración común para toda la integración de datos, y admite todos los orígenes de datos, con independencia de su ubicación:
- Azure
- Local
- Una plataforma de nube pública de terceros
Cómo puede ayudar Azure Data Factory con el análisis de datos
Mediante Azure Data Factory puede:
Crear procesos ETL complejos. Estos procesos pueden transformar los datos visualmente mediante flujos de datos o servicios de proceso como los siguientes:
- Azure HDInsight Hadoop
- Azure Databricks
- Azure SQL Database
Publicar estos datos transformados en almacenes de datos para su consumo en aplicaciones de inteligencia empresarial.
En el gráfico siguiente, los orígenes de datos externos están conectados a Azure Data Factory. Se usa un blob de almacenamiento para ingerir los datos y Azure Synapse Analytics como almacenamiento. Estos elementos proporcionan la orquestación. Los componentes de análisis y visualización, Azure Analysis Service y Power BI, también están conectados a Azure Data Factory.
Sugerencia
Azure Data Factory proporciona más de 90 conectores integrados y sin mantenimiento.