Elección de una tecnología de orquestación de canalizaciones de datos en Azure

2025-06-21

La mayoría de las soluciones de big data consisten en operaciones repetidas de procesamiento de datos, encapsuladas en flujos de trabajo. Un orquestador de canalizaciones es una herramienta que ayuda a automatizar estos flujos de trabajo. Un orquestador puede programar trabajos, ejecutar flujos de trabajo y coordinar dependencias entre tareas.

¿Cuáles son sus opciones para la orquestación de canalizaciones de datos?

En Azure, los siguientes servicios y herramientas cumplirán los requisitos principales para la orquestación de canalizaciones, el flujo de control y el movimiento de datos:

Estos servicios y herramientas se pueden usar de forma independiente entre sí o se pueden usar juntos para crear una solución híbrida. Por ejemplo, Integration Runtime (IR) de Azure Data Factory V2 puede ejecutar de forma nativa paquetes SSIS en un entorno de proceso de Azure administrado. Si bien existe cierta superposición en la funcionalidad entre estos servicios, existen algunas diferencias clave.

Principales criterios de selección

Para restringir las opciones, empiece por responder a estas preguntas:

¿Necesita capacidades de big data para mover y transformar sus datos? Por lo general, esto significa de varios gigabytes a terabytes de datos. En caso afirmativo, limite sus opciones a las que mejor se adapten para big data.
¿Necesita un servicio gestionado que pueda funcionar a escala? En caso afirmativo, seleccione uno de los servicios basados en la nube que no estén limitados por su potencia de procesamiento local.
¿Algunas de las fuentes de datos se encuentran en el entorno local? En caso afirmativo, busque opciones que puedan funcionar con orígenes o destinos de datos locales y en la nube.
¿Los datos de origen se almacenan en Blob Storage en un sistema de archivos HDFS? Si es así, elija una opción que admita consultas de Hive.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Funcionalidades generales

Capacidad	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie en HDInsight
Administrado	Sí	No	Sí
Basado en la nube	Sí	No (local)	Sí
Prerrequisito	Suscripción a Azure	Servidor SQL	Suscripción de Azure, clúster de HDInsight
Herramientas de administración	Azure Portal, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Shell de Bash, API REST de Oozie, interfaz de usuario web de Oozie
Precios	Pago por uso	Licenciamiento / pago de funciones	No hay ningún cargo adicional además de ejecutar el clúster de HDInsight

Capacidades de canalización

Capacidad	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie en HDInsight
Copiar datos	Sí	Sí	Sí
Transformaciones personalizadas	Sí	Sí	Sí (trabajos de MapReduce, Pig y Hive)
Puntuación de Azure Machine Learning	Sí	Sí (con scripting)	No
HDInsight a petición	Sí	No	No
Azure Batch	Sí	No	No
Cerdo, Colmena, MapReduce	Sí	No	Sí
Chispa	Sí	No	No
Ejecución del paquete SSIS	Sí	Sí	No
Flujo de control	Sí	Sí	Sí
Acceso a datos locales	Sí	Sí	No

Funcionalidades de escalabilidad

Capacidad	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie en HDInsight
Ampliar	Sí	No	No
Escalado horizontal	Sí	No	Sí (mediante la adición de nodos de trabajo al clúster)
Optimizado para macrodatos	Sí	No	Sí

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Zoiner Tejada | Director ejecutivo y arquitecto

Pasos siguientes

DataOps para el almacenamiento de datos moderno