Compartir a través de


Elección de una tecnología de orquestación de canalizaciones de datos en Azure

La mayoría de las soluciones de big data consisten en operaciones repetidas de procesamiento de datos, encapsuladas en flujos de trabajo. Un orquestador de canalizaciones es una herramienta que ayuda a automatizar estos flujos de trabajo. Un orquestador puede programar trabajos, ejecutar flujos de trabajo y coordinar dependencias entre tareas.

¿Cuáles son sus opciones para la orquestación de canalizaciones de datos?

En Azure, los siguientes servicios y herramientas cumplirán los requisitos principales para la orquestación de canalizaciones, el flujo de control y el movimiento de datos:

Estos servicios y herramientas se pueden usar de forma independiente entre sí o se pueden usar juntos para crear una solución híbrida. Por ejemplo, Integration Runtime (IR) de Azure Data Factory V2 puede ejecutar de forma nativa paquetes SSIS en un entorno de proceso de Azure administrado. Si bien existe cierta superposición en la funcionalidad entre estos servicios, existen algunas diferencias clave.

Principales criterios de selección

Para restringir las opciones, empiece por responder a estas preguntas:

  • ¿Necesita capacidades de big data para mover y transformar sus datos? Por lo general, esto significa de varios gigabytes a terabytes de datos. En caso afirmativo, limite sus opciones a las que mejor se adapten para big data.

  • ¿Necesita un servicio gestionado que pueda funcionar a escala? En caso afirmativo, seleccione uno de los servicios basados en la nube que no estén limitados por su potencia de procesamiento local.

  • ¿Algunas de las fuentes de datos se encuentran en el entorno local? En caso afirmativo, busque opciones que puedan funcionar con orígenes o destinos de datos locales y en la nube.

  • ¿Los datos de origen se almacenan en Blob Storage en un sistema de archivos HDFS? Si es así, elija una opción que admita consultas de Hive.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Funcionalidades generales

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Administrado No
Basado en la nube No (local)
Prerrequisito Suscripción a Azure Servidor SQL Suscripción de Azure, clúster de HDInsight
Herramientas de administración Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Shell de Bash, API REST de Oozie, interfaz de usuario web de Oozie
Precios Pago por uso Licenciamiento / pago de funciones No hay ningún cargo adicional además de ejecutar el clúster de HDInsight

Capacidades de canalización

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Copiar datos
Transformaciones personalizadas Sí (trabajos de MapReduce, Pig y Hive)
Puntuación de Azure Machine Learning Sí (con scripting) No
HDInsight a petición No No
Azure Batch No No
Cerdo, Colmena, MapReduce No
Chispa No No
Ejecución del paquete SSIS No
Flujo de control
Acceso a datos locales No

Funcionalidades de escalabilidad

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Ampliar No No
Escalado horizontal No Sí (mediante la adición de nodos de trabajo al clúster)
Optimizado para macrodatos No

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes