Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La mayoría de las soluciones de big data consisten en operaciones repetidas de procesamiento de datos, encapsuladas en flujos de trabajo. Un orquestador de canalizaciones es una herramienta que ayuda a automatizar estos flujos de trabajo. Un orquestador puede programar trabajos, ejecutar flujos de trabajo y coordinar dependencias entre tareas.
¿Cuáles son sus opciones para la orquestación de canalizaciones de datos?
En Azure, los siguientes servicios y herramientas cumplirán los requisitos principales para la orquestación de canalizaciones, el flujo de control y el movimiento de datos:
Estos servicios y herramientas se pueden usar de forma independiente entre sí o se pueden usar juntos para crear una solución híbrida. Por ejemplo, Integration Runtime (IR) de Azure Data Factory V2 puede ejecutar de forma nativa paquetes SSIS en un entorno de proceso de Azure administrado. Si bien existe cierta superposición en la funcionalidad entre estos servicios, existen algunas diferencias clave.
Principales criterios de selección
Para restringir las opciones, empiece por responder a estas preguntas:
¿Necesita capacidades de big data para mover y transformar sus datos? Por lo general, esto significa de varios gigabytes a terabytes de datos. En caso afirmativo, limite sus opciones a las que mejor se adapten para big data.
¿Necesita un servicio gestionado que pueda funcionar a escala? En caso afirmativo, seleccione uno de los servicios basados en la nube que no estén limitados por su potencia de procesamiento local.
¿Algunas de las fuentes de datos se encuentran en el entorno local? En caso afirmativo, busque opciones que puedan funcionar con orígenes o destinos de datos locales y en la nube.
¿Los datos de origen se almacenan en Blob Storage en un sistema de archivos HDFS? Si es así, elija una opción que admita consultas de Hive.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Funcionalidades generales
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Administrado | Sí | No | Sí |
Basado en la nube | Sí | No (local) | Sí |
Prerrequisito | Suscripción a Azure | Servidor SQL | Suscripción de Azure, clúster de HDInsight |
Herramientas de administración | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Shell de Bash, API REST de Oozie, interfaz de usuario web de Oozie |
Precios | Pago por uso | Licenciamiento / pago de funciones | No hay ningún cargo adicional además de ejecutar el clúster de HDInsight |
Capacidades de canalización
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Copiar datos | Sí | Sí | Sí |
Transformaciones personalizadas | Sí | Sí | Sí (trabajos de MapReduce, Pig y Hive) |
Puntuación de Azure Machine Learning | Sí | Sí (con scripting) | No |
HDInsight a petición | Sí | No | No |
Azure Batch | Sí | No | No |
Cerdo, Colmena, MapReduce | Sí | No | Sí |
Chispa | Sí | No | No |
Ejecución del paquete SSIS | Sí | Sí | No |
Flujo de control | Sí | Sí | Sí |
Acceso a datos locales | Sí | Sí | No |
Funcionalidades de escalabilidad
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Ampliar | Sí | No | No |
Escalado horizontal | Sí | No | Sí (mediante la adición de nodos de trabajo al clúster) |
Optimizado para macrodatos | Sí | No | Sí |
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Zoiner Tejada | Director ejecutivo y arquitecto
Pasos siguientes
- Canalizaciones y actividades en Azure Data Factory y Azure Synapse Analytics
- Aprovisionamiento del entorno de ejecución de integración de Azure-SSIS en Azure Data Factory
- Oozie en HDInsight