Uso de canalizaciones de Data Factory
Para trabajar con canalizaciones de factoría de datos, es necesario comprender qué es una canalización en Azure Data Factory.
Una canalización de Azure Data Factory representa una agrupación lógica de actividades donde las actividades juntas realizan una determinada tarea.
Un ejemplo de una combinación de actividades en una canalización puede ser la ingestión y limpieza de datos de registro en combinación con un flujo de datos de mapeo que analiza los datos de registro ya limpiados.
Una canalización permite administrar las actividades individuales independientes como conjunto que, de otro modo, se administrarían de forma individual. Permite implementar y programar las actividades de forma eficaz, mediante el uso de una sola canalización, en lugar de administrar cada actividad de forma independiente.
Las actividades de una canalización se conocen como "acciones" y se realizan en los datos. Una actividad puede tomar cero o más conjuntos de datos de entrada y producir uno o más conjuntos de datos de salida.
Un ejemplo de una acción puede ser el uso de una actividad de copia, en la que se copian datos de una instancia de Azure SQL Database a una de Azure Data Lake Storage Gen2. Para ampliar este ejemplo, puede utilizar una actividad de flujo de datos o una actividad de Azure Databricks Notebook para procesar y transformar los datos que se copiaron en su cuenta de Azure Data Lake Storage Gen2, con el fin de tener los datos listos para las soluciones de creación de informes de inteligencia empresarial, como en Azure Synapse Analytics.
Debido a que hay muchas actividades posibles en una canalización de Azure Data Factory, las hemos agrupado en tres categorías:
- Actividades de movimiento de datos: la actividad de copia de Data Factory copia los datos de un almacén de datos de origen a uno receptor.
- Actividades de transformación de datos: Azure Data Factory admite actividades de transformación, como Data Flow, Azure Functions, Spark y otras que se puedan agregar a las canalizaciones de forma individual o encadenadas a otra actividad.
- Actividades de control: algunos ejemplos de actividades del flujo de control son la de obtención de metadatos, "for-each" y la de ejecución de canalización.
Las actividades pueden depender unas de otras. Es decir, la dependencia de la actividad define el modo en que las actividades posteriores dependen de las anteriores. La dependencia en sí misma puede basarse en una condición de si se debe continuar o no en la ejecución de actividades definidas previamente para completar una tarea. Una actividad que depende de una o varias actividades anteriores puede tener distintas condiciones de dependencia.
Las cuatro condiciones de dependencia son las siguientes:
- Correcto
- Fallido
- Omitido
- Completado
Por ejemplo, si una canalización tiene una actividad A seguida de una actividad B, y la actividad B tiene como condición de dependencia que la actividad A tenga el estado 'Exitoso', entonces la actividad B solo se ejecutará si la actividad A tiene el estado 'Exitoso'.
Si tiene varias actividades en una canalización y las actividades siguientes no son dependientes de actividades anteriores, las actividades se pueden ejecutar en paralelo.