Compartir vía


Transformación de datos en Azure Data Factory y Azure Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Data Factory en Microsoft Fabric es la próxima generación de Azure Data Factory, con una arquitectura más sencilla, inteligencia artificial integrada y nuevas características. Si no está familiarizado con la integración de datos, comience con Fabric Data Factory. Las cargas de trabajo de ADF existentes pueden actualizarse a Fabric para acceder a nuevas funcionalidades en ciencia de datos, análisis en tiempo real e informes.

Importante

La compatibilidad con Azure Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning por esa fecha.

A partir del 1 de diciembre de 2021, no puede crear nuevos recursos de Machine Learning Studio (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, puede seguir usando los experimentos y servicios web existentes de Machine Learning Studio (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásica) está siendo retirada y es posible que no se actualice en el futuro.

Información general

En este artículo se explican las actividades de transformación de datos en los pipelines de Azure Data Factory y Synapse, que puede usar para transformar y procesar sus datos brutos en predicciones y conocimientos a escala. Una actividad de transformación se ejecuta en un entorno informático, como Azure Databricks o Azure HDInsight. Proporciona vínculos a artículos con información detallada sobre cada actividad de transformación.

El servicio admite las siguientes actividades de transformación de datos que se pueden agregar a canalizaciones, tanto de forma individual como encadenadas a otra actividad.

Transformación nativa en Azure Data Factory y Azure Synapse Analytics con flujos de datos

Mapeo de flujos de datos

La asignación de flujos de datos es una transformación de datos diseñada visualmente en Azure Data Factory y Azure Synapse. Los flujos de datos permiten a los ingenieros de datos desarrollar una lógica de transformación de datos gráfica sin necesidad de escribir código. Los flujos de datos resultantes se ejecutan como actividades en las canalizaciones que usan clústeres de Spark de escalabilidad horizontal. Las actividades de flujo de datos pueden ponerse en marcha mediante las funcionalidades de programación, control, flujo y supervisión existentes en el servicio. Para más información, consulte mapeo de flujos de datos.

Manipulación y estructuración de datos

Power Query en Azure Data Factory permite la limpieza de datos a escala en la nube, lo que le permite realizar la preparación de datos sin código a escala en la nube de forma iterativa. La limpieza y transformación de datos se integra con Power Query Online y hace que las funciones Power Query M estén disponibles para la limpieza y transformación de datos a escala de nube a través de la ejecución de Spark. Para obtener más información, consulte transformación de datos en Azure Data Factory.

Nota

Power Query solo se admite actualmente en Azure Data Factory y no en Azure Synapse. Para obtener una lista de características específicas admitidas en cada servicio, consulta Características disponibles en Azure Data Factory y Azure Synapse Analytics pipelines.

Transformaciones externas

Opcionalmente, puede codificar manualmente las transformaciones y administrar el entorno de proceso externo.

Actividad de HDInsight Hive

La actividad de Hive de HDInsight en una canalización ejecuta consultas de Hive en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Hive para más información sobre esta actividad.

Actividad de HDInsight Pig

La actividad de Pig de HDInsight en una canalización ejecuta consultas de Pig en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Pig para más información sobre esta actividad.

Actividad de MapReduce de HDInsight

La actividad de MapReduce de HDInsight en una canalización ejecuta programas de MapReduce en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de MapReduce para más información sobre esta actividad.

Actividad de HDInsight Streaming

La actividad de Streaming de HDInsight en una canalización ejecuta programas de Streaming de Hadoop en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea Actividad de HDInsight Streaming para obtener información sobre esta actividad.

Actividad de HDInsight Spark

La actividad de Spark de HDInsight en una canalización ejecuta consultas de Spark en su propio clúster de HDInsight. Para obtener más información, consulte Invocar programas Spark con Azure Data Factory o Azure Synapse Analytics.

Actividades de ML Studio (clásico)

Importante

La compatibilidad con Azure Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning por esa fecha.

A partir del 1 de diciembre de 2021, no puede crear nuevos recursos de Machine Learning Studio (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, puede seguir usando los experimentos y servicios web existentes de Machine Learning Studio (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásica) está siendo retirada y es posible que no se actualice en el futuro.

El servicio te permite crear fácilmente canalizaciones que utilizan un servicio web publicado de ML Studio (clásico) para la analítica predictiva. Mediante la actividad de ejecución por lotes en una canalización, puede invocar un servicio web de Studio (clásico) para realizar predicciones sobre los datos del lote.

Con el tiempo, los modelos predictivos de los experimentos de puntuación de Studio (clásico) se tienen que volver a entrenar con nuevos conjuntos de datos de entrada. Después de terminar con el nuevo entrenamiento, tendrá que actualizar el servicio web de puntuación con el modelo de Machine Learning que volvió a entrenar. Puede usar la actividad de actualización de recursos para actualizar el servicio web con el modelo recién entrenado.

Consulte Uso de actividades de ML Studio (clásico) para más información al respecto.

Actividad de procedimiento almacenado

Puede usar la actividad de procedimiento almacenado de SQL Server en una canalización de Data Factory para invocar un procedimiento almacenado en uno de los siguientes almacenes de datos: Azure SQL Database, Azure Synapse Analytics, SQL Server Database en su empresa o en una máquina virtual de Azure. Vea el artículo Actividad de procedimiento almacenado para más información.

actividad de Data Lake Analytics U-SQL

La actividad de U-SQL de Data Lake Analytics ejecuta un script U-SQL en un clúster de Azure Data Lake Analytics. Vea el artículo Actividad de U-SQL de Data Analytics para más información.

Actividad Azure Synapse Notebook

La actividad de cuaderno de Azure Synapse de una canalización de Synapse ejecuta un cuaderno de Synapse en Azure Synapse workspace. Consulte Transformar datos ejecutando un cuaderno de Azure Synapse.

Actividad Notebook de Databricks

La actividad de cuadernos de Azure Databricks en una canalización ejecuta un cuaderno de Databricks en el área de trabajo de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformar datos ejecutando un notebook de Databricks.

Actividad de Jar en Databricks

La actividad de Jar de Azure Databricks en una canalización ejecuta un archivo Jar de Spark en el clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transforme datos ejecutando una actividad Jar en Azure Databricks.

Actividad de Python de Databricks

La actividad de Python de Azure Databricks en una canalización ejecuta un archivo de Python en el clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transforme datos ejecutando una actividad de Python en Azure Databricks.

Actividad personalizada

Si necesita transformar datos de algún modo no compatible con Data Factory, puede crear una actividad personalizada con su propia lógica de procesamiento de datos y usarla en la canalización. Puede configurar la actividad de .NET personalizada para que se ejecute mediante un servicio Azure Batch o un clúster de Azure HDInsight. Consulte el artículo Utilizar actividades personalizadas para obtener más información.

Puede crear una actividad personalizada para ejecutar scripts de R en su clúster de HDInsight con R instalado. Consulte Ejecutar script R usando Azure Data Factory y canalizaciones de Synapse.

Entornos de proceso

Deberá crear un servicio vinculado para el entorno de proceso y después usar el servicio vinculado al definir una actividad de transformación. Hay dos tipos admitidos de entornos de proceso.

  • A petición: en este caso, el entorno informático es completamente administrado por el servicio. El servicio lo crea automáticamente antes de que se envíe un trabajo para procesar los datos y se quita cuando finaliza el trabajo. Los usuarios pueden configurar y controlar la configuración granular del entorno de proceso a petición para la ejecución del trabajo, la administración del clúster y las acciones de arranque.
  • Bring Your Own: en este caso, puede registrar su propio entorno informático (por ejemplo, clúster de HDInsight) como servicio vinculado. El usuario administra el entorno informático y el servicio lo usa para ejecutar las actividades.

Consulte el artículo Servicios vinculados de cómputo para obtener información sobre los servicios de cómputo compatibles.

Vea el siguiente tutorial para ver un ejemplo del uso de una actividad de transformación: Tutorial: Transformación de datos mediante Spark