Compartir a través de


Transformación de datos en Azure Data Factory y Azure Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Importante

El soporte para Microsoft Azure Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) será retirada y es posible que no se actualice en el futuro.

Información general

En este artículo se explican las actividades de transformación de datos de Azure Data Factory y los pipelines de Synapse que puede usar para transformar y procesar los datos sin procesar en predicciones e información a gran escala. Una actividad de transformación se ejecuta en un entorno informático, como Azure Databricks o Azure HDInsight. Proporciona vínculos a artículos con información detallada sobre cada actividad de transformación.

El servicio admite las siguientes actividades de transformación de datos que se pueden agregar a canalizaciones, tanto de forma individual como encadenadas a otra actividad.

Transformación nativa en Azure Data Factory y Azure Synapse Analytics con flujos de datos

Mapeo de flujos de datos

El mapeo de flujos de datos son transformaciones de datos diseñadas visualmente en Azure Data Factory y Azure Synapse. Los flujos de datos permiten a los ingenieros de datos desarrollar una lógica de transformación de datos gráfica sin necesidad de escribir código. Los flujos de datos resultantes se ejecutan como actividades dentro de las canalizaciones que utilizan clústeres de Spark escalados horizontalmente. Las actividades de flujo de datos pueden ponerse en marcha mediante las funcionalidades de programación, control, flujo y supervisión existentes en el servicio. Para más información, consulte mapeo de flujos de datos.

Manipulación y estructuración de datos

Power Query en Azure Data Factory permite la limpieza y transformación de datos a escala de nube, lo que permite preparar los datos sin código a escala de nube de forma iterativa. La limpieza y transformación de datos se integra con Power Query Online y permite que estén disponibles las funciones de Power Query M para la limpieza y transformación de datos a escala de nube a través de la ejecución de Spark. Para más información, consulte preparación de datos en Azure Data Factory.

Nota

Power Query solo se admite actualmente en Azure Data Factory, no en Azure Synapse. Para ver una lista de características específicas admitidas en cada servicio, consulte Características disponibles en Azure Data Factory y canalizaciones de Azure Synapse Analytics.

Transformaciones externas

Opcionalmente, puede codificar manualmente las transformaciones y administrar el entorno de proceso externo.

Actividad de HDInsight Hive

La actividad de Hive de HDInsight en una canalización ejecuta consultas de Hive en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Hive para más información sobre esta actividad.

Actividad de HDInsight Pig

La actividad de Pig de HDInsight en una canalización ejecuta consultas de Pig en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Pig para obtener más detalles sobre esta actividad.

Actividad de MapReduce de HDInsight

La actividad de MapReduce de HDInsight en una canalización ejecuta programas de MapReduce en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de MapReduce para más información sobre esta actividad.

Actividad de HDInsight Streaming

La actividad de Streaming de HDInsight en una canalización ejecuta programas de Streaming de Hadoop en un clúster de HDInsight propio o bajo demanda en Windows o Linux. Vea Actividad de HDInsight Streaming para obtener información sobre esta actividad.

Actividad de HDInsight Spark

La actividad de Spark en HDInsight en una canalización ejecuta programas de Spark en su propio clúster de HDInsight. Para más información, consulte Invocación de programas de Spark con Azure Data Factory o Azure Synapse Analytics.

Actividades de ML Studio (clásico)

Importante

El soporte para Microsoft Azure Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) será retirada y es posible que no se actualice en el futuro.

El servicio te permite crear fácilmente canalizaciones que utilizan un servicio web publicado de ML Studio (clásico) para la analítica predictiva. Mediante la actividad de ejecución por lotes en una canalización, puede invocar un servicio web de Studio (clásico) para realizar predicciones sobre los datos del lote.

Con el tiempo, los modelos predictivos de los experimentos de puntuación de Studio (clásico) se tienen que volver a entrenar con nuevos conjuntos de datos de entrada. Después de terminar con el reentrenamiento, tendrá que actualizar el servicio web de puntuación con el modelo de aprendizaje automático reentrenado. Puede usar la actividad de actualización de recursos para actualizar el servicio web con el modelo recién entrenado.

Consulte Uso de actividades de ML Studio (clásico) para más información al respecto.

Actividad de procedimiento almacenado

Puede usar la actividad de procedimiento almacenado de SQL Server en una canalización de Data Factory para invocar un procedimiento almacenado en uno de los siguientes almacenes de datos: Azure SQL Database, Azure Synapse Analytics y base de datos de SQL Server en una empresa o una máquina virtual de Azure. Vea el artículo Actividad de procedimiento almacenado para más información.

Actividad de U-SQL de Data Lake Analytics

La actividad de U-SQL de Data Lake Analytics ejecuta un script de U-SQL en un clúster de Azure Data Lake Analytics. Vea el artículo Actividad de U-SQL de Data Analytics para más información.

Actividad de Notebook de Azure Synapse

La actividad del cuaderno de Azure Synapse en una canalización de Synapse ejecuta un cuaderno en el espacio de trabajo de Azure Synapse. Consulte Transformación de datos mediante la ejecución de un cuaderno de Azure Synapse.

Actividad Notebook de Databricks

La actividad de cuaderno de Azure Databricks en una pipeline ejecuta un cuaderno de Databricks dentro del área de trabajo de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformar datos ejecutando un notebook de Databricks.

Actividad de Jar en Databricks

La actividad de JAR de Azure Databricks en un pipeline ejecuta un archivo JAR de Spark en el clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformación de datos mediante la ejecución de una actividad de Jar en Azure Databricks.

Actividad de Python en Databricks

La actividad Python de Azure Databricks en una canalización ejecuta un archivo de Python en tu clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformación de datos mediante la ejecución de una actividad de Python en Azure Databricks.

Actividad personalizada

Si necesita transformar datos de algún modo no compatible con Data Factory, puede crear una actividad personalizada con su propia lógica de procesamiento de datos y usarla en la canalización. Puede configurar una actividad de .NET personalizada para ejecutarse mediante un servicio Azure Batch o un clúster de Azure HDInsight. Consulte el artículo Utilizar actividades personalizadas para obtener más información.

Puede crear una actividad personalizada para ejecutar scripts de R en su clúster de HDInsight con R instalado. Consulte Ejecución de un script de R mediante Azure Data Factory y canalizaciones de Synapse.

Entornos de proceso

Deberá crear un servicio vinculado para el entorno de proceso y después usar el servicio vinculado al definir una actividad de transformación. Hay dos tipos admitidos de entornos de proceso.

  • A petición: en este caso, el entorno informático es completamente administrado por el servicio. El servicio lo crea automáticamente antes de que se envíe un trabajo para procesar los datos y se quita cuando finaliza el trabajo. Los usuarios pueden configurar y controlar la configuración granular del entorno de proceso a petición para la ejecución del trabajo, la administración del clúster y las acciones de arranque.
  • Bring Your Own: en este caso, puede registrar su propio entorno informático (por ejemplo, clúster de HDInsight) como servicio vinculado. El usuario administra el entorno informático y el servicio lo usa para ejecutar las actividades.

Consulte el artículo Servicios vinculados de cómputo para obtener información sobre los servicios de cómputo compatibles.

Vea el siguiente tutorial para ver un ejemplo del uso de una actividad de transformación: Tutorial: Transformación de datos mediante Spark