Compartir a través de


Actividad de Power Query en Azure Data Factory

La actividad de Power Query permite generar y ejecutar mashups de Power Query para ejecutar la limpieza y transformación de datos a escala en una canalización de Data Factory. Puede crear un nuevo mashup de Power Query desde la opción de menú Nuevos recursos o mediante la adición de una actividad de Power a la canalización.

Diagram that shows the General tab of the Power Query activity.

Puede trabajar directamente en el editor de mashups de Power Query para realizar una exploración interactiva de los datos y luego guardar el trabajo. Una vez completado, puede tomar la actividad de Power Query y agregarla a una canalización. Azure Data Factory la escalará horizontalmente de forma automática y pondrá en funcionamiento la limpieza y transformación de datos mediante el entorno Spark de flujo de datos de Azure Data Factory.

Creación de una actividad de Power Query con UI

Para usar una actividad de Power Query en una canalización, complete los pasos siguientes:

  1. Busque Power Query en el panel Actividades de canalización y arrastre una actividad de Power Query al lienzo de canalización.

  2. Seleccione la nueva actividad de Power Query en el lienzo si aún no está seleccionada y seleccione su pestaña Configuración para editar sus detalles.

    Shows the UI for the  Settings  tab of a Power Query activity.

  3. Seleccione una instancia de Power Query existente y seleccione Abrir, o bien seleccione el botón Nuevo para crear un nuevo Power Query, abriendo el editor de Power Query.

  4. Seleccione un conjunto de datos existente o seleccione Nuevo para definir uno nuevo. Use las características enriquecidas de Power Query directamente dentro de la experiencia de edición de canalizaciones para transformar el conjunto de datos según sea necesario. Puede agregar varias consultas de varios conjuntos de datos en el editor y usarlas posteriormente.

    Shows the Power Query editor.

  5. Después de definir una o varias instancias de Power Query en el paso anterior, también puede designar ubicaciones de receptor para cualquiera, todas o ninguna de ellas, en la pestaña Receptor de la actividad Power Query.

    Shows the Sink tab of the Power Query activity.

  6. También puede usar la salida de la actividad de Power Query como entradas para otras actividades. Este es un ejemplo de una actividad For Each que hace referencia a la salida de la instancia de Power Query definida previamente por su propiedad Items. Sus elementos admiten contenido dinámico, donde puede hacer referencia a cualquier salida del Power Query que se usa como entrada.

    Shows the ForEach Activity's Settings tab with  Add dynamic content  link for the Items property.

  7. Las salidas de las actividades se muestran y se pueden usar cuando se define el contenido dinámico, seleccionándolas en el panel Generador de expresiones de canalización.

    Shows the  Add dynamic content  pane referencing the Power Query defined above.

Traducción a un script de flujo de datos

Para lograr la escala con la actividad de Power Query, Azure Data Factory traduce el script M en un script de flujo de datos para que pueda ejecutar Power Query a escala mediante el entorno Spark de flujo de datos de Azure Data Factory. Genere el flujo de datos de limpieza y transformación con la preparación de datos sin código. Para ver la lista de funciones disponibles, consulte las funciones de transformación.

Configuración

  • Power Query: elija una instancia de Power Query existente para ejecutar o crear una nueva.
  • Ejecutar en Azure IR: elija una instancia existente de Azure Integration Runtime existentes para definir el entorno de proceso para Power Query o cree una nueva.
  • Tipo de proceso: si elige el entorno de ejecución de integración de resolución automática predeterminado, puede seleccionar el tipo de proceso que se va a aplicar al proceso del clúster de Spark para la ejecución de Power Query.
  • Recuento de núcleos: si elige el entorno de ejecución de integración de resolución automática predeterminado, puede seleccionar el número de núcleos que se aplicarán al proceso del clúster de Spark para la ejecución de Power Query.

Receptor

Elija el conjunto de datos que desea usar para el aterrizaje de los datos transformados una vez que el script de M de Power Query se haya ejecutado en Spark. Para más información sobre la configuración de receptores, visite la documentación de los receptores de flujo de datos.

Tiene la opción de enviar la salida a varios destinos. Haga clic en el botón más (+) para agregar más receptores a la consulta. También puede dirigir cada salida de consulta individual de la actividad de limpieza y transformación de Power Query a distintos destinos.

Screenshot that shows Power Query multiple sinks.

Asignación

En la pestaña Asignación, puede configurar la asignación de columnas desde la salida de la actividad de Power Query al esquema de destino del receptor elegido. Obtenga más información sobre la asignación de columnas en la documentación de asignación del receptor del flujo de datos.

Más información sobre los conceptos de limpieza y transformación de datos mediante Power Query en Azure Data Factory