Compartir vía


Inicio rápido: Mover y transformación de datos con flujos de datos y canalizaciones de datos

En este tutorial, descubre cómo la experiencia de flujo de datos y canalización de datos puede crear una solución eficaz y completa de Data Factory.

Requisitos previos

Para empezar, debe tener los siguientes requisitos previos:

Flujos de datos comparados con canalizaciones

Dataflows Gen2 le permite sacar provecho de una interfaz con poco código y más de 300 transformaciones de datos y basadas en IA para limpiar, preparar y transformar datos fácilmente con más flexibilidad que ninguna otra herramienta. Las canalizaciones de datos ofrecen funciones de orquestación de datos listas para usar que permiten componer flujos de trabajo de datos flexibles que satisfacen las necesidades de su empresa. En una canalización, puede crear agrupaciones lógicas de actividades que realicen una tarea, que podría incluir la llamada a un flujo de datos para limpiar y preparar sus datos. Aunque hay cierto grado de superposición de funciones entre los dos, la elección de cuál utilizar para un escenario específico depende de si necesita toda la riqueza de las canalizaciones o puede usar las capacidades más sencillas pero más limitadas de los flujos de datos. Para más información, consulte la guía de decisiones de Fabric

Transformación de datos con flujos de datos

Siga estos pasos para configurar el flujo de datos.

Paso 1: Crear un flujo de datos

  1. Elija el área de trabajo habilitada para Fabric y, a continuación, seleccione Nuevo. A continuación, seleccione Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Aparece la ventana del editor de flujo de datos. Seleccione la tarjeta Importar desde SQL Server.

    Screenshot showing the dataflow editor window.

Paso 2: Obtener los datos

  1. En el cuadro de diálogo Conectar al origen de datos presentado a continuación, escriba los detalles para conectarse a la base de datos de Azure SQL y, a continuación, seleccione Siguiente. En este ejemplo, se usa la base de datos de ejemplo AdventureWorksLT establecida al configurar la base de datos de Azure SQL en los requisitos previos.

    Screenshot showing how to connect to an Azure SQL database.

  2. Seleccione los datos que desea transformar y, a continuación, seleccione Crear. Para este inicio rápido, seleccione SalesLT.Customer en los datos de ejemplo AdventureWorksLT proporcionados para Azure SQL DB y, a continuación, el botón Seleccionar tablas relacionadas para incluir automáticamente otras dos tablas relacionadas.

    Screenshot showing where to choose from the available data.

Paso 3: Transformar los datos

  1. Si no está seleccionado, seleccione el botón Vista de diagrama en la barra de estado de la parte inferior de la página o seleccione Vista de diagrama en el menú Ver de la parte superior del editor de Power Query. Cualquiera de estas opciones puede alternar la vista de diagrama.

    Screenshot showing where to select diagram view.

  2. Haga clic con el botón derecho en la consulta SalesLT Customer o seleccione los puntos suspensivos verticales situados a la derecha de la consulta y, después, seleccione Combinar consultas.

    Screenshot showing where to find the Merge queries option.

  3. Configura la combinación seleccionando la tabla SalesOrderHeader como la tabla derecha de la combinación, la columna CustomerID de cada tabla como columna de combinación e Izquierda externa como tipo de combinación. A continuación, selecciona Aceptar cuando agregues la consulta de combinación.

    Screenshot of the Merge configuration screen.

  4. Seleccione el botón Agregar destino de datos, que tiene el aspecto de un símbolo de base de datos con una flecha encima de él, en la nueva consulta de combinación que acaba de crear. Después seleccione base de datos de Azure SQL como el tipo de destino.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Proporcione los detalles de la conexión de base de datos de Azure SQL donde se publica la consulta de combinación. En este ejemplo, puede usar la base de datos AdventureWorksLT que también usamos como origen de datos para el destino.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Elija una base de datos para almacenar los datos y proporcione un nombre de tabla y, después, seleccione Siguiente.

    Screenshot showing the Choose destination target window.

  7. Puede dejar la configuración predeterminada en el cuadro de diálogo Elegir configuración de destino y simplemente seleccionar Guardar configuración sin realizar ningún cambio aquí.

    Screenshot showing the Choose destination settings dialog.

  8. Seleccione Publicar de nuevo en la página del editor del flujo de datos para publicar el flujo de datos.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Mover datos con canalizaciones de datos

Ahora que ha creado un Dataflow Gen2, puede operar en él en una canalización. En este ejemplo, copia los datos generados desde el flujo de datos en formato de texto en una cuenta de Azure Blob Storage.

Paso 1: Creación de una canalización de datos

  1. En el área de trabajo, seleccione Nuevo y, a continuación, seleccione Canalización de datos.

    Screenshot showing where to start a new data pipeline.

  2. Asigne un nombre a la canalización y, a continuación, seleccione Crear.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Paso 2: Configurar el flujo de datos

  1. Agregue una nueva actividad de flujo de datos a la canalización de datos seleccionando Flujo de datos en la pestaña Actividades.

    Screenshot showing where to select the Dataflow option.

  2. Seleccione el flujo de datos en el lienzo de la canalización y, a continuación, la pestaña Configuración. Elija el flujo de datos que creó anteriormente en la lista desplegable.

    Screenshot showing how to choose the dataflow you created.

  3. Seleccione Guardar y, a continuación, Ejecutar para ejecutar el flujo de datos para rellenar inicialmente la tabla de consulta combinada que ha diseñado en el paso anterior.

    Screenshot showing where to select Run.

Paso 3: Usar el asistente de copia para agregar una actividad de copia

  1. Seleccione Copiar datos en el lienzo para abrir la herramienta Asistente para copia para empezar. O bien, seleccione Usar asistente para copia en la lista desplegable Copiar datos en la pestaña Actividades de la cinta de opciones.

    Screenshot showing the two ways to access the copy assistant.

  2. Elija el origen de datos seleccionando un tipo de origen de datos. En este tutorial, usa la base de datos de Azure SQL usada anteriormente al crear el flujo de datos para generar una nueva consulta de combinación. Desplázate hacia abajo debajo de las ofertas de datos de ejemplo, selecciona la pestaña Azure y, a continuación, base de datos de Azure SQL. A continuación, seleccione Siguiente para continuar.

    Screenshot showing where to choose a data source.

  3. Cree una conexión al origen de datos seleccionando Crear nueva conexión. Rellene la información de conexión necesaria en el panel y escriba AdventureWorksLT para la base de datos, donde se generó la consulta de combinación en el flujo de datos. Seleccione Siguiente.

    Screenshot showing where to create a new connection.

  4. Seleccione la tabla que generó anteriormente en el paso de flujo de datos y, a continuación, seleccione Siguiente.

    Screenshot showing how to select from available tables.

  5. Para el destino, elija Azure Blob Storage y, a continuación, seleccione Siguiente.

    Screenshot showing the Azure Blob Storage data destination.

  6. Cree una conexión al destino de los datos seleccionando Crear nueva conexión. Proporcione los detalles para la conexión y seleccione Siguiente.

    Screenshot showing how to create a connection.

  7. Seleccione la Ruta de acceso de la carpeta y proporcione un Nombre de archivo y, a continuación, seleccione Siguiente.

    Screenshot showing how to select folder path and file name.

  8. Vuelva a seleccionar Siguiente para aceptar el formato de archivo predeterminado, el delimitador de columna, el delimitador de fila y el tipo de compresión, incluido opcionalmente un encabezado.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalizar la configuración. A continuación, revísalo y selecciona Guardar + ejecutar para finalizar el proceso.

    Screenshot showing how to review copy data settings.

Paso 5: Diseño de la canalización de datos y guardado para ejecutar y cargar datos

  1. Para ejecutar la actividad de Copia después de la actividad Flujo de datos, arrastre desde Correcto en la actividad Flujo de datos a la actividad de Copia. La actividad de Copia solo se ejecuta después de que la actividad Flujo de datos se haya realizado correctamente.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Seleccione Guardar para guardar la canalización de datos. A continuación, seleccione Ejecutar para ejecutar la canalización de datos y cargar los datos.

    Screenshot showing where to select Save and Run.

Programación de la ejecución de canalización

Una vez que termine de desarrollar y probar la canalización, puede programarla para que se ejecute automáticamente.

  1. En la pestaña Inicio de la ventana del editor de canalizaciones, seleccione Programar.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Configure la programación según sea necesario. En el ejemplo siguiente se programa la canalización para que se ejecute diariamente a las 8:00 p. m. hasta el final del año.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

En este ejemplo se muestra cómo crear y configurar un Dataflow Gen2 para crear una consulta de combinación y almacenarla en una base de datos de Azure SQL y, a continuación, copiar datos de la base de datos en un archivo de texto en Azure Blob Storage. Ha aprendido a:

  • Cree un flujo de datos.
  • Transforme los datos con el flujo de datos.
  • Cree una canalización de datos mediante el flujo de datos.
  • Ordene la ejecución de pasos en la canalización.
  • Copie datos con el asistente de copia.
  • Ejecutar y programar la canalización de datos.

A continuación, avance para obtener más información sobre la supervisión de las ejecuciones de canalización.