Inicio rápido: Creación del primer flujo de datos para obtener y transformar datos

Los flujos de datos son una tecnología de preparación de datos basada en la nube y de autoservicio. En este artículo, creará su primer flujo de datos, obtendrá datos para este y, después, transformará los datos y publicará el flujo de datos.

Requisitos previos

Antes de empezar, es preciso cumplir los siguientes requisitos previos:

Crear un flujo de datos

En esta sección, creará su primer flujo de datos.

  1. Cambiar a la experiencia de la Data factory.

    Screenshot with the data factory experience emphasized.

  2. Vaya al área de trabajo de Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Seleccione Nuevo y, a continuación, seleccione Flujo de datos Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Obtención de datos

Vamos a obtener algunos datos. En este ejemplo, obtendrá datos de un servicio de OData. Siga estos pasos para obtener datos en el flujo de datos.

  1. En el editor de flujos de datos, seleccione Obtener datos y, a continuación, seleccione Más.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. En Elegir origen de datos, seleccione Ver más.

    Screenshot of Get data source with View more emphasized.

  3. En Nuevo origen, seleccione Otros>OData como origen de datos.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Escriba la dirección URL https://services.odata.org/v4/northwind/northwind.svc/ y, a continuación, seleccione Siguiente.

    Screenshot of the OData data source where you enter the data URL.

  5. Seleccione las tablas Orders (Pedidos) y Customers (Clientes), y después seleccione Crear.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Puede obtener más información sobre la experiencia y las funciones de la obtención de datos en Información general sobre la obtención de datos.

Aplicación de transformaciones y publicación

Ha cargado los datos en su primer flujo de datos, enhorabuena. Ahora es el momento de aplicar un par de transformaciones para dar a estos datos la forma deseada.

Realizará esta tarea desde el editor de Power Query. Puede encontrar información general detallada del editor de Power Query en La interfaz de usuario de Power Query.

Siga estos pasos para aplicar transformaciones y publicar:

  1. Asegúrese de que las herramientas de Generación de perfiles de datos estén habilitadas; para ello, vaya a Inicio>Opciones>Opciones globales.

    Screenshot of Global options with the Column profile selections emphasized.

    Asegúrese también de que ha habilitado la vista de diagrama mediante las opciones de la pestaña Ver en la cinta de opciones del editor de Power Query o seleccionando el icono de la vista de diagrama en el lado inferior derecho de la ventana de Power Query.

    Screenshot of the overall look of Power Query diagram view.

  2. En la tabla Orders, calcule el número total de pedidos por cliente. Para lograr este objetivo, seleccione la columna CustomerID en la vista previa de datos y, a continuación, seleccione Agrupar por en la pestaña Transformar de la cinta de opciones.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Realice un recuento de filas como agregación dentro de Agrupar por. Puede obtener más información sobre las funcionalidades de Agrupar por en Agrupación o resumen de filas.

    Screenshot of Group by, with the Count rows operation selected.

  4. Después de agrupar los datos en la tabla Orders, obtendremos una tabla de dos columnas con CustomerID y Count como columnas.

    Screenshot of the two column table.

  5. A continuación, querrá combinar los datos de la tabla Customers con el Count de Orders por cliente. Para combinar datos, seleccione la consulta Customers en la Vista de diagrama y use el menú "⋮" para acceder a la transformación Combinar consultas como una nueva.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Configure la operación Combinar como se muestra en la siguiente captura de pantalla seleccionando CustomerID como la columna coincidente en ambas tablas. Después, seleccione Aceptar.

    Screenshot of the Merge window.

    Captura de pantalla de la ventana Combinar, con la tabla izquierda para combinar establecida en la tabla Customers y la tabla derecha para combinar establecida en la tabla Orders. La columna CustomerID está seleccionada para las tablas Customers y Orders. Además, el tipo de combinación se establece en Externa izquierda. Todas las demás selecciones se establecen en su valor predeterminado.

  7. Al realizar la operación Combinar consultas como nuevas, obtendrá una nueva consulta con todas las columnas de la tabla Customers y una columna con datos anidados de la tabla Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. En este ejemplo, solo le interesa un subconjunto de columnas de la tabla Customers. Puede seleccionar esas columnas mediante la vista de esquema. Habilite la vista de esquema dentro del botón de alternancia en la esquina inferior derecha del editor de flujos de datos.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. La vista de esquema proporciona una vista centrada en la información de esquema de una tabla, incluidos los nombres de columna y los tipos de datos. La vista de esquema tiene un conjunto de herramientas de esquema disponibles a través de una ficha de cinta contextual. En este caso, seleccione las columnas CustomerID, CompanyName (Nombre de empresa), y Orders (2), después, seleccione el botón Quitar columnas y después seleccione Quitar otras columnas en la pestaña Herramientas de esquema.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. La columna Orders (2) contiene información anidada resultante de la operación de combinación que ha realizado hace unos pasos. Ahora, vuelva a la vista de datos seleccionando el botón Mostrar vista de datos situado junto al botón Mostrar vista de esquema en la esquina inferior derecha de la interfaz de usuario. Use la transformación Ampliar columna en el encabezado de columna Orders (2) para seleccionar la columna Count.

    Screenshot for using data view.

  11. Como operación final, quiere clasificar a los clientes en función de su número de pedidos. Seleccione la columna Count y después seleccione el botón Clasificar columna de la pestaña Añadir columna de la cinta.

    Screenshot of the dataflows editor with the Count column selected.

  12. Mantenga la configuración predeterminada en Clasificar columna. A continuación, seleccione Aceptar para aplicar esta transformación.

    Screenshot of the Rank window with all default settings displayed.

  13. Ahora cambie el nombre de la consulta resultante a Ranked Customers (Clientes clasificados) usando el panel Configuración de consulta de la parte derecha de la pantalla.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Ha terminado de transformar y combinar los datos. Por lo tanto, ahora puede configurar sus opciones de destino de salida. Seleccione Elegir destino de datos en la parte inferior del panel Configuración de consulta.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. En este paso, puede configurar una salida en el lago si tiene una disponible u omitir este paso si no es así. En esta experiencia, puede configurar el lago de destino y la tabla para los resultados de la consulta, además del método de actualización (Anexar o Reemplazar).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. El flujo de datos ya está listo para publicarse. Revise las consultas en la vista de diagrama y, a continuación, seleccione Publicar.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Ahora se le devolverá al área de trabajo. Un icono giratorio junto al nombre de su flujo de datos indica que la publicación está en curso. Una vez completada la publicación, el flujo de datos está listo para actualizarse.

    Importante

    Cuando se crea el primer Flujo de datos Gen2 en un área de trabajo, se aprovisionan los elementos de almacén de lago y almacén junto con sus modelos semánticos y puntos de conexión de análisis SQL relacionados. Todos los flujos de datos del área de trabajo comparten estos elementos, que son necesarios para el funcionamiento de Flujo de datos Gen2, no deben eliminarse y los usuarios no deben utilizarlos directamente. Los elementos son un detalle de implementación de Flujo de datos Gen2. Los elementos no son visibles en el área de trabajo, pero pueden ser accesibles en otras experiencias como Notebook, punto de conexión de análisis SQL, almacén de lago y almacén. Puede reconocer los elementos por su prefijo en el nombre. El prefijo de los elementos es "DataflowsStaging".

  17. En el área de trabajo, seleccione el icono Programar actualización.

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Active la actualización programada, seleccione Agregar otra hora y configure la actualización como se muestra en la captura de pantalla siguiente.

    Screenshot showing how to select another time.

    Captura de pantalla de las opciones de actualización programadas, con la actualización programada activada, la frecuencia de actualización establecida en Diaria, la zona horaria establecida en hora universal coordinada y la hora establecida en 4:00 a. m. El botón de encendido, la selección Agregar otra hora, el propietario del flujo de datos y el botón Aplicar están resaltados.

Limpieza de recursos

Si no va a seguir usando este flujo de datos, elimínelo siguiendo los pasos siguientes:

  1. Vaya al área de trabajo de Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Seleccione los puntos suspensivos verticales junto al nombre del flujo de datos y, a continuación, seleccione Eliminar.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Seleccione Eliminar para confirmar la eliminación del flujo de datos.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

El flujo de datos de este ejemplo le muestra cómo cargar y transformar datos en el flujo de datos Gen2. Ha aprendido a:

  • Cree un flujo de datos Gen2.
  • Transformar los datos.
  • Configure los valores de destino para los datos transformados.
  • Ejecute y programe la canalización de datos.

Avance hasta el siguiente artículo para obtener información sobre cómo crear su primera canalización de datos.