Inicio rápido: Creación del primer flujo de datos para obtener y transformar datos

Los flujos de datos son una tecnología de preparación de datos basada en la nube y de autoservicio. En este artículo, creará su primer flujo de datos, obtendrá datos para el flujo de datos y, después, transformará los datos y publicará el flujo de datos.

Importante

Microsoft Fabric está actualmente en VERSIÓN PRELIMINAR. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí. Consulte la documentación de Azure Data Factory para el servicio en Azure.

Requisitos previos

Antes de empezar, se requieren los siguientes requisitos previos:

Crear un flujo de datos

En esta sección, creará su primer flujo de datos.

  1. Cambie a la experiencia de Data Factory o Power BI .

    Captura de pantalla con la experiencia de fábrica de datos enfatizada.

  2. Vaya al área de trabajo de Microsoft Fabric.

    Captura de pantalla de la ventana de áreas de trabajo en la que se navega hasta el área de trabajo.

  3. Seleccione Nuevo y, a continuación, seleccione Flujo de datos Gen2.

    Captura de pantalla con la selección de Dataflow Gen2 resaltada.

Obtención de datos

Vamos a obtener algunos datos. En este ejemplo, obtendrá datos de un servicio de OData. Siga estos pasos para obtener datos en el flujo de datos.

  1. En el editor de flujos de datos, seleccione Obtener datos y, a continuación, seleccione Más.

    Captura de pantalla con la opción Obtener datos seleccionada y Más resaltado en el cuadro desplegable.

  2. Seleccione OData como origen de datos.

    Captura de pantalla del origen de Obtener datos con el conector de OData resaltado.

  3. Escriba la dirección URL https://services.odata.org/v4/northwind/northwind.svc/ y, a continuación, seleccione Siguiente.

    Captura de pantalla del origen de datos de OData donde se escribe la URL de los datos.

  4. Seleccione las tablas Orders (Pedidos) y Customers (Clientes), y después seleccione Crear.

    Captura de pantalla del navegador de Power Query con las tablas Customers y Orders resaltadas.

Puede obtener más información sobre la experiencia y las funciones de la obtención de datos en Información general sobre la obtención de datos.

Aplicación de transformaciones y publicación

Ha cargado los datos en su primer flujo de datos, enhorabuena. Ahora es el momento de aplicar un par de transformaciones para dar a estos datos la forma deseada.

Realizará esta tarea desde el editor de Power Query. Puede encontrar información general detallada del editor de Power Query en La interfaz de usuario de Power Query.

Siga estos pasos para aplicar transformaciones y publicar:

  1. Asegúrese de que ha habilitado la vista de diagrama con las opciones de la pestaña Vista de la cinta de opciones del editor de Power Query. Asegúrese también de que las herramientas de Generación de perfiles de datos estén habilitadas; para ello, vaya a Inicio>Opciones>Opciones globales.

    Captura de pantalla de las opciones globales con las selecciones de perfil de columna resaltadas.

    Captura de pantalla del aspecto general de la vista de diagrama de Power Query.

  2. En la tabla Orders, calculará el número total de Orders por cliente. Para lograr este objetivo, seleccione la columna CustomerID en la vista previa de datos y, a continuación, seleccione Agrupar por en la pestaña Transformar de la cinta de opciones.

    Captura de pantalla que muestra la tabla de Orders seleccionada y Agrupar por resaltado en la pestaña Transformar.

  3. Realizará un Count (Recuento) de filas como agregación dentro de Agrupar por. Puede obtener más información sobre las funcionalidades de Agrupar por en Agrupación o resumen de filas.

    Captura de pantalla de Agrupar por, con la operación Contar filas seleccionada.

  4. Después de agrupar los datos en la tabla Orders, obtendremos una tabla de dos columnas con CustomerID y Count como columnas.

    Captura de pantalla de la tabla de dos columnas.

  5. A continuación, querrá combinar los datos de la tabla Customers con el Count de Orders por cliente. Para combinar datos, seleccione la consulta Customers en la Vista de diagrama y use el menú "⋮" para acceder a la transformación Combinar consultas como una nueva.

    Captura de pantalla del editor de flujo de datos, con los puntos suspensivos verticales de la tabla Customers y Combinar consultas como una nueva resaltado.

  6. Configure la operación Combinar como se muestra en la siguiente captura de pantalla seleccionando CustomerID como la columna coincidente en ambas tablas. Después, seleccione Aceptar.

    Captura de pantalla de la ventana de dispositivos.

    Captura de pantalla de la ventana Combinar, con la tabla izquierda para combinar establecida en la tabla Customers y la tabla derecha para combinar establecida en la tabla Orders. La columna CustomerID está seleccionada para las tablas Customers y Orders. Además, el tipo de combinación se establece en Externa izquierda. Todas las demás selecciones se establecen en su valor predeterminado.

  7. Al realizar las Combinar consultas como una nueva, obtendrá una nueva consulta con todas las columnas de la tabla Customers y una columna con datos anidados de la tabla Orders.

    Captura de pantalla del editor de flujos de datos con la nueva consulta Combinar agregada a la derecha de las tablas Customers y Orders.

  8. En este ejemplo, solo le interesa un subconjunto de columnas de la tabla Customers. Seleccionará esas columnas mediante la vista de esquema. Habilite la vista de esquema dentro del botón de alternancia en la esquina inferior derecha del editor de flujos de datos.

    Captura de pantalla del editor de flujos de datos con el botón de vista de esquema resaltado en la esquina inferior derecha.

  9. La vista de esquema proporciona una vista centrada en la información de esquema de una tabla, incluidos los nombres de columna y los tipos de datos. La vista de esquema tiene un conjunto de herramientas de esquema disponibles a través de una pestaña contextual de la cinta. En este caso, seleccionará las columnas CustomerID, CompanyName (Nombre de empresa), y Orders (2), después seleccionará el botón Quitar columnas, y después seleccionará Quitar otras columnas en la pestaña Herramientas de esquema .

    Captura de pantalla de la vista de esquema que muestra todos los nombres de columna disponibles, con las columnas CustomerID, CompanyName y Orders (2) resaltadas.

    Captura de pantalla del menú de herramientas de esquema con Eliminar otras columnas resaltado.

  10. La columna Orders (2) contiene información anidada resultante de la operación de combinación que ha realizado hace unos pasos. Ahora, vuelva a la vista de datos seleccionando el botón Mostrar vista de datos situado junto al botón Mostrar vista de esquema en la esquina inferior derecha de la interfaz de usuario. Use la transformación Ampliar columna en el encabezado de columna Orders (2) para seleccionar la columna Count.

    Captura de pantalla para usar la vista de datos.

  11. Como operación final, quiere clasificar a los clientes en función de su número de pedidos. Seleccione la columna Count y después seleccione el botón Clasificar columna de la pestaña Añadir columna de la cinta.

    Captura de pantalla del editor de flujos de datos con la columna Count seleccionada.

  12. Mantenga la configuración predeterminada en Clasificar columna. A continuación, seleccione Aceptar para aplicar esta transformación.

    Captura de pantalla de la ventana de Clasificación con todas las configuraciones predeterminadas mostradas.

  13. Ahora cambie el nombre de la consulta resultante a Ranked Customers (Clientes clasificados) usando el panel Configuración de consulta de la parte derecha de la pantalla.

    Captura de pantalla del editor de flujos de datos con el nombre de Ranked Customers resaltado bajo las propiedades de configuración de la consulta.

  14. Ha terminado de transformar y combinar los datos. Por lo tanto, ahora configurará sus opciones de destino de salida. Seleccione Elegir destino de datos en la parte inferior del panel Configuración de consulta.

    Captura de pantalla del editor de flujos de datos con la ubicación de la selección de Destino de datos resaltada.

  15. En este paso, puede configurar una salida en la base de datos de Azure SQL si tiene una disponible u omitir este paso si es así. En esta experiencia, puede configurar el servidor de destino, la base de datos y la tabla para los resultados de la consulta, además del método de actualización (Anexar o Reemplazar).

    Captura de pantalla de la ventana Conectar con destino de datos con la base de datos de Azure SQL seleccionada.

    Captura de pantalla de la ventana de Elegir configuración de destino.

  16. El flujo de datos ya está listo para publicarse. Revise las consultas en la vista de diagrama y, a continuación, seleccione Publicar.

    Captura de pantalla del editor de flujos de datos con el botón Publicar en la parte inferior derecha resaltado.

    Ahora se le devolverá al área de trabajo. Un icono giratorio junto al nombre de su flujo de datos indica que la publicación está en curso. Una vez completada la publicación, el flujo de datos está listo para actualizarse.

    Importante

    Cuando se crea el primer flujo de datos Gen2 en un área de trabajo, se aprovisionarán los elementos Lakehouse y Almacén junto con su punto final SQL y sus conjuntos de datos relacionados, como se ve en la imagen inferior. Estos elementos son compartidos por todos los flujos de datos del área de trabajo y son necesarios para que Dataflows Gen2 funcione, no deben borrarse y no deben utilizarse fuera de la experiencia de Dataflows. Los elementos son un detalle de implementación de Dataflow Gen2 y, aunque actualmente están visibles, se ocultarán en el futuro.

    Captura de pantalla de los elementos de puesta en escena creados por los flujos de datos.

  17. En el área de trabajo, seleccione el icono Programar actualización.

    Captura de pantalla del área de trabajo con el icono de Programar actualización resaltado.

  18. Active la actualización programada, seleccione "Agregar otra hora" y configure la actualización como se muestra en la captura de pantalla siguiente.

    Captura de pantalla que muestra cómo seleccionar otra hora.

    Captura de pantalla de las opciones de actualización programadas, con la actualización programada activada, la frecuencia de actualización establecida en Diaria, la zona horaria establecida en hora universal coordinada y la hora establecida en 4:00 a. m. El botón de encendido, la selección Agregar otra hora, el propietario del flujo de datos y el botón Aplicar están resaltados.

Limpieza de recursos

Si no va a seguir usando este flujo de datos, elimínelo siguiendo los pasos siguientes:

  1. Vaya al área de trabajo de Microsoft Fabric.

    Captura de pantalla de la ventana de áreas de trabajo en la que se navega hasta el área de trabajo.

  2. Seleccione los puntos suspensivos verticales junto al nombre del flujo de datos y, a continuación, seleccione Eliminar.

    Captura de pantalla con los tres puntos verticales y la opción de eliminar en el menú desplegable resaltada.

  3. Seleccione Eliminar para confirmar la eliminación del flujo de datos.

    Captura de pantalla de la ventana Eliminar flujo de datos, con el botón Eliminar resaltado.

Pasos siguientes

El flujo de datos de este ejemplo le muestra cómo cargar y transformar datos en el flujo de datos Gen2. Ha aprendido a:

  • Cree un flujo de datos Gen2.
  • Transformar los datos.
  • Configure los valores de destino para los datos transformados.
  • Ejecute y programe la canalización de datos.

Avance hasta el siguiente artículo para obtener información sobre cómo crear su primera canalización de datos.