Ingesta de datos en el almacén mediante canalizaciones de datos

Esto se aplica a: almacén en Microsoft Fabric

Las canalizaciones de datos ofrecen una alternativa al uso del comando COPY a través de una interfaz gráfica de usuario. Una canalización de datos es una agrupación lógica de actividades que realizan una tarea de ingesta de datos. Las canalizaciones permiten administrar las actividades de extracción, transformación y carga (ETL) en lugar de administrar cada una individualmente.

En este tutorial, creará una nueva canalización que cargará datos de ejemplo en un almacén de Microsoft Fabric.

Nota:

Algunas características de Azure Data Factory no están disponibles en Microsoft Fabric, pero los conceptos son intercambiables. Puede obtener más información sobre Azure Data Factory y canalizaciones en Canalizaciones y actividades en Azure Data Factory y Azure Synapse Analytics. Para ver un inicio rápido, visite Inicio rápido: creación de la primera canalización para copiar datos.

Crear una canalización de datos

  1. Para crear una canalización nueva, vaya al área de trabajo, seleccione el botón +Nuevo y seleccione Canalización de datos. Screenshot of the top section of the user's workspace showing the New button, and with the options Warehouse, Data pipeline, and Show All.

  2. En el cuadro de diálogo Nueva canalización, proporcione un nombre para la nueva canalización y seleccione Crear.

  3. Llegará al área de lienzo de la canalización, donde verá tres opciones para empezar: Agregar una actividad de canalización, Copiar datos y Elegir una tarea para comenzar.

    Screenshot showing the three options to select for starting ingestion.

    Cada una de estas opciones ofrece diferentes alternativas para crear una canalización:

    • Agregar una actividad de canalización: esta opción inicia el editor de canalizaciones, donde puede crear nuevas canalizaciones desde cero mediante actividades de canalización.
    • Copiar datos: esta opción inicia un asistente paso a paso que le ayudará a seleccionar un origen de datos, un destino y configurar opciones de carga de datos, como las asignaciones de columnas. Al finalizar, creará una nueva actividad de canalización con una tarea Copiar datos ya configurada automáticamente.
    • Elegir una tarea para comenzar: esta opción iniciará un conjunto de plantillas predefinidas para ayudarle a empezar a trabajar con canalizaciones basadas en diferentes escenarios.

    Seleccione la opción Copiar datos para iniciar el Asistente de copia.

  4. La primera página del asistente Copiar datos le ayudará a elegir sus propios datos de varios orígenes de datos o a seleccionar uno de los ejemplos proporcionados para comenzar. En este tutorial, usaremos el ejemplo Lago de datos de la COVID-19. Seleccione esta opción y elija Siguiente.

    Screenshot showing choices to use sample data or other data sources.

  5. En la página siguiente, podrá seleccionar un conjunto de datos, el formato de archivo de origen y obtener una vista previa del conjunto de datos seleccionado. Seleccione Bing COVID-19, el formato CSV y seleccione Siguiente.

    Screenshot showing different dataset options for the COVID-19 sample, file formats, and a grid showing a preview of the data.

  6. La siguiente página, Destinos de datos, permite configurar el tipo del área de trabajo de destino. Cargaremos datos en un almacén de nuestra área de trabajo, así que seleccione la pestaña Almacenamiento y la opción Almacenamiento de datos. Seleccione Siguiente.

    Screenshot showing different destination options.

  7. Ahora es el momento de elegir el almacenamiento en el que cargar los datos. Seleccione el almacén deseado en el cuadro desplegable y seleccione Siguiente.

    Screenshot showing a dropdown list with a warehouse selected.

  8. El último paso para configurar el destino consiste en proporcionar un nombre a la tabla de destino y configurar las asignaciones de columnas. Aquí puede elegir cargar los datos en una nueva tabla o en una existente, proporcionar un esquema y nombres de tabla, cambiar los nombres de las columnas, quitar columnas o cambiar sus asignaciones. Es posible aceptar los valores predeterminados o ajustar la configuración a su preferencia.

    Screenshot showing the options to load data to an existing table or to create a new one.

    Cuando haya terminado de revisar las opciones, seleccione Siguiente.

  9. La página siguiente ofrece la opción de usar el almacenamiento provisional o proporcionar opciones avanzadas para la operación de copia de datos (que usa el comando COPY de T-SQL). Revise las opciones sin cambiarlas y seleccione Siguiente.

  10. La última página del asistente ofrece un resumen de la actividad de copia. Seleccione la opción Iniciar transferencia de datos inmediatamente y seleccione Guardar y ejecutar.

    Screenshot showing the option to start the data transfer operation immediately, and the buttons Back and Save + Run.

  11. Se le dirigirá al área de lienzo de la canalización, donde ya está configurada una nueva actividad Copiar datos. La canalización comenzará a ejecutarse automáticamente. Es posible supervisar el estado de la canalización en el panel Salida:

    Screenshot showing the pipeline canvas with a Copy activity in the center, and the pipeline execution status showing the current status In progress.

  12. Después de unos segundos, la canalización finalizará correctamente. Volviendo al almacén, seleccione la tabla para obtener una vista previa de los datos y confirmar que la operación de copia haya finalizado.

    Screenshot showing a warehouse with the bing_covid_19 table selected, and a grid showing a preview of the data in the table.

Para obtener más información sobre ingesta de datos en el almacén en Microsoft Fabric, visite:

Paso siguiente