Módulo 1: Crear una canalización con Data Factory

Este módulo tarda 10 minutos en ingerir datos sin procesar del almacén de origen en la tabla Bronze de un data Lakehouse mediante el actividad de copia de una canalización.

Los pasos de alto nivel en el módulo 1 son los siguientes:

  1. Cree el canal de datos.
  2. Use una actividad de copia en la canalización para cargar datos de ejemplo en una instancia de Data Lakehouse.

Crear un canal de datos

  1. Se requiere una cuenta de inquilino de Microsoft Fabric con una suscripción activa. Crear una cuenta gratuita.

  2. Asegúrese de que tiene un área de trabajo habilitada para Microsoft Fabric: Crear un área de trabajo.

  3. Inicie sesión en Power BI.

  4. Seleccione el icono predeterminado de Power BI en la parte inferior izquierda de la pantalla y cambie a la experiencia de Data Factory.

    Screenshot showing the selection of the Data Factory experience.

  5. Seleccione Conducto de datos y proporcione un nombre de conducto. Seleccione Crear.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

Uso de un actividad de copia en la canalización para cargar datos de ejemplo en una instancia de Data Lakehouse

Paso 1: Usar el asistente de copia para agregar una actividad de copia

Seleccione Copiar datos para abrir la herramienta copiar asistente.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

Paso 2: Configurar las opciones en el asistente de copia.

  1. El cuadro de diálogo Copiar datos se muestra con el primer paso, Elegir origen de datos , resaltado. Desplácese hacia abajo si es necesario hasta la sección Orígenes de datos y seleccione el tipo de origen de datos Azure Blob Storage. Seleccione Siguiente.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. En el siguiente paso, seleccione Crear nueva conexión y, a continuación, proporcione la URL del almacenamiento blob que aloja los datos de ejemplo proporcionados para este aprendizaje, en https://nyctaxisample.blob.core.windows.net/sample. El tipo de autenticación es Anónimo. Seleccione Siguiente después de proporcionar la dirección URL.

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. Aparece el paso Conectar al origen de datos e, inicialmente, aparece un error No se pueden enumerar los archivos, porque los permisos solo se han concedido a la carpeta muestra en el almacenamiento de blobs. Indique el nombre de la carpeta, muestra, y seleccione Reintentar.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Nota:

    La carpeta blob Storage distingue mayúsculas de minúsculas y debe estar en minúsculas.

  4. El explorador de Blob Storage aparece a continuación. Seleccione el archivo NYC-Taxi-Green-2015-01.parquet y espere a que aparezca la vista previa de datos. Seleccione Siguiente.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. Para el paso Elegir destino de datos del asistente de copia, seleccione Lakehouse y, a continuación, Siguiente.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. Seleccione Crear nuevo Lakehouse en la página de configuración de destino de datos que aparece e introduzca un nombre para el nuevo Lakehouse. A continuación, seleccione Siguiente de nuevo.

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. Ahora configure los detalles de su destino de Lakehouse en la página Seleccionar y asignar a la ruta de la carpeta o tabla. Seleccione Tablas para la carpeta raíz , proporcione un nombre de tabla y elija la acción Sobrescribir. No marque la casilla de verificación Habilitar partición que aparece después de seleccionar la acción de tabla Sobrescribir.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. Por último, en la página Revisar + guardar del asistente de copia de datos, revise la configuración. Para este aprendizaje, desmarque la casilla de verificación Iniciar transferencia de datos inmediatamente, ya que ejecutamos la actividad manualmente en el siguiente paso. Después, seleccione Aceptar.

    Screenshot showing the Copy data assistant on the Review + save page.

Paso 3: Ejecutar y ver los resultados de la actividad de copia.

  1. Seleccione la ficha Ejecutar en el editor de canalizaciones. A continuación, seleccione el botón Ejecutar y, a continuación, Guardar y ejecutar en la solicitud para ejecutar la actividad Copiar.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. Puede monitorear la ejecución y verificar los resultados en la pestaña Salida debajo del lienzo de la tubería. Seleccione el botón de detalles de ejecución (el icono "gafas" que aparece al mantener el puntero sobre la ejecución de la canalización en ejecución) para ver los detalles de la ejecución.

    Screenshot showing the run details button in the pipeline Output tab.

  3. Los detalles de ejecución muestran 1.508.501 filas leídas y escritas.

    Screenshot of the Copy data details for the pipeline run.

  4. Expanda la sección Desglose de la duración para ver la duración de cada etapa de la actividad de copia. Después de revisar los detalles de la copia, seleccione Cerrar.

    Screenshot showing the duration breakdown of the Copy activity run.

En este primer módulo de nuestro tutorial completo para su primera integración de datos mediante Data Factory en Microsoft Fabric, ha aprendido a:

  • Cree el canal de datos.
  • Agregue un actividad de copia a la canalización.
  • Use datos de ejemplo y cree un data Lakehouse para almacenar los datos en una nueva tabla.
  • Ejecute la canalización y vea sus detalles y desglose de duración.

Continúa a la siguiente sección ahora para crear tu flujo de datos.