Compartir vía


Tutorial de Lakehouse: Ingesta de datos en el lago

En este tutorial, ingerirá más tablas dimensionales y tablas de hechos de Wide World Importers (WWI) en el lago.

Requisitos previos

Ingerir datos

En esta sección, usará la actividad Copiar datos de la canalización de Data Factory para ingerir datos de ejemplo de una cuenta de almacenamiento de Azure en la sección Archivos de la instancia de Lakehouse que creó anteriormente.

  1. Seleccione Áreas de trabajo en el panel de navegación izquierdo y, a continuación, seleccione el área de trabajo nueva en el menú Áreas de trabajo. Aparece la vista de elementos del área de trabajo.

  2. En el elemento de menú +Nuevo de la cinta del área de trabajo, seleccione Canalización de datos.

    Captura de pantalla que muestra cómo crear una canalización de datos.

  3. En el cuadro de diálogo Nueva canalización, especifique el nombre como IngestDataFromSourceToLakehouse y seleccione Crear. Se crea y abre una nueva canalización de factoría de datos.

  4. En la canalización de factoría de datos recién creada, seleccione Actividad de canalización para agregar una actividad a la canalización y seleccione Copiar datos. Esta acción agrega actividad de copia de datos al lienzo de la canalización.

    Captura de pantalla que muestra dónde seleccionar Actividad de canalización y Copiar datos.

  5. Seleccione la actividad de copia de datos recién agregada en el lienzo. Las propiedades de actividad aparecen en un panel debajo del lienzo (es posible que tenga que expandir el panel hacia arriba arrastrando el borde superior). En la pestaña General del panel de propiedades, escriba Copia de datos al lakehouse en el campo Nombre.

    Captura de pantalla que muestra dónde añadir el nombre de la actividad de copia en la pestaña General.

  6. En la pestaña Origen de la actividad de copia de datos seleccionada, seleccione Externo como Tipo de almacén de datos y, a continuación, seleccione + Nuevo para crear una nueva conexión al origen de datos.

    Captura de pantalla que muestra dónde seleccionar Externo y + Nuevo en la pestaña Origen.

  7. En este tutorial, todos los datos de ejemplo están disponibles en un contenedor público de Azure Blob Storage. Se conecta a este contenedor para copiar datos de él. En la primera pantalla de Nueva conexión, seleccione Azure Blob Storage y, después, seleccione Continuar.

    Captura de pantalla del asistente de nueva conexión, que muestra dónde seleccionar Azure Blob Storage.

  8. En la pantalla Ajustes de conexión, escriba los detalles siguientes y seleccione Crear para crear la conexión al origen de datos.

    Propiedad Valor
    URL o nombre de cuenta https://azuresynapsestorage.blob.core.windows.net/sampledata
    Connection Crear una nueva conexión
    Nombre de conexión wwisampledata
    Tipo de autenticación Anónimas

    Captura de pantalla de la pantalla de configuración de la conexión, que muestra dónde introducir los detalles y seleccionar Crear.

  9. Una vez creada la nueva conexión, vuelva a la pestaña Origen de la actividad de copia de datos y la conexión recién creada estará seleccionada de forma predeterminada. Especifique las siguientes propiedades antes de pasar a la configuración de destino.

    Propiedad Valor
    Tipo de almacén de datos Externo
    Conexión wwisampledata
    Tipo de ruta de acceso de archivo Ruta de archivo
    Ruta de archivo Nombre del contenedor (primer cuadro de texto): sampledata
    Nombre del directorio (segundo cuadro de texto): WideWorldImportersDW/parquet
    Recursively Activada
    Formato de archivo Binario

    Captura de pantalla de la pestaña de origen que muestra dónde introducir los detalles específicos.

  10. En la pestaña Destino de la actividad de copia de datos seleccionada, especifique las siguientes propiedades:

    Propiedad Valor
    Tipo de almacén de datos Área de trabajo
    Tipo de banco de datos de área de trabajo Lakehouse
    Lakehouse wwilakehouse
    Carpeta raíz Archivos
    Ruta de archivo Nombre del directorio (primer cuadro de texto): wwi-raw-data
    Formato de archivo Binario

    Captura de pantalla de la pestaña de destino que muestra dónde introducir los detalles específicos.

  11. Ha configurado la actividad de copia de datos. Seleccione el icono de Guardar de la cinta superior (en Inicio) para guardar los cambios y seleccione Ejecutar para ejecutar la canalización y su actividad. También puede programar canalizaciones para actualizar los datos a intervalos definidos para satisfacer los requisitos empresariales. Para este tutorial, ejecutamos la canalización solo una vez haciendo clic en Ejecutar.

    Esta acción desencadena la copia de datos del origen de datos subyacente al lago especificado y puede tardar hasta un minuto en completarse. Puede supervisar la ejecución de la canalización y su actividad en la pestaña Salida, que aparece al hacer clic en cualquier lugar del lienzo. Opcionalmente, puede seleccionar el icono de gafas, que aparece al mantener el puntero sobre el nombre, para ver los detalles de la transferencia de datos.

    Captura de pantalla que muestra dónde seleccionar Guardar y Ejecutar, y dónde encontrar los detalles de la ejecución y el icono de las gafas en la pestaña Salida.

  12. Una vez copiados los datos, vaya a la vista de elementos del área de trabajo y seleccione el nuevo lakehouse (wwilakehouse) para iniciar la vista Explorador.

    Captura de pantalla que muestra dónde seleccionar el lago para iniciar la vista Explorador.

  13. Compruebe que en la vista Explorador aparece una nueva carpeta, wwi-raw-data, y que se han copiado allí los datos de todas las tablas.

    Captura de pantalla que muestra cómo se copian los datos de origen en el explorador de Lakehouse.

Para cargar datos incrementales en una instancia de LakeHouse, consulte Carga incremental de datos desde un almacenamiento de datos a una instancia de LakeHouse.

Paso siguiente