Carga de datos en Azure Data Lake Storage Gen1 mediante Azure Data Factory

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Azure Data Lake Storage Gen1 (anteriormente conocido como Azure Data Lake Store) es un repositorio de gran escala en toda la empresa para cargas de trabajo de análisis de macrodatos. Azure Data Lake Storage Gen1 permite capturar datos de cualquier tamaño, tipo y velocidad de ingesta. Los datos se capturan en un único lugar para análisis operativos y exploratorios.

Azure Data Factory es un servicio de integración de datos en la nube totalmente administrado. Puede utilizar el servicio para rellenar la instancia de Data Lake Store con datos del sistema actual y ahorrar tiempo al compilar las soluciones de análisis.

Azure Data Factory ofrece las siguientes ventajas para cargar datos en Data Lake Storage Gen1:

  • Fácil de configurar: con un asistente intuitivo en cinco pasos sin necesidad de scripting.
  • Amplia compatibilidad para el almacenamiento de datos: compatibilidad integrada para un amplio conjunto de almacenes de datos tanto locales como en la nube. Para una lista detallada, consulte la tabla de almacenes de datos admitidos.
  • Seguro y compatible: los datos se transfieren a través de HTTPS o ExpressRoute. La presencia del servicio global garantiza que los datos nunca abandonan el límite geográfico.
  • Alto rendimiento: hasta 1 GB/s de velocidad de carga de datos en Data Lake Storage Gen1. Para más información, consulte el rendimiento de la actividad de copia.

En este artículo se muestra cómo utilizar la herramienta Copy Data de Data Factory para cargar datos de Amazon S3 en Data Lake Storage Gen1. Puede seguir los mismos pasos para copiar datos de otros tipos de almacenes de datos.

Requisitos previos

  • Suscripción de Azure: Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
  • Cuenta de Data Lake Storage Gen1: si no tiene una cuenta de Data Lake Storage Gen1, consulte las instrucciones de Creación de una cuenta de Data Lake Storage Gen1.
  • Amazon S3: En este artículo se muestra cómo copiar datos de Amazon S3. Puede usar otros almacenes de datos siguiendo los mismos pasos.

Crear una factoría de datos

  1. Si aún no ha creado la factoría de datos, siga los pasos descritos en Inicio rápido: Creación de una factoría de datos mediante Azure Portal y Azure Data Factory Studio para crear una. Después de crearla, vaya a la factoría de datos en Azure Portal.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Seleccione Open (Abrir) en el icono Open Azure Data Factory Studio (Abrir Azure Data Factory Studio) para iniciar la aplicación de integración de datos en una pestaña independiente.

Carga de datos en Data Lake Storage Gen1

  1. En la página principal, seleccione el icono Ingerir para iniciar la herramienta Copia de datos:

    Screenshot that shows the ADF home page.

  2. En la página Properties (Propiedades), especifique CopyFromAmazonS3ToADLS en el campo Task name (Nombre de la tarea) y seleccione Next (Siguiente):

    Properties page

  3. En la página Almacén de datos de origen, haga clic en + Crear una conexión nueva:

    Source data store page

    Seleccione Amazon S3 y, luego, seleccione Continuar.

    Source data store s3 page

  4. En la página Specify Amazon S3 connection (Especificar conexión de Amazon S3), siga estos pasos:

    1. Especifique el valor de Access Key ID (Identificador de clave de acceso).

    2. Especifique el valor de Secret Access Key (Clave de acceso secreta).

    3. Seleccione Finalizar.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Podrá ver una nueva conexión. Seleccione Siguiente.

    Screenshot shows your new connection.

  5. En la página Choose the input file or folder (Elegir archivo o carpeta de entrada), vaya a la carpeta y el archivo que desea copiar. Seleccione la carpeta o el archivo, Choose (Elegir) y Next (Siguiente):

    Choose input file or folder

  6. Elija el comportamiento de copia seleccionando las opciones Copy files recursively (Copiar archivos de forma recursiva) y Binary copy (Copia binaria). Haga clic en Siguiente:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. En la página Almacén de datos de destino, seleccione + Crear nueva conexión, después Azure Data Lake Storage Gen1 y Continuar:

    Destination data store page

  8. En la página New Linked Service (Azure Data Lake Storage Gen1) [Nuevo servicio vinculado (Azure Data Lake Storage Gen1)], siga estos pasos:

    1. Seleccione la cuenta de Data Lake Storage Gen1 para el nombre de la cuenta de Data Lake Store.
    2. Especifique el inquilino y seleccione Finalizar.
    3. Seleccione Next (Siguiente).

    Importante

    En este tutorial, utilizará una identidad administrada para recursos de Azure para autenticar la cuenta de Data Lake Storage Gen1. Asegúrese de conceder a MSI los permisos adecuados en Data Lake Storage Gen1 con estas instrucciones.

    Specify Data Lake Storage Gen1 account

  9. En la página Choose the output file or folder (Elegir archivo o carpeta de salida) escriba copyfroms3 como nombre de la carpeta de salida y seleccione Next (Siguiente):

    Screenshot shows the folder path you enter.

  10. En la página Settings (Configuración), seleccione Next (Siguiente):

    Settings page

  11. En la página Summary (Resumen), revise la configuración y seleccione Next (Siguiente):

    Summary page

  12. En la página Deployment (Implementación), seleccione Monitor (Supervisión) para supervisar la canalización (tarea):

    Deployment page

  13. Observe que la pestaña Monitor (Supervisión) de la izquierda se selecciona automáticamente. La columna Actions (Acciones) incluye los vínculos para ver los detalles de la ejecución de actividad y volver a ejecutar la canalización:

    Monitor pipeline runs

  14. Para ver las ejecuciones de actividad asociadas con la ejecución de canalización, seleccione el vínculo View Activity Runs (Ver ejecuciones de actividad) en la columna Actions (Acciones). Como solo hay una actividad (actividad de copia) en la canalización, solo verá una entrada. Para volver a la vista de ejecuciones de canalización, seleccione el vínculo Pipelines (Canalizaciones) de la parte superior. Seleccione Refresh (Actualizar) para actualizar la lista.

    Monitor activity runs

  15. Para supervisar los detalles de la ejecución de cada actividad de copia, seleccione el vínculo Details (Detalles) en Actions (Acciones) en la vista de supervisión de la actividad. Puede supervisar detalles como el volumen de datos copiados desde el origen al receptor, el rendimiento de los datos, los pasos de ejecución con su duración correspondiente y las configuraciones que se utilizan:

    Monitor activity run details

  16. Verifique que los datos se copian en la cuenta de Data Lake Storage Gen1:

    Verify Data Lake Storage Gen1 output

Prosiga en el siguiente artículo para obtener información sobre la compatibilidad de Data Lake Storage Gen1: