Transferencia de datos hacia y desde Azure

Existen varias opciones para transferir datos a Azure, y desde este, en función de las necesidades de cada uno.

Transferencia física

El uso de hardware físico para transferir datos a Azure es una opción recomendable cuando:

  • La red funciona con lentitud o es poco confiable.
  • El costo de obtener más ancho de banda de red es prohibitivo.
  • Las directivas de seguridad o de la organización no permiten las conexiones salientes cuando se trabaja con información confidencial.

Si su principal preocupación es el tiempo que se va a tardar en transferir los datos, es posible que desee ejecutar una prueba para comprobar si la transferencia de red es más lenta que el transporte físico.

Hay dos opciones principales para transportar físicamente los datos a Azure:

El servicio Azure Import/Export

El servicio Azure Import/Export permite transferir de forma segura grandes cantidades de datos a Azure Blob Storage o Azure Files mediante el envío de unidades de disco duro o SSD a un centro de datos de Azure. También puede usar este servicio para transferir datos Azure Storage desde tardar hasta las unidades de disco duro y enviarlas al sitio local.

Azure Data Box

Azure Data Box es un dispositivo proporcionado por Microsoft que funciona de forma muy parecida al servicio Import/Export. Con Data Box, Microsoft envía un dispositivo de transferencia propietario, seguro y resistente a manipulaciones, y controla la logística de un extremo a otro, pero el usuario puede hacer un seguimiento de ella desde el portal. Una ventaja del servicio Data Box es lo fácil que es usarlo. No es preciso adquirir varios discos duros, prepararlos y transferir archivos a todos y cada uno de ellos. Data Box es compatible con varios asociados de Azure líderes de su sector, lo que facilita la tarea de transportar archivos sin conexión a la nube desde sus productos.

Herramientas de línea de comandos y API

Tenga en cuenta estas opciones cuando desee que la transferencia de datos se realice mediante programación y mediante scripts:

  • La CLI de Azure es una herramienta multiplataforma que permite administrar los servicios de Azure y cargar datos en Storage.

  • AzCopy. Use AzCopy desde una línea de comandos de Windows o Linux para copiar datos fácilmente tanto a Blob, File y Table Storage como desde estos servicios con un rendimiento óptimo. AzCopy admite la simultaneidad y el paralelismo, y permite reanudar operaciones de copia cuando si se interrumpen. También puede usar AzCopy para copiar datos de AWS a Azure. Para acceder mediante programación, la Biblioteca de movimiento de datos de Microsoft Azure Storage es el marco principal que alimenta AzCopy. Se proporciona en forma de biblioteca de .NET Core.

  • Con PowerShell, el cmdlet Start-AzureStorageBlobCopy PowerShell es una opción para los administradores de Windows acostumbrados a PowerShell.

  • AdlCopy permite copiar datos de Blob Storage a Azure Data Lake Storage. También se puede usar para copiar datos entre dos cuentas de Data Lake Storage. Sin embargo, no se puede utilizar para copiar datos de Data Lake Storage a Storage Blob.

  • Distcp se usa para copiar datos hacia y desde un almacenamiento de clúster de HDInsight (WASB) en una cuenta de Data Lake Storage.

  • Sqoop es un proyecto de Apache que forma parte del ecosistema de Hadoop. Viene preinstalado en todos los clústeres de HDInsight. Permite la transferencia de datos entre un clúster de HDInsight y bases de datos relacionales, como SQL, Oracle, MySQL, etc. Sqoop es una colección de herramientas relacionadas entre las cuales se incluyen las de importación y exportación. Sqoop funciona con clústeres de HDInsight mediante Blob Storage o almacenamiento adjunto de Data Lake Storage.

  • PolyBase es una tecnología que accede a datos que están fuera de la base de datos a través del lenguaje de T-SQL. En SQL Server 2016, permite ejecutar consultas de datos externos en Hadoop o importar o exportar datos desde Blob Storage. En Azure Synapse Analytics, puede importar o exportar datos tanto desde Blob Storage como desde Data Lake Storage. Actualmente, PolyBase es el método más rápido de importación de datos en Azure Synapse Analytics.

  • Use la línea de comandos de Hadoop cuando tenga datos que residen en un nodo principal del clúster de HDInsight. Puede usar el comando hadoop -copyFromLocal para copiar esos datos en el almacenamiento asociado a su clúster como, por ejemplo, en Blob Storage o Data Lake Storage. Para usar el comando de Hadoop, primero es preciso conectarse al nodo principal. Una vez conectado, puede cargar un archivo en el almacenamiento.

Interfaz gráfica

Si va a transferir solo unos pocos archivos u objetos de datos y no necesita automatizar el proceso, tenga en cuenta las siguientes opciones.

  • Explorador de Azure Storage es una herramienta multiplataforma que permite administrar el contenido de las cuentas de Azure Storage. Permite cargar, descargar y administrar blogs, archivos, colas, tablas y entidades de Azure Cosmos DB. Utilícelo con Blob Storage para administrar blobs y carpetas, así como para cargar y descargar blobs entre el sistema de archivos local y Blob Storage, o entre cuentas de almacenamiento.

  • Azure Portal. Tanto Blob Storage como Data Lake Storage proporcionan una interfaz basada en web para explorar archivos y cargar nuevos archivos. Esta es una buena opción si no desea instalar herramientas ni generar comandos para explorar rápidamente los archivos, o simplemente cargar archivos nuevos.

Sincronización de datos y canalizaciones

  • Azure Data Factory es un servicio administrado muy apropiado para transferir archivos con regularidad entre muchos servicios de Azure, sistemas locales o una combinación de ambas posibilidades. Mediante Data Factory, puede crear y programar flujos de trabajo controlados por datos (denominados canalizaciones) que ingieren datos de distintos almacenes. Data Factory puede procesar y transformar datos mediante servicios de proceso, como Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics y Azure Machine Learning. Puede crear flujos de trabajo controlados por datos para orquestar y automatizar tanto el movimiento de datos como la transformación de datos.

  • Las canalizaciones y actividades de Data Factory y Azure Synapse Analytics se pueden usar para crear flujos de trabajo completos controlados por datos para los escenarios de procesamiento y traslado de datos. Además, el entorno de ejecución de integración de Azure Data Factory se usa para proporcionar funcionalidades de integración de datos en distintos entornos de red.

  • Azure Data Box Gateway transfiere datos hacia y desde Azure, pero se trata de una aplicación virtual no de una unidad de disco duro. Las máquinas virtuales que residen en la red local escriben datos en Data Box Gateway mediante los protocolos NFS y SMB. Posteriormente, el dispositivo transfiere los datos a Azure.

Principales criterios de selección

En los escenarios de transferencia de datos, elija el sistema que más se ajuste a sus necesidades, para lo que debe responder estas preguntas:

  • ¿Necesita transferir grandes cantidades de datos y hacerlo a través de una conexión a Internet tardaría demasiado tiempo, sería poco confiable o demasiado caro? Si es así, considere la posibilidad de realizar transferencias físicas.

  • ¿Prefiere realizar las tareas de transferencia de datos mediante scripts para que se puedan volver a utilizar? Si es así, seleccione una de las opciones de línea de comandos o Data Factory.

  • ¿Necesita transferir una gran cantidad de datos a través de una conexión de red? En ese caso, seleccione una opción que esté optimizada para macrodatos.

  • ¿Necesita transferir datos a una base de datos relacional o desde ella? En caso afirmativo, elija una opción que admita una o varias bases de datos relacionales. Algunas de estas opciones también requieren un clúster de Hadoop.

  • ¿Necesita una canalización de datos o una orquestación de flujos de trabajo automatizadas? Si es así, considere la posibilidad de usar Data Factory.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Transferencia física

Capacidad Servicio Import/Export Data Box
Factor de forma Unidades de disco duro o SSD SATA internas Dispositivo de hardware individual seguro y a prueba de alteraciones
Microsoft administra la logística de envío No
Se integra con productos de asociados No
Dispositivo personalizado No

Herramientas de línea de comandos

Hadoop/HDInsight:

Capacidad Distcp Sqoop CLI de Hadoop
Optimizado para macrodatos
Copiar a base de datos relacional No No
Copiar de base de datos relacional No No
Copiar a Blob Storage
Copiar de Blob Storage No
Copiar a Data Lake Storage
Copiar de Data Lake Storage No

Otros:

Capacidad Azure CLI AzCopy PowerShell AdlCopy PolyBase
Plataformas compatibles Linux, OS X y Windows Linux y Windows Windows Linux, OS X y Windows SQL Server, Azure Synapse Analytics
Optimizado para macrodatos No No 1 2
Copiar a base de datos relacional No No No No
Copiar de base de datos relacional No No No No
Copiar a Blob Storage No
Copiar de Blob Storage
Copiar a Data Lake Storage No
Copiar de Data Lake Storage No No

[1] AdlCopy está optimizado para la transferencia de macrodatos cuando se utiliza con una cuenta de Data Lake Analytics.

[2] El rendimiento de PolyBase se puede aumentar mediante la inserción de cálculo en Hadoop y el uso de grupos de escalado horizontal de PolyBase para permitir la transferencia de datos paralela entre instancias de SQL Server y nodos de Hadoop.

Interfaces gráficas, sincronización de datos y canalizaciones de datos

Capacidad Explorador de Azure Storage Azure Portal* Data Factory Data Box Gateway
Optimizado para macrodatos No No
Copiar a base de datos relacional No No No
Copiar de base de datos relacional No No No
Copiar a Blob Storage No
Copiar de Blob Storage No No
Copiar a Data Lake Storage No No No
Copiar de Data Lake Storage No No No
Cargar en Blob Storage
Cargar en Data Lake Storage
Orquestar las transferencias de datos No No No
Personalizar las transformaciones de datos No No No
Modelo de precios Gratuito Gratuito Pago por uso Pago por unidad

* En este caso, Azure Portal representa las herramientas de exploración basada en web para Blob Storage y Data Lake Storage.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes