Migración de datos de Hadoop locales a Azure Data Lake Storage Gen2 con WANdisco LiveData Platform para Azure
WANdisco LiveData Platform para Azure migra petabytes de datos de Hadoop locales a sistemas de archivos de Azure Data Lake Storage Gen2 sin interrumpir las operaciones de los datos ni requerir tiempo de inactividad. Las comprobaciones continuas de la plataforma impiden que los datos se pierdan y, al mismo tiempo, mantienen la coherencia en ambos extremos de la transferencia, aunque se someta a modificaciones.
La plataforma consta de dos servicios. LiveData Migrator para Azure migra los datos que se usan activamente desde entornos locales a Azure Storage y LiveData Plane para Azure garantiza que todos los datos modificados o los datos de ingesta se replique de manera coherente.
Administre ambos servicios mediante Azure Portal y la CLI de Azure. Cada servicio sigue el mismo modelo de facturación de pago por uso medido que todos los demás servicios de Azure: el consumo de datos en la plataforma de LiveData para Azure aparecerá en la factura mensual de Azure, en la que se proporcionarán métricas de uso.
A diferencia de la migración de datos sin conexión mediante la copia de información estática en Azure Data Box o mediante herramientas de Hadoop como DistCp, puede mantener el funcionamiento completo de los sistemas de negocios durante la migración en línea con WANdisco LiveData para Azure. Mantenga sus entornos de macrodatos funcionando incluso mientras mueve sus datos a Azure.
Ventajas clave de WANdisco LiveData Platform para Azure
El motor de consenso compatible con redes de áreas extensas de WANdisco LiveData Platform para Azure logra la coherencia de los datos y realiza una replicación de datos en tiempo real a gran escala. Para más información, vea este vídeo:
Entre las ventajas calve de la plataforma se incluyen las siguientes:
Precisión de los datos: la validación de los datos de un extremo a otro evita que se pierdan datos y garantiza que los datos transferidos sean adecuados para su uso.
Coherencia de los datos: mantenga los volúmenes de datos coherentes de manera automática entre los distintos entornos, incluso mientras están sometidos a cambios continuos.
Eficiencia de los datos: transfiera volúmenes de datos de gran tamaño de manera continua con control total del consumo de ancho de banda.
Eliminación del tiempo de inactividad: cree, modifique, lea y elimine datos libremente con otras aplicaciones durante la migración, sin necesidad de interrumpir las operaciones empresariales mientras se realiza la transferencia de datos a Azure. Puede continuar ejecutando las aplicaciones, la infraestructura de análisis, los trabajos de ingesta y otros tipos de procesamiento.
Uso sencillo: utilice la integración con Azure de Platform para crear, configurar y programar el progreso de las migraciones automatizadas, además de hacer un seguimiento de ellas. Además, configure la replicación selectiva de datos, los metadatos de Hive, la seguridad de los datos y la confidencialidad según sea necesario.
Características clave de WANdisco LiveData Platform para Azure
Entre las principales características de la plataforma se incluyen las siguientes:
Migración de metadatos: además de los datos de HDFS, migre metadatos (de Hive y otros almacenamientos) con LiveData Migrator para Azure.
Transferencia de datos: utilice LiveData Migrator para Azure para controlar y automatizar cuándo se iniciará la transferencia de datos, lo que elimina la necesidad de migrar manualmente los cambios en los datos.
Kerberos: LiveData Migrator para Azure admite clústeres de Kerberos.
Plantillas de exclusión: cree reglas en LiveData Migrator para Azure a fin de evitar que se migren determinados tamaños o nombres de archivo (definidos mediante patrones globales) al almacenamiento de destino. Cree plantillas de exclusión en Azure Portal o con la CLI y aplíquelas a la cantidad de migraciones que desee.
Asignaciones de ruta de acceso: defina rutas de acceso de destino alternativas para sistemas de archivo de destino determinados, los que trasladarán automáticamente los datos transferidos a los directorios que especifique.
Administración del ancho de banda: configure la cantidad máxima de ancho de banda de red que LiveData Migrator para Azure puede utilizar para evitar el consumo excesivo de este ancho de banda.
Exclusiones: defina las consultas de plantilla que impidan migran cualquier archivo y directorio que cumpla con los criterios, lo que le permite migrar datos de manera selectiva desde su sistema de origen.
Métricas: consulte los detalles sobre la transferencia de datos en LiveData Migrator para Azure, por ejemplo, los archivos transferidos en el tiempo, las rutas de acceso excluidas, los elementos que no se pudieron transferir y mucho más.
Migración de macrodatos con mayor rapidez sin riesgo
El primer servicio incluido en WANDISCO LiveData Platform para Azure es LiveData Migrator para Azure, que migra los datos desde entornos locales a Azure Storage. Una vez que implemente LiveData Migrator en el clúster de Hadoop local, se creará automáticamente la mejor configuración para su sistema de archivos. Desde allí, proporcione los detalles de Kerberos para el sistema. LiveData Migrator para Azure estará listo para migrar datos a Azure Storage.
Antes de empezar a trabajar con LiveData Migrator para Azure, revise estos requisitos previos.
Para realizar una migración:
En la CLI de Azure:
- Ejecute
az provider register --namespace Wandisco.Fusion --consent-to-permissions
en la CLI de Azure para registrarse en el proveedor de recursos de WANdisco. - Ejecute
az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>
para aceptar los términos y condiciones de la facturación de uso medido de LiveData Platform.
- Ejecute
Implemente una instancia de LiveData Migrator de Azure Portal en el clúster de Hadoop local. (No es necesario que realice ningún cambio en el clúster ni que lo reinicie).
Nota:
WANdisco LiveData Migrator para Azure ofrece la opción de crear un clúster de prueba de Hadoop.
Si corresponde, configure los detalles de Kerberos.
Defina la cuenta de almacenamiento de destino habilitada para Azure Data Lake Storage Gen2.
Defina la ubicación de los datos que quiere migrar; por ejemplo,
/user/hive/warehouse
.Inicio de la migración
Supervise el progreso de la migración a través de herramientas estándar de Azure, como la CLI de Azure y Azure Portal.
Replicación bidireccional de datos bajo cambio activo con LiveData Plane para Azure
El segundo servicio incluido en LiveData Platform es LiveData Plane para Azure. LiveData Plane utiliza el motor de coordinación de WANdisco para mantener la coherencia de los datos en muchos clústeres de Hadoop locales y Azure Storage mediante la aplicación inteligente de cambios a los datos en todos los sistemas, lo que quita el riesgo de conflictos de datos en distintos puntos de uso.
Después de la migración inicial, mantenga la coherencia de los datos con LiveData Plane para Azure:
Implemente LiveData Plane para Azure en el entorno local y en Azure, empezando por Azure Portal. No es necesario que haga ningún cambio en la aplicación.
Configure las reglas de replicación que cubren las ubicaciones de datos de las cuales quiera mantener la coherencia; por ejemplo,
/user/contoso/sales/region/WA
.Ejecute aplicaciones que accedan a los datos y los modifiquen en cualquier ubicación según sea necesario.
LiveData Plane para Azure replica de manera coherente los cambios de datos en todos los entornos sin afectar significativamente el rendimiento de las aplicaciones o el funcionamiento del clúster.
Versión de prueba o evaluación
En la página de LiveData Platform para Azure en Marketplace, tiene dos opciones:
El botón Obténgalo ahora inicia el servicio en su suscripción. Desde allí, puede utilizar su propio clúster de Hadoop o el clúster de evaluación de WANdisco.
Seleccione Versión de prueba para probar LiveData Migrator para Azure en un entorno preconfigurado y hospedado para usted. Esto le permite probar LiveData Migrator para Azure antes de agregarlo a la suscripción, sin ningún costo ni riesgo para los datos.