Migración de Azure Data Lake Storage Gen1 a Gen2 mediante Azure Portal

En este artículo se muestra cómo simplificar la migración mediante Azure Portal.

Nota:

Azure Data Lake Storage Gen1 ahora se ha retirado. Consulte el anuncio de retirada aquí. Ya no se puede acceder a los recursos de Data Lake Storage Gen1. Si necesita asistencia especial, por favor póngase en contacto con nosotros.

En este vídeo se explica más sobre el tema.

     Capítulos:


  • 00.37 - Introducción

  • 01:16 - Preparación para la migración

  • 07:15 - Copia de la migración

  • 17:40 - Copia frente a migración completa

  • 19:43 - Migración completa

  • 33:15 - Después de la migración

Antes de empezar, asegúrese de leer las instrucciones generales sobre cómo migrar de Gen1 a Gen2 en Instrucciones y patrones de migración de Azure Data Lake Storage.

Es posible que la cuenta no cumpla los requisitos para la migración basada en el portal debido a determinadas restricciones. Cuando el botón Migrar datos no está habilitado en Azure Portal de la cuenta de Gen1, si tiene un plan de soporte técnico, puede presentar una solicitud de soporte técnico. También puede obtener respuestas de expertos de la comunidad en Preguntas y respuestas de Microsoft.

Nota:

Para facilitar la lectura, en este artículo se usa el término Gen1 para hacer referencia a Azure Data Lake Storage Gen1 y el término Gen2 para hacer referencia a Azure Data Lake Storage Gen2.

Paso 1: Creación de una cuenta de almacenamiento con funcionalidades de Gen2

Azure Data Lake Storage Gen2 no es un tipo de servicio o una cuenta de almacenamiento dedicados. Es un conjunto de funcionalidades que puede obtener habilitando la característica Espacio de nombres jerárquico de una cuenta de almacenamiento de Azure. Para crear una cuenta que tenga funcionalidades de Gen2, consulte Creación de una cuenta de almacenamiento para usarla con Azure Data Lake Storage Gen2.

A medida que cree la cuenta, asegúrese de configurar las opciones con los valores siguientes.

Configuración Valor
Nombre de cuenta de almacenamiento El nombre que prefiera. Este nombre no tiene que coincidir con el nombre de la cuenta de Gen1 y puede estar en cualquier suscripción de su elección.
Ubicación La misma región usada por la cuenta de Data Lake Storage Gen1.
Replicación LRS o ZRS.
Versión de TLS mínima 1.0
NFS v3 Disabled
Espacio de nombres jerárquico habilitado

Nota:

La herramienta de migración de Azure Portal no mueve la configuración de la cuenta. Por lo tanto, después de crear la cuenta, tendrá que configurar manualmente opciones como cifrado, firewalls de red y protección de datos.

Importante

Asegúrese de que usa una cuenta de almacenamiento nueva y recién creada que no tenga historial de uso. No migre a una cuenta que se haya usado anteriormente ni use una cuenta en la que se hayan eliminado los contenedores para vaciarla.

Paso 2: Comprobación de las asignaciones de roles de control de acceso basado en roles de Azure (RBAC de Azure)

Para Gen2, asegúrese de que el rol Propietario de datos de Storage Blob se haya asignado a la identidad de usuario de Microsoft Entra en el ámbito de la cuenta de almacenamiento, el grupo de recursos principal o la suscripción.

Para Gen1, asegúrese de que el rol Propietario se haya asignado a la identidad de usuario de Microsoft Entra en el ámbito de la cuenta de Gen1, el grupo de recursos principal o la suscripción.

Paso 3: Migración de cargas de trabajo de Azure Data Lake Analytics

Azure Data Lake Storage Gen2 no admite Azure Data Lake Analytics. Azure Data Lake Analytics se retirará el 29 de febrero de 2024. Si intenta usar Azure Portal para migrar una cuenta de Azure Data Lake Storage Gen1 que se usa para Azure Data Lake Analytics, es posible que interrumpa las cargas de trabajo de Azure Data Lake Analytics. Primero debe migrar las cargas de trabajo de Azure Data Lake Analytics a Azure Synapse Analytics u otra plataforma de proceso compatible antes de intentar migrar la cuenta de Gen1.

Para más información, vea Administración de Azure Data Lake Analytics mediante Azure Portal.

Paso 4: Preparación de la cuenta de Gen1

Los nombres de archivos o directorios que solo contienen espacios o tabulaciones, terminan en ., contienen : o tienen varias barras diagonales consecutivas (//) no son compatibles con Gen2. Antes de realizar la migración, debe cambiar el nombre de estos archivos o directorios.

Para mejorar el rendimiento, considere la posibilidad de retrasar la migración durante al menos diez días desde el momento de la última operación de eliminación. En una cuenta de Gen1, los archivos eliminados se convierten en archivos de eliminación temporal. El recolector de elementos no utilizados no los quitará permanentemente hasta siete días y tardará unos días adicionales en procesar la limpieza. El tiempo necesario para la limpieza dependerá del número de archivos. Todos los archivos, incluidos los archivos eliminados temporalmente, se procesan durante la migración. Si espera hasta que el recolector de elementos no utilizados haya eliminado permanentemente los archivos, el tiempo de espera puede mejorar.

Paso 5: Realización de la migración

Antes de comenzar, revise las dos opciones de migración siguientes y decida si solo debe copiar datos de Gen1 a Gen2 (recomendado), o bien realizar una migración completa.

Opción 1: Copiar solo datos (recomendado). En esta opción, los datos se copian de Gen1 a Gen2. A medida que se copian los datos, la cuenta de Gen1 se convierte en de solo lectura. Una vez que se copien los datos, se podrá acceder a las cuentas de Gen1 y Gen2. Pero debe actualizar las aplicaciones y las cargas de trabajo de proceso para usar el nuevo punto de conexión de Gen2.

Opción 2: Realización de una migración completa. En esta opción, los datos se copian de Gen1 a Gen2. Una vez se copien los datos, todo el tráfico de la cuenta de Gen1 se redirigirá a la cuenta habilitada para Gen2. Las solicitudes redirigidas usan la capa de compatibilidad de Gen1 para traducir las llamadas API de Gen1 a las equivalentes de Gen2. Durante la migración, la cuenta de Gen1 pasa a ser de solo lectura. Una vez que se complete la migración, no se podrá acceder a la cuenta de Gen1.

Con independencia de la opción que elija, después de haber migrado y comprobado que todas las cargas de trabajo funcionan según lo previsto, puede eliminar la cuenta de Gen1.

Opción 1: Copia de datos de Gen1 a Gen2

  1. Inicie sesión en Azure Portal para empezar a trabajar.

  2. Busque la cuenta de Data Lake Storage Gen1 y muestre la información general.

  3. Seleccione el botón Migrar datos.

    Screenshot of the button to migrate.

  4. Seleccione Copy data to a new Gen2 account (Copiar los datos en una nueva cuenta de Gen2).

    Screenshot of the copy data option.

  5. Para dar consentimiento a Microsoft para realizar la migración de datos, active la casilla. Después, seleccione el botón Aplicar.

    Screenshot of the checkbox to provide consent.

    Aparece una barra de progreso junto con un mensaje de subestado. Puede usar estos indicadores para medir el progreso de la migración. Dado que el tiempo para completar cada tarea varía, la barra de progreso no avanzará a una velocidad coherente. Por ejemplo, la barra de progreso puede avanzar rápidamente al 50 por ciento, pero después tardar un poco más en completar el 50 por ciento restante.

    Screenshot of progress bar when migrating data.

    Importante

    Mientras se migran los datos, la cuenta de Gen1 pasa a ser de solo lectura y la cuenta habilitada para Gen2 está deshabilitada. Una vez finalizada la migración, puede leer y escribir en ambas cuentas.

    Puede detener la migración en cualquier momento seleccionando el botón Detener migración.

    Screenshot of the stop migration option.

Opción 2: Realización de una migración completa

  1. Inicie sesión en Azure Portal para empezar a trabajar.

  2. Busque la cuenta de Data Lake Storage Gen1 y muestre la información general.

  3. Seleccione el botón Migrar datos.

    Screenshot of the migrate button.

  4. Seleccione Complete migration to a new Gen2 account (Finalizar la migración en una nueva cuenta de Gen2).

    Screenshot of the complete migration option.

  5. Para dar consentimiento a Microsoft para realizar la migración de datos, active la casilla. Después, seleccione el botón Aplicar.

    Screenshot of the consent checkbox.

    Aparece una barra de progreso junto con un mensaje de subestado. Puede usar estos indicadores para medir el progreso de la migración. Dado que el tiempo para completar cada tarea varía, la barra de progreso no avanzará a una velocidad coherente. Por ejemplo, la barra de progreso puede avanzar rápidamente al 50 por ciento, pero después tardar un poco más en completar el 50 por ciento restante.

    Screenshot of progress bar when performing a complete migration.

    Importante

    Mientras se migran los datos, la cuenta de Gen1 pasa a ser de solo lectura y la cuenta habilitada para Gen2 está deshabilitada.

    Mientras se redirige el URI de Gen1, ambas cuentas están deshabilitadas.

    Cuando finalice la migración, se deshabilitará la cuenta de Gen1. Los datos de la cuenta de Gen1 no serán accesibles y se eliminarán después de 30 días. La cuenta de Gen2 estará disponible para lecturas y escrituras.

    Puede detener la migración en cualquier momento antes de que se redirija el URI seleccionando el botón Detener migración.

    Screenshot of the migration stop button.

Paso 6: Comprobar que la migración se completó

Si la migración se completa correctamente, se creará un contenedor llamado gen1 en la cuenta habilitada para Gen2 y se copiarán todos los datos de la cuenta de Gen1 en este nuevo contenedor gen1. Para encontrar los datos en una ruta de acceso que existía en Gen1, debe agregar el prefijo gen1/ a la misma ruta de acceso para acceder a ellos en Gen2. Por ejemplo, una ruta de acceso llamada "FolderRoot/FolderChild/FileName.csv" en Gen1 estará disponible en "gen1/FolderRoot/FolderChild/FileName.csv" en Gen2. No se puede cambiar el nombre de los contenedores en Gen2, por lo que no se puede cambiar el nombre de este contenedor gen1 en Gen2 después de la migración. No obstante, los datos se pueden copiar en un nuevo contenedor de Gen2 si es necesario.

Si la migración no se completa correctamente, aparece un mensaje que indica que la migración se detiene debido a incompatibilidades. Si desea obtener ayuda con el paso siguiente, póngase en contacto con el Soporte técnico de Microsoft. Este mensaje puede aparecer si la cuenta habilitada para Gen2 se usó anteriormente o cuando los archivos y directorios de la cuenta de Gen1 usan convenciones de nomenclatura incompatibles.

Antes de ponerse en contacto con el soporte técnico, asegúrese de que usa una cuenta de almacenamiento nueva y recién creada que no tiene historial de uso. Evite migrar a una cuenta que se haya usado anteriormente o a una cuenta en la que se hayan eliminado los contenedores para vaciarla. En la cuenta de Gen1, asegúrese de cambiar el nombre de los nombres de archivo o directorio que contengan solo espacios o pestañas, que terminen con un ., que contengan : o que contengan varias barras diagonales (//).

Paso 7: Migración de cargas de trabajo y aplicaciones

  1. Configure los servicios de las cargas de trabajo para que apunten a su punto de conexión de Gen2. Para obtener vínculos a artículos que le ayudan a configurar HDInsight, Azure Databricks y otros servicios de Azure para usar Gen2, vea Servicios de Azure que admiten Azure Data Lake Storage Gen2.

  2. Actualice las aplicaciones para que usen las API de Gen2. Consulte estas guías:

    Entorno Artículo
    Explorador de Azure Storage Uso del Explorador de Azure Storage para administrar directorios y archivos en Azure Data Lake Storage Gen2
    .NET Uso de .NET para administrar directorios y archivos en Azure Data Lake Storage Gen2
    Java Uso de Java para administrar directorios y archivos en Azure Data Lake Storage Gen2
    Python Uso de Python para administrar directorios y archivos en Azure Data Lake Storage Gen2
    JavaScript (Node.js) Uso de JavaScript en Node.js para administrar directorios y archivos en Azure Data Lake Storage Gen2
    API DE REST API REST de Azure Data Lake Storage
  3. Actualice los scripts para usar los cmdlets de PowerShell y los comandos de la CLI de Azure de Data Lake Storage Gen2.

  4. Busque referencias del identificador URI que contengan la cadena adl:// en los archivos de código o en los cuadernos de Databricks, archivos HQL de Apache Hive o cualquier otro archivo que se use como parte de las cargas de trabajo. Sustituya estas referencias por el identificador URI con formato de Gen2 de la nueva cuenta de almacenamiento. Por ejemplo: el identificador URI de Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile podría convertirse en abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Capa de compatibilidad de Gen1

Esta capa intenta proporcionar compatibilidad de aplicaciones entre Gen1 y Gen2 como comodidad durante la migración, de modo que las aplicaciones puedan seguir usando las API de Gen1 para interactuar con los datos de la cuenta habilitada para Gen2. Esta capa tiene funcionalidad limitada y se recomienda validar las cargas de trabajo con cuentas de prueba si se usa este enfoque como parte de la migración. La capa de compatibilidad se ejecuta en el servidor, por lo que no hay nada que instalar.

Importante

Microsoft no recomienda esta funcionalidad como sustituto para migrar las cargas de trabajo y las aplicaciones. El soporte técnico con la capa de compatibilidad de Gen1 finalizará cuando se retire Gen1 el 29 de febrero de 2024.

Para encontrar el menor número de problemas con la capa de compatibilidad, asegúrese de que los SDK de Gen1 usan las siguientes versiones (o superiores).

Lenguaje Versión del SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

La siguiente funcionalidad no se admite en la capa de compatibilidad.

  • Opción API ListStatus para enumerar antes de una entrada.

  • ListStatus API con más de 4000 archivos sin un token de continuación.

  • Codificación de fragmentos para operaciones de anexado.

  • Cualquier llamada API que use https://management.azure.com/ como audiencia del token de Microsoft Entra.

  • Nombres de archivos o directorios con solo espacios o tabulaciones, que terminan en ., que contienen :, o con varias barras diagonales consecutivas (//).

Preguntas más frecuentes

¿Cuánto tiempo tardará la migración?

Los datos y los metadatos se migran en paralelo. El tiempo total necesario para completar una migración dependerá del tiempo necesario para que se completen estos dos procesos.

En la tabla siguiente, se muestra la velocidad aproximada de cada tarea de procesamiento de migración.

Nota:

Estas estimaciones de tiempo son aproximadas y pueden variar. Por ejemplo, copiar un gran número de archivos pequeños puede ralentizar el rendimiento.

Tarea de procesamiento Velocidad
Copia de datos 9 TB por hora
Validación de datos 9 millones de archivos o carpetas por hora
Copia de metadatos 4 millones de archivos o carpetas por hora
Procesamiento de metadatos 25 millones de archivos o carpetas por hora
Procesamiento de metadatos adicionales (opción de copia de datos)1 50 millones de archivos o carpetas por hora

1 El tiempo de procesamiento de metadatos adicional solo se aplica si elige la opción Copiar datos en una nueva cuenta de Gen2. Este tiempo de procesamiento no se aplica si elige la opción Completar migración a una nueva cuenta de Gen2.

Ejemplo: Procesamiento de una gran cantidad de datos y metadatos

En este ejemplo, se supone que hay 300 TB de datos y 200 millones de datos y elementos de metadatos.

Tarea Tiempo estimado
Copia de datos 300 TB / 9 TB = 33.33 horas
Validación de datos 200 millones / 9 millones = 22.22 horas
Tiempo total de migración de datos 33.33 + 22.2 = 55.55 horas
Copiar metadatos 200 millones / 4 millones = 50 horas
Procesamiento de metadatos 200 millones / 25 millones = 8 horas
Procesamiento de metadatos adicional: solo opción de copia de datos 200 millones / 50 millones = 4 horas
Tiempo total de migración de metadatos 50 + 8 + 4 = 62 horas
Tiempo total para realizar una migración de solo datos 62 horas
Tiempo total para realizar una migración completa 62 - 4 = 58 horas
Ejemplo: Procesamiento de una pequeña cantidad de datos y metadatos

En este ejemplo, se supone que se trata de 2 TB de datos y 56 mil elementos de datos y metadatos.

Tarea Tiempo estimado
Copia de datos (2 TB / 9 TB) * 60 minutos = 13.3 minutos
Validación de datos (56 000 / 9 millones) * 3600 segundos = 22.4 segundos
Tiempo total de migración de datos 13.3 minutos + 22.4 segundos = aproximadamente, 14 minutos
Copiar metadatos (56 000 / 4 millones) * 3600 segundos = aproximadamente, 51 segundos
Procesamiento de metadatos 56 000/ 25 millones = 8 segundos
Procesamiento de metadatos adicional: solo opción de copia de datos (56 000 / 50 millones) * 3600 segundos = 4 segundos
Tiempo total de migración de metadatos 51 + 8 + 4 = 63 segundos
Tiempo total para realizar una migración de solo datos 14 minutos
Tiempo total para realizar una migración completa 14 minutos - 4 segundos = 13 minutos y 56 segundos (aproximadamente, 14 minutos)

¿Cuánto cuesta la migración de datos?

No hay ningún costo para usar la herramienta de migración basada en el portal, pero se le facturará por el uso de los servicios de Azure Data Lake Gen1 y Gen2. Durante la migración de datos, se le facturará el almacenamiento y las transacciones de datos de la cuenta de Gen1.

Después de la migración, si ha elegido la opción que copia solo los datos, se le facturará el almacenamiento y las transacciones de datos de las dos cuentas de Azure Data Lake Gen1 y Gen2. Para evitar la facturación por la cuenta de Gen1, elimínela después de actualizar las aplicaciones para que apunten a Gen2. Si ha optado por realizar una migración completa, solo se le facturará por el almacenamiento y las transacciones de datos de la cuenta habilitada para Gen2.

Asegúrese de que todas las cuentas de Azure Data Lake Analytics se migran a Azure Synapse Analytics u otra plataforma de proceso compatible. Una vez que se migren las cuentas de Azure Data Lake Analytics, vuelva a intentar el consentimiento. Si ve el problema después y tiene un plan de soporte técnico, puede presentar una solicitud de soporte técnico. También puede obtener respuestas de expertos de la comunidad en Preguntas y respuestas de Microsoft.

Una vez que finaliza la migración, ¿se puede volver a usar la cuenta de Gen1?

Si usó la Opción 1: Copia de datos de Gen1 a Gen2 mencionada anteriormente, las cuentas de Gen1 y Gen2 están disponibles para lecturas y escrituras después de la migración. Sin embargo, si usó la Opción 2: Realización de una migración completa, no se admite volver a la cuenta de Gen1. En la opción 2, una vez completada la migración, los datos de la cuenta de Gen1 no serán accesibles y se eliminarán después de 30 días. Puede seguir visualizando la cuenta de Gen1 en Azure Portal y, cuando esté listo, eliminar la cuenta de Gen1.

Me gustaría habilitar el almacenamiento con redundancia geográfica (GRS) en la cuenta habilitada para Gen2. ¿Cómo se hace?

Una vez finalizada la migración, en las opciones "Copiar datos" y "Completar la migración", puede continuar y cambiar la opción de redundancia a GRS siempre que no planee usar la capa de compatibilidad de aplicaciones. La compatibilidad de aplicaciones no funcionará en cuentas que usen redundancia GRS.

Gen1 no tiene contenedores y Gen2 los tiene, ¿qué debo esperar?

Cuando se copian los datos en la cuenta habilitada para Gen2, se crea automáticamente un contenedor denominado "Gen1". En Gen2 no se pueden cambiar los nombres de los contenedores y, por tanto, los datos posteriores a la migración se pueden copiar en el nuevo contenedor de Gen2 según sea necesario.

¿Qué debo tener en cuenta en términos de rendimiento de la migración?

Al copiar los datos en su cuenta de Gen2, dos factores que pueden afectar el rendimiento son el número de archivos y la cantidad de metadatos que tiene. Por ejemplo, muchos archivos pequeños pueden afectar el rendimiento de la migración.

¿Serán compatibles las API del sistema de archivos WebHDFS en la cuenta de Gen2 después de la migración?

Las API del sistema de archivos WebHDFS de Gen1 se admitirán en Gen2, pero con ciertas desviaciones, y solo se admite la función limitada mediante la capa de compatibilidad. Los clientes deben planificar el uso de las API específicas de Gen2 para mejorar el rendimiento y las características.

¿Qué ocurre con mi cuenta de Gen1 después de la fecha de retirada?

La cuenta deja de estar accesible. No podrá:

  • Administrar la cuenta

  • Acceder a los datos de la cuenta

  • Recibir actualizaciones de servicio a Gen1 o las API de Gen1, SDK o herramientas de cliente

  • Acceso al atención al cliente de Gen1 en línea, por teléfono o por correo electrónico

Consulte Acción requerida: Cambiar a Azure Data Lake Storage Gen2 antes del 29 de febrero de 2024.

Pasos siguientes