Introducción a la migración de cintas en Azure Storage

Artigo
06/17/2024

Este artículo se centra en las migraciones de cintas. Tiene como objetivo simplificar, proporcionar instrucciones y consideraciones para ejecutar correctamente una migración de los datos almacenados en varios medios de cinta a los servicios de Azure Storage.

Información general

La cinta almacena una gran parte de los datos del mundo y sigue siendo uno de los tipos dominantes de medios de almacenamiento. Los medios de cinta existen desde hace décadas y se siguen usando mucho con cientos de exabytes de nuevas cintas que se envían cada año.

Las cintas son un excelente medio para almacenar datos en frío. Son rápidas en la lectura secuencial, pero las fases que requieren movimientos mecánicos (como cargar y descargar cintas, buscar cintas, etc.) son más lentas. Esto hace que las cintas no se puedan usar para el acceso tradicional basado en el azar y es la razón principal por la que, incluso en la actualidad, los datos almacenados en cintas rara vez se usan. Además, la cinta es un medio magnético que requiere un manejo especial. Son sensibles al entorno, especialmente a la temperatura y la humedad. Si se mantienen dentro de su rango ambiental operativo, pueden tener una alta durabilidad y una buena tasa de éxito de restauración. Sin embargo, cuando se almacenan en entornos inadecuados, se deterioran a menudo, lo que hace que la cinta sea ilegible.

Muchas partes de las cintas almacenan datos oscuros (datos creados y almacenados, pero que no se usan con ningún propósito). Los datos oscuros no aportan ningún valor al propietario de los datos. Con el aumento de la capacidad de la inteligencia artificial y la accesibilidad, la tendencia está cambiando. Los clientes están estudiando cómo los datos oscuros pueden ayudarles a aumentar la eficiencia, abrir nuevos flujos de ingresos o aumentar su ventaja competitiva. Para aprovechar los datos oscuros, muchas organizaciones se están planteando migrar los datos de cintas al almacenamiento en la nube. El almacenamiento en la nube proporciona una manera sencilla de analizar los datos, extraer el valor empresarial (con servicios como IA, Machine Learning, Azure Search, etc.) o reducir el costo aprovechando el almacenamiento de archivado para la retención a largo plazo.

Algunas de las principales razones por las que estamos viendo un aumento en las migraciones de cintas a la nube son las siguientes:

Extraer el valor empresarial contenido en los datos oscuros,
Reducir el esfuerzo necesario para administrar datos con la retención a largo plazo,
Evitar el proceso de migración de una generación de cintas a otra,
Reducir el riesgo de pérdida de datos, especialmente en el caso de generaciones antiguas de cintas,
Reemplazar las instalaciones de almacenamiento de cintas fuera del sitio,
Simplificar los procesos de recuperación ante desastres,
Aplicar herramientas modernas como la IA y el aprendizaje automático a datos históricos.

Consideraciones

Antes de iniciar un proceso de migración de cintas, se deben tener en cuenta las opciones. La primera consideración es decidir quién va a ejecutar la migración. Normalmente se usan dos opciones:

Migración realizada por el cliente, en la que el cliente ejecuta la migración de un extremo a otro,
Asociado de migración de cintas, en la que el cliente envía las cintas al asociado y el asociado ejecuta el proceso de migración.

Enfoque	Ventajas	Desventajas
Migración realizada por el cliente	- Los datos nunca abandonan el sitio. - No se requiere logística para enviar las cintas.	- Se requieren recursos de hardware. - Ofrece más trabajo al personal. - Requiere conocimientos específicos sobre la gestión de cintas. - Posibles costos desconocidos.
Asociado de migración de cintas	- Precios sencillos y costes conocidos por adelantado (se paga por cinta). - No tiene impacto en la producción. - No tiene impacto en el personal.	- Se requiere logística para enviar las cintas. - Hay consideraciones de seguridad necesarias debido al envío de las cintas. - Se necesitan varias copias para la disponibilidad de datos durante la migración.

Hay varias consideraciones importantes que pueden guiar fácilmente nuestra decisión sobre quién puede ejecutar la migración (el cliente o el asociado).

Recursos

Los recursos son la parte más crítica del proceso de migración de cintas y se dividen en las siguientes categorías:

Category	Notas
Contactos	- Se requieren conjuntos específicos de aptitudes. - El proceso es laborioso.
Hardware	- Las diferentes generaciones de cintas requieren un tipo diferente de hardware. - La velocidad de la migración es proporcional a las unidades disponibles y al ancho de banda de red.
Software	- Se necesita acceso al software que creó los datos. - Se necesita acceso a las claves de cifrado.

El hardware suele ser la parte más difícil. Si se trata de migrar generaciones de cintas existentes, el hardware está disponible, pero se usa como parte de la producción existente. Sin embargo, en el caso de las generaciones de cintas más antiguas, el hardware suele estar al final de su vida útil y es más difícil adquirirlo. Con las generaciones de cintas más antiguas, usar un asociado de migración de cintas es una opción preferida y más sencilla. Cuando se usa hardware de producción para las migraciones, se necesita una planeación cuidadosa para asegurarse de que la migración no interfiere con las cargas de trabajo de producción. Aquí podemos aplicar tres modelos diferentes:

Usar hardware dedicado para la migración: es el modelo de migración más sencillo y es fácil de programar y planear sin ningún impacto en la producción. Aumenta el coste para la adquisición del hardware (si aún no está disponible) y provoca un bajo uso del hardware después de la migración.
Ejecutar la migración fuera de las horas de trabajo en el hardware de producción: este modelo de migración no tiene ningún impacto en la producción. Requiere una programación compleja, ejecución y personas que trabajen fuera de las horas de trabajo. Solo es posible si el hardware de producción no se utiliza de manera ininterrumpida.
Ejecutar la producción y la migración juntas: es el modelo de migración menos recomendable, ya que puede afectar fácilmente a la producción. Este modelo reduce el hardware disponible para producción y requiere una programación compleja y planificación. Si se usa este modelo, los procesos relacionados con la reducción del impacto en la producción son fundamentales para mantener bajo control la escala de tiempo de la migración. Este modelo solo se recomienda cuando el hardware de producción se usa poco.

Opciones de transferencia de datos

Una vez leídos los datos de las cintas, deben moverse a Azure Storage. Los datos se pueden mover mediante la red o dispositivos sin conexión, como Azure Data Box. Algunos de los parámetros que influyen en la elección de las opciones de transferencia de datos son los siguientes:

Ancho de banda de red disponible
La escala de tiempo necesaria para finalizar la migración.
La frecuencia de los cambios de datos.

Obtenga más información sobre las instrucciones para seleccionar la opción óptima aquí. La transferencia de red es más sencilla y es la opción preferida. También es posible combinar la red y el método sin conexión, pero requiere más planeación para asegurarse de que los datos migrados no se superponen.

Si no hay recursos disponibles para realizar la migración, independientemente del tipo de recurso, la única opción es usar un asociado de migración de cintas. En ese caso, se puede elegir entre dos opciones:

Migración realizada en el sitio del cliente: el asociado de migración de cintas envía el hardware, contrata personal y realiza el trabajo en la ubicación del cliente. El cliente debe proporcionar acceso a las cintas, un espacio dedicado al equipo, conexiones de red y acceso al servicio Azure Storage. El asociado es responsable de todas las demás actividades.
Migración realizada en el sitio del asociado: el cliente envía las cintas al asociado y proporciona acceso al servicio Azure Storage. El asociado de migración de cintas realiza todo el trabajo para migrar los datos de las cintas a Azure Storage.

La segunda opción es más fácil y se usa con más frecuencia. Los asociados de migración de cintas tienen instalaciones diseñadas y equipadas para realizar la migración de cintas a gran escala. Esta opción también reduce el riesgo y la escala de tiempo, ya que los asociados tienen más recursos de hardware disponibles. La migración en el sitio del cliente solo se usa cuando la seguridad y los problemas de privacidad no permiten al cliente enviar las cintas al asociado.

Hay varios asociados que pueden realizar migraciones de cintas a Azure. Puede encontrar la lista completa de asociados en importación de medios sin conexión.

Aquí tiene un diagrama de flujo sencillo para facilitar el proceso de selección. Gráfico que muestra el proceso de selección de migración de cintas.

Formato de datos

El formato de datos tiene un gran impacto en el diseño de la migración y es la consideración fundamental para poder usar los datos con facilidad en el futuro. Los datos se pueden almacenar en un formato nativo o de su propiedad. Los formatos de su propiedad se almacenan normalmente como cintas virtuales. El formato nativo requiere restaurar los archivos de las cintas y almacenarlos como archivos o objetos.

Modelo	Ventajas	Desventajas
Cintas virtuales	- Migración más sencilla y rápida. - Puede volver a crear medios de cinta idénticos como el original. - No es necesario tener acceso al software original para escribir los datos.	- Requiere mantener el inventario de las cintas virtuales. - Los datos almacenados en un formato dependiente de la aplicación requieren software original para restaurar los datos. - Sin restauración, los datos no son accesibles para los servicios de Azure (AI/ML).
Archivos nativos	- Los archivos son accesibles para cualquier aplicación y servicio (AI/ML). - Es posible monetizar los datos. - No es necesario tener acceso al software original para realizar restauraciones.	- La migración es más compleja. - Es necesario tener acceso al software original para escribir los datos.

El criterio principal para decidir el formato es la forma en que planeamos usar los datos. Si los datos solo se migran para la retención a largo plazo, las cintas virtuales son una buena opción. En cualquier otro caso, es preferible almacenar datos en formato nativo. Esto permite un uso sencillo de los datos en el futuro y abre muchas posibilidades con el análisis de datos.

Proceso de migración

Una vez que hemos tomado decisiones sobre la ejecución de la migración y el formato de datos preferido, podemos empezar con la migración. La migración pasa por varias fases. Diagrama que muestra las fases de la migración de cintas.

Fase de información

La fase de información es fundamental para recopilar los requisitos clave. La información recopilada guía el diseño correcto y la planificación. Aunque se puede actualizar cierta información en fases posteriores, proporcionar información precisa permite sentar las bases y evita tener que realizar cambios enormes en el proceso. Algunas de las preguntas clave que es necesario responder en esta fase son las siguientes:

¿Qué tipo de cintas se deben migrar (por ejemplo, LTO3, LTO6, 3592JC, etc.)?
¿Qué cantidad de cintas para cada modelo que se deben migrar (por ejemplo, 100xLTO3, 200xLTO6, etc.)?
¿Qué software se usó para escribir los datos en las cintas? ¿Sigue estando disponible dicho software?
¿Qué formato se usa para escribir los datos en las cintas? ¿Se trata de un formato abierto o propietario? ¿Se aplica la compresión?
¿Se usó el cifrado? En caso afirmativo, ¿cuál es la opción más segura para intercambiar claves de cifrado?
¿Cuál es la región de destino?
¿Qué servicio de almacenamiento se usa?
¿Qué requisitos normativos son críticos (HIPAA, RGPD, etc.)? ¿Es obligatoria la cadena de custodia?
¿Cuál es la fecha límite de la migración? ¿Hay algún hito crítico?
¿Cuánto ancho de banda de red hay disponible para la migración?
¿Dónde se almacenan físicamente las cintas? ¿Se pueden enviar?
¿Ya tiene valores hash para todos los archivos? En caso afirmativo, ¿qué algoritmo hash se usa?
¿Se necesitan cintas después de la migración?
¿Cómo se deben mantener la temperatura y la humedad de las cintas durante la migración o el transporte?
¿Quiénes son las principales partes interesadas?

Fase de preparación

Después de recopilar la información básica, podemos prepararnos para la migración. La fase de preparación puede incluir muchos pasos diferentes, pero hay algunos pasos comunes por los que la mayoría de las migraciones pasan:

El análisis de datos proporciona información sobre los datos que se deben migrar. La información es fundamental para calcular la rapidez con la que se pueden leer los datos de las cintas y la cantidad de paralelismo que se debe lograr para finalizar correctamente la migración antes de la fecha límite. Afecta a las estimaciones sobre el hardware necesario (bibliotecas, robots, unidades). El análisis de datos se realiza mediante el muestreo de varias cintas que representan el conjunto de datos que se va a migrar. La información típica que buscamos es la siguiente:
- tamaños de archivo,
- cantidad de datos almacenados por cinta,
- número de archivos por cinta,
- tamaños mínimos y máximos de archivo,
- tipos de archivo.
La calidad de los datos ayuda a calcular el conjunto de datos final y único que se debe migrar. Uno de los problemas más comunes de la migración de cintas es la duplicación de datos. La migración de cintas es el momento ideal para limpiar los datos duplicados. Este proceso mejora la calidad de los datos para su uso futuro y reduce el coste y la duración de la migración.
La priorización de datos determina el orden en el que se pueden migrar los datos. Lo ideal es conseguir un streaming directo desde cada cinta en lugar de leer aleatoriamente archivos de diferentes cintas (para no tener que cargar, descargar y buscar cintas constantemente). Con este enfoque se logra el mayor rendimiento posible y siempre es la ruta de migración más rápida. La priorización de datos tiene en cuenta los requisitos empresariales y la viabilidad técnica para lograr los mejores resultados.
El diseño de la migración incluye todos los aspectos técnicos de la migración y la información recopilada para formar un proceso de migración final. Se trata de un documento escrito que constituye la fuente de la verdad para las etapas restantes. Debe contener al menos lo siguiente:
- un proceso de migración claro y una fecha límite de la migración,
- requisitos de personal y hardware,
- infraestructura y diseño de red,
- consideraciones de seguridad,
- instrucciones sobre cómo tratar las cintas ilegibles,
- roles y responsabilidades, etc.

Fase de migración

Una vez que el diseño de la migración sea final, se inicia el proceso de migración. Antes de aumentar el ritmo de la migración al máximo, siempre se realiza una prueba con una muestra más pequeña. El objetivo de la prueba es asegurarse de que el proceso funciona de un extremo a otro. Esto permite realizar ajustes y mejorar el proceso. Una vez que la prueba se realiza correctamente y estamos satisfechos con los resultados, ejecutamos la migración. La fase de migración es ligeramente diferente si se usan archivos nativos o cintas virtuales. En ambos casos, es un proceso repetitivo que pasa por todas las cintas y lee todo su contenido. En este diagrama de flujo se muestra la fase de migración al migrar a archivos nativos. Diagrama de flujo que muestra los detalles de una fase de migración.

Validación de datos

En cada archivo que se migre, es necesario realizar la validación de datos para asegurarse de que los datos no se dañaron durante el proceso de migración. La validación de datos se realiza comparando los valores hash antes de la migración y después de la migración. Hay muchos tipos de algoritmos hash que se pueden usar. Un enfoque común es usar MD5, ya que Azure Storage contiene un campo de metadatos predefinido Content-MD5 que se puede rellenar durante la migración. Este enfoque permite comprobar el mismo valor MD5 cuando se accede a los datos para validar que los datos no han cambiado ni se han dañado. En una situación ideal, los datos de origen ya contienen valores hash que se pueden comparar fácilmente con los valores hash después de la migración. Si no existen hashes, deben calcularse antes de migrar el archivo. Si los hashes coinciden, el archivo se marca como migrado. Si no es así, el archivo se descarta y se vuelve a migrar. A veces, los datos están dañados en las cintas de origen. Tener los valores hash originales ayuda a detectar esos casos poco frecuentes. Si suceden, podemos leer los datos de la copia secundaria, si esta existe. El proceso de validación de datos es un componente crítico para un diseño de migración. Se debe definir el proceso para controlar la validación con errores. La fase de migración también se supervisa constantemente para asegurarnos de que podemos reaccionar ante una situación impredecible y adaptarnos a ella. Los informes periódicos a las principales partes interesadas son importantes para mantener la migración según lo planeado.

Fase posterior a la migración

Después de realizar la migración, todavía hay un par de pasos que debemos tener en cuenta antes de cerrar correctamente el proyecto de migración. Es necesario eliminar el hardware usado para la migración, si ya no es necesario. La pregunta más importante es cómo eliminar las cintas. La eliminación de cintas es un proceso de dos pasos. Si las cintas almacenan información confidencial (que suele ser el caso), primero deben desimantarse. Desimantar las cintas garantiza que todos los datos se eliminen magnéticamente de los medios. Después de la eliminación, las cintas deben destruirse correctamente y reciclarse. Si usamos un asociado de migración de cintas, también podemos permitir que el asociado elimine de forma segura las cintas.

Compartir por