Compartilhar via


Visão geral de migração de fitas do Armazenamento do Microsoft Azure

Este artigo se concentra nas migrações de fita. Ele tem como objetivo simplificar, fornecer diretrizes e considerações para executar uma migração bem-sucedida de dados armazenados em várias mídias de fita para os serviços de armazenamento do Azure.

Visão geral

A mídia de fita armazena uma grande parte dos dados de mundos e continua sendo um dos tipos dominantes de mídia de armazenamento. A mídia de fita existe há décadas, e ainda é fortemente usada com centenas de exabytes de novas fitas enviadas todos os anos.

As fitas são um ótimo meio para armazenar dados frios. Elas são rápidos na leitura sequencial, mas os estágios que exigem movimentos mecânicos (como carregamento e descarregamento de fitas, buscas de fita etc.) são mais lentos. Isso torna as fitas inutilizáveis para acesso tradicional e aleatório e é o principal motivo pelo qual até hoje os dados armazenados em fitas raramente são usados. Além disso, a fita é um meio magnético que requer tratamento especial. Elas são sensíveis às condições do ambiente, particularmente temperatura e umidade. Se mantidas dentro de seu intervalo ambiental operacional, elas podem alcançar alta durabilidade e uma boa taxa de sucesso de restauração. No entanto, quando mantida em um ambiente hostil, a deterioração ocorre com frequência e torna a fita ilegível.

Grandes partes das fitas armazenam dados escuros (dados criados e armazenados, mas não usados para nenhuma finalidade). Dados escuros não agregam nenhum valor para o proprietário dos dados. Com o aumento da funcionalidade de IA e a acessibilidade, essa tendência está mudando. Os clientes estão analisando como os dados escuros podem ajudá-los a aumentar a eficiência, abrir novos fluxos de receita ou aumentar sua vantagem competitiva. Para aproveitar os dados escuros, muitas organizações estão considerando migrar os dados de fitas para o armazenamento em nuvem. O armazenamento em nuvem fornece uma maneira fácil de analisar os dados, extrair o valor comercial (com serviços como IA, Machine Learning, Azure Search etc.) ou reduzir o custo aproveitando o armazenamento de arquivamento para retenção de longo prazo.

Alguns dos principais motivos pelos quais estamos vendo o aumento de migrações de dados de fita para a nuvem são:

  • Extrair valor comercial de dados escuros,
  • Reduzir o esforço necessário para gerenciar dados com retenção de longo prazo,
  • Evitar o processo de migração de uma geração de fita para outra,
  • Reduzir o risco de perda de dados, especialmente para gerações mais antigas de fitas,
  • Substituir as instalações externas de armazenamento de fitas,
  • Simplificar processos de recuperação de desastre,
  • Aplicar ferramentas modernas como IA e ML a dados históricos.

Considerações

Antes que um processo de migração de fita seja iniciado, as opções devem ser cuidadosamente consideradas. A primeira consideração é decidir quem executa a migração. Duas opções são comumente usadas:

  • Migração realizada pelo cliente em que o cliente executa a migração de ponta a ponta,
  • Parceiro de migração de fita em que o cliente envia as fitas para o parceiro e o parceiro executa o processo de migração.
Abordagem Vantagens Desvantagens
Migração realizada pelo cliente – Os dados não precisam sair do local da empresa
– Nenhuma logística para o envio de fitas
– Requer recursos de hardware
– Adiciona mais trabalho ao pessoal
– Requer conhecimento específico no tratamento de fitas
– Possíveis custos desconhecidos
Parceiro de migração de fita – Preço simplificado e custo conhecido antecipadamente (pago por fita)
– Nenhum impacto na produção
– Nenhum impacto no pessoal
– Requer logística para o envio de fitas
– Considerações de segurança necessárias devido ao envio de fitas
– Várias cópias necessárias para a disponibilidade de dados durante a migração

Várias considerações importantes podem orientar facilmente nossa decisão sobre quem pode executar a migração, se o cliente ou o parceiro.

Recursos

Os recursos são a parte mais crítica do processo de migração de fita e os dividimos nas seguintes categorias:

Categoria Observações
Pessoas – É necessário um conjunto específico de habilidades
– O processo demanda muita mão de obra
Hardware – Diferentes gerações de fita exigem um tipo diferente de hardware
– A velocidade da migração é proporcional às unidades de disco disponíveis e à largura de banda de rede
Software – É necessário o acesso ao software que criou os dados
– É necessário o acesso às chaves de criptografia

O hardware geralmente é a parte mais desafiadora. Se estivermos migrando gerações de fita existentes, o hardware estará disponível, mas está sendo usado como parte da produção existente. No caso de gerações mais antigas de fitas, o hardware geralmente está no fim da vida útil, e é mais difícil adquirir. Para a gerações mais antigas de fita, usar um parceiro de migração de fita é uma opção preferencial e mais simples. Quando o hardware de produção é usado para migrações, é necessário um planejamento cuidadoso para garantir que a migração não interfira nas cargas de trabalho de produção. Aqui, podemos aplicar três modelos diferentes:

  1. Usar hardware dedicado para migração: modelo de migração mais simples, é fácil de agendar e planejar sem impacto na produção. Ele adiciona custo para adquirir o hardware (se ainda não estiver disponível) e causa uma baixa utilização de hardware após a migração.
  2. Executar a migração com o hardware de produção fora do horário comercial: modelo de migração sem impacto na produção. Requer agendamento complexo, execução e pessoas trabalhando fora do horário comercial. Possível somente se o hardware de produção não for utilizado 24x7.
  3. Executar a produção e a migração em conjunto: modelo de migração menos preferencial, pois pode afetar facilmente a produção. Esse modelo reduz o hardware disponível para produção, requer agendamento complexo e planejamento. Se esse modelo for usado, os processos em torno da redução do impacto na produção serão essenciais para manter a linha do tempo de migração sob controle. Esse modelo é recomendado somente quando o hardware de produção tem baixa utilização.

Opções de transferência de dados

Depois que os dados são lidos das fitas, eles precisam ser movidos para o Armazenamento do Microsoft Azure. Os dados podem ser movidos usando a rede ou dispositivos offline, como o Azure Data Box. Alguns dos parâmetros que afetam a escolha da opção de transferência de dados são:

  • Largura de banda da rede disponível
  • Linha do tempo necessária para concluir a migração
  • Frequência de alterações de dados

Saiba mais sobre as diretrizes para selecionar a opção ideal aqui. A transferência de rede é mais simples e é a opção preferencial. A combinação de rede e método offline também é possível, mas requer mais planejamento para garantir que os dados migrados não se sobreponham.

Se não houver recursos disponíveis para executar a migração, independentemente do tipo de recurso, nossa única opção é usar um parceiro de migração de fita. Nesse caso, podemos escolher entre duas opções:

  1. Migração executada no local do cliente: o parceiro de migração de fita envia o hardware, contrata pessoas e executa o trabalho no local do cliente. O cliente precisa fornecer acesso às fitas, espaço dedicado para o equipamento, conexões de rede e acesso ao serviço de Armazenamento do Microsoft Azure. O parceiro é responsável por todas as outras atividades.
  2. Migração executada no local do parceiro: o cliente envia as fitas para o parceiro e fornece acesso ao serviço de Armazenamento do Microsoft Azure. O parceiro de migração de fita executa todo o trabalho para migrar os dados de fitas para o Armazenamento.

A segunda opção é mais fácil e a mais comumente usada. Os parceiros de migração de fita têm instalações projetadas e equipadas para executar a migração de fita em grande escala. Essa opção também reduz o risco e a linha do tempo, já que os parceiros têm mais recursos de hardware disponíveis. A execução da migração no local do cliente é usada somente quando questões de segurança e privacidade não permitem que o cliente envie as fitas para o parceiro.

Vários parceiros podem executar migrações de fita para o Azure. A lista completa de parceiros pode ser encontrada na importação de mídia offline.

Aqui está um fluxograma simples para facilitar o processo de seleção. Gráfico mostrando o processo de seleção de migração de fita.

Formato de dados

O formato de dados tem um grande impacto no design de migração e é uma consideração vital para a usabilidade de dados futura. Os dados podem ser armazenados em um formato proprietário ou nativo. Formatos proprietários geralmente são armazenados como fitas virtuais. O formato nativo requer restaurar arquivos das fitas e armazená-los como arquivos ou objetos.

Modelar Vantagens Desvantagens
Fitas virtuais – Migração mais fácil e rápida
– Pode recriar mídia de fita idêntica à original
– Não é necessário ter acesso ao software original para gravar os dados
– Requer a manutenção de um inventário de fitas virtuais
– Os dados armazenados no formato dependente do aplicativo exigem software original para restaurar os dados
– Dados não acessíveis pelos serviços do Azure (IA/ML) sem restauração
Arquivos nativos – Arquivos acessíveis por qualquer aplicativo e serviço (IA/ML)
– Dados que podem ser monetizados
– Não é necessário ter acesso ao software original para restaurações
– Migração mais complexa
– Requer acesso ao software original para gravar os dados

O principal critério para decidir o formato é a maneira como planejamos usar os dados. Se os dados forem migrados apenas para retenção de longo prazo, as fitas virtuais serão uma ótima opção. Em qualquer outro caso, armazenar dados em formato nativo é a opção preferencial. Essa opção permite o uso simples de dados no futuro e abre muitas possibilidades de análise de dados.

Processo de migração

Depois de tomarmos decisões sobre a execução da migração e o formato de dados preferencial, podemos começar a migração. A migração passa por várias fases. Diagrama mostrando fases de migração de fita.

Fase de informações

A fase de informações é essencial para reunir os principais requisitos. As informações coletadas orientam o design e o planejamento corretos. Embora algumas informações possam ser atualizadas em estágios posteriores, fornecer informações precisas define o cenário e evita a necessidade de fazer grandes alterações no processo. Algumas das principais perguntas que essa fase precisa responder são:

  • Que tipo de fitas precisam ser migradas (por exemplo, LTO3, LTO6, 3592JC etc.)?
  • Qual quantidade de fitas de cada modelo que precisa ser migrada (por exemplo, 100xLTO3, 200xLTO6 etc.)?
  • Qual software foi usado para gravar os dados nas fitas; esse software ainda está disponível?
  • Qual é o formato usado para gravar os dados nas fitas, o formato é aberto ou proprietário, a compactação é aplicável?
  • A criptografia foi usada e, se sim, qual é a opção mais segura para compartilhar chaves de criptografia?
  • Qual é a região de destino?
  • Qual serviço de armazenamento é usado?
  • Quais requisitos regulatórios são críticos (HIPAA, GDPR etc.)? A cadeia de custódia é obrigatória?
  • Qual é o prazo de migração? Há marcos críticos?
  • Quanto de largura de banda de rede está disponível para migração?
  • Onde as fitas estão armazenadas fisicamente, e elas podem ser enviadas?
  • Você já tem valores de hash para todos os arquivos? Se sim, qual algoritmo de hash é usado?
  • As fitas são necessárias após a migração?
  • Como manter a temperatura e a umidade das fitas durante a migração/transporte?
  • Quem são os principais stakeholders?

Fase de preparação

Depois de coletarmos as informações básicas, podemos nos preparar para a migração. A fase de preparação pode incluir muitas etapas diferentes, mas há algumas etapas comuns pelas quais a maioria das migrações passa:

  1. A análise de dados fornece informações sobre os dados que precisam ser migrados. As informações são essenciais para estimar a rapidez com que os dados podem ser lidos das fitas e a quantidade de paralelismo que precisamos alcançar para concluir a migração com êxito antes do prazo final. Isso afeta as estimativas sobre o hardware necessário (bibliotecas, robôs, unidades de disco). A análise de dados é feita pela amostragem de várias fitas que representam o conjunto de dados a ser migrado. As informações típicas que estamos procurando são:

    • tamanhos de arquivo,
    • quantidade de dados armazenados por fita,
    • número de arquivos por fita,
    • tamanhos mínimos e máximos de arquivo,
    • tipos de arquivo.
  2. A qualidade dos dados ajuda na estimativa do conjunto de dados final e exclusivo que precisa ser migrado. Um dos problemas mais comuns com a migração de fita é a duplicação de dados. A migração de fita é o momento ideal para limpar dados duplicados. Esse processo melhora a qualidade dos dados para uso futuro, reduz o custo e a duração da migração.

  3. A priorização de dados determina a ordem na qual os dados podem ser migrados. O ideal é obter o streaming direto de cada fita em vez de ler aleatoriamente arquivos de fitas diferentes (para evitar carregamento, descarregamento e buscas constantes). Essa abordagem proporciona a taxa de transferência mais alta possível e é sempre o caminho de migração mais rápido. A priorização de dados exige requisitos de negócios e viabilidade técnica para obter os melhores resultados.

  4. O design de migração inclui todos os aspectos técnicos da migração e as informações coletadas para formar um processo de migração final. É um documento escrito que se torna a fonte da verdade para os estágios restantes. Ele deve conter pelo menos:

    • processo de migração claro e prazo de migração,
    • requisitos de hardware e pessoal,
    • infraestrutura e design de rede,
    • considerações de segurança,
    • como lidar com fitas ilegíveis,
    • funções, responsabilidades, etc.

Fase de migração

Quando o design da migração for finalizado, iniciaremos o processo de migração. Antes de aumentar para ritmo total de migração, sempre executamos um teste com uma amostra menor. A meta para o teste é garantir que o processo funcione de ponta a ponta. Isso nos permite fazer ajustes e melhorar o processo. Depois que o teste for bem-sucedido e estivermos satisfeitos com os resultados, executaremos a migração. A fase de migração será ligeiramente diferente se estivermos usando arquivos nativos versus fitas virtuais. Em ambos os casos, é um processo repetitivo que circula por todas as fitas e lê todo o conteúdo. Esse fluxograma mostra a fase de migração ao migrar para arquivos nativos. Fluxograma que mostra detalhes de uma fase de migração.

Validação de dados

Para cada arquivo que migramos, precisamos executar a validação de dados para garantir que os dados não foram corrompidos durante o processo de migração. A validação de dados é feita comparando valores de hash antes da migração e após a migração. Há muitos tipos de algoritmos de hash que podem ser usados. Uma abordagem comum é usar o MD5, pois o Armazenamento do Microsoft Azure contém um campo de metadados Content-MD5 predefinido que pode ser preenchido durante a migração. Essa abordagem permite verificar o mesmo valor MD5 quando acessamos os dados para validar se os dados não foram alterados ou corrompidos. Na situação ideal, os dados de origem já contêm valores de hash que podem ser facilmente comparados aos valores de hash após a migração. Se os hashes não existirem, eles deverão ser calculados antes que o arquivo seja migrado. Se os hashes corresponderem, o arquivo será marcado como migrado. Caso contrário, o arquivo será descartado e migrado novamente. Às vezes, os dados estão corrompidos nas fitas de origem. Ter os valores de hash originais ajuda a capturar esses casos raros. Se eles acontecerem, poderemos ler os dados da cópia secundária se ela existir. O processo de validação de dados é um componente crítico para um design de migração. O processo de tratamento da validação com falha deve ser definido. A fase de migração também é constantemente monitorada para garantir que possamos reagir a uma situação imprevisível e adaptar-se a ela. Relatórios regulares para os principais stakeholders são importantes para manter a migração no caminho certo.

Fase de pós-migração

Depois que a migração for concluída, ainda há algumas etapas que precisamos considerar antes de fechar com êxito o projeto de migração. Precisamos descartar o hardware usado para a migração, se não for mais necessário. A questão mais importante é como descartar as fitas. O descarte de fita é um processo em duas etapas. Se as fitas estiverem armazenando informações pessoais e confidenciais (e normalmente armazenam), elas deverão ser desmagnetizadas primeiro. A desmagnetização garante que todos os dados sejam excluídos magneticamente da mídia. Após a exclusão, as fitas precisam ser devidamente destruídas e recicladas. Se usarmos um parceiro de migração de fita, também podemos permitir que o parceiro descarte as fitas com segurança.

Próximas etapas