Partilhar via


Confiabilidade em arquivos NetApp do Azure

O Azure NetApp Files é uma solução nativa de armazenamento de ficheiros de nível empresarial que se integra perfeitamente no Azure e permite a partilha de ficheiros entre clientes através dos protocolos Network File System (NFS) e Server Message Block (SMB). O Azure NetApp Files foi projetado para alto desempenho e fornece armazenamento de arquivos escalável e seguro que é gerenciado como um serviço.

Quando você usa o Azure, a confiabilidade é uma responsabilidade compartilhada. A Microsoft fornece uma variedade de recursos para oferecer suporte à resiliência e à recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve como tornar os ficheiros NetApp resilientes a uma variedade de potenciais falhas e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode usar backups para recuperar de outros tipos de problemas e destaca algumas informações chave sobre o acordo de nível de serviço (SLA) Azure NetApp Files.

Recomendações de implantação de produção

Para saber como implantar os Arquivos NetApp do Azure para dar suporte aos requisitos de confiabilidade da sua solução e como a confiabilidade afeta outros aspetos da sua arquitetura, consulte Práticas recomendadas de arquitetura para Arquivos NetApp do Azure no Azure Well-Architected Framework.

Visão geral da arquitetura de confiabilidade

Para usar os Arquivos NetApp do Azure, você deve configurar uma conta NetApp que contenha pools de capacidade que hospedam volumes. Você pode configurar a capacidade e a taxa de transferência de forma independente e gerenciar opções de proteção de dados que atendam a várias necessidades. Você pode habilitar a replicação entre volumes, mesmo que eles estejam em locais diferentes.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.

Todos os aplicativos hospedados na nuvem devem seguir as diretrizes de tratamento de falhas transitórias do Azure quando se comunicam com quaisquer APIs, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.

Além dos tipos de falhas transitórias que podem afetar qualquer solução baseada em nuvem, a manutenção planejada ocasional, como atualizações de plataforma, atualizações de serviço e atualizações de software, também pode afetar os Arquivos NetApp do Azure.

Do ponto de vista de um protocolo de arquivo, como NFS e SMB, as falhas transitórias não causam interrupções se o aplicativo puder lidar com as pausas de entrada/saída (E/S) que podem ocorrer durante esses eventos. As pausas de E/S são normalmente curtas, variando de alguns segundos a 30 segundos. Alguns aplicativos podem exigir ajuste para lidar com as pausas de E/S.

O protocolo NFS é robusto e as operações de arquivo cliente-servidor geralmente continuam normalmente. Alguns aplicativos podem exigir ajuste para lidar com pausas de E/S por até 30 a 45 segundos. Certifique-se de estar ciente das configurações de resiliência do aplicativo para lidar com os eventos de manutenção do serviço de armazenamento.

Para aplicativos human-interativos que usam o protocolo SMB, as configurações de protocolo padrão geralmente são suficientes. Os Arquivos NetApp do Azure também dão suporte à disponibilidade contínua do SMB, o que habilita o Failover Transparente do SMB. O Failover Transparente SMB elimina as interrupções causadas por eventos de manutenção de serviço. Também melhora a fiabilidade e a experiência do utilizador.

A disponibilidade contínua do SMB só está disponível para aplicações específicas.

Para obter mais recomendações, consulte Perguntas frequentes sobre resiliência de aplicativos para arquivos NetApp do Azure.

Resiliência a falhas na zona de disponibilidade

As zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.

Os Arquivos NetApp do Azure dão suporte a implantações zonais de volumes. Use o recurso de posicionamento de volume da zona de disponibilidade nos Arquivos NetApp do Azure para implantar cada volume em uma única zona de disponibilidade de sua escolha. Você pode usar esse recurso somente se os Arquivos NetApp do Azure estiverem presentes nessa zona de disponibilidade e tiverem capacidade suficiente. Se você tiver aplicativos sensíveis à latência, poderá implantar um volume na mesma zona de disponibilidade que seus recursos de computação do Azure e outros serviços.

No diagrama a seguir, as setas laranja com pontas de seta sólidas representam como todas as máquinas virtuais (VMs) dentro da região em redes virtuais emparelhadas podem acessar todos os recursos do Azure NetApp Files. As setas verdes representam como as VMs que acessam os volumes dos Arquivos NetApp do Azure na mesma zona compartilham o domínio de falha da zona de disponibilidade. Não há replicação entre os diferentes volumes no nível da plataforma.

Diagrama que mostra o posicionamento do volume da zona de disponibilidade dos Arquivos NetApp do Azure.

O diagrama mostra três zonas de disponibilidade em uma região do Azure. Setas de cor laranja com pontas sólidas conectam ícones que representam VMs e recursos do Azure NetApp Files em diferentes zonas de disponibilidade. As setas verdes conectam volumes de VMs e Arquivos NetApp do Azure na mesma zona de disponibilidade.

Uma implantação de zona única não é suficiente para atender aos requisitos de alta confiabilidade. Para replicar dados de forma assíncrona entre volumes em diferentes zonas de disponibilidade, você pode usar a replicação entre zonas. Você deve configurar a replicação entre zonas separadamente do posicionamento de volume da zona de disponibilidade.

Se uma zona de disponibilidade falhar, você será responsável por detetar a falha e alternar para um volume alternativo em uma zona diferente.

Suporte de região

A replicação entre zonas está disponível em todas as regiões habilitadas para zona de disponibilidade que oferecem suporte aos Arquivos NetApp do Azure.

Considerações

  • O posicionamento do volume da zona de disponibilidade nos Arquivos NetApp do Azure fornece o posicionamento do volume zonal. Você verá baixa latência quando se conectar a VMs dentro da mesma zona de disponibilidade. No entanto, o posicionamento do volume da zona de disponibilidade não fornece posicionamento de proximidade com VMs ou outros recursos, e o volume pode estar em uma parte física diferente do datacenter.

  • A replicação é permitida entre diferentes assinaturas do Azure somente se elas estiverem dentro do mesmo locatário do Microsoft Entra.

  • Para obter mais considerações sobre zonas de disponibilidade nos Arquivos NetApp do Azure, consulte Requisitos e considerações sobre o uso da replicação entre zonas e Gerenciar o posicionamento do volume da zona de disponibilidade.

Custo

Não há cobrança extra para habilitar o posicionamento de volume da zona de disponibilidade nos Arquivos NetApp do Azure. Você paga apenas pelos pools de capacidade e recursos implantados nessas zonas.

Os volumes replicados são hospedados em um pool de capacidade. O custo da replicação entre zonas baseia-se no tamanho e no nível do pool de capacidade provisionada. Não há custo extra para a replicação de dados.

Configurar o suporte à zona de disponibilidade

Você precisa configurar separadamente o posicionamento do volume e a replicação entre zonas.

Comportamento quando todas as zonas estão íntegras

Esta seção descreve o que esperar quando vários volumes do Azure NetApp Files são implantados em zonas de disponibilidade separadas, a replicação entre zonas está habilitada e todas as zonas de disponibilidade estão operacionais.

  • Roteamento de tráfego entre zonas: As solicitações de entrada são roteadas para o volume específico, que está localizado na zona de disponibilidade selecionada.

  • Replicação de dados entre zonas: A replicação entre zonas dos Arquivos NetApp do Azure significa que todas as alterações no volume de origem são replicadas de forma assíncrona para os volumes de destino. Você pode decidir com que frequência a replicação acontece. A replicação entre zonas oferece suporte a três agendamentos de replicação: a cada 10 minutos, a cada hora e diariamente.

    Importante

    O agendamento de replicação de 10 minutos não é suportado para grandes volumes que usam replicação entre zonas.

Comportamento durante uma falha de zona

Esta seção descreve o que esperar quando vários volumes do Azure NetApp Files são implantados em zonas de disponibilidade separadas, a replicação entre zonas é habilitada e há uma interrupção da zona de disponibilidade.

  • Deteção e resposta: Você é responsável por detetar a perda de uma zona de disponibilidade e iniciar um failover.

    O failover é um processo manual. Quando precisar ativar o volume de destino, como quando quiser fazer failover para a zona de disponibilidade de destino, será necessário interromper o emparelhamento de replicação e, em seguida, montar o volume de destino. Para obter mais informações, consulte failover para o volume de destino.

  • Notificação: Para monitorizar o estado do volume do Azure NetApp Files, pode usar métricas Azure Monitor. O Azure Monitor deteta quaisquer anomalias que indiquem um cenário de redução de zona através de métricas em tempo real, tais como operações de entrada/saída por segundo (IOPS), latência e utilização da capacidade. Você pode configurar alertas e notificações para enviar aos administradores para que eles possam responder imediatamente reequilibrando compartilhamentos de arquivos ou iniciando failover ou outros protocolos de recuperação de desastres.

  • Solicitações ativas: Durante um evento de zone-down, as solicitações ativas podem sofrer interrupções ou latências aumentadas.

  • Perda de dados esperada: A quantidade de perda de dados, ou RPO (Recovery Point Objetive, objetivo de ponto de recuperação), que você pode esperar durante um failover de zona depende do agendamento de replicação entre zonas que você configurar.

    Cronograma de replicação RPO típico
    A cada 10 minutos 20 minutos
    Por hora Duas horas
    Diariamente Menos de 48 horas
  • Tempo de inatividade esperado: O failover para outra zona requer que você quebre a relação de emparelhamento para ativar o volume de destino e fornecer acesso a dados de leitura e gravação no segundo site. Depois de acionar a interrupção do emparelhamento, você pode esperar que o failover seja concluído em um minuto.

    No entanto, a quantidade total de tempo de inatividade, ou RTO (Recovery Time Objetive, objetivo de tempo de recuperação), que você pode esperar durante um failover de zona depende de vários fatores, incluindo quanto tempo leva para seus sistemas ou processos detetarem a perda da zona e iniciarem processos de failover. Também é importante decidir se deseja automatizar sua resposta ou se as etapas manuais são necessárias. Para configurações bem preparadas, o processo geral normalmente requer de alguns minutos a uma hora para ser concluído.

  • Reencaminhamento do tráfego: Você é responsável por redirecionar o tráfego do aplicativo para se conectar ao volume de destino recém-ativo. Para obter mais informações, consulte failover para o volume de destino.

Recuperação de zona

O failback é um processo manual que requer que você execute uma operação de ressincronização, restabeleça a replicação e remonte o volume de origem para o cliente acessar. Para obter mais informações, consulte Gerenciar a recuperação de desastres usando arquivos NetApp do Azure.

Teste de falhas de zona

Você pode testar sua configuração de replicação entre zonas com segurança usando instantâneos do seu volume. Para saber mais sobre uma abordagem de alto nível para testar sua configuração de replicação entre zonas, consulte Testar recuperação de desastres para arquivos NetApp do Azure.

Resiliência a falhas em toda a região

Por padrão, os Arquivos NetApp do Azure são um serviço de região única. Se a região ficar indisponível, os volumes armazenados nessa região também ficarão indisponíveis. Para melhorar a resiliência se ocorrer uma interrupção regional, os Arquivos NetApp do Azure oferecem suporte à replicação entre regiões. Você pode replicar dados de forma assíncrona de um volume de Arquivos NetApp do Azure (a origem) em uma região para outro volume de Arquivos NetApp do Azure (o destino) em outra região pré-selecionada pela Microsoft. Esse recurso permite que você faça failover de seu aplicativo crítico se ocorrer uma interrupção ou desastre em toda a região.

Observação

Você também pode replicar um único volume para outra zona de disponibilidade e para outra região. Para obter mais informações, consulte Compreender a replicação de arquivos NetApp do Azure.

Suporte de região

A região secundária para a qual você pode replicar seus volumes depende da região primária. Para obter mais informações, consulte Pares de regiões suportados.

Considerações

A replicação é permitida entre diferentes assinaturas do Azure somente se elas estiverem dentro do mesmo locatário do Microsoft Entra.

Para obter outras considerações relacionadas à replicação entre regiões nos Arquivos NetApp do Azure, consulte Requisitos e considerações sobre o uso da replicação entre regiões.

Custo

As cobranças de replicação entre regiões são baseadas na quantidade de dados replicados. Para obter mais informações e alguns cenários de exemplo, consulte Modelo de custo para replicação entre regiões.

Configurar suporte a várias regiões

Comportamento quando todas as regiões estão saudáveis

Esta seção descreve o que esperar quando os volumes do Azure NetApp Files são configurados para usar replicação entre regiões e ambas as regiões estão operacionais.

  • Roteamento de tráfego entre regiões: As solicitações de entrada são roteadas para o volume específico, que está localizado na região primária.

  • Replicação de dados entre regiões: A replicação entre regiões dos Arquivos NetApp do Azure significa que todas as alterações no volume de origem são replicadas de forma assíncrona para os volumes de destino. Você pode decidir com que frequência a replicação acontece. A replicação entre regiões oferece suporte a três agendamentos de replicação: a cada 10 minutos, de hora em hora e diariamente.

    Importante

    O agendamento de replicação de 10 minutos não é suportado para grandes volumes que usam replicação entre regiões.

  • Monitore a integridade da replicação: Você pode monitorar a integridade da relação de emparelhamento e configurar alertas para notificá-lo se o atraso de replicação aumentar além do limite esperado. Para saber mais, consulte Exibir integridade e monitorar o status da relação de replicação.

Comportamento durante uma interrupção regional

Esta seção descreve o que esperar quando os volumes dos Arquivos NetApp do Azure são configurados para usar replicação entre regiões e há uma interrupção da região primária.

  • Deteção e resposta: Você é responsável por detetar a perda de uma região e iniciar um failover. O failover é um processo manual. Quando precisar ativar o volume de destino, como quando quiser fazer failover para a região de destino, será necessário interromper o emparelhamento de replicação e, em seguida, montar o volume de destino. Para obter mais informações, consulte failover para o volume de destino.

  • Notificação: Para monitorizar o estado do volume do Azure NetApp Files, pode usar métricas Azure Monitor. O Azure Monitor deteta quaisquer anomalias que indiquem um cenário de desativação da região através de métricas em tempo real, tais como IOPS, latência e utilização da capacidade. Você pode configurar alertas e notificações para enviar aos administradores para que eles possam responder imediatamente reequilibrando compartilhamentos de arquivos ou iniciando failover ou outros protocolos de recuperação de desastres.

  • Solicitações ativas: Durante um evento de redução de região, as solicitações ativas podem sofrer interrupções ou latências aumentadas.

  • Perda de dados esperada: A quantidade de perda de dados, ou RPO, que você pode esperar durante um failover de região depende do agendamento de replicação entre regiões que você configurar.

    Cronograma de replicação RPO típico
    A cada 10 minutos Menos de 20 minutos
    Por hora Menos de duas horas
    Diariamente Menos de 48 horas
  • Tempo de inatividade esperado: O failover para outra região exige que você quebre a relação de emparelhamento para ativar o volume de destino e fornecer acesso a dados de leitura e gravação no segundo site. Depois de acionar a interrupção do emparelhamento, você pode esperar que o failover seja concluído em um minuto.

    No entanto, a quantidade total de tempo de inatividade, ou RTO, que você pode esperar durante um failover de zona depende de vários fatores, incluindo quanto tempo leva para seus sistemas ou processos detetarem a perda da zona e iniciarem processos de failover. Também é importante decidir se deseja automatizar sua resposta ou se as etapas manuais são necessárias. Para configurações bem preparadas, o processo geral normalmente requer de alguns minutos a uma hora para ser concluído.

  • Reencaminhamento do tráfego: Você é responsável por redirecionar o tráfego do aplicativo para se conectar ao volume de destino recém-ativo. Para obter mais informações, consulte failover para o volume de destino.

Recuperação da região

Uma vez que a região principal se recupere, você será responsável pelo failback. O failback é um processo manual que requer que você execute uma operação de ressincronização, restabeleça a replicação e remonte o volume de origem para o cliente acessar. Para obter mais informações, consulte Gerenciar a recuperação de desastres usando arquivos NetApp do Azure.

Teste para falhas regionais

Você pode testar sua configuração de replicação entre regiões com segurança usando instantâneos do seu volume. Para saber mais sobre uma abordagem de alto nível para testar sua configuração de replicação entre regiões, consulte Testar recuperação de desastres para arquivos NetApp do Azure.

Backup e restauração

O backup do Azure NetApp Files expande os recursos de proteção de dados do Azure NetApp Files fornecendo uma solução de backup totalmente gerenciada para recuperação, arquivamento e conformidade de longo prazo. Os backups criados pelo serviço são armazenados no armazenamento do Azure, independentemente dos instantâneos de volume disponíveis para recuperação ou clonagem de curto prazo. Os backups que o serviço realiza podem ser restaurados para novos volumes de Arquivos NetApp do Azure dentro da região. O backup dos Arquivos NetApp do Azure dá suporte a backups baseados em políticas (agendados) e backups manuais (sob demanda).

Para maior segurança, os instantâneos dos Arquivos NetApp do Azure adicionam estabilidade, escalabilidade e capacidade de recuperação rápida sem afetar o desempenho. Eles fornecem a base para outras soluções de redundância, incluindo backup, replicação entre regiões e replicação entre zonas.

Para a maioria das soluções, você não deve confiar exclusivamente em backups. Em vez disso, use os outros recursos descritos neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não oferecem. Para obter mais informações, consulte O que são redundância, replicação e backup?.

Contrato de nível de serviço

O contrato de nível de serviço (SLA) para serviços do Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para atingir essa expectativa de disponibilidade. Para obter mais informações, consulte Acordos de Nível de Serviço (SLAs) para serviços online.