Fiabilidade para o Azure Private 5G Core

Este artigo descreve o suporte de confiabilidade no Azure Private 5G Core. Ele abrange tanto a resiliência regional com zonas de disponibilidade quanto a recuperação de desastres entre regiões e a continuidade de negócios. Para obter uma visão geral da confiabilidade no Azure, consulte Confiabilidade do Azure.

Suporte à zona de disponibilidade

As zonas de disponibilidade do Azure são pelo menos três grupos fisicamente separados de datacenters em cada região do Azure. Os datacenters dentro de cada zona são equipados com infraestrutura independente de energia, resfriamento e rede. No caso de uma falha de zona local, as zonas de disponibilidade são projetadas de modo que, se uma zona for afetada, os serviços regionais, a capacidade e a alta disponibilidade sejam suportados pelas duas zonas restantes.

As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é alcançada com redundância e isolamento lógico dos serviços do Azure. Para obter informações mais detalhadas sobre zonas de disponibilidade no Azure, consulte Regiões e zonas de disponibilidade.

Os serviços habilitados para zonas de disponibilidade do Azure são projetados para fornecer o nível certo de confiabilidade e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ser redundantes de zona, com replicação automática entre zonas, ou zonais, com instâncias fixadas a uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre arquitetura zonal versus arquitetura com redundância de zona, consulte Recomendações para usar zonas e regiões de disponibilidade.

O serviço Azure Private 5G Core é implantado automaticamente como redundante de zona em regiões do Azure que oferecem suporte a zonas de disponibilidade, conforme listado em Serviço de zona de disponibilidade e suporte regional. Se uma região suportar zonas de disponibilidade, todos os recursos do Azure Private 5G Core criados numa região podem ser geridos a partir de qualquer uma das zonas de disponibilidade.

Nenhum trabalho adicional é necessário para configurar ou gerenciar zonas de disponibilidade. O failover entre zonas de disponibilidade é automático.

Pré-requisitos

Consulte Produtos disponíveis por região para as regiões do Azure onde o Azure Private 5G Core está disponível.

Experiência de zoneamento

Em um cenário de interrupção em toda a zona, os usuários não devem sofrer nenhum impacto porque o serviço será movido para aproveitar a zona íntegra automaticamente. No início de uma interrupção em toda a zona, você pode ver solicitações ARM em andamento expirarem ou falharem. Novas solicitações serão direcionadas para nós íntegros com impacto zero nos usuários e quaisquer operações com falha devem ser repetidas. Você ainda poderá criar novos recursos e atualizar, monitorar e gerenciar os recursos existentes durante a interrupção.

Técnicas de implementação seguras

O aplicativo garante que todo o estado da nuvem seja replicado entre as zonas de disponibilidade na região para que todas as operações de gerenciamento continuem sem interrupção. O núcleo do pacote está sendo executado na borda e não é afetado pela falha da zona, portanto, continuará a fornecer serviço para os usuários.

Recuperação de desastres entre regiões e continuidade de negócios

A recuperação de desastres (DR) consiste na recuperação de eventos de alto impacto, como desastres naturais ou implantações com falha que resultam em tempo de inatividade e perda de dados. Independentemente da causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que suporte ativamente a DR. Antes de começar a pensar em criar seu plano de recuperação de desastres, consulte Recomendações para projetar uma estratégia de recuperação de desastres.

Quando se trata de DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços da plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente ou recorrem de uma região com falha para replicação cruzada para outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de plataforma como serviço (PaaS) do Azure fornecem recursos e orientação para dar suporte à DR e você pode usar recursos específicos do serviço para dar suporte à recuperação rápida para ajudar a desenvolver seu plano de DR.

O Azure Private 5G Core só está disponível em regiões geográficas de várias regiões (3+N). O serviço replica automaticamente as credenciais do SIM para uma região de backup na mesma geografia. Isso significa que não há perda de dados em caso de falha da região. Dentro de quatro horas após a falha, todos os recursos na região com falha estarão disponíveis para exibição por meio do portal do Azure e das ferramentas ARM, mas serão somente leitura até que a região com falha seja recuperada. O núcleo do pacote em execução na borda continua a operar sem interrupção e a conectividade de rede será mantida.

A Microsoft é responsável pela deteção, notificação e suporte de interrupções para os aspetos de nuvem do Azure do serviço Azure Private 5G Core.

Deteção, notificação e gerenciamento de interrupções

A Microsoft monitora os recursos subjacentes que fornecem o serviço Azure Private 5G Core em cada região. Se esses recursos começarem a mostrar falhas ou alertas de monitoramento de integridade que não estão restritos a uma única zona de disponibilidade, a Microsoft moverá o serviço para outra região com suporte na mesma geografia. Este é um padrão Ativo-Ativo. A integridade do serviço para uma região específica pode ser encontrada no Azure Service Health (o Azure Private 5G Core está listado na seção Rede ). Você será notificado de quaisquer falhas de região por meio dos canais de comunicação normais do Azure.

O serviço replica automaticamente as credenciais do SIM de propriedade do serviço para a região de backup usando gravações multirregionais do Cosmos DB, para que não haja perda de dados em caso de falha da região.

Os recursos do Azure Private 5G Core implantados na região com falha se tornarão somente leitura, mas os recursos em todas as outras regiões continuarão a operar sem serem afetados. Se você precisar ser capaz de escrever recursos o tempo todo, siga as instruções em Configurar recuperação de desastres e deteção de interrupção para executar sua própria operação de recuperação de desastres e configurar o serviço em outra região.

O núcleo do pacote em execução na borda continua a operar sem interrupção e a conectividade de rede será mantida.

Configurar a recuperação de desastres e a deteção de interrupções

Esta seção descreve a ação que você pode tomar para garantir que tenha um plano de gerenciamento totalmente ativo para o serviço Azure Private 5G Core no caso de uma falha de região. Isso é necessário se você quiser ser capaz de modificar seus recursos no caso de uma falha de região.

Observe que isso causará uma interrupção do serviço principal do pacote e interromperá a conectividade de rede com suas UEs por até oito horas, portanto, recomendamos que você use este procedimento apenas se tiver um motivo crítico para os negócios para gerenciar recursos enquanto a região do Azure estiver inativa.

Antes de um evento de recuperação de desastre, você deve fazer backup de sua configuração de recursos em outra região que ofereça suporte ao Azure Private 5G Core. Quando ocorre uma falha de região, você pode reimplantar o núcleo do pacote usando os recursos em sua região de backup.

Preparação

Há dois tipos de dados de configuração do Azure Private 5G Core que precisam de backup para recuperação de desastres: configuração de rede móvel e credenciais do SIM. É recomendável que:

  • Atualize as credenciais do SIM na região de backup sempre que adicionar novos SIMs à região principal
  • Faça backup da configuração de rede móvel pelo menos uma vez por semana, ou com mais frequência se você estiver fazendo alterações frequentes ou grandes na configuração, como a criação de um novo site.

Configuração de rede móvel

Siga as instruções em Mover recursos para uma região diferente para exportar sua configuração de recursos do Azure Private 5G Core e carregá-la para a nova região . Recomendamos que você use um novo grupo de recursos para sua configuração de backup para separá-lo claramente da configuração ativa. Você deve dar novos nomes aos recursos para distingui-los dos recursos em sua região primária. Essa nova região é um backup passivo, portanto, para evitar conflitos, você ainda não deve vincular a configuração do núcleo do pacote ao seu hardware de borda. Em vez disso, armazene os valores do campo packetCoreControlPlanes.platform para cada núcleo de pacote em um local seguro que possa ser acessado por quem executará o procedimento de recuperação (como uma conta de armazenamento referenciada pela documentação interna).

Dados SIM

Por motivos de segurança, o Azure Private 5G Core nunca retornará as credenciais do SIM fornecidas ao serviço como parte da criação do SIM. Portanto, não é possível exportar a configuração do SIM da mesma forma que outros recursos do Azure. Recomendamos que, sempre que novos SIMs forem adicionados ao serviço principal, os mesmos SIMs também sejam adicionados ao serviço de backup, repetindo o processo Provisionar novos SIMs para a rede móvel de backup.

Outros recursos

Sua implantação do Azure Private 5G Core pode usar os Cofres de Chaves do Azure para armazenar chaves de criptografia SIM ou certificados HTTPS para monitoramento local. Você deve seguir a documentação do Cofre de Chaves do Azure para garantir que suas chaves e certificados estejam disponíveis na região de backup.

Recuperação

No caso de uma falha de região, primeiro valide se todos os recursos em sua região de backup estão presentes consultando a configuração por meio do portal ou API do Azure (consulte Mover recursos para uma região diferente). Se todos os recursos não estiverem presentes, pare aqui e não siga o resto deste procedimento. Talvez não seja possível recuperar o serviço no site de borda sem a configuração do recurso.

O processo de recuperação é dividido em três estágios para cada núcleo de pacote:

  1. Desconecte o dispositivo Azure Stack Edge da região com falha executando uma redefinição
  2. Conectar o dispositivo Azure Stack Edge à região de backup
  3. Reinstale e valide a instalação.

Você deve repetir esse processo para cada núcleo de pacote em sua rede móvel.

Atenção

O procedimento de recuperação causará uma interrupção do serviço de núcleo de pacote e interromperá a conectividade de rede com suas UEs por até oito horas para cada núcleo de pacote. Recomendamos que você execute este procedimento apenas quando tiver uma necessidade crítica para os negócios de gerenciar a implantação do Azure Private 5G Core por meio do Azure durante a falha da região.

Desconecte o dispositivo Azure Stack Edge da região com falha

O dispositivo Azure Stack Edge está atualmente executando o software de núcleo do pacote e é controlado a partir da região com falha. Para desconectar o dispositivo Azure Stack Edge da região com falha e remover o núcleo do pacote em execução, você deve seguir as instruções de redefinição e reativação em Redefinir e reativar seu dispositivo Azure Stack Edge. Observe que isso removerá TODO o software atualmente em execução em seu dispositivo Azure Stack Edge, não apenas o software do núcleo do pacote, portanto, certifique-se de que você tenha a capacidade de reinstalar qualquer outro software no dispositivo. Isso iniciará uma interrupção de rede para todos os dispositivos conectados ao núcleo do pacote neste dispositivo Azure Stack Edge.

Conectar o dispositivo Azure Stack Edge à nova região

Siga as instruções em Comissionar o cluster AKS para reimplantar o cluster do Serviço Kubernetes do Azure em seu dispositivo Azure Stack Edge. Certifique-se de usar um nome diferente para essa nova instalação para evitar conflitos quando a região com falha se recuperar. Como parte desse processo, você obterá uma nova ID de local personalizada para o cluster, que deve ser anotada.

Reinstalação e validação

Faça uma cópia dos valores packetCoreControlPlanes.platform armazenados em Preparation e atualize o campo packetCoreControlPlane.platform.customLocation com o ID de local personalizado que você anotou acima. Verifique se packetCoreControlPlane.platform.azureStackEdgeDevice corresponde à ID do dispositivo Azure Stack Edge no qual você deseja instalar o núcleo do pacote. Agora siga Modificar um núcleo de pacote para atualizar o núcleo do pacote de backup com os valores da plataforma. Isso acionará uma implantação de núcleo de pacote no dispositivo Azure Stack Edge.

Você deve seguir seu processo normal de validação de uma nova instalação do site para confirmar que a conectividade UE foi restaurada e que todas as funcionalidades da rede estão operacionais. Em particular, você deve confirmar se os painéis do site no portal do Azure mostram registros da UE e se os dados estão fluindo pelo plano de dados.

Região com falha restaurada

Quando a região com falha se recuperar, você deve garantir que a configuração nas duas regiões esteja sincronizada executando um backup da região de backup ativa para a região primária recuperada, seguindo as etapas em Preparação.

Você também deve verificar e remover todos os recursos na região recuperada que não foram destruídos pelas etapas anteriores:

  • Para cada dispositivo Azure Stack Edge que você moveu para a região de backup (seguindo as etapas em Recuperação), você deve localizar e excluir o recurso de cluster ARC antigo. A ID deste recurso está no campo packetCoreControlPlane.platform.customLocation dos valores dos quais você fez backup em Preparação. O estado desse recurso será desconectado porque o cluster Kubernetes correspondente foi excluído como parte do processo de recuperação.
  • Para cada núcleo de pacote que você moveu para a região de backup (seguindo as etapas em Recuperação), você deve localizar e excluir quaisquer objetos NFM na região recuperada. Eles serão listados no mesmo grupo de recursos que os recursos do plano de controle do núcleo do pacote e o valor Region corresponderá à região recuperada.

Em seguida, você tem duas opções para o gerenciamento contínuo:

Testar

Se quiser testar seus planos de recuperação de desastres, você pode seguir o procedimento de recuperação para um único núcleo de pacote a qualquer momento. Observe que isso causará uma interrupção de serviço do seu serviço de núcleo de pacote e interromperá a conectividade de rede com suas UEs por até quatro horas, portanto, recomendamos fazer isso apenas com implantações de núcleo de pacote que não sejam de produção ou em um momento em que uma interrupção não afetará negativamente seus negócios.

Próximos passos