Recuperação de banco de dados e continuidade dos negócios – SQL Server

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores

Este artigo fornece uma visão geral das soluções de continuidade dos negócios para alta disponibilidade e recuperação de desastre do SQL Server, no Windows e no Linux.

Todos os que implantam o SQL Server precisam garantir que todas as instâncias críticas do SQL Server e os bancos de dados dentro delas estejam disponíveis quando os usuários comerciais e finais precisarem delas, seja durante o horário comercial regular ou 24 horas por dia. A meta é manter os negócios em funcionamento com o mínimo ou sem qualquer interrupção. Esse conceito também é conhecido como continuidade dos negócios.

O SQL Server 2017 (14.x) e versões posteriores introduziram recursos e aprimoramentos para disponibilidade. A maior adição é o suporte para o SQL Server em distribuições do Linux. Para ver a lista completa dos novos recursos do SQL Server, confira os seguintes artigos:

Versão	Sistema Operacional
Novidades no SQL Server 2025 (17.x)	Windows \| Linux
Novidades no SQL Server 2022 (16.x)	Windows \| Linux
Novidades no SQL Server 2019 (15.x)	Windows \| Linux
Novidades no SQL Server 2017 (14.x)	Windows \| Linux

Este artigo se concentra nos cenários de disponibilidade no SQL Server 2017 (14.x) e versões posteriores, bem como nos recursos de disponibilidade novos e aprimorados. Os cenários incluem os híbridos que podem abranger implantações do SQL Server no Windows Server e no Linux e que podem aumentar o número de cópias legíveis de um banco de dados.

Embora este artigo não aborde as opções de disponibilidade externas ao SQL Server (como virtualização), tudo discutido aqui se aplica às instalações do SQL Server dentro de uma máquina virtual convidada, seja na nuvem pública ou hospedada por um servidor de hipervisor local.

Cenários do SQL Server que usam recursos de disponibilidade

Você pode usar grupos de disponibilidade Always On, instâncias em cluster de failover e envio de logs de várias formas; não apenas focando na disponibilidade. Há quatro maneiras principais de usar os recursos de disponibilidade:

Alta disponibilidade
Recuperação de desastre
Migrações e atualizações
Expandindo cópias legíveis de um ou mais bancos de dados

As seções a seguir descrevem os recursos relevantes para cada cenário. Um recurso não abordado é a replicação do SQL Server. Embora a replicação do SQL Server não seja oficialmente designada como um recurso de disponibilidade no guarda-chuva Always On, ela geralmente é usada para tornar os dados redundantes em determinados cenários. A replicação de mesclagem não é compatível com o SQL Server em Linux. Para obter mais informações, consulte a replicação do SQL Server no Linux.

Importante

Os recursos de disponibilidade do SQL Server não substituem o requisito de ter uma estratégia de backup e restauração robusta e bem testada. Uma estratégia de backup e restauração é o bloco de construção mais fundamental de qualquer solução de disponibilidade.

Alta disponibilidade

É importante garantir que instâncias ou bancos de dados do SQL Server estejam disponíveis se ocorrer um problema que seja local para um data center ou uma única região na nuvem. Esta seção explica como os recursos de disponibilidade do SQL Server podem ajudar. Todos os recursos descritos estão disponíveis no Windows Server e no Linux.

Grupos de disponibilidade

Os AGs (grupos de disponibilidade) fornecem proteção no nível do banco de dados enviando cada transação de um banco de dados para outra instância ou réplica, que contém uma cópia desse banco de dados em um estado especial. Você pode implantar um AG em edições Standard ou Enterprise. As instâncias que participam de um AG podem ser autônomas ou FCIs (instâncias de cluster de failover, descritas na próxima seção). Como as transações são enviadas para uma réplica conforme elas acontecem, os AGs são recomendados quando há requisitos de objetivos de tempo de recuperação e de ponto de recuperação mais baixos. A movimentação de dados entre as réplicas pode ser síncrona ou assíncrona, com a Enterprise Edition, permitindo que até três réplicas (incluindo a primária) sejam síncronas. Um AG tem uma cópia de leitura/gravação completa do banco de dados na réplica primária, enquanto as réplicas secundárias não podem receber transações diretamente dos usuários finais nem de aplicativos.

Observação

Always On é um termo coletivo para os recursos de disponibilidade do SQL Server e abrange AGs e FCIs. Always On não é o nome do recurso AG.

Antes do SQL Server 2022 (16.x), os AGs apenas forneciam proteção de nível do banco de dados e não de nível da instância. Qualquer coisa não capturada no log de transações ou configurada no banco de dados deve ser sincronizada manualmente para cada réplica secundária. Alguns exemplos de objetos que devem ser sincronizados manualmente são logons no nível de instância, servidores vinculados e trabalhos do SQL Server Agent.

No SQL Server 2022 (16.x) e versões posteriores, você pode gerenciar objetos de metadados, incluindo usuários, logons, permissões e trabalhos do SQL Server Agent no nível do AG, além do nível da instância. Para obter mais informações, confira O que é um grupo de disponibilidade independente?

Um AG também tem outro componente chamado ouvinte, que permite que aplicativos e usuários finais se conectem sem a necessidade de saber qual instância do SQL Server está hospedando a réplica primária. Cada AG tem seu próprio ouvinte. Embora as implementações do ouvinte sejam ligeiramente diferentes no Windows Server versus Linux, ambas fornecem a mesma funcionalidade e usabilidade. O diagrama a seguir mostra um Grupo de Disponibilidade (AG) baseado no Windows Server que utiliza um Cluster de Failover do Windows Server (WSFC). Um cluster subjacente na camada do sistema operacional é necessário para disponibilidade, seja no Linux ou no Windows Server. O exemplo mostra uma configuração simples com dois servidores ou nós, com um WSFC como o cluster subjacente.

Diagrama de um grupo de disponibilidade simples.

As edições Standard e Enterprise têm valores máximos diferentes para as réplicas. Um AG na edição Standard, conhecido como um grupo de disponibilidade básico, dá suporte a duas réplicas (uma primária e outra secundária) com apenas um banco de dados individual no AG. A Enterprise Edition permite que vários bancos de dados sejam configurados em um só AG e pode ter até nove réplicas no total (uma primária e oito secundárias). A Enterprise Edition também fornece outros benefícios opcionais, como réplicas secundárias para leitura, a capacidade de fazer backups de uma réplica secundária e muito mais.

Observação

O espelhamento de banco de dados, que foi preterido no SQL Server 2012 (11.x), não está disponível na versão linux do SQL Server nem é adicionado. Os clientes que ainda usam o espelhamento de banco de dados devem planejar a migração para os AGs, que é a substituição do espelhamento de banco de dados.

Quando se trata de disponibilidade, os AGs podem fornecer um failover automático ou manual. O failover automático poderá ocorrer se a movimentação de dados síncronos for configurada e o banco de dados na réplica primária e secundária estiverem em um estado sincronizado. Desde que o ouvinte seja usado e o aplicativo use uma versão compatível do .NET Framework (3.5 com Service Pack 1 ou 4.6.2 e versões posteriores), o failover deverá ser tratado com o mínimo ou nenhum efeito sobre os usuários finais se um ouvinte for utilizado. O failover para tornar a nova réplica primária uma réplica secundária pode ser configurado para ser automático ou manual e geralmente é medido em segundos.

A lista a seguir destaca algumas diferenças entre os AGs no Windows Server e no Linux:

Devido à maneira como o cluster subjacente funciona no Linux e no Windows Server, todos os failovers de AG (manual ou automático) são feitos por meio do cluster no Linux. Nas implantações do AG baseadas no Windows Server, os failovers manuais precisam ser feitos por meio do SQL Server. Os failovers automáticos são tratados pelo cluster subjacente no Windows Server e no Linux.

Para o SQL Server no Linux, você deve configurar um Grupo de Disponibilidade (AG) com no mínimo três réplicas, devido à maneira como o clustering subjacente funciona.
No Linux, o nome comum usado por cada ouvinte é definido no DNS e não no cluster como se fosse no Windows Server.

O SQL Server 2017 (14.x) introduziu os seguintes recursos e aprimoramentos nos Grupos de Disponibilidade (AGs):

Tipos de cluster
REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT
Suporte aprimorado do Coordenador de Transação do Distribuidor (DTC) da Microsoft para configurações com base no Windows Server
Cenários adicionais de escala horizontal de bancos de dados somente leitura (descritos posteriormente neste artigo)

Tipos de clusters do grupo de disponibilidade

O formulário de disponibilidade interna de clustering no Windows Server é habilitado por meio de um recurso chamado Clustering de Failover. Ele permite que você crie um WSFC para ser usado com um AG ou uma FCI. O SQL Server fornece DLLs de recursos compatíveis com clusters que oferecem integração para AGs e FCIs.

O SQL Server em Linux dá suporte a várias tecnologias de clustering. A Microsoft dá suporte aos componentes do SQL Server, enquanto nossos parceiros dão suporte à tecnologia de clustering relevante. Por exemplo, acompanhado do Pacemaker, o SQL Server em Linux dá suporte ao HPE Serviceguard e ao DH2i DxEnterprise como uma solução de cluster.

Um cluster de failover baseado no Windows e uma solução de cluster do Linux são mais semelhantes do que diferentes. Ambos fornecem uma maneira de obter servidores individuais e combiná-los em uma configuração para fornecer disponibilidade e têm conceitos de coisas como recursos, restrições (mesmo se implementadas de maneira diferente), failover e assim por diante.

Por exemplo, a fim de dar suporte ao Pacemaker nas configurações do AG e da FCI, incluindo recursos como o failover automático, a Microsoft fornece ao Pacemaker o pacote mssql-server-ha, que é semelhante, mas não exatamente igual às DLLs de recurso de um WSFC. Uma das diferenças entre um WSFC e o Pacemaker é que não há recursos de nome de rede no Pacemaker. Ele é o componente que ajuda a resumir o nome do ouvinte (ou o nome da FCI) em um WSFC. Use o DNS para resolução de nomes no Linux.

Devido à diferença na stack de cluster, os AGs no SQL Server 2017 (14.x) e versões posteriores precisam lidar com alguns dos metadados que são tratados nativamente por um WSFC. Por exemplo, há três tipos de cluster para um grupo de disponibilidade, que são armazenados nas sys.availability_groups colunas e cluster_type nas cluster_type_desc colunas:

WSFC
Externo
Nenhum

Todos os AGs que exigem alta disponibilidade precisarão usar um cluster subjacente, que, no caso do SQL Server 2017 (14.x) e versões posteriores, significa o WSFC ou um agente de clustering do Linux. Para AGs baseados no Windows Server que usam um WSFC subjacente, o tipo de cluster padrão é WSFC e você não precisa defini-lo. Para AGs baseados em Linux, você deve definir o tipo de cluster como Externo ao criar o AG. A integração a uma solução de cluster externo no Linux é configurada depois que o AG é criado, enquanto em um WSFC, isso é feito no momento da criação.

O tipo de cluster Nenhum pode ser usado com AGs do Windows Server e do Linux. A definição do tipo de cluster como Nenhum significa que o AG não exige um cluster subjacente. Isso significa que o SQL Server 2017 (14.x) é a primeira versão do SQL Server a dar suporte aos AGs sem um cluster, mas a desvantagem é que não há suporte para essa configuração como uma solução de alta disponibilidade.

Importante

No SQL Server 2017 (14.x) e versões posteriores, você não pode alterar um tipo de cluster para um AG depois que ele é criado. Essa restrição significa que um Grupo de Disponibilidade (AG) não pode ser alternado de 'Nenhum' para 'Externo' ou 'WSFC' e vice-versa.

Se você quiser adicionar apenas cópias extras de leitura de um banco de dados, ou se deseja o que um Grupo de Disponibilidade (AG) fornece em termos de migração e atualizações, mas não quer lidar com a complexidade de um cluster principal ou até mesmo da replicação, considere configurar um Grupo de Disponibilidade com o tipo de cluster definido como Nenhum. Para obter mais informações, consulte as seções Migrações e atualizações e escala de leitura.

A captura de tela a seguir mostra o suporte para os diferentes tipos de tipos de cluster no SSMS (SQL Server Management Studio). Você deve estar executando a versão 17.1 ou posterior. A captura de tela a seguir é da versão 17.2:

REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT

O SQL Server 2016 (13.x) aumentou o suporte para o número de réplicas síncronas de duas para três na Enterprise Edition. No entanto, se uma réplica secundária estiver sincronizada, mas a outra réplica estiver tendo um problema, não haverá como controlar o comportamento para dizer ao primário para aguardar a réplica mal comportada ou permitir que ela siga em frente. Nesse cenário, a réplica primária ainda pode receber tráfego de gravação mesmo que a réplica secundária não esteja em um estado sincronizado, resultando em perda de dados na réplica secundária.

No SQL Server 2017 (14.x) e versões posteriores, você pode controlar o comportamento do que acontece quando há réplicas síncronas com REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT. Essa opção funciona da seguinte maneira:

Há três valores possíveis: 0, 1e 2.
O valor é o número de réplicas secundárias que devem ser sincronizadas, o que tem implicações para perda de dados, disponibilidade de AG e failover.
Para WSFCs e um tipo de cluster none, o valor padrão é 0, e você pode defini-lo manualmente como 1 ou 2.
Para um tipo de cluster do tipo Externo, o mecanismo de cluster define esse valor por padrão, e você pode substituí-lo manualmente. Para três réplicas síncronas, o valor padrão é 1.

No Linux, você configura o valor para REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT no recurso de AG no cluster. No Windows, você o define por meio do Transact-SQL.

Um valor maior do que 0 garante maior proteção de dados, pois se o número necessário de réplicas secundárias não estiver disponível, o primário não estará disponível até que essa condição seja resolvida. REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT também afeta o comportamento de failover, pois o failover automático não pode ocorrer se o número correto de réplicas secundárias não estiver no estado ideal. No Linux, um valor de 0 não permite failover automático, portanto, ao usar síncrono com failover automático no Linux, você deve definir o valor maior do que 0 para obter failover automático. 0 no Windows Server é o comportamento no SQL Server 2016 (13.x) e versões anteriores.

Suporte aprimorado ao Coordenador de Transações Distribuídas da Microsoft

Antes do SQL Server 2016 (13.x), a única maneira de obter disponibilidade no SQL Server para aplicativos que exigem transações distribuídas, que usam DTC sob as coberturas, era implantar FCIs. Uma transação distribuída pode ser feita de duas maneiras:

Uma transação que abrange mais de um banco de dados na mesma instância do SQL Server.
Uma transação que abrange mais de uma instância do SQL Server ou possivelmente envolve uma fonte de dados não SQL Server.

O SQL Server 2016 (13.x) introduziu o suporte parcial do DTC com os AGs que abordaram o último cenário. O SQL Server 2017 (14.x) conclui a história dando suporte a ambos os cenários com o DTC.

No SQL Server 2017 (14.x) e em versões posteriores, você pode adicionar suporte de DTC a um AG depois que ele for criado. No SQL Server 2016 (13.x), você só pode habilitar o suporte a DTC ao criar o AG.

Instâncias de cluster de failover

Instâncias de cluster de failover (FCIs) fornecem disponibilidade para toda a instalação do SQL Server, conhecida como uma instância. Com as FCIs, se o servidor subjacente encontrar um problema, tudo dentro da instância será movido para outro servidor, incluindo bancos de dados, trabalhos do SQL Server Agent, servidores vinculados e muito mais. Todas as FCIs exigem algum armazenamento compartilhado, mesmo que seja definido pela rede. Um nó pode funcionar e possuir os recursos da FCI em qualquer momento. No diagrama a seguir, o primeiro nó do cluster é o proprietário do FCI. Ele também possui os recursos de armazenamento compartilhado associados a ele, que a linha sólida no armazenamento denota.

Diagrama de uma instância de cluster de failover.

Após um failover, a posse é modificada, conforme indicado no diagrama a seguir.

Diagrama de uma instância de cluster de failover, após o processo de failover.

Uma FCI não tem perda de dados, mas o armazenamento compartilhado subjacente é um único ponto de falha, pois há uma cópia dos dados. Para ter cópias redundantes de bancos de dados, combine FCIs com outro método de disponibilidade, como um AG ou envio de logs. O outro método deve fazer uso de armazenamento separado fisicamente da FCI. Quando a FCI realiza a alternância para outro nó, ela interrompe suas operações em um nó e inicia em outro. Esse processo é semelhante a desligar um servidor e ativá-lo.

Uma FCI passa pelo processo normal de recuperação. Ele avança as transações que precisam ser avançadas e reverte qualquer transação incompleta. Portanto, o banco de dados é consistente de um ponto de dados até o momento da falha ou failover manual, portanto, não há perda de dados. Os bancos de dados só estão disponíveis após a conclusão da recuperação. O tempo de recuperação depende de muitos fatores e geralmente é mais longo do que o failover de um AG. A desvantagem é que, quando você faz failover de um AG, pode haver tarefas extras necessárias para tornar um banco de dados utilizável, como habilitar um trabalho do SQL Server Agent.

Observação

A ADR (recuperação acelerada de banco de dados) pode reduzir o tempo de recuperação. Para obter mais informações, consulte Recuperação acelerada do banco de dados.

Como um AG, as FCIs eliminam o nó do cluster subjacente que o está hospedando. Uma FCI sempre mantém o mesmo nome. Aplicativos e usuários finais nunca se conectam aos nós. Em vez disso, eles usam o nome exclusivo atribuído à FCI. Uma FCI pode participar de um AG como uma das instâncias que hospedam uma réplica primária ou secundária.

A lista a seguir destaca algumas diferenças com FCIs no Windows Server versus Linux:

No Windows Server, uma FCI faz parte do processo de instalação. Você configura uma FCI no Linux depois de instalar o SQL Server.
O Linux dá suporte apenas a uma única instalação do SQL Server por host, portanto, todas as FCIs são uma instância padrão. O Windows Server dá suporte a até 25 FCIs por WSFC.
O nome comum usado pelas FCIs no Linux é definido no DNS e deve ser o mesmo que o recurso criado para a FCI.

Envio de logs

Se os objetivos de ponto de recuperação e tempo de recuperação forem mais flexíveis ou os bancos de dados não forem altamente críticos, o envio de logs será outro recurso de disponibilidade comprovado no SQL Server. Com base nos backups nativos do SQL Server, o processo de envio de logs automaticamente gera os backups de log de transações, copia-os em uma ou mais instâncias conhecidas como uma espera passiva e aplica automaticamente os backups de log de transações a esse modo de espera. O envio de logs usa trabalhos do SQL Server Agent para automatizar o processo de backup, cópia e aplicação dos backups de log de transações.

Diagrama do envio de logs.

A maior vantagem de usar o log shipping é que ele permite lidar com erros humanos, pois é possível atrasar a aplicação dos logs de transações. Por exemplo, se alguém emitir um UPDATE sem uma cláusula WHERE, o sistema standby poderá não ter a alteração, permitindo alternar para ele enquanto repara o sistema principal. Embora o envio de logs seja fácil de configurar, alternar do primário para um modo de espera quente, conhecido como uma alteração de função, é sempre manual. Você inicia uma alteração de função por meio do Transact-SQL e, como um AG, deve sincronizar manualmente todos os objetos não capturados no log de transações. Você precisa configurar o envio de logs por banco de dados, enquanto um único AG pode conter vários bancos de dados.

Ao contrário de um AG ou de uma FCI, o envio de logs não tem abstração para uma alteração de função, com a qual os aplicativos precisam conseguir lidar. Podem ser empregadas técnicas como um alias DNS (CNAME), mas há vantagens e desvantagens, como o tempo necessário que o DNS leva para atualizar após a troca.

Recuperação de desastre

Quando seu local de disponibilidade primária passa por um evento catastrófico, como um terremoto ou uma enchente, a empresa deve estar preparada para que seus sistemas fiquem online em outro lugar. Esta seção aborda como os recursos de disponibilidade do SQL Server podem ajudar na continuidade dos negócios.