Eliminar duplicados no armazenamento do DPM
Publicado: março de 2016
Este artigo descreve como reduzir o consumo de armazenamento do DPM ativando a eliminação de duplicados no armazenamento do DPM. Neste cenário, o DPM é executado numa máquina virtual de Hyper-V e armazena os dados de cópia de segurança em VHDs de pastas partilhadas num Servidor de Ficheiros Windows com a eliminação de dados duplicados ativada.
Descrição Geral
Nos dias que correm, os administradores de TI são confrontados com o enorme desafio que o crescimento de dados lhes coloca, conforme ilustrado a seguir pela projeção da IDC para os dados de todo o mundo até ao ano 2020. O aumento do crescimento de dados empresariais leva ao aumento das necessidades em matéria de armazenamento de cópias de segurança.
Por sua vez, o crescimento de dados aumenta os custos de manutenção e hardware. Conforme ilustrado no gráfico a seguir, 62% dos administradores de TI mostram-se preocupados com o aumento dos custos de hardware/software e respetivos custos de manutenção. Para ter acesso ao inquérito completo, consulte o artigo Qual o Impacto da Explosão de Dados na sua Empresa no blogue Informatica (em inglês).
Os administradores de TI fazem cópias de segurança dos dados de produção para ir ao encontro de necessidades de recuperação operacional e satisfazer os requisitos de conformidade organizacional. A cópia de segurança é, inerentemente, uma operação de armazenamento muito intensiva, pelo que a redução do consumo de armazenamento das cópias de segurança é uma das principais prioridades dos administradores de TI.
A eliminação de duplicados pode dar resposta à necessidade de reduzir o consumo de armazenamento. Enquanto a quantidade de redundância em qualquer conjunto de dados depende da carga de trabalho e dos tipos de dados utilizados, normalmente os dados de cópia de segurança evidenciam uma forte redução quando a eliminação de duplicados é utilizada. O processamento simultâneo de dados de cópia de segurança de cargas de trabalho semelhantes que utilizam conjuntos de dados semelhantes pode proporcionar uma redundância adicional e, consequentemente, ocasionar reduções acrescidas resultantes da eliminação de duplicados. O DPM tira partido da eliminação de duplicados a fim de proporcionar estes benefícios.
Descrição geral do DPM
O System Center Data Protection Manager é uma solução de cópia de segurança empresarial que fornece:
Cópia de segurança e recuperação com deteção automática da aplicação — o DPM protege clientes, servidores, máquinas virtuais, dados do servidor de ficheiros e cargas de trabalho de aplicações. Fornece opções de cópia de segurança flexíveis, incluindo a capacidade de fazer cópias de segurança frequentes de algumas cargas de trabalho, por exemplo, de 15 em 15 minutos. O DPM dispõe de uma vasta gama de capacidades de recuperação. Por exemplo, os clientes podem substituir uma base de dados do SQL Server de produção atual por uma cópia mais antiga, recuperar bases de dados para outra localização para fins de investigação ou efetuar a recuperação em formato de ficheiros para fornecer uma cópia ao departamento jurídico. O DPM ajuda os administradores de TI a escolher e selecionar o tipo de recuperação de que precisam. O DPM suporta a recuperação pelo utilizador final. Por exemplo, um administrador de SQL, um administrador de sistema de ficheiros ou um utilizador cliente pode recuperar todos os dados diretamente sem precisar de assistência administrativa.
Num ambiente dinâmico, os servidores de produção estão continuamente a criar novos dados. O DPM oferece tranquilidade aos administradores de cópias de segurança ao fornecer proteção de nível de instância, sendo que esta localiza e configura automaticamente os novos dados criados pelas cargas de trabalho. Isto evita que os administradores de cópias de segurança tenham de localizar as novas instâncias de dados manualmente e adicioná-las à configuração de cópias de segurança.
Dimensionamento empresarial e gestão centralizada: um único servidor DPM pode proteger 80 TB de dados de produção ou 100 servidores de produção. Pode implementar a Consola Central do DPM para gerir até 100 servidores DPM a partir de uma localização centralizada. Utilize a criação de relatórios central do DPM para simplificar a geração de relatórios personalizados para todos os servidores DPM.
Proteção eficiente da nuvem privada — quer o centro de dados da sua nuvem privada esteja configurado para executar máquinas virtuais de Hyper-V em servidores autónomos, quer em servidores Windows com ligações remotas a partilhas de ficheiros do SMB em Servidores de Ficheiros Windows, o DPM está apto a fazer uma cópia de segurança das máquinas virtuais eficiente, utilizando a tecnologia de cópia de segurança de máquinas virtuais única do DPM.
Por exemplo, o DPM deteta a migração da máquina virtual e continua a protegê-la de forma automática - sem qualquer envolvimento ativo do administrador de cópias de segurança. Se a máquina virtual migrar de um anfitrião para o outro, a cópia de segurança continuará a cargo do mesmo servidor DPM, sem envolver quaisquer passos manuais ou modificações ao nível do DPM.
Cópia de segurança integrada na nuvem — a flexibilidade do DPM permite-lhe proteger as cargas de trabalho implementadas numa nuvem privada de Hyper-V, na Nuvem Pública do Azure ou numa nuvem de fornecedor de serviços de alojamento. As empresas que executam cargas de trabalho Microsoft no Azure podem tirar partido do DPM em execução no Azure para proteger essas cargas de trabalho. O DPM suporta a cópia de segurança para outro local no Azure através do Serviço de Cópia de Segurança do Azure. O Serviço de Cópia de Segurança do Azure está integrado nos fluxos de trabalho de proteção e recuperação do DPM, simplificando a gestão das definições de cópia de segurança noutro local e a retenção dos dados durante vários anos. A Cópia de Segurança do Azure oferece uma alternativa à cópia de segurança em banda e à manutenção de bandas e envio para outro local implícitos. Isto liberta os administradores de cópias de segurança de todos os transtornos associados à manutenção de bandas.
Descrição geral da eliminação de dados duplicados
A eliminação de dados duplicados (eliminação de duplicados) foi introduzida no Windows Server 2012 como uma substituição de última geração para a funcionalidade de Armazenamento de Instância Única (SIS) no Windows Storage Server 2008. Utiliza um algoritmo de segmentação de tamanho do bloco variável avançado para proporcionar reduções de eliminação de duplicados máximas por volume. É utilizada uma abordagem de pós-processamento a fim de preservar a semântica integral do sistema de ficheiros e garantir um impacto mínimo no desempenho do caminho dos dados primários. Para mais informações, consulte o artigo Descrição Geral da Eliminação de Dados Duplicados.
A eliminação de dados duplicados foi desenvolvida para ser instalada em volumes de dados primários sem adicionar hardware dedicado suplementar de modo a não afetar a carga de trabalho primária no servidor. As predefinições não são obstrutivas porque permitem que os dados sejam mantidos durante cinco dias antes do processamento de um ficheiro específico, sendo o tamanho de ficheiro mínimo predefinido de 32 KB. A implementação foi desenvolvida de modo a utilizar pouca memória e CPU. A eliminação de duplicados pode ser implementada nas seguintes cargas de trabalho
Partilhas de ficheiros gerais: publicação e partilha de conteúdos de grupo, pastas raiz do utilizador e redirecionamento de pastas/ficheiros Offline
Partilhas de implementação de software: binários, imagens e atualizações de Software
Bibliotecas de VHD: armazenamento de ficheiros de disco rígido virtual (VHD) para aprovisionamento dos hipervisores
Implementações do VDI (apenas no Windows Server 2012 R2): implementações de Infraestrutura de Ambiente de Trabalho Virtual (VDI) através de Hyper-V
Cópia de segurança virtualizada: soluções de cópia de segurança (por exemplo, o DPM em execução numa máquina virtual de Hyper-V) que guardam dados de cópia de segurança em ficheiros VHD/VHDX num Servidor de Ficheiros Windows.
Leia mais sobre o planeamento da eliminação de duplicados.
Benefícios para o negócio
A utilização da eliminação de duplicados com o DPM pode resultar em reduções significativas. A quantidade de espaço que a eliminação de duplicados permite poupar aquando da otimização dos dados de cópia de segurança do DPM varia consoante o tipo de dados cuja cópia de segurança se pretende fazer. Por exemplo, a cópia de segurança de um servidor de bases de dados encriptado poderá resultar numa redução mínima, uma vez que os dados duplicados são ocultados pelo próprio processo de encriptação. Em contrapartida, a cópia de segurança de uma implementação de Infraestrutura de Ambiente de Trabalho Virtual (VDI) de grande dimensão pode resultar numa redução bastante significativa, na ordem dos 70 a 90% ou mais, já que normalmente há uma grande quantidade de dados duplicados entre os ambientes do ambiente de trabalho virtual. Na configuração descrita neste tópico procedemos à execução de várias cargas de trabalho de teste, tendo sido registadas reduções entre os 50% e 90%.
Implementação recomendada
Para implementar o DPM como uma máquina virtual cuja missão é fazer cópias de segurança de dados num volume com eliminação de duplicados, recomendamos a seguinte topologia de implementação:
DPM em execução numa máquina virtual de um cluster anfitrião de Hyper-V.
O armazenamento do DPM utiliza ficheiros VHD/VHDX armazenados uma partilha do SMB 3.0 num servidor de ficheiros.
Para esta implementação de exemplo, configurámos o servidor de ficheiros como um servidor de ficheiros de escalamento horizontal (SOFS) implementado através de volumes de armazenamento configurados a partir de conjuntos de Espaços de Armazenamento criados com base em unidades SAS ligadas diretamente. De realçar que esta implementação garante o desempenho em escala.
Tenha em atenção o seguinte:
Este cenário é suportado para o DPM 2012 R2
O cenário é suportado para todas as cargas de trabalho para as quais o DPM 2012 R2 pode fazer cópias de segurança de dados.
Todos os nós do Servidor de Ficheiros Windows que tenham discos rígidos virtuais do DPM e nos quais a eliminação de duplicados será ativada têm de ter o Windows Server 2012 R2 em execução com o Update Rollup de novembro de 2014.
Iremos fornecer recomendações gerais e instruções para a implementação do cenário. Sempre que forem fornecidos exemplos de hardware específico, o hardware implementado no Microsoft Cloud Platform System (CPS) será utilizado como referência.
Hardware testado
Este cenário utiliza partilhas do SMB 3.0 remotas para armazenar os dados de cópia de segurança, pelo que os requisitos de hardware principal giram em torno dos nós de Servidor de Ficheiros e não dos nós de Hyper-V. A configuração de hardware que se segue é utilizada no CPS para armazenamento de cópias de segurança e da produção. Tenha em atenção que o hardware geral é utilizado tanto no armazenamento de cópias de segurança como de produção, mas o número de unidades listadas nos compartimentos de unidades refere-se apenas às utilizadas para cópia de segurança.
Cluster de Servidor de Ficheiros de Escalamento Horizontal com 4 nós
Por configuração de nó
2 CPUs Intel(R) Xeon(R) E5-2650 0 @ 2.00 GHz, 2001 MHz, 8 núcleos, 16 processadores lógicos
Memória RDIMM de 128 GB 1333 MHz
Ligações de armazenamento: 2 portas de SAS, 1 porta de 10 GbE iWarp/RDMA
4 compartimentos de unidades JBOD
18 discos em cada JBOD – 16 HDDs de 4 TB + 2 SSDs de 800 GB
Caminho duplo para cada unidade - política de balanceamento de carga Multipath I/O definida para ativação pós-falha apenas
SSDs configurados para cache de write-back (WBC) e os restantes para unidades de diário dedicadas
Planear e configurar volumes com eliminação de duplicados
Vejamos o tamanho que os volumes deverão ter para suportar os ficheiros VHDX com eliminação de duplicados que contêm dados do DPM. No CPS criámos volumes com 7,2 TB cada. O tamanho de volume ideal depende principalmente da quantidade e frequência com que os dados são alterados no volume e das taxas de débito no acesso aos dados do subsistema de armazenamento em disco. É importante ter em conta que se o processamento da eliminação de duplicados não conseguir acompanhar a taxa de alterações diárias aos dados, a taxa de reduções baixará até que o processamento esteja concluído. Para obter informações mais detalhadas, consulte o artigo Dimensionar Volumes para a Eliminação de Dados Duplicados (em inglês). As seguintes diretrizes gerais são recomendadas para volumes com eliminação de dados:
Utilize Espaços de Armazenamento de Paridade com deteção de compartimento para efeitos de resiliência e maior utilização do disco.
Formate o NTFS com unidades de alocação de 64 KB e segmentos de registo de ficheiro grandes para funcionar melhor com a utilização da eliminação de duplicados de ficheiros dispersos.
Na configuração de hardware acima, o tamanho do volume recomendado é de 7,2 TB, sendo estes volumes configurados da seguinte forma:
Paridade dupla com deteção de compartimentos de 7,2 TB + 1 GB de cache de write-back
ResiliencySettingName == Paridade
PhysicalDiskRedundancy == 2
NumberOfColumns == 7
Interleave == 256 KB (o desempenho da paridade dupla na intercalação de 64 KB é muito mais baixo do que na intercalação predefinida de 256 KB)
IsEnclosureAware == $true
AllocationUnitSize=64KB
FRS grande
Configure um novo disco virtual no agrupamento de armazenamento especificado da seguinte forma:
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
De seguida, cada um destes volumes deverá ser formatado assim:
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
Aquando da implementação do CPS, estes serão configurados como CSVs.
É dentro destes volumes que o DPM irá armazenar uma série de ficheiros VHDX para manter os dados de cópia de segurança. Ative a eliminação de duplicados no volume depois de o formatar, da seguinte forma:
Enable-DedupVolume –Volume <volume> -UsageType HyperV Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
Este comando também modifica as seguintes definições de eliminação de duplicados ao nível do volume:
Defina UsageType como HyperV: esta operação resulta no processamento dos ficheiros abertos por parte da eliminação de duplicados, um procedimento necessário já que os ficheiros VHDX utilizados pelo DPM para armazenamento de cópias de segurança permanecem abertos com o DPM em execução na respetiva máquina virtual.
Desative o PartialFileOptimization: isto faz com que a eliminação de duplicados otimize todas as secções de um ficheiro aberto em vez de procurar secções alteradas com uma antiguidade mínima.
Defina o parâmetro MinFileAgeDays como 0: com o parâmetro PartialFileOptimization desativado, o parâmetro MinFileAgeDays altera o seu comportamento de modo a que a eliminação de duplicados considere apenas os ficheiros que não foram alterados durante o intervalo de dias especificado. Uma vez que o que se pretende é que a eliminação de duplicados dê início ao processamento dos dados de cópia de segurança em todos os ficheiros VHDX do DPM sem demora, é preciso definir o parâmetro MinFileAgeDays como 0.
Para mais informações sobre como configurar a eliminação de duplicados, consulte o artigo Instalar e Configurar a Eliminação de Dados Duplicados (em inglês).
Planear e configurar o armazenamento do DPM
Para evitar problemas de fragmentação e manter a eficiência, o armazenamento do DPM é alocado mediante a utilização de ficheiros VHDX que residem nos volumes com eliminação de duplicados. São criados 10 ficheiros VHDX dinâmicos de 1 TB cada em cada volume, sendo depois anexados ao DPM. De realçar que é efetuado um aprovisionamento de armazenamento extra de 3 TB para tirar partido das reduções de armazenamento produzidas pela eliminação de duplicados. À medida que a eliminação de duplicados for produzindo outras reduções de armazenamento, poderão ser criados novos ficheiros VHDX nestes volumes para consumir o espaço poupado. O servidor DPM foi testado com um total de 30 ficheiros VHDX anexados a ele.
Execute o seguinte comando para criar discos rígidos virtuais, que serão adicionados mais tarde ao servidor DPM:
New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
Em seguida, adicione os discos rígidos virtuais criados ao servidor DPM da seguinte forma:
Import-Module "DataProtectionManager" Set-StorageSetting -NewDiskPolicy OnlineAll $dpmdisks = @() $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool – eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false} Add-DPMDisk $dpmdisks
Tenha em atenção que este passo configura um agrupamento de armazenamento como o disco ou discos nos quais o DPM armazena réplicas e pontos de recuperação para dados protegidos. Este conjunto faz parte da configuração do DPM e está separado do conjunto Espaços de Armazenamento utilizado para criar os volumes de dados descritos na secção anterior. Para mais informações sobre agrupamentos de armazenamento do DPM, consulte o artigo Configurar agrupamentos de armazenamento e armazenamento em disco.
Planear e configurar o cluster do Servidor de Ficheiros Windows
A eliminação de duplicados precisa de um conjunto especial de opções de configuração para suportar o armazenamento do DPM virtualizado devido à escala dos dados e ao tamanho dos ficheiros individuais. Estas opções são globais para o cluster ou nó de cluster. A eliminação de duplicados tem de estar ativada e as definições de cluster devem estar configuradas individualmente em cada nó do cluster.
Ativar a eliminação de duplicados no armazenamento do Servidor de Ficheiros Windows — a função Eliminação de Duplicados deve estar instalada em todos os nós de cluster do Servidor de Ficheiros Windows. Para tal, execute o seguinte comando do PowerShell em cada nó do cluster:
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
Otimizar o processamento da eliminação de duplicados para ficheiros de dados de cópia de segurança — execute o seguinte comando do PowerShell para definir o início imediato da otimização e para não otimizar escritas de ficheiros parciais. Tenha em atenção que, por predefinição, são agendadas tarefas de Libertação da Memória (GC) todas as semanas e que a cada quatro semanas a tarefa de GC é executada no modo de "GC avançada" para uma pesquisa de dados a remover mais exaustiva e demorada. Para a carga de trabalho do DPM, este modo de "GC avançada" não produz ganhos significativos e reduz o período de tempo durante o qual a eliminação de duplicados pode otimizar os dados. É por este motivo que desativamos este modo de pesquisa avançada.
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
Otimizar o desempenho para operações de grande escala — execute o seguinte script do PowerShell para:
Desativar o processamento adicional e as E/S quando a libertação da memória avançada é executada
Reservar memória adicional para o processamento de hash
Ativar a otimização de prioridades de modo a permitir a desfragmentação imediata de ficheiros grandes
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70 Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
Estas definições modificam o seguinte:
HashIndexFullKeyReservationPercent: este valor controla a quantidade de memória da tarefa de otimização utilizada para hashes de segmentos existentes, por oposição aos hashes de segmentos novos. Numa escala elevada, o patamar de 70% resulta num débito de otimização melhor do que o patamar predefinido de 50%.
EnablePriorityOptimization: nos ficheiros que têm quase 1 TB, a fragmentação de um único ficheiro pode acumular fragmentos suficientes para se aproximar do limite por ficheiro. O processamento da otimização consolida estes fragmentos e impede que este limite seja atingido. Ao definir esta chave de registo, a eliminação de duplicados adicionará um processo suplementar para lidar com os ficheiros com eliminação de duplicados altamente fragmentados com alta prioridade.
Planear e configurar o DPM e o agendamento da eliminação de duplicados
As operações de cópia de segurança e eliminação de duplicados são ambas intensivas em termos de E/S. Se fossem executadas ao mesmo tempo, o overhead adicional necessário para alternar entre estas operações poderia revelar-se dispendioso e resultar na cópia de segurança ou eliminação de duplicados de um menor número de dados por dia. Recomendamos que configure períodos de eliminação de duplicados e de cópia de segurança dedicados e separados. Isto ajuda a assegurar uma distribuição eficiente do tráfego de E/S para cada uma destas operações durante o funcionamento quotidiano do sistema. Seguem-se as diretrizes recomendadas para o agendamento:
Dividir os dias em períodos de cópia de segurança e eliminação de duplicados não sobrepostos.
Configurar agendas de cópia de segurança personalizadas.
Configurar agendas de eliminação de duplicados personalizadas.
Agendar a otimização no período de eliminação de duplicados diário.
Configurar agendas de eliminação de duplicados separadas ao fim de semana, utilizando esse tempo para executar tarefas de limpeza e libertação da memória.
Pode configurar as agendas do DPM com o seguinte comando do PowerShell:
Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration
Nesta configuração, o DPM está configurado para fazer a cópia de segurança das máquinas virtuais entre as 22:00 e as 6:00. A eliminação de duplicados está agendada para as restantes 16 horas do dia. Tenha em atenção que o tempo de eliminação de duplicados real configurado irá depender do tamanho do volume. Consulte o tópico Dimensionar Volumes para a Eliminação de Dados Duplicados (em inglês) para obter mais informações. Um período de eliminação de duplicados de 16 horas com início às 6:00 depois de terminado o período de cópia de segurança seria configurado da seguinte forma a partir de qualquer nó de cluster individual:
#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}
Sempre que o período de cópia de segurança é modificado é vital que o período de eliminação de duplicados seja igualmente modificado para que não se sobreponham. O período de eliminação de duplicados e de cópia de segurança não têm de preencher as 24 horas do dia, mas recomenda-se vivamente que assim seja para acomodar eventuais variações no tempo de processamento em virtude das esperadas alterações diárias no que toca as cargas de trabalho e os dados.
Implicações em termos de desempenho da cópia de segurança
Depois de efetuada a eliminação de dados num conjunto de ficheiros, o desempenho pode ser ligeiramente afetado na altura de aceder aos ficheiros. Isto acontece devido ao processamento adicional necessário para aceder ao formato de ficheiro utilizado pelos ficheiros com eliminação de duplicados. Neste cenário, os ficheiros são um conjunto de ficheiros VHDX utilizados de forma contínua pelo DPM durante o período de cópia de segurança. O impacto da eliminação de duplicados nestes ficheiros significa que as operações de cópia de segurança e recuperação podem ser ligeiramente mais lentas do que sem a eliminação de duplicados. À semelhança de qualquer outro produto de cópia de segurança, o DPM caracteriza-se por uma carga de trabalho cuja ênfase recai nas operações de escrita, sendo as operações de leitura mais importantes durante as operações de restauro. Seguem-se as recomendações para fazer face às implicações que a eliminação de duplicados tem sobre o desempenho da cópia de segurança:
Operações de leitura/restauro: os efeitos exercidos sobre as operações de leitura são normalmente mínimos e não implicam considerações especiais, uma vez que a funcionalidade de eliminação de duplicados coloca os segmentos com eliminação de duplicados em cache.
Operações de escrita/cópia de segurança: planeie um aumento do tempo de cópia de segurança de aproximadamente 5% a 10% quando definir o período de cópia de segurança. (Este é um aumento comparado com o tempo de cópia de segurança esperado nas operações de escrita em volumes sem eliminação de duplicados.)
Monitorização
O DPM e a eliminação de dados duplicados podem ser monitorizados para garantir que:
Existe espaço em disco suficiente aprovisionado para armazenar os dados de cópia de segurança
A conclusão das tarefas de cópia de segurança do DPM está a decorrer com normalidade
A eliminação de duplicados está ativada nos volumes de cópia de segurança
As agendas de eliminação de duplicados estão definidas corretamente
A conclusão do processamento da eliminação de duplicados está a decorrer com normalidade, todos os dias
A taxa de reduções da eliminação de duplicados corresponde aos pressupostos estabelecidos para a configuração do sistema
O êxito da eliminação de duplicados depende das capacidades globais do hardware do sistema (incluindo a velocidade de processamento da CPU, a largura de banda de E/S e a capacidade de armazenamento), da correta configuração do sistema, da carga média do sistema e da quantidade diária de dados modificados.
Pode monitorizar o DPM utilizando a Consola Central do DPM. Consulte o artigo Instalar a Consola Central.
Pode monitorizar a eliminação de duplicados para verificar o respetivo estado, a taxa de reduções e o estado da agenda utilizando os seguintes comandos do PowerShell:
Obtenção do estado:
PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:
Obtenção de reduções:
PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:
Obtenha o estado da agenda com o cmdlet Get-DedupSchedule.
Monitorizar eventos
A monitorização do registo de eventos pode ajudar a compreender os eventos e o estado da eliminação de duplicados.
Para ver eventos de eliminação de duplicados, no Explorador de Ficheiros, navegue para Registos de Serviços e Aplicações > Microsoft > Windows > Eliminação de Duplicados.
Se o valor LastOptimizationResult = 0x00000000 aparecer nos resultados de Get-DedupStatus |fl do Windows PowerShell, significa que o conjunto de dados completo foi processado pela tarefa de otimização anterior. Caso contrário, significa que o sistema não conseguiu concluir o processamento da eliminação de duplicados, pelo que convirá verificar as definições da configuração, por exemplo, o tamanho do volume.
Para obter exemplos de cmdlets mais detalhados, consulte o artigo Monitorizar e Criar Relatórios para a Eliminação de Dados Duplicados (em inglês).
Monitorizar o armazenamento de cópias de segurança
No nosso exemplo de configuração, os volumes com 7,2 TB estão preenchidos com 10 TB de dados "lógicos" (o tamanho dos dados sem a eliminação dos duplicados efetuada) armazenados em 10 ficheiros VHDX dinâmicos de 1 TB. À medida que estes ficheiros acumulam dados de cópia de segurança adicionais, vão lentamente preenchendo o volume. Se a percentagem de reduções resultante da eliminação de duplicados for suficientemente elevada, esses mesmos 10 ficheiros poderão atingir o seu tamanho lógico máximo, mas sem ultrapassar o limite de 7,2 TB do volume (eventualmente, poderá até haver espaço adicional para alocar outros ficheiros VHDX para os servidores DPM utilizarem). Porém, se as reduções de tamanho resultantes da eliminação de duplicados forem insuficientes, o espaço disponível no volume poderá esgotar-se antes mesmo de os ficheiros VHDX atingirem o seu tamanho lógico total e o volume ficará cheio. Para impedir que os volumes fiquem cheios recomendamos o seguinte:
Seja prudente quanto aos requisitos de tamanho de volume e contemple algum aprovisionamento extra em termos de armazenamento. Recomenda-se que contemple uma memória intermédia de, pelo menos, 10% quando planear a utilização do armazenamento de cópias de segurança para acomodar a variação esperada no que se refere às reduções da eliminação de duplicados e alterações de dados.
Monitorize os volumes utilizados no armazenamento de cópias de segurança para garantir que a utilização do espaço e as taxas de reduções da eliminação de duplicados se apresentam nos níveis esperados.
Se o volume ficar cheio ocorrerão os seguintes sintomas:
A máquina virtual do DPM será colocada num estado crítico de pausa e não poderá emitir mais tarefas de cópia de segurança.
Todas as tarefas de cópia de segurança que utilizam ficheiros VHDX no volume cheio não serão bem-sucedidas.
Para recuperar desta condição e restaurar o normal funcionamento do sistema, é possível aprovisionar armazenamento adicional e efetuar uma migração do armazenamento da máquina virtual do DPM ou do respetivo VHDX para libertar espaço:
Pare o Servidor DPM a que pertencem os ficheiros VHDX na partilha de cópia de segurança completa.
Crie um volume adicional e uma partilha de cópia de segurança utilizando a mesma configuração e definições que as utilizadas pelas partilhas existentes, incluindo as definições para NTFS e eliminação de duplicados.
Migre o Armazenamento para a máquina virtual do Servidor DPM e migre pelo menos um ficheiro VHDX da partilha de cópia de segurança completa para a partilha de cópia de segurança nova criada no passo 2.
Execute uma tarefa de libertação da memória (GC) de Eliminação de Dados Duplicados na partilha de cópia de segurança de origem que estava cheia. A tarefa de GC deverá ser bem-sucedida e recuperar o espaço livre.
Reinicie a máquina virtual do Servidor DPM.
Será acionada uma tarefa de verificação de consistência do DPM durante o período de cópia de segurança seguinte para todas as origens de dados que apresentaram falhas anteriormente.
Agora, todas as tarefas de cópia de segurança deverão ser bem-sucedidas.
Conclusão
Em conjunto, a eliminação de duplicados e o DPM proporcionam reduções de espaço substanciais. Isto permite taxas de retenção mais elevadas, cópias de segurança mais frequentes e um TCO mais vantajoso para a implementação do DPM. As orientações e recomendações contidas neste documento deverão fornecer as ferramentas e os conhecimentos de que precisa para configurar a eliminação de duplicados para o armazenamento do DPM e comprovar os benefícios em primeira mão na sua própria implementação.
FAQ
P: Os ficheiros VHDX do DPM têm de ter 1 TB de tamanho. Quer isto dizer que o DPM não tem capacidade para fazer cópias de segurança de uma VM, um SharePoint, uma BD do SQL ou um volume de ficheiro com mais de 1 TB?
R: Não. O DPM agrega vários volumes num só para armazenar cópias de segurança. Por isso, o tamanho de ficheiro de 1 TB não afeta minimamente os tamanhos das origens de dados cuja cópia de segurança o DPM está apto a fazer.
Q: Pelo que é dado a entender, os ficheiros VHDX de armazenamento do DPM devem ser implementados em partilhas de ficheiros do SMB remotas apenas. O que acontecerá se armazenar os ficheiros VHDX de cópia de segurança em volumes preparados para a eliminação de duplicados no mesmo sistema em que a máquina virtual do DPM está em execução?
R: Como referido acima, o DPM, o Hyper-V e a eliminação de duplicados envolvem operações de armazenamento e computação intensivas. A combinação destes três elementos num único sistema pode levar a operações de E/S e processamento intensivas que podem provocar a carência de recursos no Hyper-V e respetivas VMs. Se optar por experimentar configurar o DPM numa VM com os volumes de armazenamento de cópias de segurança no mesmo computador, deve monitorizar atentamente o desempenho para garantir que existe largura de banda de E/S suficiente e calcular a capacidade necessária à manutenção das três operações no mesmo computador.
P: São recomendados períodos de eliminação de duplicados e cópia de segurança dedicados e separados. Por que motivo não devo ativar a eliminação de duplicados enquanto decorre a cópia de segurança do DPM? Preciso de fazer a cópia de segurança da minha BD do SQL de 15 em 15 minutos.
**R:**A eliminação de duplicados e o DPM envolvem operações de armazenamento intensivas, pelo que a execução simultânea destes dois processos pode revelar-se ineficiente e provocar a carência de recursos de E/S. Por conseguinte, para proteger cargas de trabalho mais do que uma vez por dia (por exemplo, o SQL Server de 15 em 15 minutos) e ativar a eliminação de duplicados ao mesmo tempo, certifique-se de que existe largura de banda de E/S e capacidade informática suficientes para evitar a carência de recursos.
**P:**Com base na configuração descrita, o DPM precisa de estar em execução numa máquina virtual. Por que motivo não posso ativar a eliminação de duplicados diretamente nos volumes de réplica e nos volumes de cópia sombra em vez de nos ficheiros VHDX?
R: A eliminação de duplicados é efetuada por volume em ficheiros individuais. Uma vez que a otimização levada a cabo pela eliminação de duplicados é feita ao nível do ficheiro, esta não foi concebida para suportar a tecnologia VolSnap de que o DPM tira partido para armazenar os dados de cópia de segurança. Ao executar o DPM numa VM, o Hyper-V mapeia as operações de volume do DPM para o nível de ficheiro VHDX, o que permite à eliminação de duplicados otimizar os dados de cópia de segurança e proporcionar maiores reduções de armazenamento.
P: A configuração de exemplo acima criou apenas volumes com 7,2 TB. Posso criar volumes maiores ou mais pequenos?
R: A eliminação de duplicados executa um thread por volume. À medida que o tamanho do volume vai ficando maior, a eliminação de duplicados precisa de mais tempo para concluir a otimização. Por outro lado, volumes pequenos significa que há menos dados disponíveis onde encontrar segmentos duplicados, o que pode resultar em reduções menos significativas. Por isso se recomenda que o tamanho do volume seja otimizado com base na quantidade total de alterações e nas capacidades de hardware do sistema a fim de obter as melhores reduções possíveis. Pode encontrar informações mais detalhadas sobre como determinar os tamanhos de volume utilizados com a eliminação de duplicados no artigo Dimensionar volumes para a Eliminação de Duplicados no Windows Server (em inglês). Para obter informações mais detalhadas sobre como determinar os tamanhos de volume utilizados com a eliminação de duplicados, consulte o artigo Dimensionar Volumes para a Eliminação de Dados Duplicados (em inglês).