Deduplicare l'archiviazione DPM

Articolo
07/10/2024

System Center Data Protection Manager (DPM) può usare la deduplicazione dei dati.

La deduplicazione dei dati (dedup) trova e rimuove i dati duplicati in un volume assicurando al tempo stesso che i dati rimangano corretti e completi. Altre informazioni sulla pianificazione della deduplicazione.

Dedup riduce il consumo di spazio di archiviazione. Anche se la quantità di ridondanza per un set di dati dipende dal carico di lavoro e dal tipo di dati, in genere i dati di backup mostrano risparmi significativi quando si usa la deduplicazione.
La ridondanza dei dati può essere ulteriormente ridotta con la deduplicazione quando viene eseguito il backup dei dati di tipi e carichi di lavoro simili vengono elaborati insieme.
Dedup è progettato per essere installato nei volumi di dati primari senza hardware dedicato aggiuntivo in modo che non influisca sul carico di lavoro primario nel server. Le impostazioni predefinite sono non invadenti, in quanto consentono ai dati di avere età per cinque giorni prima di elaborare un file specifico e avere una dimensione minima predefinita di 32 KB. L'implementazione è progettata per un utilizzo ridotto della CPU e della memoria.
La deduplicazione può essere implementata nei carichi di lavoro seguenti:
- Condivisioni di file generici: pubblicazione e condivisione di contenuto di gruppo, home directory dell'utente e Reindirizzamento di cartelle/File offline
- Condivisioni di distribuzione software: file binari del software, immagini e aggiornamenti
- Librerie VHD: archiviazione dei file su disco rigido virtuale (VHD) per il provisioning agli hypervisor
- Distribuzioni di VDI (solo Windows Server 2012 R2): distribuzioni di Virtual Desktop Infrastructure (VDI) tramite Hyper-V
- Backup virtualizzato: soluzioni di backup(ad esempio DPM in esecuzione in una macchina virtuale Hyper-V) che salvano i dati di backup in file VHD/VHDX in un file server Windows

DPM e dedup

L'uso di dedup con DPM può comportare un notevole risparmio. La quantità di spazio risparmiata da dedup durante l'ottimizzazione dei dati di backup di DPM varia a seconda del tipo di dati di cui viene eseguito il backup. Un backup di un server di database crittografato, ad esempio, potrebbe produrre un risparmio minimo perché tutti i dati duplicati sono nascosti a causa del processo di crittografia. Tuttavia, il backup di una distribuzione VDI (Virtual Desktop Infrastructure) di grandi dimensioni può comportare un notevole risparmio nell'intervallo di 70-90+%, poiché in genere è presente una grande quantità di duplicazione dei dati tra gli ambienti desktop virtuali. Nella configurazione descritta nell'articolo sono stati eseguiti diversi carichi di lavoro di test e si è visto un risparmio compreso tra il 50% e il 90%.

Per usare dedup per l'archiviazione DPM, DPM deve essere in esecuzione in una macchina virtuale Hyper-V e archiviare i dati di backup in dischi rigidi virtuali in cartelle condivise con data dedup abilitato.

Distribuzione consigliata

Per distribuire DPM come macchina virtuale che esegue il backup dei dati in un volume deduplica, è consigliabile usare la topologia di distribuzione seguente:

DPM in esecuzione su una macchina virtuale in un cluster host Hyper-V.
Archiviazione di DPM utilizzando i file VHD/VHDX archiviati in una condivisione SMB 3.0 su un file server.
Per l'esempio di test, il file server è stato configurato come file server di scalabilità orizzontale distribuito usando i volumi di archiviazione configurati da pool di Spazi di archiviazione compilati usando unità SAS connesse direttamente. Questa distribuzione garantisce prestazioni su larga scala.

Tenere presente quanto segue:

Questa distribuzione è supportata per DPM 2012 R2 e versioni successive e per tutti i dati del carico di lavoro di cui è possibile eseguire il backup da DPM 2012 R2 e versioni successive.
Tutti i nodi di Windows File Server in cui risiedono i dischi rigidi virtuali DPM e in cui verrà abilitata la deduplicazione devono eseguire Windows Server 2012 R2 con aggiornamento cumulativo di novembre 2014 o versione successiva.
Verranno fornite indicazioni generali e istruzioni per la distribuzione dello scenario. Ogni volta che vengono forniti esempi specifici dell'hardware, l'hardware distribuito su Microsoft Cloud Platform System (CPS) viene utilizzato per riferimento.
In questo esempio vengono usate condivisioni SMB 3.0 remote per archiviare i dati di backup, quindi i requisiti hardware principali si centrano sui nodi file server anziché sui nodi Hyper-V. La configurazione hardware seguente viene usata in CPS per l'archiviazione di backup e produzione. L'hardware complessivo viene usato sia per il backup che per l'archiviazione di produzione, ma il numero di unità elencate negli enclosure dell'unità è solo quelli usati per il backup.
- Cluster file server con scalabilità orizzontale a quattro nodi
- Configurazione per nodo
  - CPU 2x Intel(R) Xeon(R) E5-2650 0 @ 2,00 GHz, 2001 MHz, 8 core, 16 processori logici
  - Memoria RDIMM da 128 GB 1333 MHz
  - Connessioni di archiviazione: 2 porte di firma di accesso condiviso, 1 porta di 10 GbE iWarp/RDMA
- Quattro enclosure di unità JBOD
  - 18 dischi in ogni JBOD - 16 x 4 TB di UNITÀ SSD + 2 x 800 GB
  - Percorso doppio per ogni unità- Criteri di bilanciamento del carico di I/O multipath impostati per il failover solo
  - UNITÀ SSD configurate per la cache writeback (WBC) e il resto per le unità journal dedicate

Configurare i volumi di deduplicazione

Si consideri ora il modo in cui i volumi grandi devono supportare i file VHDX deduplicati contenenti dati DPM. In CPS sono stati creati volumi di 7,2 TB ciascuno. Le dimensioni ottimali di un volume dipendono principalmente dalla quantità e dalla frequenza delle modifiche apportate ai dati su tale volume e dalla velocità effettiva di accesso ai dati del sottosistema di archiviazione su disco. È importante notare che se l'elaborazione della deduplicazione non è in grado di mantenere il passo con la frequenza delle modifiche giornaliere dei dati (la varianza), il tasso di risparmio scenderà fino al completamento dell'elaborazione. Per informazioni più dettagliate, vedere Ridimensionamento dei volumi per la deduplicazione dei dati. Per i volumi di deduplicazione sono consigliate le linee guida generali seguenti:

Utilizzare spazi di archiviazione con parità con riconoscimento del contenitore per maggiore resilienza ed efficienza di utilizzo del disco.
Formattare NTFS con unità di allocazione da 64 KB e segmenti di record di file di grandi dimensioni per funzionare meglio con l'uso di file sparse.
Nella configurazione hardware sopra le dimensioni consigliate del volume di volumi da 7,2 TB, i volumi verranno configurati come segue:
- Cache di writeback con riconoscimento dell'enclosure doppia parità 7,2 TB + 1 GB
  - ResiliencySettingName == Parity
  - PhysicalDiskRedundancy == 2
  - NumberOfColumns == 7
  - Interleave == 256 KB (prestazioni di parità doppia con interleave di 64 KB è molto inferiore rispetto all'interleave predefinito di 256 KB)
  - IsEnclosureAware = = $true
  - AllocationUnitSize=64 KB
  - Servizio Replica file (FRS) di grandi dimensioni
  Configurare un nuovo disco virtuale nel pool di archiviazione specificato come indicato di seguito:
```
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
```
- Ognuno di questi volumi deve essere formattato come segue:
```
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64 KB -UseLargeFRS -Force
```
  Nella distribuzione di CPS, tali volumi vengono quindi configurati come volumi CVS.
- All'interno di questi volumi, DPM archivierà una serie di file VHDX per contenere i dati di backup. Abilitare la deduplicazione nel volume dopo la formattazione come indicato di seguito:
```
Enable-DedupVolume -Volume <volume> -UsageType HyperV
Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
```
  Questo comando modifica anche le impostazioni di deduplicazione a livello di volume seguenti:
  - Impostare UsageType su HyperV: questo comporta l'elaborazione dei file aperti di deduplicazione, necessari perché i file VHDX usati per l'archiviazione di backup da DPM rimangono aperti con DPM in esecuzione nella macchina virtuale.
  - Disabilita PartialFileOptimization: ciò causa l'ottimizzazione di tutte le sezioni di un file aperto anziché l'analisi delle sezioni modificate con un'età minima.
  - Impostare il parametro MinFileAgeDays su 0: con PartialFileOptimization disabilitato, MinFileAgeDays modifica il comportamento in modo che la deduplicazione consideri solo i file che non sono stati modificati in quel numero di giorni. Poiché si desidera che la deduplicazione inizi a elaborare i dati di backup in tutti i file VHDX di DPM senza alcun ritardo, è necessario impostare MinFileAgeDays su 0.

Per altre informazioni sulla configurazione della deduplicazione, vedere Installare e configurare la duplicazione dei dati.

Configurare l'archiviazione DPM

Per evitare problemi di frammentazione e mantenere l'efficienza, l’archiviazione di DPM viene allocata utilizzando file VHDX che risiedono in volumi deduplicati. In ogni volume vengono creati dieci file VHDX dinamici di 1 TB e collegati a DPM. Inoltre, 3 TB di overprovisioning dello spazio di archiviazione vengono eseguiti per sfruttare i risparmi di archiviazione prodotti dalla deduplicazione. Poiché la deduplicazione produce risparmi di archiviazione aggiuntivi, è possibile creare nuovi file VHDX in questi volumi per utilizzare lo spazio salvato. Il server DPM è stato testato con un massimo di 30 file VHDX collegati.

Eseguire questo comando per creare dischi rigidi virtuali che verranno aggiunti in seguito al server DPM:

New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>

Aggiungere quindi i dischi rigidi virtuali creati al server DPM come indicato di seguito:
```
Import-Module "DataProtectionManager"
Set-StorageSetting -NewDiskPolicy OnlineAll
$dpmdisks = @()
$dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool -
eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
Add-DPMDisk $dpmdisks
```
Questo passaggio configura un pool di archiviazione come disco o dischi in cui DPM archivia le repliche e i punti di ripristino per i dati protetti. Questo pool è parte della configurazione di DPM ed è separato dal pool di spazi di archiviazione utilizzato per creare i volumi di dati descritti nella sezione precedente. Per altre informazioni sui pool di archiviazione DPM, vedere Configurare pool di archiviazione e archiviazione su disco.

Configurare il cluster file server di Windows

La deduplicazione richiede una serie speciale di opzioni di configurazione per supportare l'archiviazione di DPM virtualizzata a causa della scala dei dati e delle dimensioni dei singoli file. Queste opzioni sono globali per il cluster o il nodo del cluster. È necessario abilitare la deduplicazione e le impostazioni del cluster devono essere configurate singolarmente su ogni nodo del cluster.

Abilitare la deduplicazione nell'archiviazione file server di Windows: il ruolo deduplicazione deve essere installato in tutti i nodi del cluster file server di Windows. A tale scopo, eseguire il comando di PowerShell seguente in ogni nodo del cluster:
```
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
```
Ottimizzare l'elaborazione dei dati di backup per i file di dati di backup: eseguire il comando di PowerShell seguente per impostare per avviare l'ottimizzazione senza ritardo e non per ottimizzare le scritture parziali dei file. Per impostazione predefinita, i processi di Garbage Collection (GC) vengono pianificati ogni settimana e ogni quarta settimana il processo GC viene eseguito in modalità "GC avanzato" per una ricerca più completa e a elevato utilizzo di tempo per la rimozione dei dati. Per il carico di lavoro DPM, questa modalità "GC profonda" non comporta miglioramenti apprezzabili e riduce la quantità di tempo in cui la deduplicazione può ottimizzare i dati. Abbiamo pertanto disabilitato la modalità "GC approfondita".
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
```
Ottimizzare le prestazioni per le operazioni su larga scala: eseguire lo script di PowerShell seguente per:
- Disabilitare elaborazione aggiuntiva e I/O durante l’esecuzione della garbage collection approfondita
- Riservare memoria aggiuntiva per l'elaborazione di hash
- Abilitare l'ottimizzazione delle priorità per consentire la deframmentazione immediata dei file di grandi dimensioni
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
```
Queste impostazioni modificano quanto riportato di seguito:
- HashIndexFullKeyReservationPercent: questo valore controlla la quantità di memoria del processo di ottimizzazione usata per gli hash dei blocchi esistenti rispetto ai nuovi hash dei blocchi. A scala elevata, un valore del 70% comporta una migliore velocità effettiva di ottimizzazione rispetto al valore predefinito di 50%.
- EnablePriorityOptimization: con i file che si avvicinano a 1 TB, la frammentazione di un singolo file può accumulare frammenti sufficienti per raggiungere il limite per ogni file. L’elaborazione di ottimizzazione consente di consolidare i frammenti e impedisce che tale limite venga raggiunto. Impostando questa chiave del Registro di sistema, la deduplicazione aggiungerà un processo aggiuntivo per gestire con priorità alta i file deduplicati con elevata frammentazione.

Configurare DPM e pianificazione dedup

Le operazioni sia di backup che di deduplicazione comportano un utilizzo intensivo dell’I/O. Se fossero eseguite contemporaneamente, il sovraccarico introdotto dal passaggio tra le operazioni potrebbe essere oneroso e causare il backup o la deduplicazione di una minore quantità di dati su base giornaliera. Si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Ciò garantisce che il traffico di I/O per ognuna di queste operazioni sia distribuito in modo efficiente durante le operazioni del sistema ogni giorno. Le linee guida consigliate per la pianificazione sono:

Suddividere i giorni in finestre non sovrapposte per il backup e la deduplicazione.
Configurare pianificazioni di backup personalizzate.
Configurare pianificazioni di deduplicazione personalizzate.
Pianificare l'ottimizzazione nella finestra di deduplicazione giornaliera.
Configurare separatamente le pianificazioni di deduplicazione nei fine settimana , utilizzando tale periodo di tempo per i processi di garbage collection e di pulitura.

Per configurare pianificazioni di DPM è possibile utilizzare il comando PowerShell seguente:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime -
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime -DurationInHours
$duration

In questa configurazione, DPM è configurato per eseguire il backup di macchine virtuali tra le ore 22 e le ore 6. La deduplicazione è pianificata per le rimanenti 16 ore del giorno. Il tempo effettivo di deduplicazione configurato dipenderà dalle dimensioni del volume. Per altre informazioni, vedere Ridimensionamento dei volumi per la deduplicazione dei dati. Una finestra di deduplicazione di 16 ore a partire dalle 6:00 dopo la fine della finestra di backup verrà configurata come segue da qualsiasi singolo nodo del cluster:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Ogni volta che viene modificata la finestra di backup, è fondamentale che la finestra di deduplicazione venga modificata insieme a essa in modo che non si sovrappongano. La finestra di deduplicazione e backup non deve riempire tutte le 24 ore del giorno; Tuttavia, è consigliabile che consentano variazioni nel tempo di elaborazione a causa delle modifiche giornaliere previste nei carichi di lavoro e nella varianza dei dati.

Implicazioni per le prestazioni di backup

Dopo la deduplicazione di un set di file, l'accesso ai file può comportare un lieve costo delle prestazioni. Ciò è dovuto all’elaborazione aggiuntiva necessaria per accedere al formato di file utilizzato dai file deduplicati. In questo scenario, i file sono un set di file VHDX soggetti a un utilizzo continuo da parte di DPM durante la finestra di backup. L'effetto di avere questi file deduplicati significa che le operazioni di backup e ripristino possono essere leggermente più lente rispetto a senza deduplicazione. Come per qualsiasi prodotto di backup, DPM implica un carico di lavoro pesante in termini di operazioni di scrittura, mentre le operazioni di lettura risultano più importanti durante il ripristino. Di seguito sono riportati alcuni consigli per risolvere le implicazioni relative alle prestazioni di backup dovute alla deduplicazione:

Operazioni di lettura/ripristino: gli effetti sulle operazioni di lettura sono in genere trascurabili e non richiedono particolari considerazioni perché le funzionalità di deduplicazione memorizzano nella cache blocchi deduplicati.
Operazioni di scrittura/backup: pianificare un aumento del tempo di backup del 5-10% durante la definizione della finestra di backup. (Si tratta di un aumento rispetto al tempo di backup previsto nel caso di scrittura su volumi non deduplicati).

Monitoraggio

DPM e la deduplicazione dati possono essere monitorati per assicurarsi che:

Sia stato eseguito il provisioning di spazio su disco sufficiente per archiviare i dati di backup
I processi di backup di DPM siano completati normalmente
La deduplicazione sia abilitata nei volumi di backup
Le pianificazioni di deduplicazione siano impostate correttamente
L’elaborazione di deduplicazione sia completata normalmente su base giornaliera
I tassi di risparmio per la deduplicazione corrispondano alle ipotesi effettuate per la configurazione del sistema

Il successo della deduplicazione dipende dalle capacità dell’hardware del sistema complessivo, (incluse velocità di elaborazione della CPU, larghezza di banda di I/O, capacità di archiviazione), dalla configurazione corretta del sistema, dal carico medio del sistema e dalla quantità di dati modificati giornalmente.

È possibile monitorare DPM utilizzando la Console centrale DPM. Vedere l’articolo su come Installare la Console centrale.

È possibile monitorare la deduplicazione per controllare lo stato di deduplicazione, la velocità di salvataggio e lo stato di pianificazione usando i comandi di PowerShell seguenti:

Get status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Get savings:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Per ottenere lo stato di pianificazione utilizzare il cmdlet Get-DedupSchedule.

Monitora eventi

Il monitoraggio del registro eventi può aiutare a comprendere gli eventi di deduplicazione e il relativo stato.

Per visualizzare gli eventi di deduplicazione in Esplora File, accedere a Registri applicazioni e servizi>Microsoft>Windows>Deduplicazione.
Se il valore LastOptimizationResult = 0x00000000 viene visualizzato nei risultati di Get-DedupStatus |fl di Windows PowerShell, l'intero set di dati è stato elaborato dal processo di ottimizzazione precedente. In caso contrario il sistema non è riuscito a completare l'elaborazione di deduplicazione e potrebbe essere consigliabile controllare le impostazioni di configurazione, ad esempio le dimensioni del volume.

Per ulteriori esempi di cmdlet, vedere Monitoraggio e report per la deduplicazione dati.

Monitorare l'archiviazione di backup

Nell'esempio di configurazione i volumi da 7,2 TB vengono riempiti con 10 TB di dati "logici" (le dimensioni dei dati quando non vengono deduplicati) archiviati in file VHDX dinamici da 10 x 1 TB. Man mano che questi file accumulano dati di backup aggiuntivi, riempiranno lentamente il volume. Se la percentuale di risparmio risultante dalla deduplicazione è sufficientemente elevata, tutti i 10 file saranno in grado di raggiungere le dimensioni logiche massime e di adattarsi al volume da 7,2 TB (potenzialmente potrebbe esserci spazio aggiuntivo per allocare file VHDX aggiuntivi per i server DPM da usare). Tuttavia, se le dimensioni della deduplicazione non sono sufficienti, lo spazio nel volume potrebbe essere esaurito prima che i file VHDX raggiungano le dimensioni logiche complete e il volume sarà pieno. Per evitare che i volumi diventino completi, è consigliabile:

Considerare requisiti conservativi per le dimensioni dei volumi e consentire un certo overprovisioning di archiviazione. È consigliabile consentire un buffer di almeno il 10% durante la pianificazione dell'utilizzo dell'archiviazione di backup per consentire variazioni previste di risparmio di deduplicazione e varianza dei dati.
Monitorare i volumi utilizzati per l'archiviazione di backup per garantire che l’utilizzo di spazio e i tassi di risparmio della deduplicazione siano entro i livelli previsti.

Se il volume diventa pieno, si ottiene il risultato dei sintomi seguenti:

La macchina virtuale di DPM entrerà in uno stato critico/di sospensione e non sarà più in grado di avviare ulteriori processi di backup.
Tutti i processi di backup che utilizzano i file VHDX nel volume pieno avranno esito negativo.

Per eseguire il ripristino da questa condizione e ripristinare il normale funzionamento del sistema, è possibile effettuare il provisioning di risorse di archiviazione aggiuntive e una migrazione di archiviazione della macchina virtuale DPM o del relativo VHDX per liberare spazio:

Arrestare il Server DPM a cui appartengono i file VHDX contenuti nella condivisione di backup piena.
Creare un nuovo volume e una nuova condivisione di backup utilizzando la stessa configurazione e impostazioni utilizzate per le condivisioni esistenti, incluse le impostazioni per NTFS e deduplicazione.
Eseguire la migrazione dell'archiviazione per la macchina virtuale DPM Server ed eseguire la migrazione di almeno un file VHDX dalla condivisione di backup completa alla nuova condivisione di backup creata nel passaggio 2.
Eseguire un processo di garbage collection (GC) di deduplicazione dei dati nella condivisione di backup di origine piena. Il processo di garbage collection deve avere esito positivo e recuperare lo spazio libero.
Riavviare la macchina virtuale del Server DPM.
Durante la finestra di backup successiva verrà attivato un processo di verifica della coerenza DPM per tutte le origini dati non riuscite in precedenza.
Tutti i processi di backup saranno ora completati correttamente.

Riepilogo

La combinazione della deduplicazione con DPM consente un risparmio di spazio significativo. Ciò consente tassi di conservazione superiori, maggiore frequenza di backup e un migliore TCO per la distribuzione di DPM. Le linee guida e i consigli forniti in questo documento dovrebbero fornire gli strumenti e le informazioni necessari per configurare la deduplicazione per l'archiviazione DPM e verificarne i vantaggi nella propria distribuzione.

Domande frequenti

D: I file VHDX DPM devono avere dimensioni pari a 1 TB. Ciò significa che DPM non è in grado di eseguire il backup di una macchina virtuale o di un database SQL o di un volume di file di dimensioni > pari a 1 TB?

R: No. DPM esegue l’aggregazione di più volumi in uno per archiviare i backup. Pertanto, le dimensioni del file da 1 TB non hanno implicazioni per le dimensioni delle origini dati di cui DPM può eseguire il backup.

D: Sembra che file VHDX di archiviazione di DPM debbano essere distribuiti solo su condivisioni file SMB remote. Cosa succede se archivio i file VHDX di backup in volumi abilitati per la deduplicazione nello stesso sistema in cui viene eseguita la macchina virtuale di DPM?

R: Come illustrato in precedenza, DPM, Hyper-V e dedup sono operazioni a elevato utilizzo di archiviazione e calcolo. La combinazione di tutte e tre in un unico sistema può portare a operazioni di I/O e a elevato utilizzo di processo che possono fissare Hyper-V e le relative macchine virtuali. Se si decide di provare a configurare DPM in una macchina virtuale con i volumi di archiviazione di backup nello stesso computer, è necessario monitorare attentamente le prestazioni per assicurarsi che la larghezza di banda di I/O e la capacità di calcolo siano sufficienti per mantenere tutte e tre le operazioni nello stesso computer.

D: Si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Perché non è possibile abilitare la deduplicazione durante il backup di DPM? È necessario eseguire il backup del database SQL ogni 15 minuti.

R: Dedup e DPM sono operazioni a elevato utilizzo di archiviazione e l'esecuzione di entrambi contemporaneamente può essere inefficiente e causare la fame di I/O. Pertanto, per proteggere i carichi di lavoro più di una volta al giorno (ad esempio SQL Server ogni 15 minuti) e per abilitare la deduplicazione contemporaneamente, assicurarsi che sia disponibile una larghezza di banda di I/O sufficiente e capacità del computer per evitare la fame di risorse.

D: In base alla configurazione descritta, DPM deve essere in esecuzione in una macchina virtuale. Perché non è possibile abilitare la deduplicazione nei volumi di copia shadow e nel volume di replica direttamente anziché nei file VHDX?

R: Dedup esegue la deduplicazione per ogni volume sui singoli file. Poiché dedup ottimizza a livello di file, non è progettato per supportare la tecnologia VolSnap usata da DPM per archiviare i dati di backup. Eseguendo DPM in una macchina virtuale, Hyper-V esegue il mapping delle operazioni di DPM sui volumi a livello di file VHDX, consentendo a dedup di ottimizzare i dati di backup e fornire maggiore risparmio di spazio di archiviazione.

D: La configurazione di esempio precedente ha creato solo volumi da 7,2 TB. È possibile creare volumi di dimensioni maggiori o minori?

R: Dedup esegue un thread per ogni volume. Con il crescere della dimensione del volume, dedup richiede più tempo per completare l'ottimizzazione. D'altra parte, con volumi di piccole dimensioni, sono presenti meno dati in cui trovare blocchi duplicati, con conseguente riduzione dei risparmi. È quindi consigliabile ottimizzare le dimensioni del volume in base alla varianza totale e alle funzionalità hardware del sistema per un risparmio ottimale. Informazioni più dettagliate sulla determinazione delle dimensioni dei volumi sono reperibili nell’articolo che illustra il Dimensionamento dei volumi per la deduplicazione in Windows Server. Per informazioni più dettagliate sulla determinazione delle dimensioni del volume usate con la deduplicazione, vedere Ridimensionamento dei volumi per deduplicazione dati.

Condividi tramite