Odstranění duplicit dat v úložišti DPM
Publikováno: březen 2016
Tento článek popisuje, jak dosáhnout snížení nároků úložiště DPM tím, že se v něm povolí odstranění duplicitních dat. V tomto scénáři aplikace DPM běží ve virtuálním počítači technologie Hyper-V a zálohuje data na virtuální pevné disky ve sdílených složkách na souborovém serveru systému Windows s povoleným odstraňováním duplicitních dat.
Přehled
V dnešních IT prostředích se správci IT potýkají s velkým problémem, kterým je nárůst dat, jak je vidět níže v odhadu světových dat od společnosti IDC až do roku 2020. Zvýšení nárůstu objemu podnikových dat vede k nárůstu potřeby úložiště pro zálohy.
Nárůst dat zvyšuje náklady na údržbu a hardware. Jak je znázorněno níže, 62 % IT správců řeší problém se zvyšujícími se náklady na hardware/software a náklady na jejich údržbu. Úplný průzkum najdete v příspěvku Týká se vás nárůst dat na blogu Informatica.
IT správci zálohují data produkčního prostředí, aby byly splňovány potřeby z hlediska obnovení dat v produkčním prostředí a požadavky organizace z hlediska dodržování předpisů. Zálohování je operace vysoce náročná na úložiště a snížení spotřeby úložiště pro zálohy je jedním z nejdůležitějších úkolů pro IT správce.
Odstraněním duplicitních dat můžete vyřešit potřebu snižovat spotřebu úložiště. Objem redundance v jakékoli dané sadě dat je závislý na typech datových úloh a používaných datových typech, v každém případě se ale při odstraňování duplicitních dat z hlediska zálohování dat dosahuje velkých úspor. K další redundanci a tedy i dalším úsporám plynoucím z odstranění duplicitních dat může dojít při společném zpracování dat záloh z podobných datových úloh využívajících podobné datové sady. Aplikace DPM díky využívání procesu odstranění duplicitních dat umožňuje poskytovat i tyto výhody.
Přehled aplikace DPM
System Center Data Protection Manager je podnikové řešení zálohování, které nabízí:
Zálohování a obnovení dat zohledňující aplikace – aplikace DPM chrání klienty, servery, virtuální počítače, data souborového serveru a úlohy aplikací. Poskytuje flexibilní možnosti zálohování, včetně schopnosti zálohovat některé úlohy s četností až 15 minut. Aplikace DPM obsahuje širokou škálu funkcí pro obnovení. Zákazníci mohou například nahradit aktuální produkční databázi SQL Serveru starší kopií, obnovit databáze na jiné místo pro účely zkoumání nebo obnovit data v podobě souborů za účelem poskytnutí kopie právnímu oddělení. Aplikace DPM pomáhá IT správcům zvolit typ obnovení, který potřebují. Podporuje také obnovení dat koncovými uživateli. Správci SQL serveru, správci systému souborů nebo uživatelé klientských počítačů mohou například obnovit všechna svá data přímo, aniž by k tomu potřebovali pomoc od správce.
V dynamickém prostředí se na produkčních serverech neustále vytváří nová data. Aplikace DPM usnadňuje správcům záloh práci tím, že zajišťuje ochranu na úrovni instance, která automaticky vyhledává a konfiguruje nová data vytvořená úlohami. Správci záloh tak nemusí ručně vyhledávat nové instance dat a přidávat je do konfigurace zálohování.
Podnikové škálování a centralizovaná správa: Jeden server DPM dokáže chránit 80 TB produkčních dat nebo 100 produkčních serverů. Je možné nasadit nástroj Central Console aplikace DPM pro správu až 100 DPM serverů z centrálního umístění. Pomocí centrálního generování sestav DPM můžete jednoduše generovat vlastní sestavy pro všechny DPM servery.
Efektivní ochrana privátního cloudu: Ať už máte svoje datacentrum privátního cloudu nakonfigurované na spouštění virtuálních počítačů technologie Hyper-V na samostatných serverech nebo na serverech Windows se vzdálenými připojeními ke sdíleným složkám protokolu SMB na souborových serverech systému Windows, dokáže aplikace DPM zálohovat virtuální počítače efektivně pomocí jedinečné technologie DPM pro zálohování virtuálních počítačů.
Aplikace DPM například zjistí migraci virtuálního počítače a automaticky pokračuje v ochraně virtuálního počítače – bez aktivního zapojení správce záloh. Pokud je virtuální počítač migrován z jednoho hostitele na druhého, bude se stejný DPM server dále zálohovat bez jakýchkoli úprav nastavení aplikace DPM nebo nutnosti provádět ruční kroky.
Zálohování integrované v cloudu: Aplikace DPM je dostatečně flexibilní, aby dokázala chránit úlohy v privátním cloudu technologie Hyper-V, ve veřejném cloudu Azure nebo v hostovaném cloudu. Společnosti využívající úlohy Microsoft na platformě Azure mohou k ochraně těchto úloh využívat aplikaci DPM běžící na Azure. Aplikace DPM podporuje zálohování mimo místní prostředí do Azure pomocí služby Zálohování Azure. Služba Zálohování Azure je integrována do pracovních postupů ochrany a obnovování dat aplikace DPM, což usnadňuje správu nastavení zálohování mimo místní prostředí a umožňuje uchovávat data po řadu let. Zálohování Azure je alternativním řešením zálohování na pásku. Pásky se odesílají poštou a i údržba pásek probíhá mimo místní prostředí. Správcům zálohování tak odpadnou veškeré povinnosti spojené s údržbou pásek.
Přehled odstraňování duplicitních dat
Funkce odstraňování duplicitních dat byla zavedena v systému Windows Server 2012 jako náhrada nové generace za funkce Úložiště jediné instance (SIS – Single-Instance Storage) ze systému Windows Storage Server 2008. Využívá pokročilý algoritmus vytváření bloků proměnné velikosti, který tak umožňuje při odstraňování duplicitních dat dosahovat maximální úspory na svazek. Využívá se metoda aplikovaná až po zpracování, která umožňuje zachovat veškerou sémantiku systému souborů a zajistit, aby toto zpracování mělo pouze nepatrný dopad na možnosti využití dat v primární cestě. Další informace naleznete v tématu Přehled odstranění duplicitních dat.
Funkce odstranění duplicitních dat je určena k instalaci na primární datové svazky bez nutnosti přidávat další vyhrazený hardware, aby neměla vliv na primární úlohy na serveru. Výchozí nastavení nejsou rušivá, protože před zpracováním určitého souboru nechají data pět dní zestárnout. Výchozí minimální velikost souboru je 32 kB. Implementace je navržena pro nízké využití paměti a procesoru. Odstranění duplicitních může být implementováno na následující úlohy.
Obecné sdílené složky: Publikování a sdílení obsahu skupiny, domovské složky uživatele a Přesměrování složky/Offline soubory
Sdílené složky nasazení softwaru: Binární soubory, image a aktualizace softwaru
Knihovny VHD: Úložiště souborů virtuálního pevného disku (VHD) pro zřizování na hypervisory
Nasazení VDI (jenom Windows Server 2012 R2): Nasazení infrastruktury virtuálních klientských počítačů (VDI) pomocí technologie Hyper-V
Virtualizované zálohování: Řešení zálohování (jako jsou třeba aplikace DPM běžící na virtuálním počítači s Hyper-V), která ukládají data záloh do souborů virtuálního pevného disku VHD/VHDX na souborovém serveru Windows.
Další informace o plánování odstranění duplicitních dat
Výhody pro firmy
Používání procesu odstranění duplicitních dat s aplikací DPM může přinést velké úspory. Velikost místa ušetřeného odstraněním duplicitních dat při optimalizaci dat zálohování aplikace DPM se liší v závislosti na typu zálohovaných dat. Například zálohování šifrovaného databázového serveru může přinést jen minimální úspory, protože všechna duplicitní data jsou skryta procesem šifrování. Nicméně zálohování rozsáhlého nasazení infrastruktury virtuálních klientských počítačů (VDI – Virtual Desktop Infrastructure) může vést k poměrně velkým úsporám, a to v rozsahu od 70 do 90 (i více) procent, protože mezi prostředími virtuálních klientů je obvykle velké množství duplicitních dat. V konfiguraci popsané v tomto tématu jsme provedli různé testovací úlohy a zaznamenali jsme úspory v rozmezí od 50 do 90 %.
Doporučené nasazení
K nasazení aplikace DPM jako virtuálního počítače, který zálohuje data na svazek zbavený duplicit doporučujeme následující topologii nasazení:
Aplikace DPM běžící ve virtuálním počítači v hostitelském clusteru technologie Hyper-V
Úložiště DPM využívající soubory VHD/VHDX uložené ve sdílené složce protokolu SMB 3.0 na souborovém serveru
Pro tento příklad nasazení jsme souborový server nakonfigurovali jako souborový server s horizontálně navyšovanou kapacitou (SOFS) nasazený pomocí svazků úložiště nakonfigurovaných z fondů prostorů úložiště vytvořených pomocí přímo připojených disků SAS. Poznámka: Toto nasazení zajišťuje zachování potřebného výkonu při škálování.
Důležité informace:
Tento scénář je podporován pro aplikaci DPM 2012 R2.
Je podporován pro všechny úlohy, pro které mohou být data zálohována aplikací DPM 2012 R2.
Na všech uzlech souborového serveru systému Windows, na kterém jsou umístěny virtuální pevné disky DPM a na kterých bude povoleno odstraňování duplicitních dat, se musí používat Windows Server 2012 R2 s kumulativní aktualizací z listopadu 2014.
Poskytneme obecná doporučení a pokyny pro nasazení scénáře. Vždy, když jsou uvedeny příklady specifické pro určitý hardware, se pro referenci používá hardware nasazený v systému Microsoft Cloud Platform System (CPS).
Testovaný hardware
V tomto scénáři se k ukládání dat záloh používají vzdálené sdílené složky protokolu SMB 3.0, takže požadavky na hardware primárně vycházejí z uzlů souborového serveru, nikoli z uzlů technologie Hyper-V. Pro zálohování a produkční úložiště se v systému CPS používá následující konfigurace hardwaru. Poznámka: Hardware se celkové používá jak pro úložiště pro zálohování, tak i pro produkční prostředí, ale ve skříních jednotek je uváděn pouze počet jednotek, které se používají pro zálohování.
Cluster souborových serverů s horizontálně navyšovanou kapacitou (SOFS) se 4 uzly
Konfigurace uzlů
2x Intel(R) Xeon(R) CPU E5-2650 0 @ 2 GHz, 2001 MHz, 8 jader, 16 logických procesorů
Paměť RDIMM 128GB 1333MHz
Připojení úložišť: 2 porty SAS, 1 port 10GbE iWarp/RDMA
4 skříně jednotek JBOD
18 disků v každé skříni JBOD – šestnáct 4TB pevných disků + dva 800GB disky SSD
Duální cesta ke každé jednotce – zásada funkce Microsoft Multipath I/O (MPIO) pro vyrovnávání zatížení nastavena na hodnotu Pouze převzetí služeb při selhání
Disky SSD s nakonfigurovanou mezipamětí WBC (write back cache) a ostatní disky s nakonfigurovanými vyhrazenými jednotkami s žurnálováním
Naplánování a nastavení svazků s odstraněnými duplicitními daty
Pojďme se podívat na to, jak velké by svazky měly být, aby podporovaly soubory VHDX zbavené duplicitních dat obsahující DPM data. V systému CPS jsme vytvořili svazky, kde každý měl velikost 7,2 TB. Optimální velikost svazku závisí především na tom, do jaké míry a jak často se data na svazku mění, a na propustnostech subsystému úložiště disku z hlediska přístupu k datům. Je důležité poznamenat, že pokud zpracování odstranění duplicitních dat nedokáže držet krok s objemem každodenních změn dat, míra úspory až do doby, než nebude možné zpracování dokončit, poklesne. Podrobnější informace naleznete v tématu Nastavení velikosti svazků pro odstranění duplicitních dat. Pro svazky s odstraňováním duplicitních dat doporučujeme dodržovat následující obecné pokyny:
Používejte paritní prostory úložiště s podporou rozpoznávání skříní pro zajištění odolnosti a vyššího využití disku.
Pro formát NTFS používejte 64kB alokační jednotky a velké segmenty záznamů souborů, aby lépe fungoval s deduplikovaným použitím zhuštěných souborů.
V konfiguraci hardwaru uvedené výše je doporučována velikost svazku 7,2 TB a svazky budou nakonfigurovány takto:
7,2 TB s duální paritou a podporou rozpoznávání skříní + 1 GB mezipaměti WBC (Write Back Cache)
ResiliencySettingName == Parity
PhysicalDiskRedundancy == 2
NumberOfColumns == 7
Interleave == 256KB (výkon při duální paritě při 64kB prokládání dat je mnohem nižší než při výchozím 256kB prokládání dat)
IsEnclosureAware == $true
AllocationUnitSize=64KB
–UseLargeFRS
Nový virtuální disk v zadaném fondu úložiště nastavte takto:
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
Každý z těchto svazků musí být následně naformátován takto:
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
V nasazení CPS jsou pak tyto svazky nakonfigurovány jako sdílené svazky clusteru (CSV).
V rámci těchto svazků aplikace DPM uloží řadu VHDX souborů, ve kterých se budou ukládat data záloh. Po naformátování svazku na něm takto povolte odstraňování duplicitních dat:
Enable-DedupVolume –Volume <volume> -UsageType HyperV Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
Tento příkaz také upraví následující nastavení odstraňování duplicitních dat na úrovni svazku:
Nastavte položku UsageType na HyperV: Výsledkem je odstranění duplicitních dat u otevřených souborů, které se vyžaduje, protože VHDX soubory používané pro úložiště záloh aplikací DPM zůstanou otevřené a aplikace DPM přitom běží ve virtuálním počítači.
Zakažte parametr PartialFileOptimization: To způsobí, že proces odstraňování duplicitních dat optimalizuje všechny oddíly otevřeného souboru místo toho, aby vyhledával změněné oddíly s minimálním stářím.
Nastavte parametr MinFileAgeDays na 0: Pokud je zakázaný parametr PartialFileOptimization, změní parametr MinFileAgeDays své chování tak, aby se při odstraňování duplicit zvažovaly pouze soubory, u kterých za daný počet dní nenastala žádná změna. Vzhledem k tomu, že chceme, aby se při odstraňování duplicit začala zpracovat data záloh ve všech VHDX souborech aplikace DPM bez jakéhokoli zpoždění, musíme parametr MinFileAgeDays nastavit na hodnotu 0.
Další informace o nastavení odstraňování duplicitních dat naleznete v tématu Instalace a konfigurace odstraňování duplicitních dat.
Naplánování a nastavení úložiště DPM
Aby nedocházelo k problémům s fragmentací a zachovala se efektivita, je úložiště DPM přidělováno pomocí VHDX souborů nacházejících se na svazcích, na kterých byla odstraněna duplicitní data. Na každém svazku je vytvořeno 10 dynamických VHDX souborů (každý o velikosti 1 TB), které jsou pak připojeny k úložišti DPM. Všimněte si, že se zřizuje o 3 TB větší úložiště, aby bylo možné využít úspor úložiště, kterých je dosaženo odstraněním duplicitních dat. S tím, jak se odstraňováním duplicitních dat dosahuje ušetření dalšího úložiště, je možné na těchto svazcích vytvořit nové VHDX soubory, které budou moci toto ušetřené místo využívat. Otestovali jsme DPM sever až se 30 připojenými VHDX soubory.
Spuštěním následujícího příkazu vytvoříte virtuální pevné disky, které budou později přidány na DPM server:
New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
Potom takto přidejte vytvořené virtuální pevné disky na DPM server:
Import-Module "DataProtectionManager" Set-StorageSetting -NewDiskPolicy OnlineAll $dpmdisks = @() $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool – eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false} Add-DPMDisk $dpmdisks
Poznámka: Tento krok nakonfiguruje fond úložiště jako disk nebo disky, na kterých aplikace DPM ukládá repliky a body obnovení pro chráněná data. Tento fond je součástí konfigurace aplikace DPM a oddělený od fondu prostorů úložiště použitého k vytvoření datových svazků, jak je popsáno v předchozí části. Další informace o fondech úložiště DPM naleznete v tématu Konfigurace diskového úložiště a fondů úložiště.
Naplánování a nastavení clusteru souborových serverů systému Windows
Odstranění duplicitních dat vyžaduje speciální sadu možností konfigurace za účelem podpory virtualizovaného DPM úložiště z důvodu škálování dat a velikosti jednotlivých souborů. Tyto možnosti jsou pro cluster nebo uzel clusteru globální. Musí být povoleno odstraňování duplicitních dat a na každém uzlu clusteru musí být samostatně nakonfigurováno nastavení clusteru.
Povolte odstraňování duplicitních dat v úložišti souborového serveru systému Windows. Na všech uzlech clusteru souborových serverů systému Windows musí být nainstalována role odstraňování duplicitních dat. To provedete tak, že na každém uzlu clusteru spustíte následující příkaz prostředí PowerShell:
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
Optimalizujte zpracování odstraňování duplicitních dat na zálohování datových souborů. Spuštěním následujícího příkazu prostředí PowerShell nastavte, že se má neprodleně spustit optimalizace a nemají se optimalizovat částečné zápisy souboru. Poznámka: Ve výchozím nastavení jsou na každý týden naplánované úlohy uvolňování paměti a každý čtvrtý týden úloha uvolňování paměti běží v režimu hloubkového čištění, ve kterém se data, která mají být odebrána, hledají podrobněji a delší dobu. Z hlediska úloh aplikace DPM tento režim hloubkového čištění při uvolňování paměti nepřináší žádné zásadní výhody a zkracuje dobu, během které by mohl proces odstraňování duplicitních dat optimalizovat data. Proto tento hloubkový režim zakážeme.
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
Optimalizujte výkon pro rozsáhlé operace škálování. Spuštěním následujícího skriptu prostředí PowerShell:
Zakažte další zpracování a vstupně-výstupní operace při spuštění hloubkového režimu uvolňování paměti.
Vyhraďte další paměť pro zpracování algoritmu hash.
Povolte optimalizaci priority, aby byla povolena okamžitá defragmentace velkých souborů.
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70 Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
Tato nastavení upraví následující:
HashIndexFullKeyReservationPercent: Tato hodnota určuje, kolik paměti úloh optimalizace se používá pro existující hodnoty hash bloků v porovnání s novými hodnotami hash bloků. Při vysoké míře škálování je výsledkem použití hodnoty 70 % vyšší propustnost optimalizace než při výchozích 50 %.
EnablePriorityOptimization: U souborů, u kterých se velikost blíží 1 TB, může fragmentace jednoho souboru naakumulovat tolik fragmentů, že se velikost může přiblížit limitu. Zpracování optimalizace tyto fragmenty konsoliduje a zabrání dosažení tohoto limitu. Pokud je nastaven tento klíč registru, přidá se při zpracování odstraňování duplicitních dat další proces pro zpracování vysoce fragmentovaných souborů s vysokou prioritou, které jsou zbaveny duplicitních dat.
Naplánování a nastavení aplikace DPM a naplánování odstranění duplicitních dat
Jak operace zálohování, tak i operace odstranění duplicitních dat jsou náročné na vstupně-výstupní zpracování. Pokud by byly spuštěny současně, dodatečná režie pro přepínání mezi operacemi by mohla být nákladná a mohla by mít za následek menší objem každodenně zazálohovaných dat nebo dat každodenně zbavených duplicitních dat. Doporučujeme pro odstraňování duplicitních dat a vytváření záloh nakonfigurovat vyhrazené a samostatné intervaly. Díky tomu je možné zajistit, aby byl vstupně-výstupní přenos dat pro každou z těchto operací během každodenního provozu systému efektivně distribuován. Doporučené pokyny pro plánování:
Rozdělte dny na nepřekrývající se intervaly zálohování a odstraňování duplicit.
Nastavte si vlastní plány zálohování.
Nastavte si vlastní plány odstraňování duplicitních dat.
V každodenním intervalu odstraňování duplicitních dat naplánujte optimalizaci.
Samostatně nastavte plány pro víkendové odstraňování duplicitních dat a tuto dobu využijte pro úlohy uvolnění paměti a čištění.
Plány aplikace DPM můžete nastavit pomocí následujícího příkazu prostředí PowerShell:
Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration
V této konfiguraci je aplikace DPM nakonfigurována tak, aby zálohovala virtuální počítače od 22:00 do 6:00. Odstranění duplicitních dat je naplánováno na zbývajících 16 hodin dne. Poznámka: Doba, jakou bude odstraňování duplicitních dat ve skutečnosti trvat, bude záviset na velikosti svazku. Další informace naleznete v tématu Nastavení velikosti svazků pro odstranění duplicitních dat. 16hodinový interval odstraňování duplicitních dat, který začíná v 6:00 po skončení intervalu zálohování, by se na každém jednotlivém uzlu clusteru nakonfiguroval takto:
#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}
Vždy, když se mění interval zálohování, je důležité zároveň upravit interval odstraňování duplicitních dat, aby se tyto dva intervaly nepřekrývaly. Interval odstraňování duplicitních dat a interval zálohování nemusí vyplnit celých 24 hodin dne, ale doporučujeme, aby bylo možné dobu zpracování upravovat podle každodenně očekávaných změn v objemu zpracovávaných úloh a změn dat.
Dopady na výkon z hlediska zálohování
Po odstranění duplicitních dat ze sady souborů můžete při přístupu k souborům zaznamenat mírně snížený výkon. To je způsobeno dalším zpracováním, které je nutné pro přístup k formátu souborů využívaném soubory, které byly zbaveny duplicit. V tomto scénáři je těmito soubory sada VHDX souborů, které se průběžné využívají aplikací DPM v daném intervalu zálohování. V důsledku odstranění duplicitních dat z těchto souborů mohou být operace zálohování a obnovení nepatrně pomalejší v porovnání se soubory bez odstranění duplicitních dat. Jako v případě každého produktu pro zálohování jde i v případě aplikace DPM o úlohy náročné na zápis, kde operace čtení jsou nejdůležitější při operacích obnovování. Doporučení pro zmírnění dopadů na výkon zálohování z důvodu odstranění duplicitních dat:
Operace čtení/obnovení: Dopady na operace čtení jsou obvykle nepatrné a nevyžadují žádná zvláštní opatření, protože funkce odstranění duplicitních dat ukládá bloky dat zbavené duplicit do mezipaměti.
Operace zápisu/zálohování: Při definování intervalu zálohování počítejte s prodloužením doby zálohování přibližně o 5 až 10 %. (Jde o nárůst v porovnání s očekávanou dobou zálohování při zápisu do svazků nezbavených duplicitních dat.)
Monitorování
Aplikaci DPM a odstraňování duplicitních dat je možné monitorovat, aby bylo zajištěno následující:
Dostupnost dostatečného místa na disku pro ukládání dat záloh
Dokončování úloh zálohování DPM obvyklým způsobem
Povolení odstraňování duplicitních dat ve svazcích záloh
Správné nastavení plánů odstranění duplicitních dat
Každodenní dokončování úlohy odstraňování duplicitních dat obvyklým způsobem
Míra úspory díky odstranění duplicitních dat odpovídá předpokladům pro konfiguraci systému.
Úspěch odstranění duplicitních dat závisí celkově na výkonu hardwaru (včetně rychlosti procesoru, vstupně-výstupní šířky pásma a kapacity úložiště), správné konfiguraci systému, průměrném zatížení systému a každodenním objemu změněných dat.
Aplikaci DPM můžete monitorovat pomocí nástroje Central Console aplikace DPM. Další informace najdete v tématu Instalace nástroje Central Console.
Odstraňování duplicitních dat můžete pomocí následujících příkazů prostředí PowerShell monitorovat a zjistit tak stav odstraňování duplicitních dat, míru úspory a stav plánování:
Získání informací o stavu:
PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:
Získáte informací o úspoře:
PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:
Informace o stavu plánování získáte pomocí rutiny Get-DedupSchedule.
Monitorování událostí
Díky monitorování protokolu událostí budete mít přehled o stavu a událostech odstraňování duplicitních dat.
Pokud chcete zobrazit události odstraňování duplicitních dat, přejděte v Průzkumníkovi souborů na Protokoly aplikací a služeb > Microsoft > Windows > Odstranění duplicitních dat.
Pokud se ve výsledcích Get-DedupStatus |fl Windows PowerShell zobrazí hodnota LastOptimizationResult = 0x00000000, byla celá datová sada zpracována předchozí úlohou optimalizace. Pokud ne, nebyl systém schopen zpracování odstranění duplicitních dat dokončit. V takovém případě doporučujeme zkontrolovat nastavení konfigurace, například velikost svazku.
Podrobnější případy rutin najdete v tématu Monitorování a generování sestav pro odstraňování duplicitních dat.
Monitorování úložiště záloh
V našem příkladu konfigurace máme svazky po 7,2 TB, které jsou vyplněny 10 TB „logických“ dat (velikost dat, když nejsou zbaveny duplicit) uložených v deseti 1TB dynamických VHDX souborech. Protože tyto soubory akumulují další data záloh, pomalu svazek zaplní. Pokud je procento úspory vyplývající z odstranění duplicitních dat dostatečné, bude všech 10 souborů moci dosáhnout své maximální logické velikosti, ale stále se vejdou do svazku 7,2TB svazku (potenciálně může existovat i další místo pro přidělení dalších VHDX souborů, které budou využívat DPM servery). Pokud však úspora velikosti díky odstranění duplicitních dat dostatečná nebude, mohlo by místo na svazku dojít, ještě než VHDX soubory dosáhnou své maximální logické velikosti, a svazek bude zaplněn. Aby se předešlo maximálnímu zaplnění svazků, doporučujeme následující:
Buďte konzervativní z hlediska požadavků na velikost svazku a umožněte zřizování úložiště s určitou rezervou velikosti. Doporučuje se při plánování využití úložiště pro zálohy umožnit používání aspoň 10% vyrovnávací paměti, aby se zohlednily očekávané odchylky z hlediska úspory dosažené odstraněním duplicitních dat a změn dat.
Monitorujte svazky používané pro úložiště záloh, aby bylo zajištěno, že je míra využití místa a míra úspory díky odstranění duplicitních dat na očekávané úrovni.
Pokud dojde k maximálnímu zaplnění svazku, projeví se to následujícím způsobem:
Virtuální počítač DPM bude přepnut do kritického stavu pozastavení a nebude již moci iniciovat žádné další úlohy zálohování.
Všechny úlohy zálohování, které používají VHDX soubory na zaplněném svazku, selžou.
Aby bylo možné systém z tohoto stavu zotavit a obnovit jeho normální provoz, je možné zřídit další úložiště a provedením migrace virtuálního počítače DPM nebo jeho virtuálního disku VHDX uvolnit potřebné místo:
Zastavte DPM server, který vlastní VHDX soubory v zaplněné sdílené složce záloh.
Vytvořte další svazek a sdílenou složku záloh pomocí stejné konfigurace a nastavení, jaké se používají pro existující sdílené složky, včetně nastavení pro systém souborů NTFS a odstraňování duplicitních dat.
Migrujte úložiště pro virtuální počítač serveru DPM a migrujte aspoň jeden soubor VHDX ze zaplněné sdílené složky záloh do nové sdílené složky záloh vytvořené v kroku 2.
Spusťte uvolnění paměti pro odstraňování duplicitních dat pro zdrojovou složku záloh, která byla zaplněna. Tato úloha uvolnění paměti by měla být úspěšně dokončena a měla by uvolnit potřebné místo.
Restartujte virtuální počítač DPM serveru.
Pro všechny zdroje dat, které dříve selhaly, bude během dalšího intervalu zálohování aktivována úloha kontroly konzistence DPM.
Všechny úlohy zálohování by nyní měly být úspěšné.
Závěr
Kombinace procesu odstraňování duplicitních dat a aplikace DPM přináší výraznou úsporu místa. To umožňuje dosahovat vyšší míry uchovávání dat, provádět častější zálohy a dosahovat celkově nižších nákladů na vlastnictví pro nasazení aplikace DPM. Pokyny a doporučení v tomto dokumentu by vám měly poskytnout nástroje a informace, které potřebujete, abyste mohli nakonfigurovat odstraňování duplicitních dat pro úložiště DPM a využívat jeho výhody ve vlastním nasazení.
Nejčastější dotazy
Otázka: VHDX soubory aplikace DPM musí mít velikost 1 TB. Znamená to, že aplikace DPM nedokáže zálohovat virtuální počítač, sharepointový web, databázi SQL nebo svazek souborů o velikosti větší než 1 TB?
Odpověď: Ne. Aplikace DPM za účelem ukládání záloh agreguje více svazků do jednoho. To znamená, že velikost souboru 1 TB není nijak určující z hlediska velikosti zdrojů dat, které může aplikace DPM zálohovat.
Otázka: Zdá se, že VHDX soubory úložiště DPM musí být nasazené výhradně ve vzdálených sdílených složkách protokolu SMB. Co se stane, pokud uložím VHDX soubory záloh na svazky s podporou odstraňování duplicitních dat ve stejném systému, ve kterém běží virtuální počítač DPM?
Odpověď: Jak je uvedené výš, DPM, Hyper-V a odstraňování duplicitních dat jsou operace náročné na úložiště a výpočty. Zkombinování všech těchto tří možností do jednoho systému může vést k operacím náročným na vstupně-výstupní prostředky a na zpracování, které mohou vyčerpat prostředky technologie Hyper-V a jejích virtuálních počítačů. Pokud se rozhodnete experimentovat s konfigurací DPM ve virtuálním počítači se svazky úložiště pro zálohy na stejném počítači, měli byste pečlivě monitorovat výkon, abyste měli jistotu, že je k dispozici dostatečná šířka pásma pro vstupně-výstupní operace a výpočetní kapacita, aby bylo možné zachovat zpracování všech tří typů operací ve stejném počítači.
Otázka: Doporučujete samostatné a vyhrazené intervaly odstraňování duplicitních dat a zálohování. Proč nemohu povolit odstraňování duplicitních dat v době zálohování aplikace DPM? Potřebuji zálohovat databáze SQL každých 15 minut.
Odpověď: Odstraňování duplicitních dat a DPM jsou operace náročné na úložiště a jejich současné spuštění ve stejnou dobu může být neefektivní a může vést k nedostatku vstupně-výstupních prostředků. Pokud tedy chcete zajistit častější ochranu úloh než jednou denně (například každých 15 minut pro SQL Server) a současně povolit odstraňování duplicit, je potřeba mít jistotu, že máte dostatečnou šířku pásma vstupně-výstupních operací a výpočetní kapacitu, abyste se vyhnuli vyčerpání prostředků.
Otázka: Na základě popsané konfigurace musí DPM běžet ve virtuálním počítači. Proč není možné povolit odstraňování duplicitních dat přímo pro svazek repliky a svazky stínové kopie místo pro VHDX soubory?
Odpověď: Operace odstraňování duplicitních dat probíhají na jednotlivých svazcích pro jednotlivé soubory. Vzhledem k tomu, že se odstraňování duplicitních dat optimalizuje na úrovni souborů, není určeno k podpoře technologie VolSnap, která pro uložení svých dat záloh využívá aplikaci DPM. Spuštěním aplikace DPM ve virtuálním počítači mapuje technologie Hyper-V operace svazku DPM na úroveň VHDX souborů, čímž umožňuje při odstraňování duplicitních dat optimalizovat data záloh a zajišťovat větší úsporu místa v úložišti.
Otázka: V ukázkové konfiguraci uvedené výš se vytvářely jenom 7,2TB svazky. Je možné vytvořit větší nebo menší svazky?
Odpověď: Při odstraňování duplicitních dat je spuštěné jedno vlákno na jeden svazek. Se zvětšující se velikostí svazku vyžaduje proces odstraňování duplicitních dat více času k dokončení optimalizace. Na malých svazcích je ale zase na druhé straně méně dat, ve kterých se mají najít duplicitní bloky dat, což může vést ke snížení úspory. Aby bylo dosaženo optimální úspory, doporučuje se optimalizovat velikost svazku na základě celkového objemu změn a výkonu hardwaru. Podrobnější informace o určení velikosti svazků používaných pro odstraňování duplicitních dat naleznete v tématu Nastavení velikosti svazků pro odstranění duplicitních dat v systému Windows Server. Podrobnější informace o určení velikosti svazků používaných pro odstraňování duplicitních dat naleznete v tématu Nastavení velikosti svazků pro odstranění duplicitních dat.