Översikt över datadeduplicering

Artikel
09/02/2016

Publicerat: augusti 2016

Gäller för: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

Det här avsnittet beskriver funktionen Datadeduplicering i Windows Server 2012 R2 och Windows Server 2012 och förklarar hur funktionen kan användas i praktiken.

Funktionsbeskrivning

Datadeduplicering innebär bland annat att söka efter och ta bort duplicering i data utan att påverka informationens återgivning eller integritet. Målet är att lagra mer data på mindre utrymme genom att segmentera filer i små segment med olika storlek (32–128 kB), identifiera duplicerade segment samt bevara och underhålla en enda kopia av varje segment. Redundanta kopior av segmentet ersätts med en referens till den enda kopian. Segment komprimeras och ordnas sedan i särskilda behållarfiler i mappen System Volume Information.

Resultatet är en omvandling på disken av varje fil (se bild 1). Efter dedupliceringen lagras inte längre filerna som oberoende dataströmmar. De ersätts med platshållare som pekar på datablock som lagras i ett gemensamt segmentarkiv. Eftersom filerna delar block, lagras blocken bara en gång, vilket innebär att mindre diskutrymme krävs för att lagra alla filer. Vid filåtkomsten sätts rätt block ihop transparent och data visas utan att programmet anropas och utan att användaren har kännedom om filens transformering på disken. Detta betyder att administratörer kan använda deduplicering för filer utan att behöva oroa sig för att programmets beteende ska påverkas eller att användare som kommer åt filerna påverkas.

Bild 1 Omvandling av filer på disk

Bild 1 Transformering av filer på disk under datadeduplicering

När en volym har aktiverats för deduplicering och informationen har optimerats innehåller volymen följande:

Ej optimerad filer. Icke-optimerade filer kan till exempel vara filer som inte uppfyller den valda principen för filålder, systemtillståndsfiler, alternativa dataströmmar, krypterade filer, filer med utökade attribut, filer som är mindre än 32 kB, andra referenspunktsfiler eller filer som används av andra program (gränsen för ”används” har tagits bort i Windows Server 2012 R2).
Optimerade filer. Filer som lagras som referenspunkter som innehåller pekare till en mappning av segmenten i segmentarkivet, som behövs för att återställa filen när den begärs.
Segmentarkiv. Plats för data om optimerade filer.
Ytterligare ledigt utrymme. De optimerade filerna och segmentarkivet tar upp mycket mindre plats än de gjorde före optimeringen.

Praktiska tillämpningar

För att hantera företagens ökade behov av lagringsutrymme konsoliderar administratörer servrar och prioriterar kapacitetsskalning och dataoptimering. Datadedupliceringen ger praktiska möjligheter att åstadkomma detta. Till exempel:

Kapacitetsoptimering. Med datadeduplicering kan man lagra mer data på mindre fysiskt utrymme. Det ger större lagringseffektivitet än vad som är möjligt med hjälp av funktioner som SIS (Single Instance Storage) eller NTFS-komprimering. Vid datadeduplicering används komprimering och segmentering av filer i segment med olika storlekar, vilket ger en optimeringsgrad på 2:1 för allmänna filservrar och upp till 20:1 för virtualiseringsdata.
Skalning och prestanda. Datadeduplicering är mycket skalbart och resurseffektivt utan att påverka övriga arbetsbelastningar. Funktionen kan bearbeta upp till 50 MB per sekund i Windows Server 2012 R2 och cirka 20 MB data per sekund i Windows Server 2012. Funktionen kan köras på flera volymer samtidigt utan att påverka andra arbetsbelastningar på servern. Den låga påverkan på serverns arbetsbelastningar uppnås genom att processor- och minnesanvändningen begränsas. Om servern blir hårt belastad kan dedupliceringen stoppas helt. Administratörer kan dessutom köra datadedupliceringsjobben när som helst, skapa datadedupliceringsscheman och skapa principer för val av filer.
Tillförlitlighet och dataintegritet. Dataintegriteten bevaras när datadeduplicering implementeras. Dataintegriteten vid datadeduplicering säkerställs genom verifiering av kontrollsumma, konsekvens och identitet. Datadedupliceringsfunktionen bevarar redundansen för alla metadata och ofta använda data så att dessa data kan återställas utan problem om de skadas.
Bandbreddseffektivitet med BranchCache. Integreringen med BranchCache gör att samma optimeringstekniker tillämpas på data som överförs via WAN till ett filialkontor. Resultatet är snabbare filhämtningar och minskad bandbreddsanvändning.
Optimeringshantering med välbekanta verktyg. Datadeduplicering har inbyggda optimeringsfunktioner i serverhanteraren och Windows PowerShell. Standardinställningarna ger besparingar direkt, men administratörer kan även finjustera inställningarna för ännu större besparingar. Det är lätt att starta optimeringsjobb och att schemalägga jobb för framtiden med hjälp av Windows PowerShell-cmdlets. Det går också att installera funktionen Datadeduplicering och att aktivera deduplicering på valda volymer med hjälp av en Unattend.xml-fil som anropar ett Windows PowerShell-skript, och Sysprep kan sedan användas för att distribuera dedupliceringen första gången ett system startar.

Nya och ändrade funktioner

I följande tabell beskrivs ändringarna i funktionen Datadeduplicering. Mer information finns i Vad är nytt i Datadeduplicering i Windows Server.

Funktion/funktionalitet	Ny eller uppdaterad?	Beskrivning
Datadeduplicering för fjärrlagring av VDI-arbetsbelastningar (Virtual Desktop Infrastructure)	Nyheter i Windows Server 2012 R2	Optimera aktiva virtuella hårddiskar (VHD) för VDI-arbetsbelastningar (Virtual Desktop Infrastructure) genom att implementera Datadeduplicering på klusterdelade volymer.
Expandera en optimerad fil på dess ursprungliga sökväg	Nyheter i Windows Server 2012 R2	Använd den nya Expand-DedupFile-cmdleten i Windows PowerShell för att expandera optimerade filer på en angiven sökväg i den ursprungliga sökvägen om det behövs för kompatibilitet med program, prestanda eller andra krav. Mer information om cmdleten finns i T:Deduplication.Expand-DedupFile.
Datadeduplicering för säkerhetskopierade volymer som används av virtualiserade säkerhetskopieringsprogram	Nyheter i Windows Server 2012 R2	Optimera aktiva virtuella hårddiskar som används av arbetsbelastningar i virtualiserade säkerhetskopieringsprogram, genom att införa datadeduplicering på klusterdelade volymer eller begränsade hyperkonvergerade konfigurationer. (Stöds med Windows Server 2012 R2 med november 2014-uppdateringen (KB 3000850) eller senare).

Krav

För att dra nytta av datadeduplicering måste miljön uppfylla följande krav:

Server: En dator eller virtuell dator som kör Windows Server 2012 R2 eller Windows Server 2012 med minst en datavolym
(Valfritt) En annan dator eller virtuell dator med Windows Server 2012 R2 eller Windows Server 2012 som är ansluten till servern via ett nätverk
Viktigt

Om datadeduplicering utförs på VDI-arbetsbelastningar eller arbetsbelastningar i virtualiserade säkerhetskopieringsprogram måste alla virtuella hårddiskfiler antingen:
- vara lagrade på en filserver som kör Windows Server 2012 R2, och lagringsnoden och beräkningsnoden måste köras på olika servrar.
- vara lokalt lagrade i en särskild begränsad hyperkonvergerad konfiguration. Detaljerade krav finns i Planera distribution av datadeduplicering.

Samverkan med virtuella datorer i Azure

Du kan köra den här Windows Server-rolltjänsten på en virtuell dator i Azure. Det här scenariot har testats med Windows Server 2012 R2. Vi rekommenderar att Datadeduplicering används med virtuella datorer i Windows Azure som har volymer med många läsningar men få skrivningar. I dessa fall kan datadeduplicering vara ett bra sätt att lagra mer data på virtuella Azure-datorer.

Följande arbetsbelastningar kan vara lämpliga att använda med funktionen Datadeduplicering på virtuella datorer i Azure:

Allmänna filservrar med relativt statiskt innehåll
Microsoft SharePoint-webbplatser med relativt statiskt innehåll
Webbplatser med relativt statiskt innehåll

Följande arbetsbelastningar bör inte användas med Datadeduplicering på virtuella datorer i Azure på grund av de frekventa ändringarna i stora filer som används av arbetsbelastningarna:

Meddelandeservrar som Microsoft Exchange Server
Databasservrar som Microsoft SQL Server

Mer information om hur du kommer igång med virtuella datorer i Azure finns på webbplatsen för Azure.

Översikt över arkitekturen

Funktionen Datadeduplicering består av en filterdrivrutin som övervakar lokala eller fjärrbaserade I/O och en dedupliceringstjänst som styr de tre typer av jobb som är tillgängliga (optimering, skräpinsamling och datarensning).

Dedupliceringsarkitekturen har inbyggd återhämtning i händelse av maskinvarufel – med fullständig verifiering av kontrollsummor för data och metadata, inklusive redundans för metadata och ofta använda datasegment.

Funktionen Datadeduplicering kan potentiellt bearbeta alla data på en vald volym (förutom filer som är mindre än 32 kB, filer i undantagna mappar eller filer med ålderinställningar). Tänk noggrant igenom om en server och anslutna volymer är lämpliga för deduplicering innan du aktiverar funktionen. Vi rekommenderar starkt att du regelbundet säkerhetskopierar viktiga data när deduplicering används.

Se även

Mer relaterad information finns i följande resurser.

Innehållstyp	Referenser
Produktutvärdering	Utöka datadeduplicering för nya arbetsbelastningar i Windows Server 2012 R2
Distribution	Distribuera datadeduplicering för VDI-lagring i Windows Server 2012 R2 Planera distributionen av Datadeduplicering Säkerhetskopiering och återställning överväganden för Deduplicerade volymer Samverkan i datadeduplicering Installera och konfigurera datadeduplicering
Åtgärder	Övervaka och rapportera för Datadeduplicering
Gruppresurser	The File Services and Storage TechNet Forum Lagringsteamet bakom Microsofts blogg om filkabinett Ställ en fråga till teamet bakom Microsofts blogg om Katalogtjänster Jose Barretos blogg Windows Server Information på Twitter
Närliggande tekniker	Översikt över fil- och lagringstjänster Översikt över redundanskluster Översikt för lagringsutrymmen

Dela via