Introducción a la desduplicación de datos

Artículo
09/02/2016

Publicado: agosto de 2016

Se aplica a: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

En este tema se describe la característica de desduplicación de datos de R2 de Windows 2012 Server y Windows Server 2012, así como sus aplicaciones prácticas.

Descripción de la característica

La desduplicación de datos implica detectar y quitar la duplicación en los datos sin comprometer su fidelidad o integridad. El objetivo es almacenar más datos en menos espacio al segmentar archivos en pequeños fragmentos de tamaño variable (32–128 KB), identificar fragmentos duplicados y mantener una sola copia de cada fragmento. Las copias redundantes de los fragmentos se reemplazan por una referencia a la copia única. Los fragmentos se comprimen y se organizan en archivos de contenedor especiales de la carpeta de información de volumen del sistema.

El resultado es una transformación en disco de cada archivo, como se muestra en la Figura 1. Después de la desduplicación, los archivos ya no se almacenan como secuencias de datos independientes y se reemplazan por rutas internas que apuntan a bloques de datos que se almacenan en un almacén de fragmentos común. Dado que estos archivos comparten bloques, esos bloques solo se almacenan una vez, lo que reduce el espacio en disco necesario para almacenar todos los archivos. Durante el acceso a los archivos, los bloques correctos se ensamblan de manera transparente para proporcionar los datos sin llamar a la aplicación ni que el usuario tenga conocimiento de la transformación en disco en el archivo. Esto permite a los administradores aplicar la desduplicación a archivos sin tener que preocuparse por cualquier cambio en el comportamiento de las aplicaciones o el impacto de los usuarios sobre esos archivos.

Figure 1 On-disk transformation of files

Figura 1 Transformación de archivos durante la desduplicación de datos en el disco

Después de habilitar un volumen para desduplicación y de optimizar los datos, el volumen contiene lo siguiente:

Archivos sin optimizar. Por ejemplo, entre los archivos sin optimizar se podrían encontrar archivos que no cumplen la opción de directiva de antigüedad de archivo, archivos de estado del sistema, secuencias de datos alternas, archivos cifrados, archivos con atributos extendidos, archivos menores de 32 KB, otros archivos de punto de repetición de análisis o archivos que otras aplicaciones están usando (el límite de "en uso" se elimina en R2 de Windows 2012 Server).
Archivos optimizados. Archivos que se almacenan como puntos de repetición de análisis y que contienen punteros a un mapa de los fragmentos correspondientes en el almacén de fragmentos que es necesario restaurar cuando se solicite el archivo.
Almacén de fragmentos. Ubicación de los datos de archivos optimizados.
Espacio libre adicional. Los archivos optimizados y el almacén de fragmentos ocupan mucho menos espacio que antes de la optimización.

Aplicaciones prácticas

Para abordar el crecimiento del almacenamiento de datos en la empresa, los administradores consolidan servidores y hacen de la escalabilidad de la capacidad y de la optimización de los datos sus principales objetivos. La desduplicación de datos proporciona formas prácticas de lograr estos objetivos, entre ellas:

Optimización de la capacidad. La desduplicación de datos almacena más datos en menos espacio físico. Logra más eficacia de almacenamiento que la que ofrecían características como la compresión NTFS o Almacenamiento de instancia única (SIS). La desduplicación de datos usa la compresión y fragmentación de tamaño variable en subarchivos, lo que reporta una relación de optimización del almacenamiento de 2:1 en los servidores de archivos generales, y de hasta 20:1 en los datos de virtualización.
Escalabilidad y rendimiento. La desduplicación de datos es sumamente escalable, eficiente en cuanto a uso de recursos y no intrusiva. Puede procesar hasta 50 MB por segundo en R2 de Windows 2012 Server y unos 20 MB de datos por segundo en Windows Server 2012. Se puede ejecutar en varios volúmenes simultáneamente sin afectar a otras cargas de trabajo en el servidor. El escaso impacto que tiene en las cargas de trabajo del servidor se consigue limitando los recursos de CPU y memoria que se consumen. Si el servidor se carga con mucho trabajo, la desduplicación puede detenerse por completo. Además, los administradores tienen la posibilidad de ejecutar los trabajos de desduplicación de datos en cualquier momento, programar cuándo se ejecutará la desduplicación de datos y establecer directivas de selección de archivos.
Confiabilidad e integridad de los datos. Cuando se aplica la desduplicación de datos, se mantiene la integridad de los datos. La desduplicación de datos usa la suma de comprobación, la coherencia y la validación de identidad a fin de asegurar la integridad de los datos. Para todos los metadatos y los datos a los que se haga referencia con más frecuencia, la desduplicación de datos mantiene la redundancia para garantizar que los datos puedan recuperarse en caso de corrupción de datos.
Eficacia de ancho de banda con BranchCache. A través de la integración con BranchCache, se aplican las mismas técnicas de optimización a los datos que se transfieren a través de la WAN a una sucursal. El resultado son tiempos de descarga de archivos más rápidos y consumo reducido de banda ancha.
Administración de optimización con herramientas conocidas. La desduplicación de datos tiene una funcionalidad de optimización integrada en el Administrador de servidores y Windows PowerShell. La configuración predeterminada puede proporcionar ahorros de inmediato y los administradores pueden optimizar las opciones para obtener mejores resultados. Se pueden usar fácilmente los cmdlets de Windows PowerShell para iniciar un trabajo de optimización o para programar uno para que se ejecute en el futuro. La instalación de la característica de desduplicación de datos y la habilitación de la desduplicación en volúmenes determinados también se puede lograr con un archivo Unattend.xml que llama a un script de Windows PowerShell y se puede usar con Sysprep para implementar la desduplicación cuando un sistema se inicia por primera vez.

Funcionalidad nueva y modificada

En la tabla siguiente se describen los cambios en la funcionalidad de la desduplicación de datos. Para obtener más información, consulte Novedades de desduplicación de datos en Windows Server.

Característica/función	¿Nueva o actualizada?	Descripción
Desduplicación de datos para el almacenamiento remoto de las cargas de trabajo de la infraestructura de Escritorio virtual (VDI)	Novedades en Windows Server 2012 R2	Optimice discos duros virtuales (VHD) activos para cargas de trabajo de Virtual Desktop Infrastructure (VDI) mediante la implementación de la desduplicación de datos en volúmenes compartidos de clúster (CSV).
Expansión de un archivo optimizado a su ruta de acceso original	Novedades en Windows Server 2012 R2	Use el nuevo cmdlet Expand-DedupFile de Windows PowerShell para expandir archivos optimizados en una ruta de acceso especificada en la ruta de acceso original si es necesario por cuestiones de compatibilidad con las aplicaciones, rendimiento u otros requisitos. Para obtener más información acerca del cmdlet, consulte T:Deduplication.Expand-DedupFile.
Desduplicación de datos en volúmenes de copia de seguridad que se usan en aplicaciones de copia de seguridad virtualizada	Novedades en Windows Server 2012 R2	Optimize los discos duros virtuales (VHD) activos que se usan en las cargas de trabajo de aplicaciones de copia de seguridad virtualizada mediante la implementación de desduplicación de datos en volúmenes compartidos de clúster (CSV) o configuraciones hiperconvergentes limitadas. (Compatibles con Windows Server 2012 R2 con el paquete acumulativo de actualizaciones de noviembre de 2014 (KB 3000850) o posterior).

Requisitos

Para aprovechar las ventajas de la desduplicación de datos, el entorno debe cumplir los requisitos siguientes:

Servidor: un equipo o una máquina virtual de R2 de Windows 2012 Server o Windows Server 2012 con al menos un volumen de datos
(Opcional) Otro equipo o máquina virtual que ejecute R2 de Windows 2012 Server o Windows Server 2012 y que esté conectado al servidor a través de la red
Importante

Si la desduplicación de datos se realiza en cargas de trabajo de VDI o de copia de seguridad virtualizada, todos los archivos VHD deben cumplir los siguientes requisitos:
- Estar almacenados en un servidor de archivos que ejecuta R2 de Windows 2012 Server, y el nodo de almacenamiento y el nodo de cálculo estar ejecutándose en distintos servidores.
- Estar almacenados en almacenamiento local en una configuración hiperconvergente limitada específica. Para información detallada sobre los requisitos, consulte Plan to Deploy Data Deduplication.

Interoperabilidad con máquinas virtuales de Azure

Puede ejecutar este servicio de rol de Windows Server en una máquina virtual en Azure. Este escenario se probó con R2 de Windows 2012 Server. Se recomienda usar la desduplicación de datos con máquinas virtuales de Microsoft Azure que tengan volúmenes con lecturas frecuentes pero escrituras poco frecuentes. En estas circunstancias, la desduplicación de datos puede proporcionar una manera eficaz de almacenar más datos en máquinas virtuales de Azure.

Las cargas de trabajo siguientes pueden ser buenas candidatas para su uso con la desduplicación de datos en máquinas virtuales de Azure:

Servidores de archivos generales con contenido relativamente estático
Sitios de Microsoft SharePoint con contenido relativamente estático
Sitios web con contenido relativamente estático

Las cargas de trabajo siguientes no se recomiendan para su uso con la desduplicación de datos en máquinas virtuales de Azure debido a la frecuencia de los cambios en los archivos grandes usados por las cargas de trabajo:

Servidores de mensajería, como Microsoft Exchange Server
Servidores de bases de datos como Microsoft SQL Server

Para obtener información acerca de cómo empezar a usar máquinas virtuales de Azure, visite el sitio web de Azure.

Introducción a la arquitectura

La característica de desduplicación de datos consiste en un controlador de filtros que supervisa las E/S locales y remotas, y un servicio de desduplicación que controla tres tipos de trabajos que están disponibles (optimización, recolección de elementos no utilizados y limpieza).

Inherente a la arquitectura de desduplicación es la resistencia durante errores de hardware, con validación total de suma de comprobación en datos y metadatos, incluida la redundancia para metadatos y los fragmentos de datos a los que se accede con más frecuencia.

La desduplicación de datos potencialmente puede procesar todos los datos en un volumen seleccionado (excepto un tamaño de archivo menor que 32 KB, archivos en carpetas que se excluyen, o que tienen aplicada la configuración de edad). Debe determinar con cuidado si un servidor y los volúmenes adjuntos son candidatos adecuados para la desduplicación antes de habilitar la característica. Se recomienda encarecidamente durante la desduplicación que realice copias de seguridad de datos importantes regularmente.

Vea también

Para obtener más información relacionada, vea los siguientes recursos.

Tipo de contenido	Referencias
Evaluación del producto	Extender la desduplicación de datos a nuevas cargas de trabajo en Windows Server 2012 R2
Implementación	Implementar la desduplicación de datos para el almacenamiento VDI en Windows Server 2012 R2 Planear la implementación de la desduplicación de datos Copia de seguridad y las consideraciones de restauración de volúmenes desduplicados Consideraciones de migración, clústeres y BranchCache para la desduplicación de datos Instalar y configurar la desduplicación de datos
Operaciones	Supervisar y crear informes para la desduplicación de datos
Recursos de la comunidad	Foro de TechNet sobre el almacenamiento y los servicios de archivos Equipo de almacenamiento en el Blog de contenedor de archivos de Microsoft Pregunte en el Blog del equipo de servicios de directorio Blog de Jose Barreto Windows Server Information Experience en Twitter
Tecnologías relacionadas	Introducción a los servicios de archivos y almacenamiento Información general sobre clústeres de conmutación por error Introducción a los espacios de almacenamiento