Compartir a través de


Comprendiendo la deduplicación de datos

This document describes how Data Deduplication works.

¿Cómo funciona Desduplicación de datos?

Desduplicación de datos en Windows Server se creó con los siguientes dos principios:

  1. La optimización no debe interferir con las escrituras en el disco La desduplicación de datos optimiza la información mediante un modelo de post-procesamiento. Todos los datos se escriben sin optimizar en el disco y se optimizan más adelante con Desduplicación de datos.

  2. La optimización no debe cambiar la semántica del acceso Los usuarios y las aplicaciones que acceden a datos en un volumen optimizado desconocen por completo que los archivos que acceden han sido sin duplicación.

Una vez habilitado para un volumen, la Desduplicación de Datos se ejecuta en segundo plano para:

  • Identificar patrones repetidos entre los archivos de ese volumen.
  • Seamlessly move those portions, or chunks, with special pointers called reparse points that point to a unique copy of that chunk.

Esto sucede en los cuatro pasos siguientes:

  1. Examinar el sistema de archivos en busca de archivos que cumplan la directiva de optimización.
    Examinar el sistema de archivos.
  2. Dividir archivos en fragmentos de tamaño variable.
    Dividir archivos en fragmentos.
  3. Identificar fragmentos únicos.
    Identificar fragmentos únicos.
  4. Colocar los fragmentos en el almacén de fragmentos y, opcionalmente, comprimir.
    Mover al almacén de fragmentos.
  5. Reemplazar el flujo de archivos original de los archivos ahora optimizados con un punto de reanálisis al almacén de fragmentos.
    Reemplazar el flujo de archivos con el punto de reanálisis.

Cuando se leen archivos optimizados, el sistema de archivos envía los archivos con un reanálisis al filtro del sistema de archivos de Desduplicación de datos (Dedup.sys). El filtro redirige la operación de lectura a los fragmentos adecuados que constituyen el flujo de ese archivo del almacén de fragmentos. Modifications to ranges of a deduplicated files get written unoptimized to the disk and are optimized by the Optimization job the next time it runs.

Usage Types

Los siguientes Tipos de uso proporcionan una configuración razonable de Desduplicación de datos para cargas de trabajo comunes:

Usage Type Ideal workloads What's different
Default Servidor de archivos de uso general:
  • Team shares
  • Work Folders
  • Folder redirection
  • Recursos compartidos de desarrollo de software
  • Background optimization
  • Directiva de optimización predeterminada:
    • Antigüedad mínima de archivo = 3 días
    • Optimizar archivos en uso = No
    • Optimizar archivos parciales = No
Hyper-V Servidores de Infraestructura de escritorio virtual (VDI)
  • Background optimization
  • Directiva de optimización predeterminada:
    • Antigüedad mínima de archivo = 3 días
    • Optimizar archivos en uso = Sí
    • Optimizar archivos parciales = Yes
  • Ajustes técnicos para la interoperabilidad de Hyper-V
Backup Aplicaciones de copia de seguridad virtualizadas, como Microsoft Data Protection Manager (DPM)
  • Priority optimization
  • Directiva de optimización predeterminada:
    • Antigüedad mínima de archivo = 0 días
    • Optimizar archivos en uso = Sí
    • Optimizar archivos parciales = No
  • Ajustes técnicos para la interoperabilidad con soluciones de DPM o similares a DPM.

Jobs

La desduplicación de datos usa una estrategia de procesamiento posterior para optimizar y mantener la eficiencia del espacio de un volumen.

Job name Job descriptions Default schedule
Optimization The Optimization job deduplicates by chunking data on a volume per the volume policy settings, (optionally) compressing those chunks, and storing chunks uniquely in the chunk store. El proceso de optimización que usa Desduplicación de datos se describe con detalle en ¿Cómo funciona Desduplicación de datos? Una vez cada hora
Recolección de basura The Garbage Collection job reclaims disk space by removing unnecessary chunks that are no longer being referenced by files that have been recently modified or deleted. Todos los sábados a las 2:35 a. m.
Limpieza de integridad The Integrity Scrubbing job identifies corruption in the chunk store due to disk failures or bad sectors. Cuando sea posible, la deduplicación de datos puede utilizar automáticamente las características de volumen (por ejemplo, espejo o paridad en un volumen de Espacios de Almacenamiento) para reconstruir los datos dañados. Además, Desduplicación de datos mantiene copias de seguridad de fragmentos populares a los que se hace referencia más de 100 veces en un área denominada zona activa. Todos los sábados a las 3:35 a. m.
Unoptimization The Unoptimization job, which is a special job that should only be run manually, undoes the optimization done by deduplication and disables Data Deduplication for that volume. On-demand only

Terminología de Desduplicación de datos

Term Definition
Chunk Un fragmento es una sección de un archivo que ha sido seleccionada por el algoritmo de fragmentación de desduplicación de datos porque es probable que ocurra en otros archivos similares.
Almacén de fragmentos El almacén de fragmentos es una serie organizada de archivos contenedores en la carpeta Información de volumen de sistema que utiliza Desduplicación de datos para almacenar fragmentos de forma única.
Dedup Abreviatura de Desduplicación de datos usada con frecuencia en PowerShell y las API y los componentes de Windows Server, así como en la comunidad de Windows Server.
Metadatos de archivo Cada archivo contiene metadatos que describen propiedades interesantes sobre el archivo que no están relacionadas con el contenido principal del mismo. Por ejemplo, la fecha de creación, la fecha de la última lectura, el autor, etc.
Flujo de archivos La secuencia de archivos es el contenido principal del archivo. Esta es la parte del archivo que optimiza la deduplicación de datos.
Sistema de archivos El sistema de archivos es la estructura de datos en disco y de software que el sistema operativo usa para almacenar archivos en medios de almacenamiento. La desduplicación de datos es compatible con volúmenes formateados con NTFS.
Filtro de sistema de archivos Un filtro de sistema de archivos es un complemento que modifica el comportamiento predeterminado del sistema de archivos. Para conservar la semántica de acceso, Desduplicación de datos usa un filtro de sistema de archivos (Dedup.sys) para redirigir las lecturas a contenido optimizado completamente transparente para el usuario o aplicación que realiza la solicitud de lectura.
Optimization Un archivo se considera optimizado (o desduplicado) por Desduplicación de datos si se ha fragmentado y sus fragmentos únicos se han almacenado en el almacén de fragmentos.
Directiva de optimización La directiva de optimización especifica los archivos que deben tenerse en cuenta para Desduplicación de datos. Por ejemplo, los archivos se pueden considerar fuera de directiva si son completamente nuevos, están abiertos, se encuentran en una ruta de acceso determinada del volumen o son de un tipo de archivo determinado.
Punto de repetición de análisis A reparse point is a special tag that notifies the file system to pass off I/O to a specified file system filter. Cuando se ha optimizado el flujo de archivos de un archivo, Desduplicación de datos reemplaza el flujo de archivos por un punto de reanálisis, lo que permite a Desduplicación de datos conservar la semántica de acceso para ese archivo.
Volume Un volumen es una construcción de Windows para una unidad de almacenamiento lógico que puede abarcar varios dispositivos de almacenamiento físico a través de uno o varios servidores. Desduplicación está habilitada en un volumen en función de su configuración individual.
Workload Una carga de trabajo es una aplicación que se ejecuta en Windows Server. Las cargas de trabajo de ejemplo incluyen el servidor de archivos de uso general, Hyper-V y SQL Server.

Warning

A menos que lo indique el personal de soporte técnico de Microsoft autorizado, no intente modificar manualmente el almacén de fragmentos. Si lo hace, podrían producirse daños en los datos o la pérdida de estos.

Preguntas más frecuentes

¿En qué se diferencia Desduplicación de datos de otros productos de optimización? Hay varias diferencias importantes entre Desduplicación de datos y otros productos de optimización de almacenamiento comunes:

  • ¿En qué se diferencia la Desduplicación de datos del Almacenamiento de Instancia Única? Almacén de Instancia Única, o SIS, es una tecnología que precedió a la Desduplicación de Datos y se presentó por primera vez en Windows Storage Server 2008 R2. Para optimizar un volumen, Almacén de instancia única identificaba los archivos que eran idénticos y los reemplazaba por vínculos lógicos a una única copia de un archivo almacenado en el almacén común de SIS. A diferencia del Almacén de instancia única, Desduplicación de datos puede ahorrar espacio de los archivos que no son idénticos pero comparten muchos patrones comunes, y de los archivos que contienen en sí mismos muchos patrones repetidos. Almacén de instancia única cayó en desuso en Windows Server 2012 R2 y se quitó de Windows Server 2016 en favor de Desduplicación de datos.

  • ¿En qué se diferencia la desduplicación de datos respecto a la compresión NTFS? La compresión NTFS es una característica de NTFS que se puede habilitar opcionalmente en el nivel de volumen. Con la compresión NTFS, cada archivo se optimiza individualmente a través de la compresión en tiempo de escritura. A diferencia de la compresión NTFS, Desduplicación de datos puede ahorrar espacio en todos los archivos de un volumen. This is better than NTFS compression because files may have both internal duplication (which is addressed by NTFS compression) and have similarities with other files on the volume (which is not addressed by NTFS compression). Además, Desduplicación de datos funciona con un modelo de procesamiento posterior, lo que significa que los archivos nuevos o modificados se escribirán en el disco sin optimizar y se optimizarán más adelante con Desduplicación de datos.

  • ¿En qué se diferencia la deduplicación de datos de los formatos de archivo de compresión como zip, rar, 7z, cab, etc.? Los formatos de archivo de almacenamiento, como zip, rar, 7z, cab, etc., realizan la compresión en un conjunto de archivos especificado. Al igual que la deduplicación de datos, se optimizan tanto los patrones duplicados dentro de los archivos como entre ellos. pero es necesario elegir qué archivos deben incluirse en el almacenamiento. La semántica de acceso también cambia. Para acceder a un archivo específico dentro del almacenamiento, debe abrir este, seleccionar un archivo específico y descomprimir ese archivo para su uso. Desduplicación de datos funciona de forma transparente para los usuarios y administradores y no requiere ninguna intervención manual. Además, la deduplicación de datos conserva la semántica de acceso: los archivos optimizados parecen no haber cambiado después de la optimización.

¿Puedo cambiar la configuración de Desduplicación de datos para el tipo de uso seleccionado? Yes. Although Data Deduplication provides reasonable defaults for Recommended workloads, you might still want to tweak Data Deduplication settings to get the most out of your storage. Además, otras cargas de trabajo requerirán algún ajuste para asegurarse de que Desduplicación de datos no interfiera con la carga de trabajo.

¿Puedo ejecutar manualmente un trabajo de Desduplicación de datos? Sí, todos los trabajos de Desduplicación de datos se pueden ejecutar manualmente. Quizá prefiera esta opción si los trabajos programados no se ejecutaron debido a una cantidad insuficiente de recursos del sistema o a un error. Además, el trabajo Desoptimización solo puede realizarse manualmente.

¿Puedo supervisar los resultados históricos de los trabajos de Desduplicación de datos? Sí, todos los trabajos de Desduplicación de datos dejan entradas en el registro de eventos de Windows.

¿Puedo cambiar las programaciones predeterminadas para los trabajos de Desduplicación de datos en mi sistema? Sí, todas las programaciones son configurables. La modificación de las programaciones predeterminadas de Desduplicación de datos es especialmente deseable para asegurarse de que los trabajos de Desduplicación de datos tengan tiempo de finalizar y no compitan por los recursos con la carga de trabajo.