Поделиться через


Общие сведения о дедупликации данных

This document describes how Data Deduplication works.

Как работает дедупликация данных

Дедупликация данных для Windows Server разрабатывалась на основе двух важнейших принципов.

  1. Оптимизация не должна препятствовать записи на диск Дедупликация данных оптимизирует данные в модели постобработки. Все данные записываются на диск в неоптимизированном виде, а затем оптимизируются с помощью дедупликации данных.

  2. Оптимизация не должна изменять семантику доступа Пользователи и приложения, обращающиеся к данным в оптимизированном томе, полностью не знают, что файлы, к которым они обращаются, были дедупликированы.

После включения дедупликации данных для тома она выполняет в фоновом режиме следующие задачи:

  • выявляет повторяющиеся фрагменты в файлах тома;
  • Seamlessly move those portions, or chunks, with special pointers called reparse points that point to a unique copy of that chunk.

Этот процесс выполняется в четыре этапа:

  1. Проверка файловой системы на наличие файлов, отвечающих политике оптимизации.
    Сканирование файловой системы
  2. разбиение файлов на блоки переменного размера;
    Разбиение файлов на блоки
  3. Идентифицируйте уникальные блоки.
    Определение уникальных блоков
  4. Разместите блоки в хранилище блоков и при необходимости сжимайте их.
    Переместить в хранилище фрагментов
  5. Замените исходный поток данных уже оптимизированных файлов на точки перепарсинга, указывающие на хранилище блоков.
    Заменить поток файла на точку повторной обработки

При считывании оптимизированных файлов файловая система отправляет файлы с точкой повторного анализа в файловый фильтр дедупликации данных (Dedup.sys). Фильтр перенаправляет операцию чтения к соответствующим блокам, которые образуют поток этого файла в хранилище блоков. Modifications to ranges of a deduplicated files get written unoptimized to the disk and are optimized by the Optimization job the next time it runs.

Usage Types

Следующие типы использования содержат рациональные настройки дедупликации данных для некоторых распространенных рабочих нагрузок.

Usage Type Ideal workloads What's different
Default Файловый сервер общего назначения.
  • Team shares
  • Work Folders
  • Folder redirection
  • Общие ресурсы для разработки программного обеспечения
  • Background optimization
  • Политика оптимизации по умолчанию:
    • Минимальный возраст файла = 3 дня
    • Оптимизация используемых файлов = нет
    • Оптимизация частичных файлов = нет
Hyper-V Серверы инфраструктуры виртуальных рабочих столов (VDI).
  • Background optimization
  • Политика оптимизации по умолчанию:
    • Минимальный возраст файла = 3 дня
    • Оптимизация используемых файлов = да
    • Оптимизация частичных файлов = да
  • Тонкие настройки для взаимодействия с Hyper-V
Backup Виртуализированные приложения резервного копирования, такие как Microsoft Data Protection Manager (DPM)
  • Priority optimization
  • Политика оптимизации по умолчанию:
    • Минимальный возраст файла = 0 дней
    • Оптимизация используемых файлов = да
    • Оптимизация частичных файлов = нет
  • Подкапотные настройки для интеграции с DPM и подобными решениями.

Jobs

Функция дедупликации данных использует стратегию постобработки для оптимизации и эффективного использования пространства на томе.

Job name Job descriptions Default schedule
Optimization The Optimization job deduplicates by chunking data on a volume per the volume policy settings, (optionally) compressing those chunks, and storing chunks uniquely in the chunk store. Процесс оптимизации, который использует дедупликация данных, подробно описан в разделе "Как работает дедупликация данных?". Каждый час
Сборка мусора The Garbage Collection job reclaims disk space by removing unnecessary chunks that are no longer being referenced by files that have been recently modified or deleted. Каждую субботу в 02:35
Контроль целостности данных The Integrity Scrubbing job identifies corruption in the chunk store due to disk failures or bad sectors. Если возможно, дедупликация данных автоматически использует возможности тома (например, зеркало или контроль четности в томе дисковых пространств), чтобы восстановить поврежденные данные. Кроме того, дедупликация данных сохраняет резервные копии популярных блоков, на которые существует более 100 ссылок, в области, называемой "горячей точкой." Каждую субботу в 03:35
Unoptimization The Unoptimization job, which is a special job that should only be run manually, undoes the optimization done by deduplication and disables Data Deduplication for that volume. On-demand only

Глоссарий дедупликации данных

Term Definition
Chunk Блоком называется фрагмент файла, отобранный алгоритмом дедупликации данных, который с высокой долей вероятности будет повторяться в других схожих файлах.
Хранилище данных Хранилище блоков — это упорядоченный набор файлов в папке "System Volume Information", который дедупликация данных использует исключительно для хранения блоков.
Dedup Сокращенная форма англоязычного названия дедупликации данных, которая часто используется в PowerShell, интерфейсах API и компонентах Windows Server, а также в сообществе Windows Server.
Метаданные файла Каждый файл содержит метаданные, которые описывают важные свойства файла, не связанные напрямую с основным содержимым файла. Например: дата создания файла, дата последнего чтения, создатель файла и т. д.
Поток файлов Поток файла является основным содержимым файла. Именно эту часть файла оптимизирует дедупликация данных.
Файловая система Файловой системой называют специализированное программное обеспечение и структуру хранящихся на диске данных, которые используются операционной системой для хранения файлов на любых носителях. Дедупликация данных поддерживается только на томах с файловой системой NTFS.
Фильтр файловой системы Фильтр файловой системы — это подключаемый модуль, который изменяет стандартное поведение файловой системы. Чтобы сохранить семантику доступа, дедупликация данных использует фильтр файловой системы (Dedup.sys), который перенаправляет запросы на чтение оптимизированного содержимого незаметным для пользователя или приложения образом.
Optimization Файл считается оптимизированным с точки зрения дедупликации данных (дедуплицированным), если он разделен на уникальные блоки, которые перенесены в хранилище блоков.
Политика оптимизации Политика оптимизации определяет, для каких файлов следует применять дедупликацию данных. Например, файлы могут считаться несоответствующими политике, если они недавно созданы, открыты, находятся в определённом пути на томе или имеют определённый тип.
Точка повторного восстановления A reparse point is a special tag that notifies the file system to pass off I/O to a specified file system filter. В тех файлах, для которых выполнена оптимизация, дедупликация данных заменяет файловый поток точкой повторного анализа, что позволяет полностью сохранять семантику доступа к этому файлу.
Volume Том — это используемое Windows обозначение для логического диска хранения данных, который может включать несколько физических устройств хранения, расположенных на одном или нескольких серверах. Дедупликация включается для каждого тома отдельно.
Workload Рабочей нагрузкой называется приложение, выполняемое на Windows Server. Пример рабочей нагрузки — файловый сервер общего назначения, сервер Hyper-V и SQL Server.

Warning

Не пытайтесь вручную изменять содержимое хранилища блоков, если вы не получали таких указаний от авторизованных представителей службы поддержки корпорации Майкрософт. Такие действия могут привести к повреждению или утрате данных.

Часто задаваемые вопросы

Чем отличается дедупликация данных от других средств оптимизации? Есть несколько важных различий между дедупликацией данных и другими распространенными решениями для оптимизации хранения.

  • Чем отличается дедупликация данных от хранилища одиночных экземпляров? Хранилище единственных копий (SIS) является предшественником технологии дедупликации данных и впервые было представлено в выпуске Windows Storage Server 2008 R2. Для оптимизации тома хранилище единственных копий выявляло в нем полностью идентичные файлы и заменяло их логическими ссылками на одну копию такого файла, размещенную в общем хранилище SIS. В отличие от хранилища единственных копий, дедупликация данных способна уменьшить пространство, занимаемое файлами, которые не полностью идентичны, но имеют некоторые одинаковые элементы, а также файлами, в которых встречается много повторяющихся элементов. Хранилище одиночных экземпляров было устаревшим в версии Windows Server 2012 R2 и в Windows Server 2016 было удалено в пользу дедупликации данных.

  • Чем отличается дедупликация данных от сжатия NTFS? Функция сжатия NTFS является особенностью файловой системы NTFS, которую вы можете опционально включить на уровне тома. Сжатие NTFS оптимизирует каждый файл отдельно посредством сжатия во время записи. В отличие от сжатия NTFS, дедупликация данных может обеспечить экономию пространства за счет всех файлов на томе. This is better than NTFS compression because files may have both internal duplication (which is addressed by NTFS compression) and have similarities with other files on the volume (which is not addressed by NTFS compression). Кроме того, дедупликация данных использует модель постобработки. Это означает, что новые или измененные файлы записываются на диск в неоптимизированном виде, и лишь затем дедупликация данных оптимизирует их.

  • Чем отличается дедупликация данных от форматов архивации файлов, таких как ZIP, RAR, 7Z, CAB и т. д.? Форматы архивов, такие как ZIP, RAR, 7Z, CAB и другие, выполняют сжатие определенного набора файлов. Как и в случае с дедупликацией данных, оптимизируются повторяющиеся фрагменты внутри файлов и в разных файлах. Однако вам необходимо выбрать файлы, которые должны быть включены в архив. Семантика доступа также отличается. Чтобы получить доступ к определенному файлу в архиве, необходимо открыть архив, выбрать файл, а затем распаковать его для использования. Дедупликация данных работает незаметно для пользователей и администраторов, не требуя ручного запуска. Кроме того, дедупликация данных сохраняет семантику доступа — оптимизированные файлы выглядят для пользователя точно так же, как и раньше.

Можно ли изменить параметры дедупликации данных для выбранного типа использования? Yes. Although Data Deduplication provides reasonable defaults for Recommended workloads, you might still want to tweak Data Deduplication settings to get the most out of your storage. Кроме того, для других рабочих нагрузок потребуется настроить некоторые настройки, чтобы убедиться, что дедупликация данных не влияет на рабочую нагрузку.

Можно ли вручную запускать задания дедупликации данных? Да, все задания дедупликации данных могут выполняться вручную. Это удобно, если запланированное задание не было выполнено из-за недостатка системных ресурсов или ошибки. Кроме того, задание по отмене оптимизации можно запускать только вручную.

Можно ли просмотреть историю запусков заданий дедупликации данных? Да, все задания дедупликации данных делают записи в журнале событий Windows.

Можно ли изменить расписание по умолчанию для заданий дедупликации данных? Да, все расписания настраиваются. Особенно желательно изменить расписание дедупликации данных, чтобы задания по дедупликации данных имели достаточно времени для завершения и не конкурировали за ресурсы с рабочей нагрузкой.