Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом документе описывается, как работает дедупликация данных .
Как работает дедупликация данных
Дедупликация данных для Windows Server разрабатывалась на основе двух важнейших принципов.
Оптимизация не должна препятствовать записи на диск Дедупликация данных оптимизирует данные в модели постобработки. Все данные записываются на диск в неоптимизированном виде, а затем оптимизируются с помощью дедупликации данных.
Оптимизация не должна изменять семантику доступа Пользователи и приложения, обращающиеся к данным в оптимизированном томе, полностью не знают, что файлы, к которым они обращаются, были дедупликированы.
После включения дедупликации данных для тома она выполняет в фоновом режиме следующие задачи:
- выявляет повторяющиеся фрагменты в файлах тома;
- Легко перемещайте эти части или блоки с специальными указателями, называемыми репарированием точек , которые указывают на уникальную копию этого блока.
Этот процесс выполняется в четыре этапа:
- Проверка файловой системы на наличие файлов, отвечающих политике оптимизации.
- разбиение файлов на блоки переменного размера;
- Идентифицируйте уникальные блоки.
- Разместите блоки в хранилище блоков и при необходимости сжимайте их.
- Замените исходный поток данных уже оптимизированных файлов на точки перепарсинга, указывающие на хранилище блоков.
При считывании оптимизированных файлов файловая система отправляет файлы с точкой повторного анализа в файловый фильтр дедупликации данных (Dedup.sys). Фильтр перенаправляет операцию чтения к соответствующим блокам, которые образуют поток этого файла в хранилище блоков. Изменения диапазонов дедупликированных файлов записываются неоптимизированы на диск и оптимизированы заданием оптимизации при следующем запуске.
Типы использования
Следующие типы использования содержат рациональные настройки дедупликации данных для некоторых распространенных рабочих нагрузок.
| Тип использования | Идеальные рабочие нагрузки | Что отличается |
|---|---|---|
| По умолчанию | Файловый сервер общего назначения.
|
|
| Hyper-V | Серверы инфраструктуры виртуальных рабочих столов (VDI). |
|
| Резервная копия | Виртуализированные приложения резервного копирования, такие как Microsoft Data Protection Manager (DPM) |
|
Jobs
Функция дедупликации данных использует стратегию постобработки для оптимизации и эффективного использования пространства на томе.
| Имя задания | Описания заданий | Расписание по умолчанию |
|---|---|---|
| Оптимизация | Задание оптимизации дедупликирует путем объединения данных по тому на параметры политики тома (необязательно) сжать эти блоки и сохранять блоки уникально в хранилище блоков. Процесс оптимизации, который использует дедупликация данных, подробно описан в разделе "Как работает дедупликация данных?". | Каждый час |
| Сборка мусора | Задание сборки мусора освобождает место на диске, удаляя ненужные блоки, на которые больше не ссылаются файлы, недавно измененные или удаленные. | Каждую субботу в 02:35 |
| Контроль целостности данных | Задание "Очистка целостности " определяет повреждение в хранилище блоков из-за сбоев диска или плохих секторов. Если возможно, дедупликация данных автоматически использует возможности тома (например, зеркало или контроль четности в томе дисковых пространств), чтобы восстановить поврежденные данные. Кроме того, дедупликация данных сохраняет резервные копии популярных блоков, на которые существует более 100 ссылок, в области, называемой "горячей точкой." | Каждую субботу в 03:35 |
| Unoptimization | Задание unoptimization , которое является специальным заданием, которое должно выполняться вручную, отменяет оптимизацию, выполненную дедупликацией, и отключает дедупликацию данных для этого тома. | Только по запросу |
Глоссарий дедупликации данных
| Term | Definition |
|---|---|
| Ломоть | Блоком называется фрагмент файла, отобранный алгоритмом дедупликации данных, который с высокой долей вероятности будет повторяться в других схожих файлах. |
| Хранилище данных | Хранилище блоков — это упорядоченный набор файлов в папке "System Volume Information", который дедупликация данных использует исключительно для хранения блоков. |
| Дедупликации | Сокращенная форма англоязычного названия дедупликации данных, которая часто используется в PowerShell, интерфейсах API и компонентах Windows Server, а также в сообществе Windows Server. |
| Метаданные файла | Каждый файл содержит метаданные, которые описывают важные свойства файла, не связанные напрямую с основным содержимым файла. Например: дата создания файла, дата последнего чтения, создатель файла и т. д. |
| Поток файлов | Поток файла является основным содержимым файла. Именно эту часть файла оптимизирует дедупликация данных. |
| Файловая система | Файловой системой называют специализированное программное обеспечение и структуру хранящихся на диске данных, которые используются операционной системой для хранения файлов на любых носителях. Дедупликация данных поддерживается только на томах с файловой системой NTFS. |
| Фильтр файловой системы | Фильтр файловой системы — это подключаемый модуль, который изменяет стандартное поведение файловой системы. Чтобы сохранить семантику доступа, дедупликация данных использует фильтр файловой системы (Dedup.sys), который перенаправляет запросы на чтение оптимизированного содержимого незаметным для пользователя или приложения образом. |
| Оптимизация | Файл считается оптимизированным с точки зрения дедупликации данных (дедуплицированным), если он разделен на уникальные блоки, которые перенесены в хранилище блоков. |
| Политика оптимизации | Политика оптимизации определяет, для каких файлов следует применять дедупликацию данных. Например, файлы могут считаться несоответствующими политике, если они недавно созданы, открыты, находятся в определённом пути на томе или имеют определённый тип. |
| Точка повторного восстановления | Точка перепарса — это специальный тег, который уведомляет файловую систему о передаче ввода-вывода в указанный фильтр файловой системы. В тех файлах, для которых выполнена оптимизация, дедупликация данных заменяет файловый поток точкой повторного анализа, что позволяет полностью сохранять семантику доступа к этому файлу. |
| Том | Том — это используемое Windows обозначение для логического диска хранения данных, который может включать несколько физических устройств хранения, расположенных на одном или нескольких серверах. Дедупликация включается для каждого тома отдельно. |
| Загруженность | Рабочей нагрузкой называется приложение, выполняемое на Windows Server. Пример рабочей нагрузки — файловый сервер общего назначения, сервер Hyper-V и SQL Server. |
Warning
Не пытайтесь вручную изменять содержимое хранилища блоков, если вы не получали таких указаний от авторизованных представителей службы поддержки корпорации Майкрософт. Такие действия могут привести к повреждению или утрате данных.
Часто задаваемые вопросы
Чем отличается дедупликация данных от других средств оптимизации? Есть несколько важных различий между дедупликацией данных и другими распространенными решениями для оптимизации хранения.
Чем отличается дедупликация данных от хранилища одиночных экземпляров? Хранилище единственных копий (SIS) является предшественником технологии дедупликации данных и впервые было представлено в выпуске Windows Storage Server 2008 R2. Для оптимизации тома хранилище единственных копий выявляло в нем полностью идентичные файлы и заменяло их логическими ссылками на одну копию такого файла, размещенную в общем хранилище SIS. В отличие от хранилища единственных копий, дедупликация данных способна уменьшить пространство, занимаемое файлами, которые не полностью идентичны, но имеют некоторые одинаковые элементы, а также файлами, в которых встречается много повторяющихся элементов. Хранилище одиночных экземпляров было устаревшим в версии Windows Server 2012 R2 и в Windows Server 2016 было удалено в пользу дедупликации данных.
Чем отличается дедупликация данных от сжатия NTFS? Функция сжатия NTFS является особенностью файловой системы NTFS, которую вы можете опционально включить на уровне тома. Сжатие NTFS оптимизирует каждый файл отдельно посредством сжатия во время записи. В отличие от сжатия NTFS, дедупликация данных может обеспечить экономию пространства за счет всех файлов на томе. Это лучше, чем сжатие NTFS, так как файлы могут иметь как внутреннее дублирование (которое решается сжатием NTFS), так и имеют сходство с другими файлами на томе (который не рассматривается сжатием NTFS). Кроме того, дедупликация данных использует модель постобработки. Это означает, что новые или измененные файлы записываются на диск в неоптимизированном виде, и лишь затем дедупликация данных оптимизирует их.
Чем отличается дедупликация данных от форматов архивации файлов, таких как ZIP, RAR, 7Z, CAB и т. д.? Форматы архивов, такие как ZIP, RAR, 7Z, CAB и другие, выполняют сжатие определенного набора файлов. Как и в случае с дедупликацией данных, оптимизируются повторяющиеся фрагменты внутри файлов и в разных файлах. Однако вам необходимо выбрать файлы, которые должны быть включены в архив. Семантика доступа также отличается. Чтобы получить доступ к определенному файлу в архиве, необходимо открыть архив, выбрать файл, а затем распаковать его для использования. Дедупликация данных работает незаметно для пользователей и администраторов, не требуя ручного запуска. Кроме того, дедупликация данных сохраняет семантику доступа — оптимизированные файлы выглядят для пользователя точно так же, как и раньше.
Можно ли изменить параметры дедупликации данных для выбранного типа использования? Yes. Хотя дедупликация данных предоставляет разумные значения по умолчанию для рекомендуемых рабочих нагрузок, вам может потребоваться настроить параметры дедупликации данных, чтобы получить большую часть хранилища. Кроме того, для других рабочих нагрузок потребуется настроить некоторые настройки, чтобы убедиться, что дедупликация данных не влияет на рабочую нагрузку.
Можно ли вручную запускать задания дедупликации данных? Да, все задания дедупликации данных могут выполняться вручную. Это удобно, если запланированное задание не было выполнено из-за недостатка системных ресурсов или ошибки. Кроме того, задание по отмене оптимизации можно запускать только вручную.
Можно ли просмотреть историю запусков заданий дедупликации данных? Да, все задания дедупликации данных делают записи в журнале событий Windows.
Можно ли изменить расписание по умолчанию для заданий дедупликации данных? Да, все расписания настраиваются. Особенно желательно изменить расписание дедупликации данных, чтобы задания по дедупликации данных имели достаточно времени для завершения и не конкурировали за ресурсы с рабочей нагрузкой.