Обзор дедупликации данных
Что такое дедупликация данных
Дедупликация данных, часто называемая дедупликацией, — это функция, которая может помочь уменьшить влияние избыточных данных на затраты на хранение. Если дедупликация данных включена, она оптимизирует свободное место в томе за счет проверки данных тома на наличие дублирующихся частей. Дублирующиеся части набора данных тома сохраняются один раз и (при необходимости) сжимаются для дополнительной экономии. Дедупликация оптимизирует избыточные данные, не нарушая достоверность или целостность данных. Дополнительные сведения о работе дедупликации данных см. в разделе Как работает дедупликация данных? на странице Understanding Data Deduplication (Понимание процесса дедупликации данных).
Внимание
KB4025334 содержит свод исправлений для дедупликации данных, включая важные исправления надежности, и настоятельно рекомендуется установить его при использовании дедупликации данных с Windows Server 2016 и Windows Server 2019.
Преимущества дедупликации данных
Дедупликация данных помогает администраторам хранилища снизить затраты, связанные с дублирующимися данными. Зачастую в больших наборах данных многие данные дублируются, что увеличивает затраты на их хранение. Например:
- Файловые ресурсы пользователей могут содержать множество копий одних и тех же или похожих файлов.
- Гостевые службы виртуализации могут практически не отличаться от служб на виртуальных машинах.
- Моментальные снимки резервных копий могут иметь минимальные отличия от ежедневных.
Экономия места, которую может обеспечить дедупликация данных, зависит от набора данных или рабочей нагрузки в томе. В наборах данных с высоким уровнем дупликации скорость оптимизации достигает 95 %, а объем использования службы хранилища может уменьшаться в 20 раз. В следующей таблице представлены типичные значения экономии за счет дедупликации для разных типов содержимого.
Сценарий | Содержимое | Обычная экономия пространства |
---|---|---|
Документы пользователя | Документы Office, фотографии, музыка, видео и т. д. | 30-50 % |
Общие ресурсы развертывания | Двоичные файлы программного обеспечения, CAB-файлы, символы и т. д. | 70–80 % |
Библиотеки виртуализации | Образы ISO, файлы виртуальных жестких дисков и т. д. | 80–95 % |
Файловый ресурс общего доступа | Все вышеперечисленное | 50–60 % |
Примечание.
Если вы просто хотите освободить место на томе, рассмотрите возможность использования Синхронизация файлов Azure с включенным распределением по уровням в облаке. Благодаря этому вы сможете кэшировать часто используемые файлы локально и распределять редко используемые файлы по уровням облака, сохраняя пространство в локальном хранилище и поддерживая производительность. Дополнительные сведения см. в статье Планирование развертывания Синхронизации файлов Azure.
Когда можно использовать дедупликацию данных?
Иллюстрация сценария | Description |
---|---|
Файловые серверы общего назначения: файловые серверы общего назначения являются общими файловыми серверами, которые могут содержать любой из следующих типов общих папок:
|
|
развертывания инфраструктура виртуальных рабочих столов (VDI): серверы VDI, такие как службы удаленных рабочих столов, предоставляют упрощенный вариант для организаций для подготовки рабочих столов пользователям. Существует множество причин для организации полагаться на такие технологии:
|
|
Целевые объекты резервного копирования, такие как виртуализированные приложения резервного копирования: приложения резервного копирования, такие как Microsoft Data Protection Manager (DPM), являются отличными кандидатами на дедупликацию данных из-за значительного дублирования моментальных снимков резервных копий. | |
Другие рабочие нагрузки: другие рабочие нагрузки также могут быть отличными кандидатами на дедупликацию данных. |