Поделиться через


Обзор дедупликации данных

Что такое дедупликация данных

Дедупликация данных, часто называемая дедупликацией, — это функция, которая может помочь уменьшить влияние избыточных данных на затраты на хранение. Если дедупликация данных включена, она оптимизирует свободное место в томе за счет проверки данных тома на наличие дублирующихся частей. Дублирующиеся части набора данных тома сохраняются один раз и (при необходимости) сжимаются для дополнительной экономии. Дедупликация оптимизирует избыточные данные, не нарушая достоверность или целостность данных. Дополнительные сведения о работе дедупликации данных см. в разделе Как работает дедупликация данных? на странице Understanding Data Deduplication (Понимание процесса дедупликации данных).

Внимание

KB4025334 содержит свод исправлений для дедупликации данных, включая важные исправления надежности, и настоятельно рекомендуется установить его при использовании дедупликации данных с Windows Server 2016 и Windows Server 2019.

Преимущества дедупликации данных

Дедупликация данных помогает администраторам хранилища снизить затраты, связанные с дублирующимися данными. Зачастую в больших наборах данных многие данные дублируются, что увеличивает затраты на их хранение. Например:

  • Файловые ресурсы пользователей могут содержать множество копий одних и тех же или похожих файлов.
  • Гостевые службы виртуализации могут практически не отличаться от служб на виртуальных машинах.
  • Моментальные снимки резервных копий могут иметь минимальные отличия от ежедневных.

Экономия места, которую может обеспечить дедупликация данных, зависит от набора данных или рабочей нагрузки в томе. В наборах данных с высоким уровнем дупликации скорость оптимизации достигает 95 %, а объем использования службы хранилища может уменьшаться в 20 раз. В следующей таблице представлены типичные значения экономии за счет дедупликации для разных типов содержимого.

Сценарий Содержимое Обычная экономия пространства
Документы пользователя Документы Office, фотографии, музыка, видео и т. д. 30-50 %
Общие ресурсы развертывания Двоичные файлы программного обеспечения, CAB-файлы, символы и т. д. 70–80 %
Библиотеки виртуализации Образы ISO, файлы виртуальных жестких дисков и т. д. 80–95 %
Файловый ресурс общего доступа Все вышеперечисленное 50–60 %

Примечание.

Если вы просто хотите освободить место на томе, рассмотрите возможность использования Синхронизация файлов Azure с включенным распределением по уровням в облаке. Благодаря этому вы сможете кэшировать часто используемые файлы локально и распределять редко используемые файлы по уровням облака, сохраняя пространство в локальном хранилище и поддерживая производительность. Дополнительные сведения см. в статье Планирование развертывания Синхронизации файлов Azure.

Когда можно использовать дедупликацию данных?

Иллюстрация сценария Description
Иллюстрация файловых серверов. Файловые серверы общего назначения: файловые серверы общего назначения являются общими файловыми серверами, которые могут содержать любой из следующих типов общих папок:
  • Общие групповые папки
  • Домашние папки пользователей
  • Рабочие папки
  • Общие ресурсы для разработки программного обеспечения
Файловые серверы общего назначения подходят для дедупликации данных из-за тенденции сохранения многочисленных копий или версий одного файла несколькими пользователями. От дедупликации данных выигрывают общие ресурсы для разработки программного обеспечения, так как многие двоичные файлы остаются по сути неизменными от сборки к сборке.
Иллюстрация серверов VDI. развертывания инфраструктура виртуальных рабочих столов (VDI): серверы VDI, такие как службы удаленных рабочих столов, предоставляют упрощенный вариант для организаций для подготовки рабочих столов пользователям. Существует множество причин для организации полагаться на такие технологии:
  • Развертывание приложений. Вы можете быстро развертывать приложения в организации. Это особенно полезно при наличии приложений, которые часто обновляются, редко используются или являются сложными в управлении.
  • Консолидация приложений. При установке и запуске приложений из набора централизованно управляемых виртуальных машин необходимо устранить необходимость обновления приложений на клиентских компьютерах. Это также снижает требования к пропускной способности сети, необходимой для доступа к приложениям.
  • Удаленный доступ. Пользователи могут получать доступ к корпоративным приложениям с таких устройств, как домашние компьютеры, киоски, низкопроизводительное оборудование и операционные системы, отличные от Windows.
  • Доступ к филиалам: развертывания VDI могут повысить производительность приложений для сотрудников филиалов, которым требуется доступ к централизованным хранилищам данных. Ресурсоемкие приложения иногда не имеют протоколов клиентов и серверов, оптимизированных для подключений по медленной линии.
Развертывания VDI прекрасно подходят для дедупликации данных, так как виртуальные жесткие диски, определяющие удаленные рабочие столы для пользователей, по сути идентичны. Кроме того, дедупликация данных может помочь в случае падения производительности хранилища на пиковых нагрузках (так называемый VDI boot storm), когда множество пользователей одновременно входит на настольные системы в начале дня.
Иллюстрация приложений резервного копирования. Целевые объекты резервного копирования, такие как виртуализированные приложения резервного копирования: приложения резервного копирования, такие как Microsoft Data Protection Manager (DPM), являются отличными кандидатами на дедупликацию данных из-за значительного дублирования моментальных снимков резервных копий.
Иллюстрация других рабочих нагрузок. Другие рабочие нагрузки: другие рабочие нагрузки также могут быть отличными кандидатами на дедупликацию данных.