Постоянное управление работоспособностью памяти

Область применения: Azure Stack HCI версий 22H2 и 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016, Windows 10

В этой статье приводятся сведения об обработке ошибок и управлении работоспособностью, характерные для устройств постоянной памяти (PMem), часто называемых памятью класса хранения (SCM), которая является типом энергонезависимых носителей, которые можно использовать в качестве хранилища верхнего уровня.

В этих коротких видеороликах представлен обзор поддержки постоянной памяти в Windows:

См. также статью Общие сведения о постоянной памяти и развертывании.

Устройства с постоянной памятью поддерживаются с собственными драйверами, начиная с Windows Server 2016 и Windows 10 (версия 1607). Хотя устройства с постоянной памятью ведут себя так же, как и другие диски (ЖЕСТКИЕ диски и диски SSD), существуют некоторые различия.

Распространенным вариантом использования является использование двух постоянных модулей памяти в качестве зеркального кэша обратной записи в дисковом пространстве. Чтобы настроить такую конфигурацию, см. статью о настройке дисковых пространств с кэшем обратной записи NVDIMM-N.

В Windows Server 2016 графический пользовательский интерфейс дисковых пространств отображает тип шины NVDIMM-N как UNKNOWN (НЕИЗВЕСТНО). Он не имеет потери функциональности или невозможности при создании пула, хранилища VD. Тип шины можно проверить, выполнив следующий командлет:

Get-PhysicalDisk | fl

Параметр BusType в выходных данных будет правильно отображать тип шины как SCM.

Просмотр состояния работоспособности постоянной памяти

В этом разделе описывается, как просмотреть состояние работоспособности модулей постоянной памяти. При использовании постоянной памяти существуют некоторые различия в мониторинге.

  • Постоянная память не создает счетчики производительности физического диска, поэтому она не отображается на диаграммах в Windows Admin Center.
  • Постоянная память не создает данные Storport 505, поэтому вы не будете получать упреждающее обнаружение выбросов.

В противном случае мониторинг будет таким же, как и для любого другого физического диска.

Вы можете запросить работоспособность постоянного диска памяти, выполнив следующие командлеты:

Get-PmemDisk

DiskNumber Size   HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ----   ------------ ------------- ------------ ----------------- -------------------
2          252 GB Unhealthy    None          True         {20, 120}         2
3          252 GB Healthy      None          True         {1020, 1120}      0

Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

SerialNumber               HealthStatus OperationalStatus  OperationalDetails
------------               ------------ ------------------ ------------------
802c-01-1602-117cb5fc      Healthy      OK
802c-01-1602-117cb64f      Warning      Predictive Failure {Threshold Exceeded,NVDIMM_N Error}

Стоит отметить, что те же сведения можно получить с помощью командлета Get-PhysicalDisk и указания типа BusType в качестве SCM:

Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

Примечание

Чтобы найти физическое расположение постоянного устройства памяти, указанного в событии, на вкладке Сведения события в Просмотр событий перейдите враздел Расположениеданных события>. Обратите внимание, что в Windows Server 2016 указано неправильное расположение устройств постоянной памяти, но это исправлено в Windows Server версии 1709.

HealthStatus показывает, работоспособен ли постоянный диск памяти.

Значение UnsafeshutdownCount отслеживает количество завершений работы, которые могут привести к потере данных на этом логическом диске. Это сумма небезопасных значений завершения работы всех базовых устройств постоянной памяти этого диска. Для получения дополнительных сведений о состоянии работоспособности используйте Get-PmemPhysicalDevice командлет для поиска таких сведений, как OperationalStatus.

Get-PmemPhysicalDevice

DeviceId DeviceType           HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ----------           ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_C1     102005310        126 GB                 0 GB
1120     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_F1     102005310        126 GB                 0 GB
120      Intel INVDIMM device Healthy      {Ok}              CPU1_DIMM_F1     102005310        126 GB                 0 GB
20       Intel INVDIMM device Unhealthy    {HardwareError}   CPU1_DIMM_C1     102005310        126 GB                 0 GB

Этот командлет показывает, какое устройство постоянной памяти неработоспособно. Неработоспособное устройство (DeviceId 20) соответствует варианту в предыдущем примере. Функция PhysicalLocation в BIOS помогает определить, какое постоянное устройство памяти находится в состоянии сбоя.

Для получения сведений о различных состояниях работоспособности см. следующие разделы.

Состояние работоспособности предупреждения

Это условие возникает, когда вы проверка работоспособности устройства постоянной памяти и видите, что его состояние работоспособности отображается как Предупреждение, как показано в следующем примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
802c-01-1602-117cb64f Предупреждение Прогнозируемый сбой {Превышено пороговое значение, ошибка NVDIMM_N}

В следующей таблице перечислены некоторые сведения об этом условии.

Направление Описание
Вероятное состояние Превышено пороговое значение предупреждения
Причина Устройства постоянной памяти отслеживают различные пороговые значения, такие как температура, время существования NVM и (или) время существования источника энергии. При превышении одного из этих пороговых значений в операционную систему поступает соответствующее уведомление.
Общее поведение Устройство сохраняет полную работоспособность. Это предупреждение, а не ошибка.
Поведение дисковых пространств Устройство сохраняет полную работоспособность. Это предупреждение, а не ошибка.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk. Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Предпринимаемые действия В зависимости от превышения порогового значения предупреждения может быть целесообразно заменить устройство постоянной памяти.

Сбой записи на устройство постоянной памяти

Это условие возникает, когда вы проверка работоспособности устройства постоянной памяти и отображается состояние работоспособности в списке Неработоспособно, а операционное состояние упоминает ошибку ввода-вывода, как показано в следующем примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
802c-01-1602-117cb64f Unhealthy {Устаревшие метаданные, ошибка ввода-вывода, временная ошибка} {Потеря сохраняемости данных, потеря данных, NV...}

В следующей таблице перечислены некоторые сведения об этом условии.

Направление Описание
Вероятное состояние Потеря сохраняемости или резервного копирования питания
Причина Устройства с постоянной памятью используют источник питания для резервного копирования — обычно это аккумулятор или супер-крышка. Если резервный источник питания недоступен или устройство не может его использовать по любой причине (ошибка контроллера или флэш-памяти), данные подвергаются риску и ОС Windows запрещает для таких устройств любые последующие операции записи. Для эвакуации данных сохраняется возможность чтения.
Общее поведение Том NTFS будет отключен.
В поле состояния работоспособности PhysicalDisk будет отображаться значение "Неработоспособное" для всех устройств NVDIMM-N в зоне риска.
Поведение дисковых пространств Дисковое пространство будет оставаться в рабочем состоянии до тех пор, пока будет затронут только один постоянный модуль памяти. Если в зону риска попадет несколько устройств, запись в дисковом пространстве не будет выполнена.
В поле Состояние работоспособности PhysicalDisk отображается значение "Неработоспособно" для всех затронутых устройств постоянной памяти.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Предпринимаемые действия Мы рекомендуем создать резервную копию затронутых данных PMem. Чтобы получить доступ для чтения, можно вручную перевести диск в оперативный режим (он отобразится как том NTFS только для чтения).

Чтобы полностью устранить это условие, необходимо устранить первопричину (то есть источник питания службы или заменить постоянный модуль памяти, в зависимости от проблемы), а том в модуле должен быть либо отключен и снова подключен к сети, либо система должна быть перезапущена.

Чтобы снова сделать модуль постоянной памяти пригодным для использования в дисковые пространства, используйте Reset-PhysicalDisk командлет , который повторно встраивает устройство и запускает процесс восстановления.

Устройство отображается с емкостью 0 байтов или в виде универсального физического диска.

Это условие возникает, когда постоянное запоминающее устройство отображается с емкостью 0 байт и не может быть инициализировано или предоставляется в виде объекта "Универсальный физический диск" без серийного номера, отображающего операционное состояние потерянной связи, как показано в следующем примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
Предупреждение Связь потеряна

В следующей таблице перечислены некоторые сведения об этом условии.

Направление Описание
Вероятное состояние BIOS не предоставляет постоянный модуль памяти для ОС
Причина Устройства с постоянной памятью основаны на DRAM. При ссылке на поврежденный адрес DRAM большинство процессоров инициируют проверку компьютера и перезагрузку сервера. Некоторые серверные платформы затем отменяют сопоставление модуля постоянной памяти, препятствуя операционной системе получить к нему доступ и потенциально вызывая другой компьютер проверка. Это также может произойти, если BIOS обнаружит, что постоянный модуль памяти завершился сбоем и его необходимо заменить.
Общее поведение Постоянный модуль памяти отображается как неинициализированный с емкостью 0 байт и не может быть прочитан или записан.
Поведение дисковых пространств Дисковое пространство остается в рабочем состоянии (при условии, что затрагивается только один постоянный модуль памяти).
Объект PMem PhysicalDisk отображается с состоянием работоспособности Предупреждение и как "Общий физический диск".
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Предпринимаемые действия Устройство постоянной памяти должно быть заменено или дезинфицировано таким образом, чтобы серверная платформа снова предоставила его операционной системе узла. Рекомендуется заменить устройство, так как могут возникнуть более неисправимые ошибки. Добавление заменяющего устройства в конфигурацию дисковых пространств можно выполнить с помощью командлета Add-PhysicalDisk .

Устройство отображается как необработанный или пустой диск после перезагрузки

Это условие возникает, когда вы проверка работоспособности устройства постоянной памяти и видите состояние работоспособности неработоспособного и рабочего состояния нераспознанных метаданных, как показано в следующем примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК {Неизвестно}
802c-01-1602-117cb64f Unhealthy {Нераспознанные метаданные, устаревшие метаданные} {Неизвестно}

В следующей таблице перечислены некоторые сведения об этом условии.

Направление Описание
Вероятное состояние Сбой резервного копирования/восстановления
Первопричина Сбой в процедуре резервного копирования или восстановления, скорее всего, приведет к потере всех данных в модуле постоянной памяти. При загрузке операционной системы она будет отображаться как новое устройство постоянной памяти без секционирования или файловой системы, а поверхность — как RAW, что означает, что у нее нет файловой системы.
Общее поведение Постоянная память будет находиться в режиме только для чтения. Для возобновления использования потребуется явное действие пользователя.
Поведение дисковых пространств дисковые пространства остается в рабочем состоянии, если затронут только один постоянный модуль памяти).
Объект физического диска PMem будет отображаться с состоянием работоспособности "Неработоспособен" и не используется дисковые пространства.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Предпринимаемые действия Если пользователь не хочет заменять затронутого устройства, он может использовать Reset-PhysicalDisk командлет для очистки условия только для чтения в затронутом модуле постоянной памяти. В дисковые пространства средах также будет предпринята попытка повторно интегрировать модуль постоянной памяти в дисковые пространства и запустить процесс восстановления.

Дальнейшие действия

Дополнительные сведения см. также в разделе: