次の方法で共有


永続メモリの正常性管理

この記事では、永続メモリ (PMem) デバイス (多くの場合、ストレージ クラス メモリ (SCM) と呼ばれます) に固有のエラー処理と正常性管理に関する情報を提供します。これは、最上位層ストレージとして使用できる非揮発性メディアの一種です。

これらの短いビデオでは、Windows による永続メモリのサポートの概要について説明します。

永続メモリの理解とデプロイも参照してください。

永続メモリ デバイスは、Windows Server 2016 および Windows 10 (バージョン 1607) 以降のネイティブ ドライバーでサポートされています。 永続メモリ デバイスは他のディスク (HDD と SSD) と同様に動作しますが、いくつかの違いがあります。

一般的なユース ケースとして、2 つの永続メモリ モジュールが、記憶域スペース内のミラー化されたライトバック キャッシュとして使用されます。 このような構成を設定するには、「 NVDIMM-N 書き戻しキャッシュを使用した記憶域スペースの構成」を参照してください。

Windows Server 2016 では、記憶域スペース GUI NVDIMM-N バスの種類が UNKNOWN と表示されます。 機能的な損失や、プール やストレージ VD を作成できなくなることはありません。 次のコマンドレットを実行して、バスの種類を確認できます。

Get-PhysicalDisk | fl

出力のパラメーター BusType は、バスの種類を SCM として正しく表示します。

永続的なメモリの正常性状態を表示する

このセクションでは、永続メモリ モジュールの正常性状態を表示する方法について説明します。 永続メモリを使用する場合、監視エクスペリエンスにはいくつかの違いがあります。

  • 永続メモリでは物理ディスク のパフォーマンス カウンターが作成されないため、Windows Admin Center のグラフには表示されません。
  • 永続メモリでは Storport 505 データが作成されないため、プロアクティブな外れ値の検出は行われません。

それ以外の場合、監視エクスペリエンスは他の物理ディスクの場合と同じです。

次のコマンドレットを実行して、永続メモリ ディスクの正常性を照会できます。

Get-PmemDisk

DiskNumber Size   HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ----   ------------ ------------- ------------ ----------------- -------------------
2          252 GB Unhealthy    None          True         {20, 120}         2
3          252 GB Healthy      None          True         {1020, 1120}      0

Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

SerialNumber               HealthStatus OperationalStatus  OperationalDetails
------------               ------------ ------------------ ------------------
802c-01-1602-117cb5fc      Healthy      OK
802c-01-1602-117cb64f      Warning      Predictive Failure {Threshold Exceeded,NVDIMM_N Error}

Get-PhysicalDisk コマンドレットを使用し、BusType を SCM として指定することで、同じ情報を取得できることに注目してください。

Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

イベントで指定された永続メモリ デバイスの物理的な場所を見つけるには、イベント ビューアーのイベントの [ 詳細 ] タブで、 EventData>Location に移動します。 Windows Server 2016 では永続メモリ デバイスの正しくない場所が一覧表示されますが、これは Windows Server バージョン 1709 で修正されています。

HealthStatus は、 永続メモリ ディスクが正常かどうかを示します。

UnsafeshutdownCount 値は、この論理ディスクでデータ損失を引き起こす可能性があるシャットダウンの数を追跡します。 このディスクの基盤となるすべての永続メモリデバイスの異常シャットダウン回数の合計です。 正常性状態の詳細については、 Get-PmemPhysicalDevice コマンドレットを使用して OperationalStatus などの情報を検索します。

Get-PmemPhysicalDevice

DeviceId DeviceType           HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ----------           ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_C1     102005310        126 GB                 0 GB
1120     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_F1     102005310        126 GB                 0 GB
120      Intel INVDIMM device Healthy      {Ok}              CPU1_DIMM_F1     102005310        126 GB                 0 GB
20       Intel INVDIMM device Unhealthy    {HardwareError}   CPU1_DIMM_C1     102005310        126 GB                 0 GB

このコマンドレットは、どの永続メモリ デバイスが異常であるかを示します。 異常なデバイス (DeviceId 20) は、前の例のケースと一致します。 BIOS の PhysicalLocation は、障害状態の永続メモリ デバイスを識別するのに役立ちます。

さまざまな正常性状態を理解するには、次のセクションを参照してください。

警告の正常性状態

この状態は、次の出力例に示すように、永続メモリ デバイスの正常性を確認し、その正常性状態が 警告として表示されていることを確認するときに発生します。

シリアルナンバー 健康状態 OperationalStatus 運用詳細
802c-01-1602-117cb5fc 元気 [OK]
802c-01-1602-117cb64f Warnung 予測される障害 {しきい値超過,NVDIMM_N エラー}

次の表に、この条件に関するいくつかの情報を示します。

[Heading] (方向) 説明
可能性の高い条件 警告しきい値に違反しました
根本原因 永続メモリ デバイスは、温度、NVM の有効期間、エネルギー ソースの有効期間など、さまざまなしきい値を追跡します。 これらのしきい値のいずれかを超えると、オペレーティング システムに通知されます。
一般的な動作 デバイスは引き続き完全に動作します。 これは警告であり、エラーではありません。
記憶域スペースの動作 デバイスは引き続き完全に動作します。 これは警告であり、エラーではありません。
詳細情報 PhysicalDisk オブジェクトの OperationalStatus フィールド。 EventLog – Microsoft-Windows-ScmDisk0101/Operational
対処 違反した警告のしきい値によっては、永続メモリ デバイスを交換することが賢明な場合があります。

永続メモリ デバイスへの書き込みが失敗する

この状態は、永続メモリ デバイスの正常性を確認し、[正常性状態] が [異常] と表示され、次の出力例に示すように、操作状態で IO エラーが示されている場合に発生します。

シリアルナンバー 健康状態 OperationalStatus 運用詳細
802c-01-1602-117cb5fc 元気 [OK]
802c-01-1602-117cb64f 不健康 {古いメタデータ、IO エラー、一時的なエラー} {失われたデータの永続化、失われたデータ、NV...}

次の表に、この条件に関するいくつかの情報を示します。

[Heading] (方向) 説明
可能性の高い条件 持続性/バックアップ電源の喪失
根本原因 永続メモリ デバイスは、永続性 (通常はバッテリまたはスーパーキャップ) のためにバックアップ電源に依存します。 このバックアップ電源が使用できない場合、またはデバイスが何らかの理由でバックアップを実行できない場合 (コントローラー/フラッシュ エラー)、データが危険にさらされ、影響を受けるデバイスへの書き込みが Windows によって防止されます。 データを退避させるための読み取りは引き続き可能です。
一般的な動作 NTFS ボリュームはマウント解除されます。
[PhysicalDisk の正常性状態] フィールドには、影響を受けるすべての NVDIMM-N デバイスの "異常" が表示されます。
記憶域スペースの動作 永続メモリ モジュールが 1 つだけ影響を受ける限り、記憶域スペースは引き続き動作します。 複数のデバイスが影響を受ける場合、記憶域スペースへの書き込みが失敗します。
PhysicalDisk の正常性状態フィールドには、影響を受けるすべての永続メモリ デバイスの "異常" が表示されます。
詳細情報 PhysicalDisk オブジェクトの OperationalStatus フィールド。
イベントログ – Microsoft-Windows-ScmDisk0101/Operational
対処 影響を受ける PMem のデータをバックアップすることをお勧めします。 読み取りアクセスを得るために、ディスクを手動でオンラインにすることができます (ディスクは読み取り専用 NTFS ボリュームとして表示されます)。

この状態を完全にクリアするには、根本原因を解決する必要があります (つまり、問題に応じて、サービス電源モジュールまたは永続メモリ モジュールを交換します)、モジュールのボリュームをオフラインにして再度オンラインにするか、システムを再起動する必要があります。

永続的なメモリ モジュールを記憶域スペースで再び使用できるようにするには、 Reset-PhysicalDisk コマンドレットを使用します。このコマンドレットを使用すると、デバイスが再統合され、修復プロセスが開始されます。

デバイスが "0" バイトの容量で表示されるか、"汎用物理ディスク" として表示される

この状態は、永続メモリ デバイスが 0 バイトの容量で表示され、初期化できない場合、または次の出力例に示すように、通信 が失われた操作状態を表示するシリアル番号のない "汎用物理ディスク" オブジェクトとして公開されている場合に発生します。

シリアルナンバー 健康状態 OperationalStatus 運用詳細
802c-01-1602-117cb5fc 元気 [OK]
Warnung 通信の切断

次の表に、この条件に関するいくつかの情報を示します。

[Heading] (方向) 説明
可能性の高い条件 BIOS が永続メモリ モジュールを OS に公開しませんでした
根本原因 永続メモリ デバイスは DRAM ベースです。 破損した DRAM アドレスが参照されると、ほとんどの CPU がマシン チェックを開始し、サーバーを再起動します。 その後、一部のサーバー プラットフォームでは永続メモリ モジュールのマップが解除され、OS がアクセスできず、別のマシン チェックが発生する可能性があります。 これは、BIOS が永続メモリ モジュールが失敗し、交換する必要があることを検出した場合にも発生する可能性があります。
一般的な動作 永続メモリ モジュールは初期化されていないと表示され、容量は 0 バイトで、読み取りまたは書き込みはできません。
記憶域スペースの動作 記憶域スペースは引き続き動作します (影響を受ける永続メモリ モジュールが 1 つだけの場合)。
PMem PhysicalDisk オブジェクトの Health Status (正常性状態) は Warning (警告) で、"汎用物理ディスク" として表示されます。
詳細情報 PhysicalDisk オブジェクトの OperationalStatus フィールド。
EventLog – Microsoft-Windows-ScmDisk0101/Operational
対処 永続メモリ デバイスは、サーバー プラットフォームによってホスト OS に再び公開されるように、交換またはサニタイズする必要があります。 修正不可能なエラーが発生する可能性がある場合は、デバイスの交換をお勧めします。 Add-PhysicalDisk コマンドレットを使用して、記憶域スペース構成に代替デバイスを追加できます。

再起動後にデバイスが RAW または空のディスクとして表示される

この状態は、永続メモリ デバイスの正常性を確認し、次の出力例に示すように、 異常 の正常性状態と 認識されないメタデータの動作状態を確認するときに発生します。

シリアルナンバー 健康状態 OperationalStatus 運用詳細
802c-01-1602-117cb5fc 元気 [OK] {不明}
802c-01-1602-117cb64f 不健康 {認識されないメタデータ、古いメタデータ} {不明}

次の表に、この条件に関するいくつかの情報を示します。

[Heading] (方向) 説明
可能性の高い条件 バックアップ/復元エラー
根本原因 バックアップまたは復元手順でエラーが発生すると、永続メモリ モジュール上のすべてのデータが失われる可能性があります。 オペレーティング システムが読み込まれると、パーティションまたはファイル システムのない新しい永続的なメモリ デバイスとして表示され、RAW として表示されます。つまり、ファイル システムがありません。
一般的な動作 永続メモリは読み取り専用モードになります。 使用を再開するには、ユーザーの明示的なアクションが必要です。
記憶域スペースの動作 影響を受ける永続メモリ モジュールが 1 つだけの場合、記憶域スペースは引き続き動作します。
PMem 物理ディスク オブジェクトは、正常性状態 "異常" と共に表示され、記憶域スペースでは使用されません。
詳細情報 PhysicalDisk オブジェクトの OperationalStatus フィールド。
EventLog – Microsoft-Windows-ScmDisk0101/Operational
対処 ユーザーが影響を受けるデバイスを交換したくない場合は、 Reset-PhysicalDisk コマンドレットを使用して、影響を受ける永続メモリ モジュールの読み取り専用条件をクリアできます。 記憶域スペース環境では、永続メモリ モジュールを記憶域スペースに再統合し、修復プロセスを開始することもできます。

次のステップ

関連情報については、以下も参照してください。