Melihat kesalahan Layanan Kesehatan
Berlaku untuk: Azure Stack HCI, versi 23H2 dan 22H2; Windows Server 2022, Windows Server 2019
Layanan Kesehatan terus memantau kluster Storage Spaces Direct Anda untuk mendeteksi masalah dan menghasilkan "kesalahan." Satu cmdlet menampilkan kesalahan saat ini, memungkinkan Anda dengan mudah memverifikasi kesehatan penyebaran Anda tanpa melihat setiap entitas atau fitur secara bergantian. Kesalahan dirancang agar tepat, mudah dimengerti, dan dapat ditindaklanjuti.
Setiap kesalahan berisi lima bidang penting:
- Keparahan
- Deskripsi masalah
- Langkah selanjutnya yang direkomendasikan untuk mengatasi masalah
- Mengidentifikasi informasi untuk entitas yang salah
- Lokasi fisiknya (jika ada)
Misalnya, berikut adalah kesalahan umum:
Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11
Catatan
Lokasi fisik berasal dari konfigurasi domain kesalahan Anda. Untuk informasi selengkapnya tentang domain kesalahan, lihat Kesadaran domain kesalahan. Jika Anda tidak memberikan informasi ini, bidang lokasi kurang membantu. Misalnya, itu hanya dapat menunjukkan nomor slot.
Analisis akar penyebab
Layanan Kesehatan dapat menilai potensi kausalitas di antara entitas yang salah untuk mengidentifikasi dan menggabungkan kesalahan yang merupakan konsekuensi dari masalah mendasar yang sama. Dengan mengenali rantai efek membuat pelaporan yang kurang berisi banyak informasi. Misalnya, jika server tidak berfungsi, diharapkan bahwa setiap drive dalam server juga tanpa konektivitas. Oleh karena itu, hanya satu kesalahan yang akan dinaikkan untuk akar penyebab - dalam hal ini, server.
Penggunaan di PowerShell
Untuk melihat kesalahan saat ini di PowerShell, jalankan cmdlet berikut:
Get-HealthFault
Ini menampilkan kesalahan apa pun yang memengaruhi keseluruhan kluster Storage Spaces Direct. Paling sering, kesalahan ini berhubungan dengan perangkat keras atau konfigurasi. Jika tidak ada kesalahan, cmdlet tidak menampilkan apa pun.
Catatan
Dalam lingkungan non-produksi, dan dengan risiko Anda sendiri, Anda dapat bereksperimen dengan fitur ini dengan memicu kesalahan sendiri. Misalnya, Anda dapat melakukan ini dengan menghapus satu disk fisik atau mematikan satu node. Setelah kesalahan muncul, masukkan kembali disk fisik atau mulai ulang node untuk membuat kesalahan menghilang.
Penggunaan di .NET dan C #
Bagian ini menunjukkan cara menyambungkan ke Layanan Kesehatan, menggunakan objek penemuan, dan menjalankan kueri kesalahan.
Sambungkan
Untuk mengkueri Layanan Kesehatan, Anda membuat CimSession dengan kluster. Untuk melakukannya, Anda memerlukan beberapa hal yang hanya tersedia di Microsoft .NET penuh, yang berarti Anda tidak dapat dengan mudah melakukan ini langsung dari web atau aplikasi seluler. Sampel kode di bagian ini menggunakan C#, pilihan paling mudah untuk lapisan akses data ini.
using System.Security;
using Microsoft.Management.Infrastructure;
public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
SecureString PasswordSecureString = new SecureString();
foreach (char c in Password)
{
PasswordSecureString.AppendChar(c);
}
CimCredential Credentials = new CimCredential(
PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
WSManSessionOptions SessionOptions = new WSManSessionOptions();
SessionOptions.AddDestinationCredentials(Credentials);
Session = CimSession.Create(Computer, SessionOptions);
return Session;
}
Nama pengguna yang disediakan harus menjadi administrator lokal dari komputer target.
Sebaiknya buat Kata Sandi SecureString langsung dari input pengguna secara real-time, sehingga kata sandi tidak pernah tersimpan dalam memori dalam teks biasa. Langkah ini membantu mengurangi berbagai masalah keamanan. Tetapi dalam praktiknya, membuatnya seperti di atas adalah umum untuk tujuan prototyping.
Menemukan objek
Dengan CimSession yang ditetapkan, Anda dapat mengajukan Windows Management Instrumentation (WMI) pada kluster.
Sebelum bisa mendapatkan Kesalahan atau Metrik, Anda perlu mendapatkan contoh beberapa objek yang relevan. Pertama, dapatkan MSFT_StorageSubSystem yang mewakili Storage Spaces Direct pada kluster. Dengan menggunakan itu, Anda bisa mendapatkan setiap MSFT_StorageNode pada kluster, dan setiap MSFT_Volume dari volume data. Terakhir, Anda perlu mendapatkan MSCluster_ClusterHealthService, Layanan Kesehatan itu sendiri.
CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;
public void DiscoverObjects(CimSession Session)
{
// Get MSFT_StorageSubSystem for Storage Spaces Direct
Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
.First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));
// Get MSFT_StorageNode for each cluster node
Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();
// Get MSFT_Volumes for each data volume
Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();
// Get MSFT_StorageHealth itself
HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}
Ini adalah objek yang sama yang Anda dapatkan di PowerShell menggunakan cmdlet seperti Get-StorageSubSystem, Get-StorageNode, dan Get-Volume.
Anda dapat mengakses semua properti yang sama, yang didokumentasikan di Kelas API Manajemen Penyimpanan.
using System.Diagnostics;
foreach (CimInstance Node in Nodes)
{
// For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}
Kesalahan kueri
Panggil Diagnose untuk mendapatkan kesalahan saat ini yang dicakup ke target CimInstance, yang dapat berupa kluster atau volume apa pun.
Daftar lengkap kesalahan yang tersedia di setiap cakupan di Windows Server 2019 didokumentasikan kemudian di bagian Cakupan.
public void GetFaults(CimSession Session, CimInstance Target)
{
// Set Parameters (None)
CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
// Invoke API
CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
// Unpack
if (DiagnoseResults != null)
{
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
// TODO: Whatever you want!
}
}
}
Opsional: Kelas MyFault
Mungkin masuk akal untuk membuat dan mempertahankan representasi kesalahan Anda sendiri. Misalnya, kelas MyFault menyimpan beberapa properti kunci kesalahan, termasuk FaultId, yang dapat digunakan kemudian untuk mengaitkan pembaruan, menghapus pemberitahuan, atau deduplikasi jika kesalahan yang sama terdeteksi beberapa kali.
public class MyFault {
public String FaultId { get; set; }
public String Reason { get; set; }
public String Severity { get; set; }
public String Description { get; set; }
public String Location { get; set; }
// Constructor
public MyFault(CimInstance DiagnoseResult)
{
CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
FaultId = Properties["FaultId" ].Value.ToString();
Reason = Properties["Reason" ].Value.ToString();
Severity = Properties["PerceivedSeverity" ].Value.ToString();
Description = Properties["FaultingObjectDescription"].Value.ToString();
Location = Properties["FaultingObjectLocation" ].Value.ToString();
}
}
List<MyFault> Faults = new List<MyFault>;
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
Faults.Add(new Fault(DiagnoseResult));
}
Daftar lengkap properti di setiap kesalahan (DiagnoseResult) didokumentasikan kemudian di bagian Properti kesalahan.
Peristiwa kesalahan
Saat kesalahan dibuat, dihapus, atau diperbarui, Layanan Kesehatan menghasilkan peristiwa WMI. Ini sangat penting untuk menjaga status aplikasi Anda tetap sinkron tanpa sering melakukan polling, dan dapat membantu dengan hal-hal seperti menentukan kapan harus mengirim peringatan email, misalnya. Untuk berlangganan peristiwa ini, kode sampel berikut menggunakan Pola Desain Pengamat.
Pertama, berlangganan peristiwa MSFT_StorageFaultEvent.
public void ListenForFaultEvents()
{
IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
// Subscribe the Observer
FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
IDisposable Disposeable = Events.Subscribe(Observer);
}
Selanjutnya, terapkan Pengamat yang metode OnNext()-nya dipanggil setiap kali peristiwa baru dihasilkan.
Setiap peristiwa berisi ChangeType yang menunjukkan apakah kesalahan dibuat, dihapus, atau diperbarui, dan FaultId yang relevan.
Selain itu, setiap peristiwa berisi semua sifat kesalahan itu sendiri.
class FaultsObserver : IObserver
{
public void OnNext(T Event)
{
// Cast
CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;
if (SubscriptionResult != null)
{
// Unpack
CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
String ChangeType = Properties["ChangeType"].Value.ToString();
String FaultId = Properties["FaultId"].Value.ToString();
// Create
if (ChangeType == "0")
{
Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
// TODO: Whatever you want!
}
// Remove
if (ChangeType == "1")
{
// TODO: Use FaultId to find and delete whatever representation you have...
}
// Update
if (ChangeType == "2")
{
// TODO: Use FaultId to find and modify whatever representation you have...
}
}
}
public void OnError(Exception e)
{
// Handle Exceptions
}
public void OnCompleted()
{
// Nothing
}
}
Memahami siklus hidup kesalahan
Kesalahan tidak dimaksudkan untuk ditandai sebagai "dilihat" atau diselesaikan oleh pengguna. Kesalahan dibuat saat Layanan Kesehatan mengamati masalah, dan mereka dihapus secara otomatis hanya setelah Layanan Kesehatan tidak dapat lagi mengamati masalah. Secara umum, ini mencerminkan bahwa masalah telah diperbaiki.
Namun, dalam beberapa kasus, kesalahan dapat ditemukan kembali oleh Layanan Kesehatan, seperti setelah failover, konektivitas intermiten, dan sebagainya. Untuk alasan ini, mungkin masuk akal untuk mempertahankan representasi kesalahan Anda sendiri, sehingga dapat dengan mudah melakukan pembatalan duplikasi. Ini sangat penting jika Anda mengirim peringatan email atau yang setara.
Properti kesalahan
Tabel berikut menyajikan beberapa sifat kunci dari objek kesalahan. Untuk skema lengkap, periksa kelas MSFT_StorageDiagnoseResult di storagewmi.mof.
Properti | Contoh |
---|---|
FaultId | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Alasan | "Volumenya kehabisan ruang yang tersedia." |
PerceivedSeverity | 5 |
FaultingObjectDescription | Contoso XYZ9000 S.N. 123456789 |
FaultingObjectLocation | Rack A06, RU 25, Slot 11 |
RecommendedActions | {"Expand the volume.", "Migrate workloads to other volumes."} |
FaultId: ID unik dalam cakupan satu kluster.
PerceivedSeverity: PerceivedSeverity = { 4, 5, 6 } = { "Informational", "Warning", dan "Error" }, atau warna yang setara seperti biru, kuning, dan merah.
FaultingObjectDescription: Informasi bagian untuk perangkat keras, biasanya kosong untuk objek perangkat lunak.
FaultingObjectLocation: Informasi lokasi untuk perangkat keras, biasanya kosong untuk objek perangkat lunak.
RecommendedActions: Daftar tindakan yang direkomendasikan yang independen dan tanpa urutan tertentu. Saat ini, daftar ini sering kali panjangnya 1.
Properti peristiwa kesalahan
Tabel berikut menyajikan beberapa properti utama dari peristiwa kesalahan. Untuk skema lengkap, periksa kelas MSFT_StorageFaultEvent di storagewmi.mof.
Perhatikan ChangeType yang menunjukkan apakah kesalahan sedang dibuat, dihapus, atau diperbarui, dan FaultId. Suatu peristiwa juga berisi semua sifat kesalahan yang terkena dampak.
Properti | Contoh |
---|---|
ChangeType | 0 |
FaultId | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Alasan | "Volumenya kehabisan ruang yang tersedia." |
PerceivedSeverity | 5 |
FaultingObjectDescription | Contoso XYZ9000 S.N. 123456789 |
FaultingObjectLocation | Rack A06, RU 25, Slot 11 |
RecommendedActions | {"Expand the volume.", "Migrate workloads to other volumes."} |
ChangeType ChangeType = { 0, 1, 2 } = { "Create", "Remove", "Update" }.
Cakupan
Dalam Windows Server 2019 dan Azure Stack HCI, Layanan Kesehatan menyediakan cakupan kesalahan berikut:
PhysicalDisk (31)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedMedia
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik telah gagal."
- RecommendedAction: "Ganti disk fisik."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.LostCommunication
- Tingkat Keparahan: Peringatan
- Alasan: "Konektivitas telah hilang ke disk fisik."
- RecommendedAction: "Periksa apakah disk fisik berfungsi dan terhubung dengan benar."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.Unresponsive
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik menunjukkan ketidaksponsifan berulang."
- RecommendedAction: "Ganti disk fisik."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Kegagalan disk fisik diprediksi akan segera terjadi."
- RecommendedAction: "Ganti disk fisik."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedHardware
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik dikarantina karena tidak didukung oleh vendor solusi Anda."
- RecommendedAction: "Ganti disk fisik dengan perangkat keras yang didukung."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedFirmware
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik dikarantina karena versi firmware-nya tidak didukung oleh vendor solusi Anda."
- RecommendedAction: "Perbarui firmware pada disk fisik ke versi target."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik memiliki data meta yang tidak dikenal."
- RecommendedAction: "Disk ini mungkin berisi data dari kumpulan penyimpanan yang tidak diketahui. Pertama pastikan tidak ada data yang berguna pada disk ini, lalu atur ulang disk.”
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate
- Tingkat Keparahan: Peringatan
- Alasan: "Gagal mencoba memperbarui firmware pada disk fisik."
- RecommendedAction: "Coba gunakan biner firmware yang berbeda."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia
- Tingkat Keparahan: Peringatan
- Alasan: "Drive gagal."
- RecommendedAction: "Ganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik menunjukkan ketidaksponsifan berulang."
- RecommendedAction: "Ganti disk fisik."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock
- Tingkat Keparahan: Peringatan
- Alasan: "Drive melaporkan blok buruk selama penulisan. Blok buruk sesekali adalah normal, tetapi terlalu banyak bisa berarti bahwa drive tidak berfungsi, rusak, atau mulai gagal.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead
- Tingkat Keparahan: Peringatan
- Alasan: "Drive melaporkan blok buruk selama membaca. Blok buruk sesekali adalah normal, tetapi terlalu banyak bisa berarti bahwa drive tidak berfungsi, rusak, atau mulai gagal.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry
- Tingkat Keparahan: Peringatan
- Alasan: "Drive membutuhkan beberapa percobaan untuk membaca atau menulis. Jika ini terus terjadi, bisa berarti bahwa drive tidak berfungsi, rusak, atau mulai gagal.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
Catatan
Kesalahan ini dinonaktifkan secara default. Untuk mengaktifkannya, atur pengaturan kesehatan System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoRetry.Enabled ke true
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Drive gagal membaca atau menulis. Jika ini terus terjadi, bisa berarti bahwa drive tidak berfungsi, rusak, atau mulai gagal.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
Catatan
Kesalahan ini dinonaktifkan secara default. Untuk mengaktifkannya, atur pengaturan kesehatan System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoFailure.Enabled ke true
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureSmart
- Tingkat Keparahan: Peringatan
- Alasan: "Drive melaporkan potensi masalah berikut untuk Windows menggunakan SMART (Self-Monitoring, Analysis and Reporting Technology)"
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear
- Tingkat Keparahan: Peringatan
- Alasan: "Drive telah mencapai persentase yang tinggi dari daya tahan tulis yang dinilai. Drive dapat menjadi baca-saja, yang berarti tidak dapat melakukan penulisan lagi, saat mencapai 100% dari daya tahan dinilai. Periksa lembar data atau minta produsen untuk rincian lebih lanjut tentang peringkat daya tahan dan perilaku akhir kehidupan.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly
- Tingkat Keparahan: Peringatan
- Alasan: "Drive mencapai 100% dari daya tahan tulis yang dinilai dan sekarang hanya-baca, yang berarti tidak dapat melakukan penulisan lagi. Solid-state drive aus setelah sejumlah penulisan, yang bervariasi tergantung pada peringkat daya tahan drive. Untuk detailnya, periksa spesifikasi drive atau tanyakan kepada produsen tentang peringkat daya tahan dan perilaku akhir kehidupan.”
- RecommendedAction: "Jika ini terus terjadi atau Anda mengamati penurunan performa, pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki latensi puncak yang tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
Catatan
Kesalahan ini dinonaktifkan secara default. Untuk mengaktifkannya, atur pengaturan kesehatan System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled ke true
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki latensi rata-rata tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
Catatan
Kesalahan ini dinonaktifkan secara default. Untuk mengaktifkannya, atur pengaturan kesehatan System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled ke true
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki latensi rata-rata tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki latensi puncak yang tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki jumlah kesalahan yang tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO
- Tingkat Keparahan: Peringatan
- Alasan: "Drive memiliki jumlah kesalahan yang tinggi."
- RecommendedAction: "Pantau performa drive dan pertimbangkan untuk mengganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly
- Tingkat Keparahan: Peringatan
- Alasan: "Drive cache gagal dalam beberapa baca atau tulis, jadi untuk melindungi data Anda, kami telah memindahkannya ke drive kapasitas."
- RecommendedAction: "Ganti drive atau coba bersihkan dan atur ulang."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.Draining
- Tingkat Keparahan: Peringatan
- Alasan: "Drive cache gagal dalam beberapa baca atau tulis. Untuk melindungi data Anda, kami telah berhenti menulis ke drive cache dan kami mencoba memindahkan datanya ke drive kapasitas.”
- RecommendedAction: "Bersabarlah saat kami memindahkan data."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain
- Tingkat Keparahan: Peringatan
- Alasan: "Beberapa data pada drive cache tidak dapat dibaca, mencegah kami memindahkannya ke drive kapasitas."
- RecommendedAction: "Ganti drive."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Upaya untuk memutar kunci enkripsi SED ke default baru gagal."
- RecommendedAction: "Periksa apakah drive berfungsi dan terhubung dengan benar. Jika drive gagal, gantilah. Mulai ulang rotasi kunci enkripsi SED setelah drive sehat.”
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault
- Tingkat Keparahan: Peringatan
- Alasan: "Disk fisik memiliki kunci enkripsi SED, namun tidak cocok dengan kunci default saat ini."
- RecommendedAction: "Mulai rotasi kunci enkripsi SED."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined
- Tingkat Keparahan: Peringatan
- Alasan: "Tidak ada kunci enkripsi SED default yang ditentukan untuk drive."
- RecommendedAction: "Atur kunci enkripsi SED default."
FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout
- Tingkat Keparahan: Peringatan
- Alasan: "Gagal menyelesaikan rotasi kunci enkripsi SED di server sebelum batas waktu"
- RecommendedAction: "Pastikan server dapat dijangkau dan semua disk fisik sehat."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.DriveArriveFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Disk Fisik adalah pertanyaan yang gagal."
- RecommendedAction: "Validasi keandalan jaringan. Jika masalah berlanjut, pertimbangkan untuk mengganti perangkat.”
Disk Virtual (3)
FaultType: Microsoft.Health.FaultType.VirtualDisks.NeedsRepair
- Tingkat keparahan: Informasi
- Alasan: "Beberapa data pada volume ini tidak sepenuhnya tangguh, namun tetap bisa diakses."
- RecommendedAction: "Memulihkan ketahanan data."
FaultType: Microsoft.Health.FaultType.VirtualDisks.Detached
- Tingkat keparahan: Kritis
- Alasan: "Volume tidak dapat diakses. Beberapa data mungkin hilang."
- RecommendedAction: "Periksa konektivitas fisik dan/atau jaringan semua perangkat penyimpanan. Anda mungkin perlu memulihkan dari cadangan.”
FaultType: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy
- Tingkat keparahan: Kritis
- Alasan: "Semua salinan data tidak tersedia untuk wilayah disk virtual. Beban kerja dapat terganggu dan kegagalan IO dapat diamati.”
- RecommendedAction: "Jika operasi pemeliharaan sedang berlangsung, harap tangguhkan dan pulihkan akses ke semua penyimpanan sampai penyimpanan stabil."
Kapasitas Kumpulan (2)
FaultType: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Kumpulan Penyimpanan tidak dapat menulis ke kuorum perangkat metadata. Beban kerja dapat terganggu dan kegagalan IO dapat diamati.”
- RecommendedAction: "Jika operasi pemeliharaan sedang berlangsung, harap tangguhkan dan pulihkan akses ke semua penyimpanan sampai penyimpanan stabil."
FaultType: Microsoft.Health.FaultType.StoragePool.PoolCapacityThresholdExceeded
- Tingkat Keparahan: Peringatan
- Alasan: "Kolam penyimpanan kehabisan kapasitas."
- RecommendedAction: "Tambahkan kapasitas tambahan ke kumpulan penyimpanan atau kosongkan kapasitas."
Kapasitas Volume (5)1
FaultType: Microsoft.Health.FaultType.Volume.Capacity
- Tingkat Keparahan: Peringatan
- Alasan: "Volumenya kehabisan ruang yang tersedia."
- RecommendedAction: "Perluas volume atau migrasi beban kerja ke volume lain."
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable
- Tingkat Keparahan: Peringatan
- Alasan: "Sistem file mendeteksi kesalahan checksum dan mampu memperbaikinya."
- RecommendedAction: "Memulai pemindaian Integritas Data dari penjadwal tugas, penyimpanan mungkin akan buruk. Jika ada pembaruan atau operasi pemeliharaan yang terjadi, hentikan segera. Anda mungkin perlu memulihkan dari cadangan.”
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable
- Tingkat Keparahan: Peringatan
- Alasan: "Sistem file mendeteksi kesalahan checksum dan tidak dapat memperbaikinya."
- RecommendedAction: "Memulai pemindaian Integritas Data dari penjadwal tugas, penyimpanan mungkin akan buruk. Jika ada pembaruan atau operasi pemeliharaan yang terjadi, hentikan segera. Anda mungkin perlu memulihkan dari cadangan.”
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved
- Tingkat Keparahan: Peringatan
- Alasan: "Sistem file mendeteksi kerusakan pada file atau folder. File atau folder telah dihapus dari namespace sistem file.”
- RecommendedAction: "Memulai pemindaian Integritas Data dari penjadwal tugas, penyimpanan mungkin akan buruk. Jika ada pembaruan atau operasi pemeliharaan yang terjadi, hentikan segera. Anda mungkin perlu memulihkan dari cadangan.”
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure
- Tingkat Keparahan: Peringatan
- Alasan: "Sistem file mendeteksi kerusakan pada file atau folder. Sistem file mungkin telah gagal menghapusnya dari namespace sistem file.”
- RecommendedAction: "Memulai pemindaian Integritas Data dari penjadwal tugas, penyimpanan mungkin akan buruk. Jika ada pembaruan atau operasi pemeliharaan yang terjadi, hentikan segera. Anda mungkin perlu memulihkan dari cadangan.”
Server (12)
FaultType: Microsoft.Health.FaultType.Server.Down
- Tingkat keparahan: Kritis
- Alasan: "Server tidak dapat dihubungi."
- RecommendedAction: "Mulai atau ganti server."
FaultType: Microsoft.Health.FaultType.Server.Isolated
- Tingkat keparahan: Kritis
- Alasan: "Server terisolasi dari kluster karena masalah konektivitas."
- RecommendedAction: "Jika isolasi berlanjut, periksa jaringan atau migrasi beban kerja ke node lain."
FaultType: Microsoft.Health.FaultType.Server.Quarantined
- Tingkat keparahan: Kritis
- Alasan: "Server dikarantina oleh kluster karena kegagalan berulang."
- RecommendedAction: "Ganti server atau perbaiki jaringan."
FaultType: Microsoft.Health.FaultType.Server.Temperature
- Tingkat Keparahan: Peringatan
- Alasan: "Sensor suhu server telah menimbulkan peringatan."
- RecommendedAction: "Periksa suhu server."
FaultType: Microsoft.Health.FaultType.Server.Storage.Degraded
- Tingkat Keparahan: Peringatan
- Alasan: "Server memiliki penyimpanan yang tidak lengkap atau terbaru, jadi kita perlu menyinkronkannya dengan data dari server lain di kluster. Ini normal setelah server dihidupkan ulang atau drive gagal.”
- RecommendedAction: "Bersabarlah saat kami menyinkronkan penyimpanan. Jangan menghapus drive apa pun atau memulai ulang server apa pun di kluster sampai kami mengonfirmasi bahwa sinkronisasi selesai.”
FaultType: Microsoft.Health.FaultType.Node.CPUOverloaded
- Tingkat Keparahan: Peringatan
- Alasan: "Pemanfaatan CPU server secara konsisten melampaui ambang batas."
- RecommendedAction: "Pindahkan mesin virtual ke server lain dengan penggunaan CPU yang lebih rendah, atau pertimbangkan untuk menambahkan kapasitas komputasi tambahan ke kluster (biasanya dengan menambahkan server)."
FaultType: Microsoft.Health.FaultType.Node.VCPUToLCPU
- Tingkat Keparahan: Peringatan
- Alasan: "Rasio prosesor virtual dengan prosesor logis (rangkaian) di server ini telah melampaui ambang batas yang dikonfigurasi.”
- RecommendedAction: "Pindahkan mesin virtual ke server lain dengan penggunaan CPU yang lebih rendah atau pertimbangkan untuk menambahkan kapasitas komputasi tambahan ke kluster."
FaultType: Microsoft.Health.FaultType.Node.LowFreeRam
- Tingkat Keparahan: Peringatan
- Alasan: "Memori yang tersedia berada di bawah ambang batas yang dikonfigurasi."
- RecommendedAction: "Pindahkan mesin virtual ke server lain dengan penggunaan CPU yang lebih rendah atau pertimbangkan untuk menambahkan kapasitas komputasi tambahan ke kluster."
FaultType: Microsoft.Health.FaultType.Node.HighRootPartitionMemoryUsage
- Tingkat Keparahan: Peringatan
- Alasan: "Windows Server menggunakan banyak memori fisik, yang melebihi ambang batas yang dikonfigurasi."
- RecommendedAction: "Periksa proses atau aplikasi yang menghabiskan terlalu banyak memori, memindahkan mesin virtual ke server lain, atau menambahkan memori ke server."
FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation
- Tingkat Keparahan: Peringatan
- Alasan: "Reservasi CPU gabungan dari mesin virtual di server ini melebihi ambang batas yang dikonfigurasi."
- RecommendedAction: "Pertimbangkan untuk memindahkan mesin virtual atau mengurangi reservasi CPU."
FaultType: Microsoft.Health.FaultType.Node.TooHighMemoryUseAfterReclamation
- Tingkat Keparahan: Peringatan
- Alasan: "Penetapan memori gabungan dari mesin virtual di server ini melebihi ambang batas yang dikonfigurasi."
- RecommendedAction: "Pertimbangkan untuk memindahkan mesin virtual atau mengurangi memori yang ditugaskan."
FaultType: Microsoft.Health.FaultType.Node.SustainedHighCpuUsage
- Tingkat Keparahan: Peringatan
- Alasan: "Server memiliki penggunaan CPU secara konsisten melebihi ambang batas."
- RecommendedAction: "Pindahkan mesin virtual ke server lain dengan penggunaan CPU yang lebih rendah atau pertimbangkan untuk menambahkan lebih banyak kapasitas komputasi."
Kluster (6)
FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error
- Tingkat keparahan: Kritis
- Alasan: "Kluster adalah salah satu kegagalan server jauh dari turun."
- RecommendedAction: "Periksa sumber daya saksi, dan hidupkan ulang sesuai kebutuhan. Mulai atau ganti server yang gagal.”
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed
- Tingkat keparahan: Kritis
- Alasan: "Validasi Kluster telah menemukan masalah."
- RecommendedAction: "Validasi Kluster telah menemukan kegagalan dalam beberapa kategori pengujian. Lihat laporan validasi kluster."
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failed
- Tingkat keparahan: Kritis
- Alasan: "Validasi-DCB telah menemukan masalah."
- RecommendedAction: "Validate-DCB telah menemukan kesalahan jaringan. Lihat laporan validasi DCB."
FaultType: Microsoft.Health.FaultType.Cluster.TooHighCpuReservation
- Tingkat keparahan: Kritis
- Alasan: "Reservasi CPU gabungan dari mesin virtual di server ini melebihi ambang batas yang dikonfigurasi."
- RecommendedAction: "Pertimbangkan untuk memindahkan mesin virtual atau mengurangi reservasi CPU."
FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation
- Tingkat keparahan: Kritis
- Alasan: "Penetapan memori gabungan dari mesin virtual di server ini melebihi ambang batas yang dikonfigurasi."
- RecommendedAction: "Pertimbangkan untuk memindahkan mesin virtual atau mengurangi memori yang ditugaskan."
FaultType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage
- Tingkat keparahan: Kritis
- Alasan: "Server memiliki penggunaan CPU secara konsisten melebihi ambang batas."
- RecommendedAction: "Pindahkan mesin virtual ke server lain dengan penggunaan CPU yang lebih rendah atau pertimbangkan untuk menambahkan lebih banyak kapasitas komputasi."
Adaptor/Antarmuka Jaringan (6)
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disconnected
- Tingkat Keparahan: Peringatan
- Alasan: "Antarmuka jaringan telah terputus."
- RecommendedAction: "Hubungkan kembali kabel jaringan."
FaultType: Microsoft.Health.FaultType.NetworkInterface.Missing
- Tingkat Keparahan: Peringatan
- Alasan: "Server {server} memiliki adaptor jaringan yang hilang yang terhubung ke jaringan kluster {cluster network}."
- RecommendedAction: "Hubungkan server ke jaringan kluster yang hilang."
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Hardware
- Tingkat Keparahan: Peringatan
- Alasan: "Antarmuka jaringan telah mengalami kegagalan perangkat keras."
- RecommendedAction: "Ganti adaptor antarmuka jaringan."
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disabled
- Tingkat Keparahan: Peringatan
- Alasan: "Antarmuka jaringan {interface network} tidak diaktifkan dan tidak digunakan."
- RecommendedAction: "Aktifkan antarmuka jaringan."
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Alert
- Tingkat Keparahan: Peringatan
- Alasan: "Kluster mendeteksi masalah konektivitas jaringan yang mencegah Storage Spaces Direct berfungsi dengan baik."
- RecommendedAction: "Verifikasi bahwa jaringan Anda dikonfigurasi dan berfungsi dengan benar. Jika Anda menggunakan RDMA Over Converged Ethernet (RoCE), verifikasi bahwa Data Center Bridging (DCB), Enhanced Transmission Service (ETS), dan Priority Flow Control (PFC) dikonfigurasi dengan benar dan konsisten pada setiap node kluster dan pengalih fisik. Jika Anda tidak tahu bagaimana melakukan ini, mintalah vendor Anda atau seseorang yang Anda percayai untuk membantu Anda.”
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Disabled
- Tingkat Keparahan: Peringatan
- Alasan: "Kluster mendeteksi masalah konektivitas jaringan yang mencegah Storage Spaces Direct berfungsi dengan baik. Untuk memastikan performa dan keamanan data yang konsisten, Spaces Direct Storage telah berhenti menggunakan akses memori langsung jarak jauh (RDMA) bahkan jika perangkat keras berkemampuan RDMA hadir dan diaktifkan. Lalu lintas penyimpanan akan terus mengalir tetapi dengan kinerja yang berkurang menggunakan TCP/IP."
- RecommendedAction: "Verifikasi bahwa jaringan Anda dikonfigurasi dan berfungsi dengan benar, lalu aktifkan kembali RDMA. Jika Anda menggunakan RDMA Over Converged Ethernet (RoCE), verifikasi bahwa Data Center Bridging (DCB), Enhanced Transmission Service (ETS), dan Priority Flow Control (PFC) dikonfigurasi dengan benar dan konsisten pada setiap node kluster dan pengalih fisik. Jika Anda tidak tahu cara melakukan ini, mintalah vendor Anda atau seseorang yang Anda percayai untuk membantu Anda. Untuk melanjutkan dengan RDMA dimatikan, Anda dapat mengabaikan peringatan ini.”
Penutup (6)
FaultType: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication
- Tingkat Keparahan: Peringatan
- Alasan: "Komunikasi telah hilang ke penutup penyimpanan."
- RecommendedAction: "Mulai atau ganti penutup penyimpanan."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.FanError
- Tingkat Keparahan: Peringatan
- Alasan: "Kipas di posisi {position} dari penutup penyimpanan telah gagal."
- RecommendedAction: "Ganti kipas di penutup penyimpanan."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError
- Tingkat Keparahan: Peringatan
- Alasan: "Sensor saat ini pada posisi {position} dari penutup penyimpanan telah gagal."
- RecommendedAction: "Ganti sensor saat ini di penutup penyimpanan."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.VoltageSensorError
- Tingkat Keparahan: Peringatan
- Alasan: "Sensor tegangan pada posisi {position} dari penutup penyimpanan telah gagal."
- RecommendedAction: "Ganti sensor tegangan di penutup penyimpanan."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError
- Tingkat Keparahan: Peringatan
- Alasan: "Pengontrol IO pada posisi {position} dari penutup penyimpanan telah gagal."
- RecommendedAction: "Ganti pengontrol IO di penutup penyimpanan."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.TemperatureSensorError
- Tingkat Keparahan: Peringatan
- Alasan: "Sensor suhu pada posisi {position} dari penutup penyimpanan telah gagal."
- RecommendedAction: "Ganti sensor suhu di penutup penyimpanan."
Peluncuran Firmware (3)
FaultType: Microsoft.Health.FaultType.FaultDomain.FailedMaintenanceMode
- Tingkat Keparahan: Peringatan
- Alasan: "Saat ini tidak dapat membuat kemajuan saat melakukan peluncuran firmware."
- RecommendedAction: "Verifikasi bahwa semua ruang penyimpanan sehat, dan bahwa tidak ada domain kesalahan saat ini dalam mode pemeliharaan."
FaultType: Microsoft.Health.FaultType.FaultDomain.FirmwareVerifyVersionFailed
- Tingkat Keparahan: Peringatan
- Alasan: "Peluncuran firmware dibatalkan karena informasi versi firmware yang tidak dapat dibaca atau tidak terduga setelah menerapkan pembaruan firmware."
- RecommendedAction: "Mulai ulang peluncuran firmware setelah masalah firmware diselesaikan."
FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates
- Tingkat Keparahan: Peringatan
- Alasan: "Peluncuran firmware dibatalkan karena terlalu banyak disk fisik yang gagal dalam upaya pembaruan firmware."
- RecommendedAction: "Mulai ulang peluncuran firmware setelah masalah firmware diselesaikan."
Penyimpanan QoS (3)2
FaultType: Microsoft.Health.FaultType.StorQos.InsufficientThroughput
- Tingkat Keparahan: Peringatan
- Alasan: "Throughput penyimpnanan tidak cukup untuk memenuhi cadangan."
- RecommendedAction: "Konfigurasi ulang konfigurasi Penyimpanan QoS."
FaultType: Microsoft.Health.FaultType.StorQos.LostCommunication
- Tingkat Keparahan: Peringatan
- Alasan: "Manajer kebijakan QoS Storage telah kehilangan komunikasi dengan volume."
- RecommendedAction: "Silakan reboot node {nodes}"
FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow
- Tingkat Keparahan: Peringatan
- Alasan: "Satu atau lebih konsumen penyimpanan (biasanya Mesin Virtual) menggunakan kebijakan yang tidak ada dengan id {id}."
- RecommendedAction: "Buat ulang kebijakan Penyimpanan QoS yang hilang."
VM/VHD (7)
FaultType: Microsoft.Health.FaultType.Vm.BadHealthState
- Tingkat Keparahan: Peringatan
- Alasan: "Keadaan kesehatan mesin virtual tidak baik-baik saja."
- RecommendedAction: "Memecahkan masalah mesin virtual."
FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus
- Tingkat Keparahan: Peringatan
- Alasan: "Status operasional mesin virtual tidak baik-baik saja."
- RecommendedAction: "Memecahkan masalah mesin virtual."
FaultType: Microsoft.Health.FaultType.Vm.GuestUnhealthy
- Tingkat Keparahan: Peringatan
- Alasan: "Sistem operasi tamu di mesin virtual melaporkan keadaan yang tidak sehat."
- RecommendedAction: "Memecahkan masalah mesin virtual."
FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline
- Tingkat Keparahan: Peringatan
- Alasan: "Sumber daya konfigurasi mesin virtual sedang offline, yang berarti mesin virtual tidak dapat dikelola."
- RecommendedAction: "Bawa konfigurasi mesin virtual online."
FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes
- Tingkat Keparahan: Peringatan
- Alasan: "Mesin virtual tidak menanggapi kode kontrol kluster."
- RecommendedAction: "Periksa keadaan sumber daya kluster mesin virtual."
FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit
- Tingkat Keparahan: Peringatan
- Alasan: "Mesin virtual membutuhkan lebih banyak memori maksimum yang dikonfigurasi."
- RecommendedAction: "Periksa proses atau aplikasi yang menghabiskan terlalu banyak memori atau pertimbangkan untuk meningkatkan memori maksimumnya."
FaultType: Microsoft.Health.FaultType.Vhd.IsNearlyFull
- Tingkat Keparahan: Peringatan
- Alasan: "Hard disk virtual telah mencapai kapasitasnya. Tidak ada lagi data yang dapat ditulis untuk itu, yang dapat berdampak negatif pada mesin virtual.”
- RecommendedAction: "Ubah ukuran hard disk virtual atau hapus file yang tidak diinginkan."
1 Menunjukkan volume telah mencapai 80% penuh (tingkat keparahan kecil) atau 90% penuh (tingkat keparahan utama). 2 Menunjukkan beberapa .vhd (s) pada volume belum memenuhi IOPS Minimum mereka selama lebih dari 10% (minor), 30% (mayor), atau 50% (kritis) dari jendela 24 jam bergulir.
Catatan
Kesehatan komponen kandang penyimpanan, seperti kipas angin, catu daya, dan sensor berasal dari SCSI Enclosure Services (SES). Jika vendor Anda tidak memberikan informasi ini, Layanan Kesehatan tidak dapat menampilkannya.