Memantau dan memecahkan masalah grup ketersediaan

Panduan ini membantu Anda memulai pemantauan grup ketersediaan dan memecahkan masalah beberapa masalah umum dalam grup ketersediaan. Ini menyediakan konten asli, dan halaman arahan informasi berguna yang diterbitkan di tempat lain. Meskipun panduan ini tidak dapat sepenuhnya membahas semua masalah yang dapat terjadi di area besar grup ketersediaan, panduan ini dapat mengarahkan Anda ke arah yang benar dalam analisis akar penyebab dan penyelesaian masalah Anda.

Karena grup ketersediaan adalah teknologi terintegrasi, banyak masalah yang Anda temui mungkin merupakan gejala masalah lain dalam sistem database Anda. Beberapa masalah disebabkan oleh pengaturan dalam grup ketersediaan, seperti database ketersediaan yang ditangguhkan. Masalah lain dapat mencakup masalah dengan aspek SQL Server lainnya, seperti pengaturan SQL Server, penyebaran file database, dan masalah performa sistemik yang tidak terkait dengan ketersediaan. Masih ada masalah lain di luar SQL Server, seperti masalah I/O jaringan, TCP/IP, Direktori Aktif, dan Pengklusteran Failover Windows Server (WSFC). Seringkali, masalah yang muncul dalam grup ketersediaan, replika, atau database mengharuskan Anda memecahkan beberapa teknologi untuk mengidentifikasi akar penyebabnya.

Memecahkan masalah skenario

Tabel berikut berisi tautan ke skenario pemecahan masalah umum untuk grup ketersediaan. Mereka dikategorikan berdasarkan jenis skenario mereka, seperti konfigurasi, konektivitas klien, failover, dan performa.

Skenario Jenis skenario Deskripsi
Memecahkan masalah konfigurasi Grup Ketersediaan AlwaysOn (SQL Server) Konfigurasi Menyediakan informasi untuk membantu Anda memecahkan masalah umum dengan mengonfigurasi instans server untuk grup ketersediaan. Masalah konfigurasi umum meliputi:

- grup ketersediaan dinonaktifkan
- akun salah dikonfigurasi
- titik akhir pencerminan database tidak ada
- titik akhir tidak dapat diakses (SQL Server Kesalahan 1418)
- akses jaringan tidak ada
- perintah database gabungan gagal (SQL Server Kesalahan 35250)
Memecahkan masalah operasi add-file yang gagal (Grup Ketersediaan AlwaysOn) Konfigurasi Operasi add-file menyebabkan database sekunder ditangguhkan dan berada dalam status NOT SYNCHRONIZING.
Tidak dapat tersambung ke pendengar grup ketersediaan di lingkungan multi-subnet Konektivitas klien Setelah mengonfigurasi listener grup ketersediaan, Anda tidak dapat melakukan ping pendengar atau menyambungkannya dari aplikasi.
Memecahkan masalah failover otomatis yang gagal Failover Failover otomatis tidak berhasil diselesaikan.
Pemecahan Masalah: Grop Ketersediaan melebihi RTO Performa Setelah failover otomatis atau failover manual yang direncanakan tanpa kehilangan data, waktu failover melebihi RTO Anda. Atau, ketika Anda memperkirakan waktu failover replika sekunder penerapan sinkron (seperti mitra failover otomatis), Anda menemukan bahwa itu melebihi RTO Anda.
Pemecahan Masalah: Grop Ketersediaan melebihi RPO Performa Setelah Anda melakukan failover manual paksa, kehilangan data Anda lebih dari RPO Anda. Atau, ketika Anda menghitung potensi kehilangan data dari replika sekunder penerapan asinkron, Anda menemukan bahwa itu melebihi RPO Anda.
Pemecahan masalah: Perubahan pada replika utama tidak tercermin pada replika sekunder Performa Aplikasi klien berhasil menyelesaikan pembaruan pada replika utama, tetapi mengkueri replika sekunder menunjukkan bahwa perubahan tidak tercermin.
Pemecahan masalah: Jenis tunggu HADR_SYNC_COMMIT tinggi dengan Grup Ketersediaan AlwaysOn Performa Jika HADR_SYNC_COMMIT sangat panjang, ada masalah performa dalam aliran pergerakan data atau pengerasan log replika sekunder.

Alat yang berguna untuk pemecahan masalah

Saat mengonfigurasi atau menjalankan grup ketersediaan, alat yang berbeda dapat membantu Anda mendiagnosis berbagai jenis masalah. Tabel berikut ini menyediakan tautan ke informasi yang berguna tentang alat.

Alat Deskripsi
Menggunakan Dasbor AlwaysOn (SQL Server Management Studio) Melaporkan tampilan sekilas tentang kesehatan grup ketersediaan Anda di antarmuka yang mudah digunakan.
Kebijakan AlwaysOn Digunakan oleh Dasbor AlwaysOn.
Log Kesalahan SQL Server (Grup Ketersediaan AlwaysOn) Mencatat peristiwa transisi status untuk grup ketersediaan, replika, dan database, status komponen AlwaysOn lainnya, dan kesalahan AlwaysOn.
CLUSTER. LOG (Grup Ketersediaan AlwaysOn) Mencatat peristiwa kluster, termasuk transisi status sumber daya grup ketersediaan, serta peristiwa dan kesalahan dari dll sumber daya SQL Server.
Log diagnostik kesehatan AlwaysOn Mencatat SQL Server diagnostik kesehatan seperti yang dilaporkan ke kluster WSFC (SQL Server DLL sumber daya) dengan sp_server_diagnostics (Transact-SQL).
Tampilan manajemen dinamis dan tampilan katalog sistem (Grup Ketersediaan AlwaysOn) Melaporkan informasi tentang grup ketersediaan seperti konfigurasi, status kesehatan, dan metrik performa.
Peristiwa yang diperluas AlwaysOn Menyediakan diagnostik terperinci dari grup ketersediaan dan berguna untuk analisis akar penyebab.
Jenis tunggu AlwaysOn Menyediakan statistik tunggu khusus untuk grup ketersediaan dan berguna untuk penyetelan performa.
Penghitung kinerja AlwaysOn Memantau aktivitas grup ketersediaan, tercermin dalam Monitor Sistem, dan berguna untuk penyetelan performa. Untuk informasi selengkapnya, lihat SQL Server, objek Replika Ketersediaan dan SQL Server, objek Replika Database.
Buffer cincin AlwaysOn Rekam pemberitahuan dalam sistem SQL Server untuk diagnostik internal, dan dapat digunakan untuk men-debug masalah yang terkait dengan grup ketersediaan.

Memantau grup ketersediaan

Waktu yang ideal untuk memecahkan masalah grup ketersediaan adalah sebelum masalah mengharuskan failover, baik otomatis maupun manual. Ini dapat dilakukan dengan memantau metrik performa grup ketersediaan dan mengirim pemberitahuan ketika replika ketersediaan berkinerja di luar batas perjanjian tingkat layanan (SLA) Anda. Misalnya, jika replika sekunder sinkron memiliki masalah performa yang menyebabkan perkiraan waktu failover meningkat, Anda tidak ingin menunggu sampai failover otomatis terjadi dan Anda mengetahui bahwa waktu failover melebihi tujuan waktu pemulihan Anda.

Karena grup ketersediaan adalah solusi ketersediaan tinggi dan pemulihan bencana, metrik performa yang paling penting untuk dipantau adalah perkiraan waktu failover, yang memengaruhi tujuan waktu pemulihan (RTO), dan potensi kehilangan data dalam bencana, yang memengaruhi tujuan titik pemulihan (RPO) Anda. Anda dapat mengumpulkan metrik ini dari data yang SQL Server ekspos pada waktu tertentu, sehingga Anda dapat diberi tahu tentang masalah dalam kemampuan ketersediaan tinggi dan pemulihan bencana (HADR) sistem Anda sebelum peristiwa kegagalan aktual terjadi. Oleh karena itu, penting untuk membiasakan diri dengan proses sinkronisasi data grup ketersediaan dan mengumpulkan metrik yang sesuai.

Tabel di bawah ini mengarahkan Anda ke artikel yang dapat membantu Anda memantau kesehatan solusi grup ketersediaan Anda.

Artikel Deskripsi
Memantau performa untuk Grup Ketersediaan AlwaysOn Menjelaskan proses sinkronisasi data untuk grup ketersediaan, gerbang kontrol alur, dan metrik yang berguna saat memantau grup ketersediaan; dan juga menunjukkan cara mengumpulkan metrik RTO dan RPO.
Pemantauan grup ketersediaan (SQL Server) Menyediakan informasi tentang alat untuk memantau grup ketersediaan.
Model kesehatan Always On, bagian 1: Arsitektur model kesehatan Memberikan gambaran umum tentang model kesehatan Always On.
Model kesehatan Always On, bagian 2: Memperluas model kesehatan Memperlihatkan cara mengkustomisasi model kesehatan Always On dan menyesuaikan Dasbor AlwaysOn untuk menampilkan informasi tambahan.
Memantau kesehatan Always On dengan PowerShell, bagian 1: Gambaran umum cmdlet dasar Menyediakan gambaran umum dasar cmdlet Always On PowerShell yang dapat digunakan untuk memantau kesehatan grup ketersediaan.
Memantau kesehatan Always On dengan PowerShell, bagian 2: Penggunaan cmdlet tingkat lanjut Menyediakan informasi tentang penggunaan lanjutan cmdlet Always On PowerShell untuk memantau kesehatan grup ketersediaan.
Memantau kesehatan Always On dengan PowerShell, bagian 3: Aplikasi pemantauan sederhana Memperlihatkan cara memantau grup ketersediaan secara otomatis dengan aplikasi.
Memantau kesehatan Always On dengan PowerShell, bagian 4: Integrasi dengan SQL Server Agent Menyediakan informasi tentang cara mengintegrasikan pemantauan grup ketersediaan dengan SQL Server Agent dan mengonfigurasi pemberitahuan kepada pihak yang sesuai ketika masalah muncul.

Langkah berikutnya