Memvalidasi kluster Azure Stack HCI

Berlaku untuk: Azure Stack HCI, versi 22H2 dan 21H2; Windows Server 2022, Windows Server 2019.

Peringatan

Instruksi penyebaran yang disediakan dalam artikel ini berlaku untuk versi lama, Azure Stack HCI, versi 22H2. Untuk penyebaran baru, kami sarankan Anda menggunakan versi terbaru yang tersedia secara umum, Azure Stack HCI, versi 23H2. Untuk instruksi penyebaran, lihat Tentang Azure Stack HCI, penyebaran versi 23H2.

Validasi DCB bukan lagi alat yang direkomendasikan untuk menyiapkan atau menguji konfigurasi jaringan host Anda di Azure Stack HCI. Sebaiknya gunakan NETWORK ATC untuk mengonfigurasi pengaturan jaringan host Anda untuk Azure Stack HCI. ATC Jaringan selalu menggantikan Validasi DCB di Azure Stack HCI.

Meskipun wizard Pembuatan kluster di Pusat Admin Windows melakukan validasi tertentu untuk membuat kluster kerja dengan perangkat keras yang dipilih, validasi kluster melakukan pemeriksaan tambahan untuk memastikan kluster akan berfungsi di lingkungan produksi. Artikel petunjuk ini berfokus pada mengapa validasi kluster penting, dan kapan harus menjalankannya pada kluster Azure Stack HCI.

Sebaiknya lakukan validasi kluster untuk skenario utama berikut:

  • Setelah menyebarkan kluster server, jalankan alat Validate-DCB untuk menguji jaringan.
  • Setelah memperbarui kluster server, tergantung pada skenario Anda, jalankan kedua opsi validasi untuk memecahkan masalah kluster.
  • Setelah menyiapkan replikasi dengan Storage Replica, validasi bahwa replikasi berjalan normal dengan memeriksa beberapa kejadian tertentu dan menjalankan beberapa perintah.
  • Setelah membuat kluster server, jalankan alat Validate-DCB sebelum menempatkannya ke dalam produksi.

Apa itu validasi kluster?

Validasi kluster bertujuan untuk menemukan masalah perangkat keras atau konfigurasi sebelum kluster masuk ke produksi. Validasi kluster membantu memastikan bahwa solusi Azure Stack HCI yang akan Anda sebarkan benar-benar dapat diandalkan. Anda juga dapat menggunakan validasi kluster pada kluster failover terkonfigurasi sebagai alat diagnostik.

Skenario validasi khusus

Bagian ini menjelaskan skenario di mana validasi juga diperlukan atau berguna.

  • Validasi sebelum kluster dikonfigurasi:

    • Satu set server siap menjadi kluster failover: Ini adalah skenario validasi paling mudah. Komponen perangkat keras (sistem, jaringan, dan penyimpanan) terhubung, tetapi sistem belum berfungsi sebagai kluster. Menjalankan pengujian dalam situasi ini tidak berpengaruh pada ketersediaan.

    • VM Server: Untuk server virtual dalam kluster, jalankan validasi kluster seperti yang Anda lakukan pada kluster baru lainnya. Persyaratan untuk menjalankan fitur ini sama terlepas apakah Anda memiliki:

      • Sebuah "kluster host" di mana failover terjadi antara dua komputer fisik.
      • Sebuah "kluster tamu" di mana failover terjadi antara sistem operasi tamu pada komputer fisik yang sama.
  • Validasi setelah kluster dikonfigurasi dan sedang digunakan:

    • Sebelum menambahkan server ke kluster: Saat Anda menambahkan server ke kluster, sangat disarankan untuk memvalidasi kluster. Tentukan anggota kluster yang ada dan server baru saat Anda menjalankan validasi kluster.

    • Saat menambahkan drive: Saat Anda menambahkan drive tambahan ke kluster, yang berbeda dari penggantian drive yang gagal atau membuat disk virtual atau volume yang bergantung pada drive yang ada, jalankan validasi kluster untuk mengonfirmasi bahwa penyimpanan baru akan berfungsi dengan benar.

    • Saat membuat perubahan yang memengaruhi firmware atau driver: Jika Anda meningkatkan atau membuat perubahan pada kluster yang memengaruhi firmware atau driver, Anda harus menjalankan validasi kluster untuk mengonfirmasi bahwa kombinasi baru perangkat keras, firmware, driver, dan perangkat lunak mendukung fungsionalitas kluster failover.

    • Setelah memulihkan sistem dari cadangan: Setelah Anda memulihkan sistem dari cadangan, jalankan validasi kluster untuk mengonfirmasi bahwa sistem berfungsi dengan benar sebagai bagian dari kluster.

Validasi jaringan

Alat Microsoft Validate-DCB dirancang untuk memvalidasi konfigurasi Bridging Pusat Data (DCB) pada kluster. Untuk melakukannya, alat tersebut mengambil konfigurasi yang diharapkan sebagai input, dan kemudian menguji setiap server di kluster. Bagian ini mencakup cara menginstal dan menjalankan alat Validate-DCB, meninjau hasil, dan mengatasi kesalahan jaringan yang diidentifikasi alat.

Catatan

Microsoft merekomendasikan untuk menyebarkan dan mengelola konfigurasi Anda dengan ATC Jaringan, yang menghilangkan sebagian besar tantangan konfigurasi yang diperiksa oleh alat Validate-DCB. Untuk mempelajari lebih lanjut ATC Jaringan, yang menyediakan pendekatan berbasis niat untuk penyebaran jaringan host, lihat Menyederhanakan jaringan host dengan ATC Jaringan.

Pada jaringan, akses memori langsung jarak jauh (RDMA) melalui Converged Ethernet (RoCE) membutuhkan teknologi DCB untuk membuat fabric jaringan utuh. Dengan iWARP, DCB bersifat opsional. Namun, mengonfigurasi DCB bisa menjadi rumit, dengan konfigurasi tepat yang diperlukan di:

  • Setiap server dalam kluster
  • Setiap port jaringan yang dilewati lalu lintas RDMA pada fabric

Prasyarat

  • Informasi penyiapan jaringan dari kluster server yang ingin Anda validasi, termasuk:
    • Nama kluster server atau host
    • Nama pengalih virtual
    • Nama adapter jaringan
    • Pengaturan Kontrol Alur Prioritas (PFC) dan Pilihan Transmisi yang Diperkuat (ETS)
  • Koneksi internet untuk mengunduh modul alat dalam Windows PowerShell dari Microsoft.

Menginstal dan menjalankan alat Validate-DCB

Untuk menginstal dan menjalankan alat Validate-DCB:

  1. Di PC manajemen Anda, buka sesi Windows PowerShell sebagai Administrator, lalu gunakan perintah berikut untuk menginstal alat.

    Install-Module Validate-DCB
    
  2. Terima permintaan untuk menggunakan penyedia NuGet dan mengakses repositori untuk menginstal alat.

  3. Setelah PowerShell terhubung ke jaringan Microsoft untuk mengunduh alat, ketik Validate-DCB dan tekan Enter untuk memulai wizard alat.

    Catatan

    Jika Anda tidak dapat menjalankan skrip alat Validate-DCB, Anda mungkin perlu menyesuaikan kebijakan eksekusi PowerShell Anda. Gunakan cmdlet Get-ExecutionPolicy untuk melihat pengaturan kebijakan eksekusi skrip Anda saat ini. Untuk informasi tentang pengaturan kebijakan eksekusi di PowerShell, lihat Tentang Kebijakan Eksekusi.

  4. Pada halaman Selamat Datang di wizard konfigurasi Validate-DCB, pilih Berikutnya.

  5. Pada halaman Kluster dan Node, ketik nama kluster server yang ingin Anda validasi, pilih Selesaikan untuk mencantumkannya di halaman, lalu pilih Berikutnya.

    Halaman Kluster dan Simpul dari wizard konfigurasi Validate-DCB

  6. Pada halaman Adapter:

    1. Pilih kotak centang vSwitch terlampir dan ketik nama vSwitch.
    2. Di bawah Nama Adapter, ketik nama setiap NIC fisik, di bawah Nama Host vNIC, nama masing-masing NIC virtual (vNIC), dan di bawah VLAN, ID VLAN yang digunakan untuk setiap adapter.
    3. Luaskan kotak daftar drop-down Jenis RDMA dan pilih protokol yang sesuai: RoCE atau iWARP. Atur juga Jumbo Frames ke nilai yang sesuai untuk jaringan Anda, lalu pilih Berikutnya.

    Halaman Adapter dari wizard konfigurasi Validate-DCB

    Catatan

  7. Pada halaman Bridging Pusat Data, ubah nilai agar sesuai dengan pengaturan organisasi Anda untuk Prioritas, Nama Kebijakan, dan Reservasi Bandwidth, lalu pilih Berikutnya.

    Halaman Bridging Pusat Data dari wizard konfigurasi Validate-DCB

    Catatan

    Memilih RDMA atas RoCE pada halaman wizard sebelumnya membutuhkan DCB untuk keandalan jaringan pada semua NIC dan switchport.

  8. Pada halaman Simpan dan Sebarkan, dalam kotak Jalur File Konfigurasi , simpan file konfigurasi menggunakan ekstensi .ps1 ke lokasi tempat Anda dapat menggunakannya lagi nanti jika diperlukan, lalu pilih Ekspor untuk mulai menjalankan alat Validate-DCB.

    • Anda dapat secara opsional menyebarkan file konfigurasi Anda dengan menyelesaikan bagian Sebarkan Konfigurasi ke Node di halaman, yang mencakup kemampuan untuk menggunakan akun Azure Automation untuk menyebarkan konfigurasi lalu memvalidasinya. Lihat Membuat akun Azure Automation untuk memulai dengan Azure Automation.

    Halaman Simpan dan Sebarkan dari wizard konfigurasi Validate-DCB

Meninjau hasil dan memperbaiki kesalahan

Alat Validate-DCB memberikan hasil dalam dua unit:

  1. [Unit Global] hasil mencantumkan prasyarat dan persyaratan untuk menjalankan tes modal.
  2. [Unit Modal] hasil memberikan umpan balik pada setiap konfigurasi host kluster dan praktik terbaik.

Contoh ini menunjukkan hasil pemindaian yang berhasil dari satu server untuk semua prasyarat dan pengujian unit modal dengan menunjukkan Hitungan Gagal 0.

Unit global Validate-DCB dan hasil uji unit modal

Langkah-langkah berikut menunjukkan cara mengidentifikasi kesalahan Paket Jumbo dari vNIC SMB02 dan memperbaikinya:

  1. Hasil pemindaian alat Validate-DCB menunjukkan kesalahan Hitungan Gagal 1.

    Hasil pemindaian alat Validate-DCB menampilkan kesalahan Jumlah Gagal sebesar 1

  2. Menggulir kembali melalui hasil menunjukkan kesalahan dalam warna merah yang menunjukkan bahwa Paket Jumbo untuk vNIC SMB02 pada Host S046036 diatur pada ukuran default 1514, tetapi seharusnya diatur ke 9014.

    Hasil pemindaian alat Validate-DCB menampilkan kesalahan pengaturan ukuran paket jumbo

  3. Meninjau properti Tingkat Lanjut vNIC SMB02 pada Host S046036 menunjukkan bahwa Paket Jumbo diatur ke Nonaktif default.

    Properti host server Hyper-V Advanced pengaturan Jumbo Packet

  4. Memperbaiki kesalahan membutuhkan pengaktifan fitur Paket Jumbo dan mengubah ukurannya menjadi 9014 byte. Menjalankan pemindaian lagi pada host S046036 akan mengonfirmasi perubahan ini dengan mengembalikan Hitungan Gagal 0.

    Hasil pemindaian Validate-DCB mengonfirmasi bahwa pengaturan Jumbo Packet host server telah ditetapkan

Untuk mempelajari selengkapnya cara menyelesaikan kesalahan yang diidentifikasi oleh alat Validate-DCB, lihat video berikut.

Anda juga dapat menginstal alat secara offline. Untuk sistem tanpa koneksi, gunakan Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB lalu pindahkan modul dalam c:\temp\Validate-DCB ke sistem tanpa koneksi Anda. Untuk informasi selengkapnya, lihat video berikut.

Memvalidasi kluster

Gunakan langkah-langkah berikut untuk memvalidasi server dalam kluster yang ada di Pusat Admin Windows.

  1. Di Pusat Admin Windows, di bawah Semua koneksi, pilih kluster Azure Stack HCI yang ingin Anda validasi, lalu pilih Sambungkan.

    Dasbor Manajer Kluster menampilkan informasi gambaran umum tentang kluster.

  2. Di Dasbor Manajer Kluster, di bawah Alat, pilih Server.

  3. Pada halaman Inventaris, pilih server di kluster, lalu luaskan submenu Lainnya dan pilih Validasi kluster.

  4. Pada jendela pop-up Validasi Kluster, pilih Ya.

    Jendela pop-up Validasi Kluster

  5. Pada jendela pop-up Penyedia Layanan Keamanan Mandat (CredSSP ), pilih Ya.

  6. Berikan info masuk Anda untuk mengaktifkan CredSSP lalu pilih Lanjutkan.
    Validasi kluster berjalan di latar belakang dan memberi Anda pemberitahuan saat selesai, yang pada titik tersebut Anda dapat melihat laporan validasi, seperti yang dijelaskan di bagian berikutnya.

Catatan

Setelah server kluster Anda divalidasi, Anda harus menonaktifkan CredSSP untuk alasan keamanan.

Menonaktifkan CredSSP

Setelah kluster server Anda berhasil divalidasi, Anda perlu menonaktifkan protokol Penyedia Dukungan Keamanan Mandat (CredSSP) di setiap server untuk tujuan keamanan. Untuk informasi selengkapnya, lihat CVE-2018-0886.

  1. Di Pusat Admin Windows, di bawah Semua koneksi, pilih server pertama di kluster Anda, lalu pilih Sambungkan.

  2. Pada halaman Gambaran Umum, pilih Nonaktifkan CredSSP, lalu pada jendela pop-up Nonaktifkan CredSSP, pilih Ya.

    Hasil dari Langkah 2 menghapus banner CREDSSP ENABLED merah di bagian atas halaman Gambaran Umum server, dan menonaktifkan CredSSP di server lain.

Melihat laporan validasi

Sekarang Anda siap untuk melihat laporan validasi kluster Anda.

Ada beberapa cara untuk mengakses laporan validasi:

  • Pada halaman Inventaris, luaskan submenu Lainnya, lalu pilih Lihat laporan validasi.

  • Di bagian kanan atas Pusat Admin Windows, pilih ikon lonceng Pemberitahuan untuk menampilkan panel Pemberitahuan. Pilih pemberitahuan Kluster berhasil divalidasi, lalu pilih Buka laporan validasi Kluster Failover.

Catatan

Proses validasi kluster server mungkin memerlukan waktu untuk selesai. Jangan beralih ke alat lain di Pusat Admin Windows saat proses sedang berjalan. Di panel Pemberitahuan, bilah status di bawah pemberitahuan Validasi kluster Anda menunjukkan kapan proses akan selesai.

Memvalidasi kluster menggunakan PowerShell

Anda juga dapat menggunakan Windows PowerShell untuk menjalankan pengujian validasi pada kluster server Anda dan melihat hasilnya. Anda dapat menjalankan pengujian sebelum dan sesudah kluster disiapkan.

Untuk menjalankan pengujian validasi pada kluster server, terbitkan cmdlet Powershell Get-Cluster dan Test-Cluster<server clustername> dari PC manajemen Anda, atau jalankan hanya cmdlet Test-Cluster langsung di kluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Untuk contoh dan informasi penggunaan lainnya, lihat dokumentasi referensi Test-Cluster.

Test-NetStack adalah alat pengujian berbasis PowerShell yang tersedia dari GitHub yang dapat Anda gunakan untuk melakukan pengujian lalu lintas ICMP, TCP, dan RDMA jaringan dan mengidentifikasi potensi kesalahan konfigurasi host dan fabric jaringan atau ketidakstabilan operasional. Gunakan Test-NetStack untuk memvalidasi jalur data jaringan dengan menguji jalur data jaringan native, sintetis, dan offload perangkat keras (RDMA) untuk masalah konektivitas, fragmentasi paket, throughput rendah, dan kemacetan.

Memvalidasi replikasi untuk Storage Replica

Jika Anda menggunakan Replika Penyimpanan untuk mereplikasi volume dalam kluster yang direntangkan atau kluster-ke-kluster, ada beberapa peristiwa dan cmdlet yang dapat Anda gunakan untuk mendapatkan status replikasi.

Dalam skenario berikut, kami mengonfigurasi Storage Replica dengan membuat grup replikasi (RGs) untuk dua situs, lalu menentukan volume data dan volume log untuk node kluster sumber di Site1 (Server1, Server2), dan node kluster tujuan (direplikasi) di Site2 (Server3, Server4).

Untuk menentukan proses replikasi untuk Server1 di Site1, jalankan perintah Get-WinEvent dan periksa kejadian 5015, 5002, 5004, 1237, 5001, and 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Untuk Server3 di Site2, jalankan perintah Get-WinEvent berikut untuk melihat kejadian Storage Replica yang menampilkan pembuatan kemitraan. Kejadian ini menyatakan jumlah byte yang disalin dan waktu yang dibutuhkan. Contohnya:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Untuk Server3 di Site2, jalankan perintah Get-WinEvent dan periksa kejadian 5009, 1237, 5001, 5015, 5005, and 2200 untuk memahami kemajuan pemrosesan. Seharusnya tidak akan ada peringatan kesalahan dalam tahap ini. Akan ada banyak kejadian 1237 - ini menunjukkan proses.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Di sisi lain, grup server tujuan untuk replika menyatakan jumlah byte yang tersisa untuk disalin setiap saat, dan dapat dikueri melalui PowerShell dengan Get-SRGroup. Contohnya:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Untuk Server3 node di Site2, jalankan perintah berikut dan periksa kejadian 5009, 1237, 5001, 5015, 5005, and 2200 untuk memahami proses replikasi. Seharusnya tidak akan ada peringatan kesalahan. Namun, akan ada banyak peristiwa "1237" - ini hanya menunjukkan proses.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Saat dalam proses, skrip tidak akan menghentikan:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Untuk mendapatkan status replikasi dalam kluster terentang, gunakan Get-SRGroup dan Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Setelah replikasi data yang berhasil telah dikonfirmasi antar situs, Anda dapat membuat VM dan beban kerja lainnya.

Lihat juga