Bagikan melalui


Praktik terbaik untuk operasi Bare Metal Machine

Artikel ini menyediakan praktik terbaik untuk operasi manajemen siklus hidup Bare Metal Machine (BMM). Tujuannya adalah untuk menyoroti jebakan umum dan prasyarat penting.

Membaca penafian penting

Perhatian

Jangan melakukan tindakan apa pun terhadap server sarana kontrol atau manajemen tanpa terlebih dahulu berkonsultasi dengan personel dukungan Microsoft, melakukannya dapat memengaruhi integritas Operator Kluster Nexus.

Penting

Beberapa permintaan perintah yang mengganggu terhadap node Kubernetes Control Plane (KCP) ditolak. Pemeriksaan ini dilakukan untuk menjaga integritas instans Kluster Nexus dan menghindari beberapa simpul KCP menjadi nonoperasional sekaligus karena tindakan disruptif secara bersamaan. Perintah aksi mengganggu yang ditolak dapat disebabkan karena sudah dijalankan pada node KCP lain atau jika seluruh KCP tidak tersedia. Jika beberapa node menjadi tidak beroperasi, itu akan memutus ambang kuorum yang sehat dari Kubernetes Control Plane.

Tindakan yang tercantum dianggap mengganggu BareMetal Machines (BMM):

  • Mematikan BMM
  • Menghidupkan ulang BMM
  • Membuat BMM tidak dapat dijadwalkan (melakukan cordon dengan evakuasi, mengosongkan node)
  • Memulihkan gambar BMM
  • Mengganti BMM (Brand Management Module)

Hanya menyisakan tindakan nondisruptif:

  • Memulai BMM
  • Menjadikan BMM tidak dapat dijadwalkan (mengisolasi tanpa evakuasi, tidak menguras node)
  • Membuat BMM dapat dijadwalkan (membuka batasan)

Prasyarat

  1. Instal versi terbaru ekstensi CLI yang sesuai.
  2. Minta akses untuk menjalankan perintah pada Azure Operator Nexus network fabric (NF) dan ekstensi CLI jaringan cloud.
  3. Masuk ke Azure CLI dan pilih langganan tempat kluster disebarkan.
  4. Kumpulkan informasi berikut:
    • ID Langganan (SUBSCRIPTION)
    • Nama kluster (CLUSTER)
    • Grup sumber daya (CLUSTER_RG)
    • Grup sumber daya terkelola (CLUSTER_MRG) - Sumber daya BareMetal Machines (BMM) ada di grup sumber daya terkelola
    • Nama Mesin BareMetal (BMM_NAME) yang memerlukan operasi manajemen siklus hidup

Mengidentifikasi pendekatan korektif yang paling sesuai

Pemecahan masalah teknis memerlukan pendekatan sistematis. Salah satu metode yang efektif adalah memulai dengan solusi yang paling tidak invasif dan, jika perlu, secara bertahap mengambil langkah-langkah yang lebih kompleks dan berpotensi mengganggu. Perlu diingat bahwa metode pemecahan masalah ini mungkin tidak selalu efektif untuk semua skenario dan memperhitungkan berbagai faktor lain mungkin memerlukan pendekatan yang berbeda. Untuk alasan ini, penting untuk memahami dengan baik opsi yang tersedia ketika menghadapi kegagalan dalam memecahkan masalah Bare Metal Machine agar dapat menentukan tindakan korektif yang paling tepat.

Saran umum saat pemecahan masalah

  • Biasakan diri Anda dengan dokumentasi yang relevan, termasuk panduan pemecahan masalah dan artikel cara penggunaan. Selalu lihat dokumentasi terbaru untuk tetap mendapatkan informasi tentang praktik terbaik dan pembaruan.
  • Hindari operasi berulang yang gagal dengan terlebih dahulu mencoba mengidentifikasi akar penyebab kegagalan sebelum mencoba kembali operasi. Lakukan upaya coba lagi dalam langkah-langkah bertahap untuk mengisolasi dan mengatasi masalah tertentu.
  • Tunggu perintah Az CLI berjalan hingga selesai dan validasi status sumber daya Bare Metal Machine sebelum menjalankan langkah-langkah lain.
  • Pastikan bahwa versi firmware dan perangkat lunak adalah up-to-tanggal sebelum melakukan penyebaran greenfield baru untuk mencegah masalah kompatibilitas antara versi perangkat keras dan perangkat lunak. Untuk informasi selengkapnya tentang kompatibilitas firmware, lihat Prasyarat Platform Nexus Operator.
  • Periksa kredensial iDRAC sudah benar dan Mesin Bare Metal sudah dinyalakan.

Lihat kesehatan konektivitas jaringan umum

Pastikan konektivitas jaringan yang stabil untuk menghindari gangguan selama proses. Mengabaikan stabilitas jaringan dapat membuat operasi gagal diselesaikan dengan sukses dan meninggalkan Bare Metal Machine dalam keadaan kesalahan atau terdegradasi.

Tampilan cepat sumber daya clusterConnectionStatus Kluster berfungsi sebagai salah satu indikator kesehatan konektivitas jaringan.

az networkcloud cluster show \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --query "clusterConnectionStatus" \
  -o table

Result
---------
Connected

Lihat lebih dalam sumber daya NetworkFabric dengan memeriksa status, pemberitahuan, dan metrik sumber daya NetworkFabric. Lihat artikel terkait:

Evaluasi untuk peringatan Bare Metal Machine atau kondisi terdegradasi yang dapat menunjukkan kebutuhan untuk mengatasi masalah konfigurasi perangkat keras, jaringan, atau server. Untuk informasi selengkapnya, lihat Memecahkan Masalah Kesalahan Status Terdegradasi pada Mesin Bare Metal dan Memecahkan Masalah Status Peringatan Mesin Bare Metal.

Menentukan apakah pekerjaan pembaruan firmware berjalan

Verifikasi bahwa tidak ada pekerjaan peningkatan firmware yang berjalan melalui BMC sebelum memulai operasi replace atau reimage. Mengganggu peningkatan firmware yang sedang berlangsung dapat meninggalkan Bare Metal Machine dalam keadaan tidak konsisten.

  • Anda dapat melihat melalui GUI iDRAC jobqueue atau menggunakan run-read-commandracadm jobqueque view untuk menentukan apakah ada pekerjaan peningkatan firmware yang sedang berjalan.
  • Untuk informasi selengkapnya tentang fitur ini run-read-command , lihat Bare Metal Run-Read Execution.
az networkcloud baremetalmachine run-read-command \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --limit-time-seconds 60 \
  --commands "[{command:'nc-toolbox nc-toolbox-runread racadm jobqueue view'}]" \
  --output-directory .

Berikut adalah contoh output dari racadm jobqueue view perintah yang menunjukkan Firmware Update.

[Job ID=JID_833540920066]
Job Name=Firmware Update: iDRAC
Status=Downloading
Start Time= [Not Applicable]
Expiration Time= [Not Applicable]
Message= [RED001: Job in progress.]
Percent Complete= [50%]

Berikut adalah contoh output dari perintah racadm jobqueue view yang menunjukkan pernyataan jalur sukses umum.

-------------------------JOB QUEUE------------------------
[Job ID=JID_429400224349]
Job Name=Configure: Import Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:22]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:32]
Message=[SYS053: Successfully imported and applied Server Configuration Profile.]
Percent Complete=[100]
----------------------------------------------------------
[Job ID=JID_429400338344]
Job Name=Export: Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:33]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:58]
Message=[SYS043: Successfully exported Server Configuration Profile]
Percent Complete=[100]

Memantau status di properti JSON Mesin Bare Metal

Dalam versi 2509.1 ke atas, Anda dapat melihat status tindakan terbaru atau sedang berlangsung di JSON View sumber daya Bare Metal Machine (Operator Nexus) yang sesuai. Informasi ini terlihat di actionStates bidang properti JSON Bare Metal Machine, saat menggunakan Versi API atau yang 2025-07-01-preview lebih tinggi. Informasi berikut tersedia.

  • Waktu mulai dan akhir tindakan.
  • Status tindakan (Succeeded, Failed, atau InProgress).
  • Konteks tambahan atau pesan kesalahan apa pun yang terkait dengan status.
  • ID Korelasi untuk operasi asli, seperti yang ditunjukkan di log Aktivitas Azure.
  • Daftar langkah yang diurutkan dan statusnya - seperti Hardware Validation, , DeprovisioningProvisioning, dan Cloud Init untuk tindakan Penggantian BMM.

Kemunculan terbaru dari setiap jenis tindakan ditampilkan, termasuk tindakan yang sedang berlangsung.

Contoh actionStates output untuk tindakan Ganti Mesin Bare Metal:

{
  "properties": {
    "actionStates": [
      {
        "actionType": "Microsoft.NetworkCloud/bareMetalMachines/replace",
        "correlationId": "25d678cb-353c-41f4-8231-1135064ae582",
        "endTime": "2025-08-12T17:00:58Z",
        "startTime": "2025-08-12T15:32:12Z",
        "status": "Completed",
        "stepStates": [
          {
            "endTime": "2025-08-12T15:41:22Z",
            "startTime": "2025-08-12T15:32:12Z",
            "status": "Completed",
            "stepName": "Hardware Validation"
          },
          {
            "endTime": "2025-08-12T16:25:39Z",
            "startTime": "2025-08-12T15:41:22Z",
            "status": "Completed",
            "stepName": "Deprovisioning"
          },
          {
            "endTime": "2025-08-12T16:48:27Z",
            "startTime": "2025-08-12T16:25:39Z",
            "status": "Completed",
            "stepName": "Provisioning"
          },
          {
            "endTime": "2025-08-12T17:00:58Z",
            "startTime": "2025-08-12T16:48:27Z",
            "status": "Completed",
            "stepName": "Cloud Init"
          }
        ]
      }
    ]
  }
}

Praktik terbaik untuk reimage Bare Metal Machine

Tindakan Bare Metal Machine (BMM) reimage dijelaskan dalam Perintah Manajemen Siklus Hidup Mesin Bare Metal dan prosedur skenario yang dijelaskan dalam Memecahkan Masalah Server Nexus Operator Azure.

Peringatan

Jangan menjalankan lebih dari satu baremetalmachine replace atau reimage perintah secara bersamaan untuk sumber daya BareMetal Machine (BMM) yang sama. Mengeksekusi replace pada saat yang sama dengan reimage meninggalkan server dalam keadaan nonoperational. Pastikan bahwa setiap replace/reimage pada BMM benar-benar selesai sebelum memulai yang lain. Selain itu, hindari menjalankan tindakan reimage secara berurutan pada BMM yang baru saja menyelesaikan tindakan replace kecuali jika operasi pemeliharaan yang ditentukan sedang dilakukan.

Anda dapat memulihkan versi runtime sistem operasi pada "Bare Metal Machine" dengan melakukan operasi reimage. Mesin reimage Bare Metal dapat menghemat waktu dan dapat diandalkan untuk menyelesaikan masalah atau memulihkan perangkat lunak sistem operasi ke keadaan yang diketahui baik. Proses ini menyebarkan ulang citra runtime pada Mesin Bare Metal target dan melakukan langkah-langkah untuk menyambung kembali ke klaster dengan pengidentifikasi yang sama. Tindakan reimage ini dirancang untuk berinteraksi dengan partisi sistem operasi, membuat penyimpanan lokal komputer virtual tidak berubah.

Penting

Hindari perubahan manual atau otomatis pada sistem file Bare Metal Machine (juga dikenal sebagai "break glass"). Tindakan reimage ini diperlukan untuk memulihkan dukungan Microsoft dan setiap perubahan yang dilakukan pada Mesin Bare Metal hilang saat memulihkan simpul ke status yang diharapkan.

Prasyarat dan validasi sebelum reimage Bare Metal Machine

Sebelum memulai operasi apa pun reimage , pastikan prasyarat berikut terpenuhi:

Praktik Terbaik untuk Mengganti Mesin Bare Metal

Tindakan replace Mesin Bare Metal dijelaskan dalam Perintah Manajemen Siklus Hidup Mesin Bare Metal dan prosedur skenario yang dijelaskan dalam Memecahkan Masalah Server Nexus Operator Azure.

Peringatan

Jangan menjalankan lebih dari satu baremetalmachine replace atau reimage perintah secara bersamaan untuk sumber daya BareMetal Machine (BMM) yang sama. Mengeksekusi replace pada saat yang sama dengan reimage meninggalkan server dalam keadaan nonoperational. Pastikan bahwa setiap replace/reimage pada BMM benar-benar selesai sebelum memulai yang lain. Selain itu, hindari menjalankan tindakan reimage secara berurutan pada BMM yang baru saja menyelesaikan tindakan replace kecuali jika operasi pemeliharaan yang ditentukan sedang dilakukan.

Kegagalan perangkat keras adalah kejadian normal selama masa pakai server. Penggantian komponen mungkin diperlukan untuk memulihkan fungsionalitas dan memastikan operasi berkelanjutan. replace Operasi harus dijalankan setelah peristiwa pemeliharaan/perbaikan perangkat keras apa pun. Ketika satu atau beberapa komponen perangkat keras gagal di server (beberapa kegagalan), lakukan perbaikan yang diperlukan untuk semua komponen sebelum menjalankan operasi Bare Metal Machine replace .

Penting

2024-07-01 Dengan versi GA API, pengontrol RAID diatur ulang selama Bare Metal Machine replace, menghapus semua data dari disk virtual server. Pemberitahuan disk virtual Baseboard Management Controller (BMC) yang dipicu selama Bare Metal Machine replace dapat diabaikan kecuali ada lebih banyak peringatan disk fisik dan/atau pengontrol RAID.

Prasyarat dan validasi sebelum penggantian Mesin Bare Metal

Sebelum memulai operasi apa pun replace , pastikan prasyarat berikut terpenuhi:

  • Pastikan beban kerja Bare Metal Machine dialihkan menggunakan perintah cordon dengan parameter evacuate diatur ke True.
  • Lakukan pemeriksaan tingkat tinggi yang tercakup dalam artikel Memecahkan Masalah Provisi Mesin Bare Metal.
  • Evaluasi peringatan Bare Metal Machine atau kondisi terdegradasi yang dapat menunjukkan kebutuhan untuk mengatasi masalah konfigurasi perangkat keras, jaringan, atau server sebelum replace operasi. Untuk informasi selengkapnya, lihat Memecahkan Masalah Kesalahan Status Terdegradasi pada Mesin Bare Metal dan Memecahkan Masalah Status Peringatan Mesin Bare Metal.
  • Pastikan Mesin Bare Metal dalam keadaan menyala.
  • replace Pada yang sehat (dinyalakan, siap, disediakan, digabungkan ke kluster) Bare Metal Machine yang dibuat menggunakan versi 2025-07-01-preview API dan kemudian ditolak dalam mode perlindungan default. replace Jika benar-benar diperlukan (misalnya setelah penggantian komponen perangkat keras), maka penolakan ini dapat ditimpa dengan --safeguard-mode None.
  • Validasi bahwa tidak ada pekerjaan peningkatan firmware yang berjalan. Ikuti langkah-langkah di bagian Menentukan apakah Pekerjaan Pembaruan Firmware Berjalan.

Menyelesaikan masalah validasi perangkat keras

Ketika Bare Metal Machine ditandai dengan validasi perangkat keras yang gagal, mungkin menunjukkan bahwa perbaikan fisik diperlukan. Sangat penting untuk mengidentifikasi dan mengatasi perbaikan-perbaikan ini sebelum melakukan Bare Metal Machine replace. Proses validasi perangkat keras dipanggil sebagai bagian replace dari operasi untuk memastikan integritas host fisik sebelum menyebarkan gambar OS. Mesin Bare Metal tidak dapat memprovisikan dengan sukses ketika Bare Metal Machine terus mengalami kegagalan validasi perangkat keras. Akibatnya, Bare Metal Machine gagal menyelesaikan langkah-langkah penyiapan yang diperlukan untuk menjadi operasional dan bergabung dengan kluster. Pastikan semua masalah validasi perangkat keras dibersihkan sebelum tindakan berikutnya replace .

Untuk memahami hasil validasi perangkat keras, baca artikel Memecahkan Masalah Kegagalan Validasi Perangkat Keras.

Penggantian Mesin Bare Metal tidak diperlukan

Beberapa perbaikan tidak memerlukan Bare Metal Machine replace untuk dijalankan. Misalnya, operasi replace tidak diperlukan saat Anda melakukan perbaikan catu daya fisik hot swappable karena host Bare Metal Machine akan terus berfungsi secara normal setelah perbaikan. Namun, jika Mesin Bare Metal gagal validasi perangkat keras, Bare Metal Machine replace diperlukan meskipun perbaikan yang dapat ditukar secara panas dilakukan. Periksa pesan status Bare Metal Machine untuk menentukan apakah kegagalan validasi perangkat keras atau kondisi terdegradasi lainnya ada.

Perbaikan lain dari jenis ini mungkin:

  • CPU
  • Modul Memori In-Line Ganda (DIMM)
  • Kipas
  • Pengangkat papan ekspansi
  • Penerima-pemancar
  • Penggantian kabel Ethernet atau serat

Penggantian Mesin Bare Metal diperlukan

Setelah komponen seperti motherboard atau Kartu Antarmuka Jaringan (NIC) diganti, alamat MAC Mesin Bare Metal berubah. Namun, alamat IP dan nama host iDRAC tetap sama. Perubahan motherboard mengakibatkan perubahan alamat MAC, membutuhkan Bare Metal Machine replace.

replace Operasi diperlukan untuk membawa Bare Metal Machine kembali ke layanan saat Anda melakukan perbaikan fisik berikut:

  • papan belakang
  • Papan sistem
  • Disk SSD
  • Adaptor PERC/RAID
  • Kartu Antarmuka Jaringan Mellanox (NIC)
  • Broadcom NIC tersemat

Periksa status setelah operasi penggantian Mesin Bare Metal

Setelah operasi Bare Metal Machine replace berhasil diselesaikan, pastikan bahwa provisioningStatus adalah Succeeded dan readyState adalah True. Hanya dengan begitu, lanjutkan untuk menjalankan uncordon operasi agar Bare Metal Machine bergabung kembali dengan kumpulan simpul yang dapat di-schedulable beban kerja.

Minta dukungan

Jika Anda masih memiliki pertanyaan, hubungi dukungan. Untuk informasi selengkapnya tentang paket Dukungan, lihat Paket Dukungan Azure.

Referensi